よこのじ(@yokonoji_work)です。
「素人がPythonでWebスクレイピングを実装する」の第4回です。今回はスクレイピングツールの一覧です。
スクレイピングをPythonで実装するにあたり、どのようなものを作るのか知ることは完成形がイメージできるのでコーディングしやすくなると思います。
無料のものと有料のもので分けて紹介しますので、使いやすそうなものでスクレイピングを試してみてください。
無料のツール
Octoparse
Octoparseは、パソコンにインストールするタイプで無料利用が可能です。
スクレイピングツールを使ってみようと思ったら、とりあえずこれを使ってみるのが良いと思える使い勝手の良さがあります。
ParseHub
ParseHubは、無料のウェブスクレイピングツールです。
高度なWebスクレイパーを使用すると必要なデータをクリックするだけで簡単にデータを抽出できます。との説明があります。
無料利用では機能制限があり、有料プランではデータ取得の速度が速くなったり、1回の実行で取得対象にできるページ数が増えたりします。
CrawlMonster
Crawlmonsterは、SEOの専門家によって開発され、最新のAWSクラウドテクノロジーによって信頼性と安全性が強化されています。CrawlMonsterを使用すると、自信を持って最適化することができます。とのことで、SEOの分析をするのに利用できそうです。
無料で利用可能ですが、対象が1サイトなどの制限があります。しかし、有料プランでも月額9ドルからと利用しやすい価格になっています。
Crawly
Crawlyは、ウェブサイトを数秒でデータに変換します。ウェブサイト全体から構造化データを完全に抽出します。と説明されています。
無料で利用できるサービスで、対象サイトのURLとメールアドレスを入力するとクローリング結果がメールで送られてきます。
ScrapingHub
ScrapingHubは、Webクローラを展開して実行するための最も先進的なプラットフォームです。
開発者向けツールが提供されており、機能制限はあるものの無料で利用できます。有料プランで機能拡張できる仕組みになっています。
Web Scraper
Web Scraperは、無料で使えるGoogle Chromeの拡張機能を提供しています。より高度なサービスとして有料のクラウド版もあります。
Web Robots
Web Robotsは、無料で使えるGoogle Chromeの拡張機能「Instant Data Scraper」を提供しています。JavaScriptとjQueryを使って自分でコードを書くための拡張機能「Web Robots Scraper」もあります。
Scraper
Scraperは、Google Chromeの拡張機能で、Webページからスプレッドシートにデータを取得します。日本では一番良く紹介されている拡張機能ではないでしょうか。
Getleft
Getleftは、ユーザーが設定したオプションに従って完全なWebサイトをダウンロードします。無料で使用できるソフトですが、少々古いような気がします。
有料のツール
Mozenda
Mozendaは、月額250ドルからの有料サービスですが、30日間のお試し期間があります。
Fortune 500(全米収入ランキング上位500社)の1/3から信頼されている実績があるサービスのようです。
Import.io
Import.ioは、スクレイピングの分野では有名なツールです。月額167ドルから利用できます。7日間のお試し期間があります。
機能例
- Webサイトを常に最新のデータ階層に変換します
- 毎時、毎日、毎週、毎月などのデータ抽出をスケジュールする
- JavaScriptや複数のページなどの難しいサイトからデータを抽出します
- ウェブフォームとログインして対話する
- どのウェブサイトからも画像やファイルをダウンロードできます
- コンプライアンスと正確性を確保するために、Webページのスナップショットをキャプチャします
- レポートとビジュアライゼーションでデータを分析します
- 分析プログラムとアプリケーションにAPIを使用してデータを統合する
Connotate
Connotateは、スクレイピングを依頼して、提供されたデータをビジネスに活かすという企業向けのサービスのようです。
Content Grabber
Content Grabberは、直感的で強力なビッグデータソリューションで、信頼性の高いWebデータ抽出が可能です。とのことです。
デスクトップ用、サーバー用の製品があるようですが、お問い合わせしてから導入を進めていくような企業向けのサービスです。
Diffbot
Diffbotは、AI、コンピュータビジョン、機械学習、自然言語処理を使用して、ソフトウェア開発者にあらゆるWebページからオブジェクトを抽出するツールです。
14日間の無料お試し期間があります。有料プランは月額299ドルからです。
Dexi.io
Dexi.ioは、主要なデータ抽出およびデータ自動化ソフトウェアを提供します。Webスクレイピング、インタラクション、モニタリング、およびプロセス・ソフトウェアは、迅速なデータの洞察を提供し、より良い意思決定とビジネス・パフォーマンスをもたらします。
月額119ドルから利用できて、インストールは不要です。
Easy Web Extract
Easy Web Extractは、Webページからコンテンツ(テキスト、URL、イメージ、ファイル)を抽出し、少数のスクリーンクリックだけで結果を複数のフォーマットに変換 する、使いやすいWebスクレイピングツールです。プログラミングは必要ありません。
14日のお試し期間があります。ライセンス制で1ライセンス60ドルです。
FMiner
FMinerは、WindowsおよびMac OS X用のWebスクレイピング、Webデータ抽出、スクリーンスクレイピング、Webハーベスティング、Webクローリング、Webマクロサポート用のソフトウェアです。
ライセンス制で、1ライセンス168ドルからです。
Helium Scraper
Helium Scraperは、直感的な操作が売りのスクレイピングソフトです。
10日間の試用版があります。ライセンス制で、1ライセンス99ドルからです。
QuickCode
QuickCodeは、PythonとRのデータ分析環境で、コーディング初心者のエコノミスト、統計者、データマネージャにとって理想的です。
コンサルティングを受けながら、スクレイピングのデータを提供してもらうという形で企業向けのサービスです。
Screen Scraper
Screen Scraperは、15年以上のスクレイピング経験を持つチームにスクレイピングを依頼することが可能です。開発者向けツールには無料版も用意されています。
ScrapeHero
ScrapeHeroは、スクレイピングを依頼してデータ取得してもらえるサービスです。
Scrapyを利用してアリババの製品データを取得するという記事を公開しています。Scrapyを利用する際は参考にしたいですね。
UiPath
UiPathは、日本の企業が提供するサービスです。RPA(Robotic Process Automation)というコンピュータ上の処理を自動化する技術で業務全般の効率化を行うことができます。
Web Content Extractor
Web Content Extractorは、最も強力で使いやすいWebスクレイピングおよびデータ抽出ソフトウェアです。ウェブサイトからデータや画像を自動的に抽出して、ボタンのタッチで、あなたが望むように配信することができます!とのことです。
買い切りタイプで49ドルです。
WebHarvy
WebHarvyは、Webサイトからテキスト、HTML、画像、URL、およびEメールを簡単に抽出し、抽出されたコンテンツをさまざまな形式で保存できます。
ライセンス制で、1ライセンス129ドルです。
Web Sundew
Web Sundewを使用すると、Webサイトから情報を抽出して保存する全プロセスを自動化できます。任意の場所でいつでも分かりやすい構造化された大量のデータを取得し、任意の形式で結果を保存できます。
15日間のトライアル版が用意されています。購入の場合はLite版の99ドルから。
WinAutomation
WinAutomationは、Robotic Process Automationの利点をデスクトップにもたらします。とのことで、デスクトップ上の作業全般の自動化を行うためのツールです。
30日間のお試し版があります。ライセンス制で、1ライセンス499ドルから。
その他
Common Crawl
Common Crawlは、ツールではなく、クロール関係のデータが提供されているサイトです。また、クロール関連のプロジェクトが紹介されており、ソースコードを参考にすることができます。
スクレイピングだけじゃない。その周辺知識も身に付く本
[itemlink post_id=”671″]
素人がPythonでWebスクレイピングを実装する1
素人がPythonでWebスクレイピングを実装する2
素人がPythonでWebスクレイピングを実装する3
素人がPythonでWebスクレイピングを実装する5
素人がPythonでWebスクレイピングを実装する6
素人がPythonでWebスクレイピングを実装する7
素人がPythonでWebスクレイピングを実装する8
[toggle title=”参考サイト”]
[/toggle]