プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
ScrapyではじめるWebスクレイピング入門(ja)
スピーカー
Takanori Suzuki
対象レベル:
初級
カテゴリ:
Web Frameworks
説明
Webページからデータを抜き出すWebスクレイピングはメジャーなソフトウェア技術となってきています。Pythonで作られたWebスクレイピングフレーム Scrapy を使用して、本格的なスクレイピング用を行う手順を、ステップ・バイ・ステップで解説します。
目的
Webスクレイピングフレームワーク「Scrapy」の概要と基本的な使い方を理解します。スクレイピングのプログラムを書いていく過程を見ていくことによって、Webサイトを調査してコードを書いていく具体的な流れを学ぶことができます。
概要
Webサイトから情報を収集するWebスクレイピングの技術は、データを収集するためにはかかせない技術になっています。
このトークでは Python 製のWebスクレイピングフレームワークScrapyを使用して、Webサイトからデータを抜き出す手順についてステップ・バイ・ステップで解説します。
* scrapyのアーキテクチャ
* スクレイピングプロジェクトの作成→デフォルトで設定すべき項目
* Webページから単一の情報を取り出す
* Webページからデータを抜き出すための情報を調査する(Scrapy shell)
* 取り出した情報をCSV, JSONファイルに保存する
* 複数のページから情報を取り出す
* Scrapyのスクレイピング機能のまとめ
* Scrapyのその他の機能