Wednesday 1 p.m.–1:45 p.m.
Room 203 #pyconjp_203Pythonで作るWebクローラ入門
Ai Makabi
- Audience level:
- Intermediate
- Category:
- Best Practices/Patterns
- Slide:
- https://speakerdeck.com/amacbee/pythondezuo-ruwebkuroraru-men
- Video:
- https://youtu.be/65tazmN1CPg?list=PLMkWB0UjwFGlYvIcvKsGhJ7SJIODj_zJZ
Description
Pythonの代表的なクローラ構築フレームワークScrapyを利用して,目的に応じたクローラを構築する方法について学びます.発表中では,クロール対象のサイトやサービスに迷惑をかけないようなテクニックについて言及すると共に,BeautifulSoup4の利用方法を中心に,クロールして集めたデータの抽出(スクレイピング)・加工方法についても紹介します.
Abstract
データ分析分野が急成長すると共に,分析対象となる情報をWeb上から自動的に収集する「Webクローラ(Web crawler)」と呼ばれる技術が注目を集めています.
本発表ではPythonの代表的なクローラ構築フレームワークScrapyを利用して,目的に応じたクローラを構築・運用する方法について学びます.ここでいう目的に応じたクローラとは,特定のWebサイトやサービスの情報に着目し選択的にクローリングしてくるクローラを指します.発表中では,クローラ構築方法に加えてクロール対象のサイトやサービスに迷惑をかけないような紳士的なクローラ構築方法について言及します.
更にBeautifulSoup4の利用方法を中心に,クロールして集めたデータの抽出(スクレイピング)・加工方法について紹介します.
主に取り上げる予定のライブラリは以下です.
- aiohttp
- asyncio
- BeautifulSoup4
- lxml
- pyquery
- requests
- Scrapy
- scrapy-splash
- Selenium