応募トーク

これは応募されたトークです。聞きたいと思うトークをSNSで拡散しましょう。選考時に参考にさせていただきます。

talk

Pythonで作るWebクローラ入門(ja)

スピーカー

Ai Makabi

対象レベル：

中級

カテゴリ：

Best Practices/Patterns

説明

Pythonの代表的なクローラ構築フレームワークScrapyを利用して，目的に応じたクローラを構築する方法について学びます．発表中では，クロール対象のサイトやサービスに迷惑をかけないようなテクニックについて言及すると共に，BeautifulSoup4の利用方法を中心に，クロールして集めたデータの抽出（スクレイピング）・加工方法についても紹介します．

目的

Pythonの代表的なクローラ構築フレームワークであるScrapyの概要を理解し，目的に応じたクローラ構築方法を学ぶことを目的とします．またクローラ構築の際に注意しなければいけない点（robots.txt，利用規約等）や，クローラを日々運用するためのTips（ログ管理，デーモン化等）について知識が深まります．

概要

データ分析分野が急成長すると共に，分析対象となる情報をWeb上から自動的に収集する「Webクローラ（Web crawler）」と呼ばれる技術が注目を集めています．本発表ではPythonの代表的なクローラ構築フレームワークScrapyを利用して，目的に応じたクローラを構築・運用する方法について学びます．ここでいう目的に応じたクローラとは，特定のWebサイトやサービスの情報に着目し選択的にクローリングしてくるクローラを指します．発表中では，クローラ構築方法に加えてクロール対象のサイトやサービスに迷惑をかけないような紳士的なクローラ構築方法について言及します．更にBeautifulSoup4の利用方法を中心に，クロールして集めたデータの抽出（スクレイピング）・加工方法について紹介します．主に取り上げる予定のライブラリは以下です． - aiohttp - asyncio - BeautifulSoup4 - lxml - pyquery - requests - Scrapy - scrapy-splash - Selenium