Talk Submission

If you are interested in attending this talk at PyCon JP 2016, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

Pythonで作るWebクローラ入門(ja)

Speakers

Ai Makabi

Audience level:

Intermediate

Category:

Best Practices/Patterns

Description

Pythonの代表的なクローラ構築フレームワークScrapyを利用して,目的に応じたクローラを構築する方法について学びます.発表中では,クロール対象のサイトやサービスに迷惑をかけないようなテクニックについて言及すると共に,BeautifulSoup4の利用方法を中心に,クロールして集めたデータの抽出(スクレイピング)・加工方法についても紹介します.

Objectives

Pythonの代表的なクローラ構築フレームワークであるScrapyの概要を理解し,目的に応じたクローラ構築方法を学ぶことを目的とします.またクローラ構築の際に注意しなければいけない点(robots.txt,利用規約 等)や,クローラを日々運用するためのTips(ログ管理,デーモン化等)について知識が深まります.

Abstract

データ分析分野が急成長すると共に,分析対象となる情報をWeb上から自動的に収集する「Webクローラ(Web crawler)」と呼ばれる技術が注目を集めています. 本発表ではPythonの代表的なクローラ構築フレームワークScrapyを利用して,目的に応じたクローラを構築・運用する方法について学びます.ここでいう目的に応じたクローラとは,特定のWebサイトやサービスの情報に着目し選択的にクローリングしてくるクローラを指します.発表中では,クローラ構築方法に加えてクロール対象のサイトやサービスに迷惑をかけないような紳士的なクローラ構築方法について言及します. 更にBeautifulSoup4の利用方法を中心に,クロールして集めたデータの抽出(スクレイピング)・加工方法について紹介します. 主に取り上げる予定のライブラリは以下です. - aiohttp - asyncio - BeautifulSoup4 - lxml - pyquery - requests - Scrapy - scrapy-splash - Selenium
  • このエントリーをはてなブックマークに追加