Talk Submission

If you are interested in attending this talk at PyCon JP 2016, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.

talk

スクレイピングをするとしたらPythonなのか、それともRubyなのか(ja)

Speakers

堀田 ほつた

Audience level:

Novice

Category:

Useful libraries

Description

スクレイピングを知らない人はいないかと思いますが、実際にスクレイピングをしてみようという時に色々な方法があります。その中でも、Seleniumという本来テストをするためのツールを使えばPythonに限らずプログラミング初心者であろうと簡単にスクレイピングをすることが出来ます。Seleniumを使ったスクレイピングのはじめ方から今更スクレイピングをするとしたらPythonなのか、それともやはりRubyなのかまでお話します。

Objectives

スクレイピングというと敷居が高そうなイメージがあったりとなかなか手が出せないかと思いますが、Seleniumというツールを使えばこんなにもスクレイピングが簡単に出来るということを知ることが出来るでしょう。そして、すぐにでもスクレイピングをはじめて、こんなにおもしろいのかとスクレイピングに嵌まるに違いありません。

Abstract

岡崎市立中央図書館事件(Librahack事件)を聞いたことがある人は多いかと思います。 http://librahack.jp/ この事件によって有名となったスクレイピングですが、スクレイピングという単語を知らない人はいないかと思います。ですが、実際にスクレイピングをした事がある方はどれだけいるのでしょうか。スクレイピングと言っても大きく分けて二種類に分かれ、ウェブスクレイピングとスクリーンスクレイピングに分けられます。前者は膨大にあるデータを見やすいように加工して表示する、後者は定期的にサイトにログインや操作をし、データを取得するということです。最近は、後者のスクリーンスクレイピングを活用し、銀行の口座情報を管理サイトがたくさん出てきました。例を挙げれば、マネーフォワードやMoneytreeなどです。今回は主に後者、スクリーンスクレイピングをする際にSeleniumという本来テストをするためのツールを使えばPythonに限らずプログラミング初心者であろうと簡単にスクレイピングをすることが出来るというお話です。Seleniumを使ったスクレイピングのはじめ方、今更スクレイピングをするとしたら機械学習で一時期話題になったPythonでやるべきなのか、それともやはりRubyでやるべきなのかまでお話します。
  • このエントリーをはてなブックマークに追加