応募トーク
これは応募されたトークです。聞きたいと思うトークをSNSで拡散しましょう。選考時に参考にさせていただきます。
talk
スクレイピングをするとしたらPythonなのか、それともRubyなのか(ja)
スピーカー
堀田 ほつた
対象レベル:
初級
カテゴリ:
Useful libraries
説明
スクレイピングを知らない人はいないかと思いますが、実際にスクレイピングをしてみようという時に色々な方法があります。その中でも、Seleniumという本来テストをするためのツールを使えばPythonに限らずプログラミング初心者であろうと簡単にスクレイピングをすることが出来ます。Seleniumを使ったスクレイピングのはじめ方から今更スクレイピングをするとしたらPythonなのか、それともやはりRubyなのかまでお話します。
目的
スクレイピングというと敷居が高そうなイメージがあったりとなかなか手が出せないかと思いますが、Seleniumというツールを使えばこんなにもスクレイピングが簡単に出来るということを知ることが出来るでしょう。そして、すぐにでもスクレイピングをはじめて、こんなにおもしろいのかとスクレイピングに嵌まるに違いありません。
概要
岡崎市立中央図書館事件(Librahack事件)を聞いたことがある人は多いかと思います。
http://librahack.jp/
この事件によって有名となったスクレイピングですが、スクレイピングという単語を知らない人はいないかと思います。ですが、実際にスクレイピングをした事がある方はどれだけいるのでしょうか。スクレイピングと言っても大きく分けて二種類に分かれ、ウェブスクレイピングとスクリーンスクレイピングに分けられます。前者は膨大にあるデータを見やすいように加工して表示する、後者は定期的にサイトにログインや操作をし、データを取得するということです。最近は、後者のスクリーンスクレイピングを活用し、銀行の口座情報を管理サイトがたくさん出てきました。例を挙げれば、マネーフォワードやMoneytreeなどです。今回は主に後者、スクリーンスクレイピングをする際にSeleniumという本来テストをするためのツールを使えばPythonに限らずプログラミング初心者であろうと簡単にスクレイピングをすることが出来るというお話です。Seleniumを使ったスクレイピングのはじめ方、今更スクレイピングをするとしたら機械学習で一時期話題になったPythonでやるべきなのか、それともやはりRubyでやるべきなのかまでお話します。