Friday 2:40 p.m.–3:10 p.m.
Room 203 #pyconjp_203Pythonによる文章自動生成入門!Python ✖︎ 自然言語処理 ✖︎ ディープラーニング
Hiromitsu Ota
- Audience level:
- Novice
- Category:
- Big Data
- Slide:
- https://www.slideshare.net/otanet/pycon-jp2017-20170908ota-79578217
- Video:
- https://youtu.be/2nChvKvqJ1Y
Description
◇Pythonを用いて、文書を自動生成する主要な3つの方法をお伝えします。
1)マルコフ連鎖、 2)自動要約、 3)ディープラーニング(RNN/ LSTM)
◇特にKeras/ Tensorflowによる文章自動生成はPythonで数行で簡易的に書けます。
◇文章などのデータを非構造化データと呼びますが、身近でデータ収集がしやすく、個人の趣味やちょっとした研究に適しています。
Abstract
◇今や非構造化データは溢れていて、最も入手しやすい資源です。これを次の3つの手法で、文章生成し、有用な利用方法を提案して見たいと思います。
1)マルコフ連鎖、 2)自動要約、 3)ディープラーニング(RNN/ LSTM)
◇用途として、例えば、亡くなったおじいちゃん、おばあちゃんの手紙があれば、その文面から、おじいちゃんやおばあちゃんのメールが届くなどの利用が考えられます。つらい時や悲しい時、励ましの文章が届くアプリなどの開発につなげられます!
◇海外ではNatural Language Generation(NLG)として、コンペティションの大会が開催されていて、実はホットなテーマなんです!
ー流れー
◇1)−3)の理論的な説明➡︎コードの説明➡︎実演
◇OUTPUT: 1)マルコフ連鎖 2)自動要約、 3)ディープラーニング(RNN/ LSTM)
◇FOLLOW: ポスターセッション(文章自動生成を体験しよう!知ろう!)でも詳しく説明いたします!
※データ量: どのくらいの文字データがあれば、どのくらいの文章が生成されるのかについてのベンチマーク的な情報もお伝えしたいと思います。