Talk Proposal Submission
If you are interested in attending this talk at PyCon JP 2017, please use the social media share buttons below. We will consider the popularity of the proposals when making our selection.
talk
トピックモデルと自然言語解析における前処理の効果(ja)
Speakers
Daiki Onodera
Audience level:
Novice
Category:
Other
Description
自然言語を扱うことになった際に、いくつかの考えるポイントがあると思います。
前処理をどうしたらいいのか(そのままTerm Frequencyでベクトル化していいのか、IDFも考慮すべきなのか、BM25を用いるべきなのか)という問題があります。
これらを実際のデータを用いてそれぞれどのような結果に結びつくか、ということと、
トピックモデルを使った言語解析について発表したいと思います。
Objectives
自然言語処理をする際の一連の処理及びその効果、トピック抽出の方法
Abstract
自然言語を扱うことになった際に、前処理は自然言語処理において大きな結果を左右する項目の一つになります。
そのまま単語の出現回数を使うべきなのか、特定の分野にのみ頻出するような単語の値が大きくなってほしいのか、それとも文書長も考慮したようなベクトル化がいいのか、など様々な単語のベクトル表現が存在します。
更に「コンピュータ」と「コンピューター」など表記揺れや表記ミスなど様々な要因で表記が異なることは多々あります。
本発表ではこれらの問題についての対処法を述べると共に、前処理と結果との関連について発表したいと考えています。