プロポーザル
これは応募されたプロポーザルです。聞きたいと思うプロポーザルを各ページの下部にあるSNSのボタンで拡散しましょう。拡散された投稿をプロポーザルへの投票としてカウントし、選考時に参考にさせていただきます。
talk
トピックモデルと自然言語解析における前処理の効果(ja)
スピーカー
Daiki Onodera
対象レベル:
初級
カテゴリ:
Other
説明
自然言語を扱うことになった際に、いくつかの考えるポイントがあると思います。
前処理をどうしたらいいのか(そのままTerm Frequencyでベクトル化していいのか、IDFも考慮すべきなのか、BM25を用いるべきなのか)という問題があります。
これらを実際のデータを用いてそれぞれどのような結果に結びつくか、ということと、
トピックモデルを使った言語解析について発表したいと思います。
目的
自然言語処理をする際の一連の処理及びその効果、トピック抽出の方法
概要
自然言語を扱うことになった際に、前処理は自然言語処理において大きな結果を左右する項目の一つになります。
そのまま単語の出現回数を使うべきなのか、特定の分野にのみ頻出するような単語の値が大きくなってほしいのか、それとも文書長も考慮したようなベクトル化がいいのか、など様々な単語のベクトル表現が存在します。
更に「コンピュータ」と「コンピューター」など表記揺れや表記ミスなど様々な要因で表記が異なることは多々あります。
本発表ではこれらの問題についての対処法を述べると共に、前処理と結果との関連について発表したいと考えています。