Saturday 4:15 p.m.–4:45 p.m.
Room 202 #pyconjp_202AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API
Satoru Kadowaki
- Audience level:
- Novice
- Category:
- Cloud
- Slide:
- https://speakerdeck.com/satorukadowaki/aws-apigateway-plus-python-lambda-plus-neologddezuo-rusabaresuri-ben-yu-xing-tai-su-jie-xi-api
- Video:
- https://youtu.be/9TBwuRjmLqQ
Description
PythonとMeCab+NEologdを使用した日本語形態素解析環境は様々な場面で広く利用されていますが,容量などサイズも比較的大きくなりがちで,サーバレス環境のような気軽な環境で動作させることは容易ではありません.本トークではAWSのサーバレスサービスであるLambdaを使用して日本語形態素解析環境をPython + MeCab/NEologd + AWS Lambdaで作成する際に有効なTipsを中心に紹介します.
Abstract
PythonとMeCab+NEologdを使用した日本語形態素解析環境は自然言語処理やテキストマイニングなど様々な場面で広く利用されています.一方でこれらの環境を開発環境と合わせて使用するためにはOSや文字コードなどの依存関係でセットアップやデプロイが面倒なことも多く,Docker化しても辞書のサイズが大きくコンテナが肥大化していくなど,簡単な日本語解析を行えれば良いようなケースにおいても比較的大きなリソースが必要とされます.
このようなケースにおいては,必要な機能をAPI化してできるだけ安価に利用できる環境をAWSのサーバレスサービスであるLambdaような環境に用意することが理想的ですが,AWS Lambdaでは容量の制限も厳しくMeCab+NEologd環境はそのままでは実行することができません.
本トークではこのような問題をPython実装で補いつつMecab + NEologdの良いところ取りをしたLambda API環境を構築する方法を紹介します.