読者です 読者をやめる 読者になる 読者になる

pixyzehn blog

iPhone App, Mac App, Programming, Web service, Tool, Evernote, etc

形態素解析エンジンを集めてみました

http://www.flickr.com/photos/8304251@N02/4155113448
photo by necopunch


ちょっと知る機会があったので紹介します。


ぜんぜん詳しくないのですが、授業で自然言語処理を扱うことがあり、形態素解析を手軽にできるソフトを紹介します。

juman


京都大学の黒橋・河原研究室で公開されている形態素解析ソフトです。


http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN


jumanhはダウンロードしなくても試すことができました。


f:id:inagex:20140527144426p:plain


試すのはこちらから


http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi

MeCab(和布蕪)


MeCabは 京都大学情報学研究科-日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通して開発された形態素解析ソフトです。


http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#parse


開発者が和布蕪が好きなためこの名前になったのだと。。

cabocha


CaboCha は, Support Vector Machines に基づく日本語係り受け解析器だそうです。


https://code.google.com/p/cabocha/


wikipediaによると上記以外にも

・KAKASI(kanji kana simple inverter): kakasi.namazu.org

・ChaSen(茶筌):chasen.naist.jp

・Sen(MeCabのJavaへの移植):ultimania.org、sen.dev.java.net

・日本語形態素解析Webサービス(Yahoo!デベロッパーネットワーク):developer.yahoo.co.jp

・NMeCab(MeCabの.NETへの移植):http://sourceforge.jp/projects/nmecab/

・Igo (Java形態素解析器):igo.sourceforge.jp

・KyTea - 京都テキスト解析ツールキット(「キューティー」)、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器。


などけっこう多くの形態素解析エンジンがあることがわかりました。


解析はだいたい98%の精度というので、複雑な文法?の日本語でも98%ってすごいと思った。


もちろん形態素解析エンジンはこれだけあるので、1から作るというのは無駄だと思うけど、もし使う際には仕組みとそれぞれの違いを知っておきたいと思いました。


あとユニークというか個性的な名前が形態素解析エンジンにかなりあって(実はこれが一番言いたかった)ネーミングセンスは自分も使っていきたいと思いました。


とくにMeCabがいい。