pixyzehn blog

iPhone App, Mac App, Programming, Web service, Tool, Evernote, etc

MacやiPhoneの日本語入力でも使われている形態素解析エンジンMecab

f:id:inagex:20140726223033p:plain


使う機会があったので試すところまで。


自分も知らなかったのですが、Mecabという解析エンジンがMac OS X v10.5及びv10.6のSpotlightやiPhone OS 2.1以降の日本語入力にも利用されているそうです。


Mecabとは

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。

Wikipediaより


さっそく公式サイトを参考に導入してみました。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer


使用環境は以下のようになっています。

使用環境
自然言語処理ツール:MeCab 0.996(2014/7/26現在最新版)
MeCab用の辞書:IPA辞書
・IPA辞書、IPAコーパスに基づきCRFでパラメータ推定した辞書。
・mecab-ipadic-2.7.0-20070801を利用
Mac OS
MacBookAir 13-inch,Mid 2012
プロセッサ 1.8GHz Intel Core i5
メモリ 8GB 160 MHz DDR3


上記サイトからMecab本体をダウンロードして以下のコマンドを入力

% tar zxfv mecab-X.X.tar.gz
% cd mecab-X.X
% ./configure 
% make
% make check
% sudo make install


そして次にIPA辞書をダウンロードしてみました。

% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
% mecab-ipadic-2.7.0-XXXX
% ./configure --with-charset=utf8
% make
% sudo make install


わりとどちらとも時間がかからずにできるといった印象でした。configureのときに--with-charset=utf8を付け足さないと文字コードがデフォルトだとeucになるので文字化けのオンパレードになるので注意。


あとから変更もできるみたい。

% cd mecab-ipadic-2.7.0-xxxx
% /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf-8
# sudo make install


これで完了であとは

% mecab


で起動する。Mecabの終了のコマンドもわからなかったのでコマンドは下記をおおいに参考にした。


MeCabのコマンドライン引数一覧とその実行例 | mwSoft


あとはこんな感じで文章を解析してくれる。


f:id:inagex:20140726224304p:plain


f:id:inagex:20140726224349p:plain


自分は自然言語を研究しているわけでもないし、まったく知識はないけれど日本語入力に関しての根幹にちょっと触れたような気がして、自然言語の技術に驚いた。


mecabはPerlやRuby、Pythonなどから利用できるということもあり興味が出てきました。


ちなみに和布蕪(めかぶ)は, Mecab開発者の好物です。