Mozcの辞書をMeCabで使う

MozcとMeCabの辞書って似てるところあるなーって思ったので、Mozc辞書をMeCab辞書に変換するスクリプトを書きました。

https://github.com/ikegami-yukino/NLP/blob/master/dic/mozc2mecabdic.py

MozcはMeCabよりも文脈IDが細分化されていますが、そのままだと問題が起こりそうな気配がするので、MeCabと共通している文脈IDの単語だけを処理します。

変換結果はこんな感じです。

アクセス制御,1356,1356,5044,名詞,サ変接続,*,*,*,*,アクセス制御,アクセスセイギョ,アクセスセイギョ,MOZC
日本お笑い,1366,1366,5987,名詞,固有名詞,地域,国,*,*,日本お笑い,ニッポンオワライ,ニッポンオワライ,MOZC
終電時間,1358,1358,6131,名詞,一般,*,*,*,*,終電時間,シュウデンジカン,シュウデンジカン,MOZC
特定投資家,1356,1356,7433,名詞,サ変接続,*,*,*,*,特定投資家,トクテイトウシカ,トクテイトウシカ,MOZC
大街道店,1365,1365,7375,名詞,固有名詞,地域,一般,*,*,大街道店,オオカイドウテン,オオカイドウテン,MOZC
情報無けれ,1358,1358,6392,名詞,一般,*,*,*,*,情報無けれ,ジョウホウナケレ,ジョウホウナケレ,MOZC
強制捜査,1356,1356,5888,名詞,サ変接続,*,*,*,*,強制捜査,キョウセイソウサ,キョウセイソウサ,MOZC
10月あたり,1394,1394,4866,名詞,副詞可能,*,*,*,*,10月あたり,ジュウガツアタリ,ジュウガツアタリ,MOZC
十月あたり,1394,1394,4912,名詞,副詞可能,*,*,*,*,十月あたり,ジュウガツアタリ,ジュウガツアタリ,MOZC

元がかな漢字変換用の辞書のせいか、形態素解析で使うには微妙なものが混じってます。なんらかの形でふるいにかけると良さそうですね。

人名は割と使えるものが多そうです。