Pythonのunicodedata.normalize('NFKC', x)で正規化される文字一覧

Pythonのunicodedata.normalize('NFKC', x)で正規化されて変わる文字ってどんなのがあるんだろうと思って一覧を作ってみました。https://gist.github.com/ikegami-yukino/8186853左が変更前の文字、右が変更後の文字(アラビア文字は左右が逆になります)、括…

Wikipedia見出しリストから不要な見出しをカットする

検索サイトで「wikipedia mecab」と検索するとWikipediaの見出しリストを整形してMeCab用辞書として使う記事が何件かhitします。 しかし、Wikipediaの見出しは形態素解析用に作られたわけではないので、形態素として扱うと不都合になることがあります。 たと…

SWIGによるOLLのPythonバインディング

SWIGによってオンライン機械学習ライブラリOLLをPythonで使うモジュールを公開しました( ´ ▽ ` )ノ https://pypi.python.org/pypi/oll 前回のファイルを経由するのとは違ってSWIGでOLLを使うので効率的です。pipが入っていれば以下のコマンドでインストールで…

PythonでOLLを使う

オンライン機械学習ライブラリのOLLをPythonで使うためのクライアントモジュールを公開しました! https://pypi.python.org/pypi/oll_clientこれはPythonでoll_lineの入出力を扱うモジュールです。 swigとかよくわからないのでoll_lineへの入力は標準入力を…

ショートカットキーで漢字をひらがなに変換 for Mac

MacのAutomatorから「選択した文字列から漢字をひらがなに変換する」サービスを作ってショートカットキーで呼び出す方法を紹介します。 実行にはMeCabとnkfのインストールが必要になります。手順 Automatorの起動 [Ctrl]と[Space]同時押しで出てくるSpotligh…

Mountain Lionに入れるもの

備忘録 開発環境 Xcode Command Line Tools https://developer.apple.com/downloads/ MacPorts http://www.macports.org/ MacPortsから tmux coreutils wget nkf ライブラリ sudo pip install beautifulsoup4 sudo pip install matplotlib sudo pip install …

Pythonで少し速くひらがな・カタカナ・半角・全角文字を相互変換する

NLPをやってると文字の正規化処理でひらがな・カタカナ・半角・全角変換することがあります。 そこでPythonでひらがなからカタカナ、カタカナからひらがな、半角文字から全角文字、全角文字から半角文字に高速変換するライブラリjctconvをPyPIにアップしまし…

LIBLINEARデータ読み込み中のエラー

LIBLINEAR使用時にデータ読み込み中にエラーで終了することがあります。 エラーメッセージに該当箇所の行番号は出るものの 原因が書いていないのでわかりにくい。そこでエラーが起きたらデータがこんなことになっていないか確認しています。 2値分類の場合、…

Wikipediaのリダイレクト一覧を言い換えリスト化

Wikipediaデータベース日本語版のjawiki-latest-stub-articles.xml.gz(pages-articles.xmlの本文を除いた版)から記事IDと記事タイトルを取得して, その情報をもとにjawiki-latest-redirect.sql.gz(リダイレクト先一覧)のリダイレクト元記事IDを記事タイトル…

複数のサイトから注目キーワードを取得

MeCabの辞書を自動で新語に対応させるにはどうすればいいかって問題にWebの注目キーワード(あるいは急上昇キーワード)を使ってみようと思ってスクリプトを書いてみました。複数サイトから注目キーワードを取得する · GitHubこのスクリプトが出力するテキスト…

LIBLINEAR1.93のcross validationオプションでprecision/recallを出力する

LibSVMのcross validationオプションでprecision/recallを出力する というエントリを読んで便利そうだったので、LIBLINEAR1.93でもcross validationオプションでprecision/recall値を出力するようにしました。 --- train.c 2012-10-29 01:46:32.000000000 +0…

MMDAgent関連のメモ

MMDAgent & Project-NAIP wiki MMDAgentの説明とか自作プラグインとか http://hmi-me.ciao.jp/wordpress/iremocon/iremocon%E3%81%A7%E3%83%9F%E3%82%AF%E3%83%9F%E3%82%AF%E3%81%AB%E3%81%97%E3%81%A6%E3%82%84%E3%82%93%E3%82%88%E3%80%82/ MMDAgentでの記…

Vine6にmecab-python-0.993をインストール

$ sudo apt-get install python-devel $ perl -pe 's/mecab-config/\/usr\/local\/bin\/mecab-config/g' < setup.py >temp $ cat temp > setup.py $ rm temp $ python setup.py build $ su # python setup.py install # echo /usr/local/lib >> /etc/ld.so.c…

Mozcの辞書をMeCabで使う

MozcとMeCabの辞書って似てるところあるなーって思ったので、Mozc辞書をMeCab辞書に変換するスクリプトを書きました。https://github.com/ikegami-yukino/NLP/blob/master/dic/mozc2mecabdic.pyMozcはMeCabよりも文脈IDが細分化されていますが、そのままだと…

MMDAgent1.0の語彙数上限ひきあげ

MMDAgent1.0のデフォルトでは音声認識のJuliusの制約で語彙の上限が65534となっています。そこで、語彙数の上限をひき上げるためにソースを一部書き換えてコンパイルしなおしました。これで上限が理論上2^31語になります。 やり方 MMDAgent-1.0\Library_Juli…