2013-01-01から1年間の記事一覧

Pythonのunicodedata.normalize('NFKC', x)で正規化される文字一覧

Pythonのunicodedata.normalize('NFKC', x)で正規化されて変わる文字ってどんなのがあるんだろうと思って一覧を作ってみました。https://gist.github.com/ikegami-yukino/8186853左が変更前の文字、右が変更後の文字(アラビア文字は左右が逆になります)、括…

Wikipedia見出しリストから不要な見出しをカットする

検索サイトで「wikipedia mecab」と検索するとWikipediaの見出しリストを整形してMeCab用辞書として使う記事が何件かhitします。 しかし、Wikipediaの見出しは形態素解析用に作られたわけではないので、形態素として扱うと不都合になることがあります。 たと…

SWIGによるOLLのPythonバインディング

SWIGによってオンライン機械学習ライブラリOLLをPythonで使うモジュールを公開しました( ´ ▽ ` )ノ https://pypi.python.org/pypi/oll 前回のファイルを経由するのとは違ってSWIGでOLLを使うので効率的です。pipが入っていれば以下のコマンドでインストールで…

PythonでOLLを使う

オンライン機械学習ライブラリのOLLをPythonで使うためのクライアントモジュールを公開しました! https://pypi.python.org/pypi/oll_clientこれはPythonでoll_lineの入出力を扱うモジュールです。 swigとかよくわからないのでoll_lineへの入力は標準入力を…

ショートカットキーで漢字をひらがなに変換 for Mac

MacのAutomatorから「選択した文字列から漢字をひらがなに変換する」サービスを作ってショートカットキーで呼び出す方法を紹介します。 実行にはMeCabとnkfのインストールが必要になります。手順 Automatorの起動 [Ctrl]と[Space]同時押しで出てくるSpotligh…

Mountain Lionに入れるもの

備忘録 開発環境 Xcode Command Line Tools https://developer.apple.com/downloads/ MacPorts http://www.macports.org/ MacPortsから tmux coreutils wget nkf ライブラリ sudo pip install beautifulsoup4 sudo pip install matplotlib sudo pip install …

Pythonで少し速くひらがな・カタカナ・半角・全角文字を相互変換する

NLPをやってると文字の正規化処理でひらがな・カタカナ・半角・全角変換することがあります。 そこでPythonでひらがなからカタカナ、カタカナからひらがな、半角文字から全角文字、全角文字から半角文字に高速変換するライブラリjctconvをPyPIにアップしまし…

LIBLINEARデータ読み込み中のエラー

LIBLINEAR使用時にデータ読み込み中にエラーで終了することがあります。 エラーメッセージに該当箇所の行番号は出るものの 原因が書いていないのでわかりにくい。そこでエラーが起きたらデータがこんなことになっていないか確認しています。 2値分類の場合、…

Wikipediaのリダイレクト一覧を言い換えリスト化

Wikipediaデータベース日本語版のjawiki-latest-stub-articles.xml.gz(pages-articles.xmlの本文を除いた版)から記事IDと記事タイトルを取得して, その情報をもとにjawiki-latest-redirect.sql.gz(リダイレクト先一覧)のリダイレクト元記事IDを記事タイトル…