2013-12-01から1ヶ月間の記事一覧

Pythonのunicodedata.normalize('NFKC', x)で正規化される文字一覧

Pythonのunicodedata.normalize('NFKC', x)で正規化されて変わる文字ってどんなのがあるんだろうと思って一覧を作ってみました。https://gist.github.com/ikegami-yukino/8186853左が変更前の文字、右が変更後の文字(アラビア文字は左右が逆になります)、括…

Wikipedia見出しリストから不要な見出しをカットする

検索サイトで「wikipedia mecab」と検索するとWikipediaの見出しリストを整形してMeCab用辞書として使う記事が何件かhitします。 しかし、Wikipediaの見出しは形態素解析用に作られたわけではないので、形態素として扱うと不都合になることがあります。 たと…