↑日記で日々積み重ねた情報をトップの「わんこのページ」にまとめています。

おのたく日記 [RDF] YouTubeも始めました→


2011-01-05(Wed) [長年日記]

[Mozc] 「mozc_01 私家版Mozc辞書 Mozc拡張辞書」を使ってMozcをビルドしてみる

いつのまにかGoogle日本語入力のオープンソース版のMozcのSubversionのリビジョンがr51になっていて、バージョンも1.0.558.102に上がっていた。

ここの所、Mozc 0.13.481.102をビルドするときに「mozc_01 私家版Mozc辞書」に有った mozcdic-ut 2010/09/11版 を組み込んで辞書を強化してMozc使っていたのだけど、最近は「mozc_01 私家版Mozc辞書」は「Mozc拡張辞書」となって、オリジナルMozcの辞書との重複を排除した版になっているようなので、こちらも最新版に上げてBuildしなおすことにした。

Mozcの最新版が2010/12/16 r51で、Mozc拡張辞書が2010/12/17なので、最新のMozcの辞書が反映されていないかもしれないと思って、「Mozc拡張辞書」も作りなおした。

Mozc基本語辞書をビルド

mozc_01 私家版Mozc辞書」の「Mozc拡張辞書」を作るには、まず「Mozc基本語辞書」が必要なので、UT Extra Packages for Mandrivaから、Modified Anthy」から、anthy-9100h-*ut.tar.bz2としてanthy-9100h-20101205ut.tar.bz2を入手して展開しておく。(これも11回しかダウンロードされてない)

2. Modified Anthyの取り込み

$ cd dictionaries

$ ln -s ../anthy-9100h-ut/alt-cannadic/g_fname.t .

$ ln -s ../anthy-9100h-ut/alt-cannadic/gcanna.t .

$ ln -s ../anthy-9100h-ut/alt-cannadic/gcannaf.ctd .

$ ln -s ../anthy-9100h-ut/alt-cannadic/gtankan.ctd .

3. オリジナルのMozc辞書の取り込み

$ ln -s ../mozc/src/data/dictionary/id.def .

$ cat ../../mozc/src/data/dictionary/dictionary*.txt >mozcdic

$ cd ..

3. generate-basedic.sh を実行

で、新しいdictionary/dictionary0?.txt(576,056語)が出来た。

Mozc拡張辞書をビルド

まずは、mozcdic-ut-advanced-20101217.tar.bz2を入手。(これは完成したdictionary0?.txtが入っているからか51回ダウンロードされていた)

これをmozcdic-ut-advanced/に展開して、この中のREADME.develに従い。

1. Modified Anthyの開発者用ファイルとしてanthydic-ut-devel-20101205.tar.bz2を入手して展開する。

2. Mozcのソースから data/dictionary/id.def を取得する。

※README.develでは「dict_id/ にコピー」となっているけれど、「dictionary/ にコピー」の間違い

$ (cd dictionaries;ln -s ../mozc/src/data/dictionary/id.def .)

2. Mozc基本語辞書を取り込む

$ cat ../mozcdic-ut-base/dictionaries/dictionary0?.txt >dictionaries/mozcbase

3.Modified Anthyの開発者用ファイルの取り込み

$ (cd meisi;ln -s ../anthydic-ut-devel-20101205/ippan/01-ippan.txt .)

$ (cd jinmei;ln -s ../anthydic-ut-devel-20101205/jinmei/10-jinmei.txt .)

$ (cd ekimei;ln -s ../../anthydic-ut-devel-20101205/ekimei/ekimei.txt .)

最後のekimei.txtについては、README.develには記載が無いが必要

4. 日本郵便から郵便番号データの取り込み。これは既にmozc用に2010/12/28版を取ってきていたのでこれを使った

$ cp -p ../mozc/src/data/dictionary/ken_all.csv zipcode/KEN_ALL.CSV

5. スクリプトを実行

$ ./generate-mozcdic-meisi.sh

$ ./generate-mozcdic-jinmei.sh

$ ./generate-mozcdic-ekimei.sh

$ ./generate-mozcdic-chimei.sh

$ ./generate-mozcdic-zipcode.sh

$ ./generate-advdic.sh

これで、新しいdictionary/dictionary0?.txt(811,196語 含む私家版Anthy辞書161,167語)が出来たので、これをmozcのソースに取り込んでmozcをビルドし直した。

Mozc拡張辞書の感想

語彙数だけ見てみると、Mozc基本語辞書の意図にあるように「読みかたを間違えて登録しているものが多く、不可思議な切り取られ方をした単語も大量に自動登録されているので、辞書が肥大し混沌しているMozcオリジナルの辞書の整理としうことで、Mozc 1.0.558.102オリジナルの1,345,900語からは減っている。

さらにmozcdic-ut 2010/09/11版の418,234語を組み込んでいたのだけど、それと比べてどんな物か、まだ、あまり使い込んでいないので、Mozc拡張辞書のありがたみは不明。

げ、Mozcオリジナルにカタカナ英語が入ってない!とりあえず、google-ime-user-dictory-ja-enの約4万5千語を取り込んで代わりにしてみた。

本日のPingbacks(全0件)

Google Web検索 on-o.com内を検索