おのたく日記 YouTubeも始めました→
2011-01-09(Sun) [長年日記]
■ [mozc] Mozc拡張辞書のその後
1月5日の日記で、Mozc拡張辞書でカタカナ英語辞書がなくなっているのが気になっていた。
語彙数も、Mozc1.0.558.102オリジナル 1,345,900語に対して
Mozc基本語辞書 576,056語
Mozc拡張辞書 576,056語+235,140語 = 811,196語
と少ない。
いままでは、Mozcオリジナルとの重複排除はしていないけど Mozcオリジナル 1,345,900語+mozcdic-ut 2010/09/11版418,234語=1,764,134語だったので、語彙数が半分以下になり不安。
そこで、Mozc基本語ベースのMozc拡張辞書ではなくて、Mozcオリジナル辞書ベースのMozc拡張辞書をつくって
Mozcオリジナル 1,345,900語+Mozc拡張辞書261,380語 = 1,607,280語
をつくって使うことにした。
■ Mozcオリジナル 1,345,900語+Mozc拡張辞書261,380語の作り方
2. Mozc基本語辞書を取り込む
$ cat ../mozcdic-ut-base/dictionaries/dictionary0?.txt >dictionaries/mozcbase
[1月5日の日記「Mozc拡張辞書をビルド」より引用]
の代わりに
$ cat ../mozc/src/data/dictionaries/dictionary0?.txt >dictionaries/mozcbase
としただけ…
Mozc基本語辞書(2010/12/17版)は、オリジナルのmozcの辞書から「頻度が9000未満で、品詞が "副詞", "その他", "感動詞", "名詞", "接頭詞", "接続詞", "記号", "連体詞", "フィラー"の単語についてはmodified Anthydicに有る物だけ」と絞っているので、その絞りを外したことになる。
これで、そこそこ使えそうなので、しばし使ってみることにする。
|