↑日記で日々積み重ねた情報をトップの「わんこのページ」にまとめています。

おのたく日記 [RDF] YouTubeも始めました→


2011-01-09(Sun) [長年日記]

[mozc] Mozc拡張辞書のその後

1月5日の日記で、Mozc拡張辞書でカタカナ英語辞書がなくなっているのが気になっていた。

語彙数も、Mozc1.0.558.102オリジナル 1,345,900語に対して

Mozc基本語辞書 576,056語

Mozc拡張辞書 576,056語+235,140語 = 811,196語

と少ない。

いままでは、Mozcオリジナルとの重複排除はしていないけど Mozcオリジナル 1,345,900語+mozcdic-ut 2010/09/11版418,234語=1,764,134語だったので、語彙数が半分以下になり不安。

そこで、Mozc基本語ベースのMozc拡張辞書ではなくて、Mozcオリジナル辞書ベースのMozc拡張辞書をつくって

Mozcオリジナル 1,345,900語+Mozc拡張辞書261,380語 = 1,607,280語

をつくって使うことにした。

Mozcオリジナル 1,345,900語+Mozc拡張辞書261,380語の作り方

2. Mozc基本語辞書を取り込む

$ cat ../mozcdic-ut-base/dictionaries/dictionary0?.txt >dictionaries/mozcbase

[1月5日の日記「Mozc拡張辞書をビルド」より引用]

の代わりに

$ cat ../mozc/src/data/dictionaries/dictionary0?.txt >dictionaries/mozcbase

としただけ…

Mozc基本語辞書(2010/12/17版)は、オリジナルのmozcの辞書から「頻度が9000未満で、品詞が "副詞", "その他", "感動詞", "名詞", "接頭詞", "接続詞", "記号", "連体詞", "フィラー"の単語についてはmodified Anthydicに有る物だけ」と絞っているので、その絞りを外したことになる。

これで、そこそこ使えそうなので、しばし使ってみることにする。

本日のPingbacks(全0件)

Google Web検索 on-o.com内を検索