Google 日本語入力(IME)の標準辞書サイズを調べてみた。

えーっと。昨日の記事とかぶりますが、おれはまぁプログラマーはしているけれど企業向けのアプリしか作ってないのでPCにそれほど詳しいわけではありません。業務上必要なことは覚えるけどそうでない部分は一般消費者以下の知識かもしれないです。最近は使いやすくなっているので覚えることがどんどん少なくなっていきますね(笑)。
なので、これからとても恥ずかしいことを書こうとしているのかもしれません。


さて、日本語入力。私は普段ATOK15を使っています。あと、使いもしないのに入っているMS-IMEもあります。そして今日インストールしたGoogle日本語入力
標準の辞書のサイズってどのくらい違うんでしょうかね?



  • 1.MS-IME8.1

どうやら3つの辞書があるみたいです。おそらく標準の標準辞書と思われる名前のやつ(IMJPST.DIC)が14,350KBです。人名辞書と思われるやつ(IMJPNM.DIC)が10,410KB、郵便番号辞書っぽい(IMJPZP.DIC)のが9,370KB
合計すると34,130KB、およそ34MBですね。

ちょっと古いバージョンなのですけどねぇ。
標準の辞書(ATOK15.DIC)が11107KB。それ以外の辞書、名前から用途が類推できなかったのですが、4つあって、それぞれ6,034KB、3,578KB、3,471KB、2,310KB。合計は……26,500KB。すなわち26.5MBってところですか。だいたい。それ以外に日本語解析用の辞書がありますね。それが13511KB。それを足すと40MBかな。

みつからねぇ!標準辞書がみつからねぇ!
で、仮説。IMEの本体と思われるGoogleIMEJaConverter.exeがやたらとサイズでかいんですよ。だから、そいつに辞書も組み込まれているんじゃないかなぁと思いました。MS-IMEATOKも変換アプリ自体はそれほど多くないので、そのexeファイルの大きさを辞書のサイズと仮定すると、46,274KB。46MB程度ですか。



  • まとめ
IME 標準辞書サイズ
MS-IME8.1 34MB
ATOK15 40MB
Google 日本語入力 46MB



もちろん日本語入力システムは標準辞書の大きさでその性能が決まるわけではありません。ユーザーが育てる辞書もあるし、そもそもの変換アプリの性能もあります。でもまぁ、これだけ差があるということですね。Google以外は相当古いバージョンなので、最新のバージョンで調べたらまた違う結果になるのではないでしょうか?




以下余談。
こんな記事になるとは……。
そもそもは別のことを調べようかなぁと思っていたのですよ。日本語辞書にはおそらくKey&Value型のデータ格納方法が適しているだろうなぁと想像して、それをのぞき見できないかなぁと思ったんですね。できなかった。無理だとは思ったんですけどね。常識的に考えればバイナリで保存されているだろうからね。でも、そもそも辞書が見当たらなかった。それは予想外。なので他のIMEの辞書を探し始めてこんなことになってしまいましたw。


今日はもう1本面倒な記事を書くんだった。なんかもう無駄なことをしてしまった……。