−10

名寄せ準備の第2弾です。


日本語って言うのは困った言語です。カナ漢字交じりで異体字
も多いです。
異体字でまず困るのは文字コードふられてないやつですね。お
いらの名前も誤字で文字コードないんですが、中にはこだわり
を持っているのに文字コードにない漢字のお名前のお客様もい
てこまります。
そういう場合はあえてカナで書いてしまうとか、偏とつくりを
分けて入れるとか無茶をして対応するしかないですね。
シフトJISならともかくEUCだったりすると大変ですね。


それ以上にやっかいなのは異体字です。さいとうの「さい」の
字は4種類有ります。わたなべの「なべ」は3種類。これが双
璧。
漢字が違うだけで同姓同名いない場合はいいんですが実際には
ポピュラーな名前だけに同姓同名のデータ多いんですよ。


対応としては、問題の情報だけ手動でふりがな項目を作って、
そのカラムで並べ替えるって方法がありますね。
ただ、その場合はどちらの情報を生かすかという新しい問題が
出てきます。
片方のデータソースがお客様が入力した物なら、それを生かす
のが無難です。
こだわっている人も多いので、疑わしいデータはマージしない
ということにせざるを得ないのが現実的なんでしょうね。

                                                                                                              • -