メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

幽霊、ところにより出ます ― 変換辞書のはなし4

比留間 直和

 ある漢字の読み方が「わかるんだけど自信がない」というようなとき、試しにパソコンなどで仮名漢字変換してみて「ああ、やっぱりこの読みでいいんだ」と確認する。そんな経験はないでしょうか。

 試しに変換して読みを確認するというのは、「仮名漢字変換ソフトに登録された読みは正しい」という前提があっての話です。たいていは問題ないでしょう。しかし変換ソフトの役割はスムーズに漢字を出すことであり、そのためには紙の辞書よりも多少柔軟な作り方が求められます。同じ読み方で試しても変換ソフトによって出てきたり出てこなかったりしますし、出てきたとしてもその読みが紙の辞書と同程度に「信用」できるとは限りません。

 極端な例を挙げれば、パソコンには「何と読むのか分からない漢字」が載っています。そんな漢字に対して、仮名漢字変換ソフトはどんな対応をとっているのでしょうか。

 

■JISにある「正体不明」の字

 

 文字コードの世界では既によく知られた話ですが、情報機器に広く搭載されているJIS第1・第2水準(JIS X0208=狭義の「JIS漢字」)の中には、なぜこの字が入ってしまったのか、どういう字なのか分からない、というものがあります。

 JIS第1・第2水準が制定されたのは、1978年。その後83年、90年、97年と改正されてきましたが、90年版までの規格票は、実装のための技術的な規定などが最初に書かれているほかは文字がずらっと並んでいるだけで、個々の字に関する説明は載っていませんでした。あたかも「見れば分かるでしょ」といった具合でした。

 もともと文字というものは、同じ字でも実際に使われる活字の形にはさまざまなバリエーションがあります。JIS漢字でも、個々の文字の具体的字形設計などは規格の適用範囲としないことを明記しています。それ自体はよいのですが、「この番号がこの漢字に対応する」ということを示すとき、一つの字形をポンと見せるだけでは、それが何の字を意図しているのかや、世の中で使われている「少し違う形」をそれと同一視していいのかが分かりません。そのため、字によっては解釈に揺れが生じ、混乱のもとになっていました。

 そこで、1997年の改正にあたった委員会は、個々の字がどういう字なのか、なぜJIS漢字に入ったのかを確認する「同定」作業を行い、その情報を規格票に盛り込むことにしました。その過程で出てきたのが、どういう字なのか分からない、いわゆる「幽霊文字」です。

 委員たちは幽霊文字の正体をみきわめるために、辞書類だけでなくJIS漢字制定のもとになった膨大な原資料を引っ張り出して調べあげ、その結果、ほとんどの字については何らかの典拠・情報が得られました。中には、制定までの過程で作業ミスがあり、間違った形で入ってしまったと考えられるものもありました。最も有名なのが、本当は「山かんむりに女」でJIS漢字に入れるべきだったのに、紙の切り貼りの影が筆画のように見え、余計な横線が入った形で採録されてしまった「」(通称・やまいちおんな)です。

 しかしそうした情報が全く得られず、最後まで「同定不能」、つまり正体不明の字が一つ残りました。「」という字です。

 

 97年版のJIS第1・第2水準の規格票は、この「彁」について、

 この規格の規定する区点位置の図形文字の中で,唯一,全く同定できない文字である。 第1次・第2次規格【78年版と83年版のこと=引用者注】の事務局資料に,昭和59年2月1日調べとして“行政管理庁”との記述があるが,行政管理庁漢字表には見当たらない。
 “彊”“謌”の草体を誤って楷書化したか,“哥”の左に波線を付けたようなものを誤認したなど,何らかの誤解を経て生じた誤字体かとの推測もできるが,これらの推測を裏付ける資料はない。“歌”・“謌”の異体字,又は姓名・地名とするものもあるが,確実な典拠を示すものはない。(附属書7「区点位置詳説」2.99)

 と述べています。

 正体不明の字や間違った形で入ってしまった字は、本来は「使いようがない」はずですが、制定から長く経っており、既に蓄積されたデータに影響が及ぶのを防ぐため、97年の改正では文字の追加・削除や字体変更は一切行われませんでした。こうして、「幽霊文字」は今でも情報機器に広く搭載されています。

 ちなみに朝日新聞の記事データベースを調べても、「彁」が出てくるのは「JISの幽霊文字」として紹介されたものだけ。そもそも以前は活字として用意しておらず、記事の入力にワープロが導入されてから初めて自社のシステムにこの字を搭載したのでした。

 正体不明ということは、読みも分からないということです。ではこの「彁」は、現行の仮名漢字変換ソフトではどうなっているのでしょうか。

 

■この読みで幽霊文字が…

 

 まず、マイクロソフトの仮名漢字変換ソフトの最新版「Microsoft Office IME 2010」。「IMEパッド」を呼び出して、総画数や部首による文字一覧の中から「彁」を探し出してマウスカーソルを近づけると、「カ セイ」という読みが表示されます=下の図(拡大しています)。

  

 

 これを参考に、あらためて「か」や「せい」という読みで変換していくと、いずれも単漢字辞書によって「彁」が出てきます。左が「か」、右が「せい」で変換候補を表示させたものです。

  

 

 次に、ジャストシステムの「ATOK2011」です。「文字パレット」から「彁」を探し出して文字情報を開くと、音読みの欄に「カ」と表示されています。

 しかし、ATOK2011で「か」と入力し標準辞書や単漢字辞書を使って変換しても、「彁」は出てきませんでした。一方、「せい」で試したところ、単漢字辞書で「彁」が出てきました。

 このほか、ウェブ上のデータをもとに変換辞書が作られている、「Google日本語入力」や「Baidu IME」でも試してみましたが、「か」や「せい」では変換できませんでした。

 ちなみに筆者がふだん使っている携帯電話(スマートフォンではなく従来型)では、「か」だと出てきませんでしたが、「せい」ではバッチリ変換できました。

 正体不明のはずの「彁」が、このように製品によっては「読み」から変換できてしまうのです。

  

■漢和辞典も「音義未詳」

 

 ところで、漢和辞典には「彁」についてどのように書いてあるのでしょうか。

 昨年の常用漢字表改定のあとに新しい版が出た4種の漢和辞典を見てみると、「彁」の記述は以下のようになっています。

●三省堂「全訳漢辞海」 第3版…音義未詳。一説に、「彊キョウ」の誤字
●大修館書店「新漢語林」 第2版…音義未詳。〔参考〕JIS漢字に採られているが、典拠不明。
●学研「漢字源」 改訂第5版…音義未詳。一説では強弓の意という。
●小学館「新選漢和辞典」 第8版…音義未詳。

 ごらんのように、どれも「音義未詳」つまり「読みも意味も不明」としています。「彊の誤字」や「強弓の意」という説を付記するものもありますが、確たるものではありません。

 そもそもこの字が漢和辞典に載っているのは、「JIS漢字に入っているから」に他なりません。そのJISが97年改正で「正体不明」と宣言したわけですから、そのあとに出た最新の漢和辞典がそろって「音義未詳」としているのは、ごく自然なことと言えます。

 

 にもかかわらず、一部の仮名漢字変換ソフトが「か」や「せい」で「彁」に変換できるのは、どういうことでしょうか。これには、どうも過去の資料が関係しているようです。

(つづく)

(比留間直和)

※次回は8月22日公開予定です。