メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

幽霊文字の読み、どこから ― 変換辞書のはなし5

比留間 直和

 JIS第1・第2水準になぜか入ってしまった「幽霊文字」。中でも「弓へんに哥」の「彁」は、1997年改正の際に委員たちが行った調査でも手がかりがつかめず、規格票で唯一「同定不能」とされている字です。

 しかし前回紹介したように、この「彁」が、一部の(しかしメジャーな)仮名漢字変換ソフトで「か」や「せい」の読みから変換できてしまいます。正体不明のはずの幽霊文字が、なぜ「か」や「せい」で変換できるのでしょうか。

 97年JIS改正の際、幽霊文字の解明に活躍したことで知られる笹原宏之・早大教授に尋ねたところ、JIS漢字の制定から間もない80年代に作られた資料に、これらの読みが現れていることを教えていただきました。

 

■「仮に」与えた読みが…

 

 まずは、「か」の読み。これについては、約30年前に業界団体が作った資料に興味深い記述がありました。

 社団法人日本電子工業振興協会(現・一般社団法人電子情報技術産業協会)が1982年3月に発行した、「日本語処理技術に関する調査研究」という冊子です。81年度に同協会が行った調査研究活動に関する報告書で、内容は、日本語処理やワープロ関連の標準化のため同協会が78年度に作成した「漢字辞書ファイル」を拡充する作業でした。

 「彁」が登場するのは、拡充項目のひとつ「JIS第2水準の漢字に対する代表読みの設定」のくだり。この「漢字辞書ファイル」では、個々の漢字に「代表読み」を与えることになっていたのですが、当初は第2水準漢字に代表読みが与えられておらず、それを埋めるための作業が行われました。冊子には、第2水準漢字の代表読みの「選定基準」が以下のように記されています。

 

 JIS第2水準の漢字に対する代表読みの選定は以下の基準に拠った。つまり該当漢字が辞典「新字源」または「大漢和辞典」にあった場合は、
(1)原則として漢音を採用する。
(2)音が複数個存在する場合、用例(熟語)における使用度を考慮して決める。使用度の考慮が不可能な場合、偏・旁の中にある音より連想しやすいものを考慮して決める。
(3)JIS第1水準に同義漢字がある場合、第1水準と統一を図る。
(4)国字の場合および明きらかに訓の方が一般的と思われる場合は訓を採用する。
(5)また上記辞典にない漢字については、
 (ⅰ)JIS内に同義漢字を求める。
 (ⅱ)各種資料より用例を探して読みを決める。
 (ⅲ)代表読みを与える。
 の3段階に分けて処理する。つまり(ⅰ)においては上記(3)の基準を準用し、(ⅱ)においてはこれを国字とみなして訓を採用し、(ⅲ)においては便宜上仮に音を採用することとした。

 

 つまり、漢和辞典や各種資料に見あたらずどうにもならない字については、最後の(5)の(ⅲ)により、独自に「代表読みを与え」たわけです。対象となった漢字の一覧には全部で20字が掲げられ、その3字目に「彁 カ」とあります。

拡大「日本語処理技術に関する調査研究」所載の「代表読みを与えた漢字」(一部)

 代表読みを与えられた20字を見ると、「彁」のほかにも、のちに97JISで「典拠不詳」などとされた漢字が多く含まれています(そのため「彁」以外にも問題点はあるのですが、話が拡散するので今回は控えます)。ほとんどは字のパーツから類推した読みが与えられており、上の基準の通り、まさに「便宜上仮に」採用された音であると理解できます。「彁」の場合、つくりが音を表すと仮定して「哥=カ」の読みを採ったわけです。

 この「便宜上仮に」与えられた読みが各メーカーの製品にどの程度影響を及ぼしたのか定かではありませんが、辞典や資料で情報が得られないJIS漢字にとにかく「読み」を付けるという作業は、黎明期の日本語処理システムにとっては大事な一歩だったことでしょう。

 

■大手メーカーの資料には…

 

 仮名漢字変換ソフトで「彁」が出てくるもう一つの読みが、「せい」です。笹原さんのご教示を得て、社内に保管されていた資料を探したところ、ありました。

 

拡大朝日新聞社内に保管されていた日本IBMとNECの文字コード資料

 

 まずはオレンジ色の表紙、日本IBMの「漢字コード一覧表」です。扉のうしろには「第4版 1987年9月」とあり、中身は当時のIBMのシステムに搭載されていた日本語文字コードの一覧表です。

 この冊子で「彁」の字を探すと、「カ」ではなく「セイ」という音読みが記されていました。下は、冊子所載の「部首別画数順 漢字一覧表」の弓へんの部分で、右端は代表的な読みが掲げられています。 

 

 もう一つあったのが、日本電気(NEC)の「日本電気標準文字セット辞書〈基本〉」。奥付には「昭和57年5月初版、昭和58年3月第2版」と書かれています。昭和57、58年というのは、1982、83年ですね。

 この資料でも、「彁」の字の読みは「セイ」が掲げられていました。こちらも「部首画数順一覧」の弓へんのところです。

 

 笹原さんも以前、この2社の冊子のさらに古い版 ―― IBMは1983年、NECは1982年の版 ―― に「彁 セイ」とあるのを確認したとのこと。この読みの記載が確認できた資料としては、このあたりが古いものだったそうです。しかし「セイ」という読みが一体どこから来たものなのか、結局確証はつかめなかったということです。

 「カ」「セイ」の読みは、その後、一部の(97JIS以前に編纂された)漢和辞典にも記載されましたが、最近の漢和辞典は前回示したように97JISの成果を踏まえた書き方をするようになっており、「彁」については「音義未詳」で足並みがそろっています。

 

■「道具」である以上…

 

 今回挙げた3種の資料が作られたのは、JIS幽霊文字についてきちんとした調査が行われた97年改正よりもだいぶ前のこと。制定から間もないJIS漢字に対して根拠のはっきりしない読みを載せたことを、現在の知見をもとに責めるのは筋違いというものでしょう。そもそも正体不明の字をJIS漢字に入れてしまったことが、最大の問題なのですから。

 しかし97年改正によって「典拠不詳」や「同定不能」といった幽霊文字の情報がJISの規格票に細かく書き込まれ、今や多くの人の知るところとなりました。それを受けて、仮名漢字変換ソフトはどう対応するのがよいのでしょうか。

 「怪しげな読みで変換できてしまうのはよくない」という意見もあるでしょう。もっともなことです。ただ一方で、変換ソフトの本来の役割は正しい読みをユーザーに教えることではなく、あくまで漢字を打ち出すこと。「彁」の字そのものが情報機器から削除されることが無い以上、「何らかの読みから変換できるほうがいい」という考え方も一概には否定できないと思います。「セイ」はともかく、「カ」は「彁」の形から類推されやすい読みですし、「生きた文字」として使う機会はまず無いといってもこうして話題にすることはやはりあるわけですから。

 いっそ、こうした事例を通じて、変換辞書が決して「辞典」ではないことを広く知ってもらったほうが、人と道具との健全な関係に近づくのではないか、という気もしています。

(比留間直和)