メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

四たび漢和辞典に文字コードをみる

比留間 直和

 漢字ごとにUnicodeの番号を載せている漢和辞典が増えていますが、同じ形の字なのに、辞書によってそのコードが載っていたり載っていなかったりすることがあります。

 前回、「閒」「髙」「羽」「」「」を例に、そうした揺れがあることを紹介しました。この5字はいずれも常用漢字の旧字・異体字で、JIS漢字ではそれぞれ普通の字体(間、高、羽、強、連)と区別されない一方、Unicodeでは何らかの区別がなされているものです。

 参照した漢和辞典は、「漢字源 改訂第5版」(学研)、「新選漢和辞典 第8版」(小学館)、「全訳漢辞海 第3版」「新明解現代漢和辞典」(いずれも三省堂)、「旺文社漢字典 第2版」(旺文社)の五つでした。Unicode記載の詳細は、前回の末尾の一覧表をご覧ください。

 

 「載っていたりいなかったりするのはわかったけど、その『JISだと区別されなくてUnicodeだと区別される』っていうあたりが、まだうまくイメージできないんだよなあ」
 「前回はほとんど文字ばかりの説明でしたからね……。ちょっと図で補足いたしましょう」

 

 では、まずは話が単純な「」から。

 

 

 JIS漢字だと「強」も「」も、区点でいうと2215、シフトJISでいえば8BADで表される(包摂される)ことになっています。つまり、仮にシフトJISで8BADというテキストデータがあったとき、そこには「強」か「」かの区別はない、ということです。

 ただ、常用漢字の字体もJISの例示字体も「強」なので、ふつうは「強」を表すものとして運用されています。漢和辞典もJIS漢字の包摂については特に考慮せず、基本的に例示字体と一致する字にだけコードを載せています。

 これに対し、右の列のUnicodeでは、強は5F37、は5F3Aというふうにそれぞれ独立したコードが与えられています。対応するフォントがあれば、強とを容易に使い分けることができます。

 JIS漢字とUnicodeの間で変換する際の対応関係はJISで決まっており、区点2215(シフトJISだと8BAD)はUnicodeの5F37に結びつけられています。上述のように、それぞれのコードポイントの解釈、つまり「何を表すか」は完全には一致しないのですが、それを言い出すと異なる文字コード規格の間で相互に変換することは不可能になってしまいますから、ふつうは例示字体ベースで割り切っています。

 

 「このに『5F3A』というUnicodeを載せるかどうかが、漢和辞典によって違うということだね」
 「はい。参照した五つの漢和辞典のうち、に5F3Aを示さないのは『全訳漢辞海』だけでしたが、この辞典は、Unicode欄にはJIS漢字のいずれかの規格で対応づけが示されているUnicodeだけを振ることにしているようです」
 「ナマのUnicodeじゃなくて、JIS漢字というフィルターで絞り込まれたUnicodeというわけか」

 

 そういう感じですね。

 さらに「全訳漢辞海」は前にも触れたように、「2xxxx」という5桁表記のUnicodeを載せていません(「旺文社漢字典」も同様)。5桁の領域がUnicodeのなかでは途中(2001年)から追加された部分であるためと思われますが、その点もあわせ、この辞書でUnicodeを参照するときには留意が必要でしょう。

 の場合は(包摂という理屈を脇におけば)「Unicodeにしかない字」なので、図の左下はあいていましたが、Windowsの機種依存文字の場合は下のような図になります。「髙」(いわゆるはしご高)の例を示します。

 

 

 の場合と違って、左側にも二つの字体が並んでいます。WindowsならばシフトJISでも両方の字体があるのですが、左下の「髙」はJISで定義されたものではなく独自に拡張した機種依存文字ですから、シフトJIS環境で使うと文字化けの原因になります。データの保存ややりとりをUnicodeで行うのであれば、その心配なく使い分けることができます。

 機種依存文字の仲間である「閒」もこれと同様の図式になりますが、Unicode(閒=9592)を載せている漢和辞典は、なぜか「髙」より多く、五つのうち四つでした。

 

      ◇

 

 5字のうち残りの「羽」と「」は、漢和辞典が示しているUnicodeが「互換漢字」のコードである、というのが特徴です。

 

 

 羽の「FA1E」はWindowsの機種依存文字との相互変換を可能にするため、の「F99A」は韓国の文字コード規格(同じ字が、読みの違いのために重複して入っている)との相互変換を可能にするため、それぞれ互換漢字の領域に入ったものです。

 前回も述べたことですが、気になるのは後者です。一部の日本語フォントはこの「F99A」に2点しんにょうの「」を割り当て、字体の区別に用いていますが、これはこの互換漢字の本来の趣旨と異なる使用法ですから、メーカーがどう判断するかはともかく、漢和辞典に「=F99A」と示すのが適当かどうかは微妙なところでしょう。

 

 「でも、そういう特殊な背景をもつコードかどうかって、漢和辞典を見てもわからないよね」
 「互換漢字かどうかなんていうマニアックな情報はいちいち書かれていませんから。Unicodeではけっこう大事なことなんですけど」
 「そういうややこしい事情があるせいで、同じ字なのに辞典によってUnicodeを載せるかどうか分かれるのかな」
 「おそらく要因のひとつではないかと……」

 

 Unicodeの定義に忠実に載せるか、現実の製品にあわせて使いやすくするか。JIS漢字と対応づけられているものに絞るか、互換漢字や最新の追加分まで可能なかぎり多く振るか。漢和辞典のなかではオマケに近い要素のはずですが、辞典編集者にとっては意外に悩みどころなのではないでしょうか。

 ただどの道を選ぶにしても、Unicodeを載せるのであれば、その辞典が「どういう基準でUnicodeを掲げているか」を、凡例にわかりやすく書いておいてほしいと思います。

 具体的には、「JIS漢字のコードが無い字のUnicodeも示すのか否か(特に、示さない方針である場合)」「互換漢字を含むのか。含む場合はどこまでか」「Unicodeのどのバージョンに準拠するのか」といったあたりです。辞典によってはある程度読み取れる書き方をしていますが、凡例の記述と中身とが必ずしも一致しないケースも見受けられます。

 よろしくお願いします。

 

 「誰に頼んでるの?」
 「しーっ!」

 

(つづく)

(比留間直和)