メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

漢和辞典に文字コードをみる

比留間 直和

 「……あの話はどうなっているのかな」
 「何でしたっけ」
 「補助漢字に入っているかどうか調べるにはどうすればいいか、年明けにも書くって前々回のラストで言ってたでしょ」

 そうでした。前回はちょうどJIS漢字改正案の意見受付公告中だったので改正内容などを紹介しましたが、今回こそ予告に沿ってその話題を。

      ◇

 目の前の字が、補助漢字などJISの文字コード規格に含まれているかどうかを調べるには、どうすればよいのでしょうか。

 「JISの規格票を見ればよい」といってしまえばそれまでですが、わざわざ買ってきている人はめったにいないでしょう。JISの規格票は、日本工業標準調査会のウェブサイト(http://www.jisc.go.jp/)でPDFが閲覧可能ですが、冊子のページを画像としてとりこんだもので見た目が粗く、印刷もできないようになっています。文字を探すのに使いやすいとはとてもいえません。

 かつて「ワープロ漢字辞典」のたぐいを使っていた、という方も少なくないと思いますが、最近は仮名漢字変換ソフトの機能が充実してきていることもあってか、以前ほどはやらなくなっているようです。

 ある漢字の文字コード情報を知りたいとき、一般ユーザーの手元にありそうな資料で役に立つのは、やはり漢和辞典でしょう。

 情報機器が普及するまえに出版された漢和辞典には当然のことながら文字コードなどいっさい書かれていませんが、最近の漢和辞典だと、漢字ごとに音訓などの情報と併せてJIS漢字やUnicodeといった文字コードが記されています。

 ここでは、2010年の「常用漢字表」改定よりもあとに発行された一般向けの漢和辞典5種を例に、どのように文字コードが示されているか見ていきたいと思います。

 《今回参照した漢和辞典》

 学研「漢字源」改訂第5版
 小学館「新選漢和辞典」第8版〈2色刷〉
 大修館書店「新漢語林」第2版
 三省堂「全訳漢辞海」第3版
 三省堂「新明解現代漢和辞典」

 ※使用したのはいずれも「第1刷」

 

 5種の漢和辞典の「漢字の収録範囲」を見ると、いずれもJIS X0213(第1~第4水準)に含まれる10050の漢字を全て収録、とうたっています。一方、JIS X0212(補助漢字)の漢字5801字については、「漢字源」「新選漢和辞典」「新漢語林」の三つが収録を明記している一方、「全訳漢辞海」と「新明解現代漢和辞典」は言及していません。

 このことは、各漢和辞典の文字コードの記載方法にも関係しています。

 

■補助漢字かどうかわかる辞書

 

 まずは学研「漢字源」。凡例によれば、JIS第1~第4水準と補助漢字を含む約17000字を収録しています。この5種の辞書のなかでは最多の字数です。

 「漢字源」の文字コードの記載形式は、以下のようなものです。

 

 

 例に使った漢字は、説明のために筆者が選んだものです。左から順に見ていきましょう。

 「朝」は誰もが知っている常用漢字で、JIS第1水準に含まれます。「鬱」はJIS第2水準。2010年に新たに常用漢字入りしました。

 「鄧」はトウ小平のトウ、「」はセミの康熙字典体で、いずれもJIS第3水準。ただし「鄧」が補助漢字にも含まれているのに対し、「」は含まれていません。「Windows XP + Internet Explorer 6」という古い環境だとウェブページに使った「」がきちんと表示されない、ということは「八日目のナカグロ」「28と29のあいだ」で述べたとおりです。

 「」は地名に使われる「はけ」という字で、JIS第4水準に含まれます。この字も補助漢字には入っていません。またUnicodeが16進表記で「2xxxx」という5桁になっていますが、これは2001年に追加された領域です。ソフトウエアによっては、「Unicode対応」をうたっていてもこの追加領域には未対応、という場合もあります。

 「噩」はガクと読み、「おどろく、不吉な」といった意味。この字はJIS第1~第4水準にはありませんが、補助漢字には含まれています。

 最後の「筷」(カイ)も、第1~第4水準には無く補助漢字にある字で、箸(はし)のこと。現代中国語ではふつう「筷子」と言います。

 「朝」や「鬱」だけでなく、JIS第1・第2水準外の5字も、手元の「Microsoft Office IME 2010」で割とスムーズに仮名漢字変換できました。「鄧」は「とうしょうへい」ですぐ「鄧小平」が出ますし、そのほかの4字も「せみ」「はけ」「がく」「かい」の読みでそれぞれ単漢字辞書から候補が出てきます。

 

 ご覧のように、「漢字源」は文字コードが3段で表記され、JIS第1~第4水準の水準番号と区点番号、補助漢字の区点番号、そしてUnicodeがわかるようになっています。

 従来型の携帯電話を含め、たいていの情報機器で広く使えるのは、第1・第2水準の範囲です。この辞書でいえば①か②がついている漢字がそれに該当します。

 また①や②のほか、補助漢字のコードが振られている「鄧」「噩」「筷」は古いXPパソコンでもMSフォントに搭載されており、きちんと見えます(「鄧」は後述のようにもっと前からシフトJISの機種依存文字として搭載されていましたが、そのことはこの辞書からは判別できません)。

        ◇

 次に、「新選漢和辞典」と「新漢語林」の文字コードの記載形式はそれぞれ次の通りです。

 

 

 それぞれの凡例の記述によれば、「新選漢和」はJIS第1~第4水準と補助漢字を含む約15500字、「新漢語林」も第1~第4水準と補助漢字を含む14629字を収録しています。

 「新選漢和」の文字コードの記載内容は基本的に「漢字源」と同じですが、コードが縦組みで記されているほか、「第1・第2水準は区点番号だけで、第3・第4水準に①と②を付している」というところが「漢字源」と異なります。

 「漢字源」では①~④の数字が「第●水準」という意味でしたが、「新選漢和」の①と②はX0213の「面区点番号」の「面」を指しています。

 JIS漢字はもともと「94(区)×94(点)」のマス目を一つの「面」として扱っています。第1・第2水準だけの規格であるX0208は一つの面で済んでいるため文字の番号は「区点」だけで表されますが、第3・第4水準が加わったX0213は面を二つ使っているため「面区点」で文字を表します。X0213では、「1面」はまずX0208と同じ場所に第1・第2水準を置き、残りのすきまを埋めるように第3水準の文字が並べられています。第4水準は「2面」に割り当てられています。

 「新選漢和」はこのJIS漢字の構造に従い、1面にある第3水準に①を、2面にある第4水準に②を付けているのです。X0213では第1・第2水準であっても「朝=1面36区11点」のように「面」を必ず表記しますが、長く使われてきたX0208だとそれが必要ないため、「新選漢和」では①を省くことによってその字が第1・第2水準であることを表現しているわけです。

 一方の「新漢語林」は、3種類のコードを示しているのは同じですが、Unicodeは記載せず、代わりにWindowsのシフトJISの値を載せています。シフトJISの値をもっている字の大部分はJIS第1・第2水準の字ですが、中にはWindowsが独自に拡張しているものもあります。

 例えば「鄧」はシフトJISの欄に「EE9D」と記されていますが、これはUnicodeが使われるようになる前から「機種依存文字」として(補助漢字や第3・第4水準とは関係なく)Windowsに搭載されていたものです。シフトJISの機種依存文字の中には、補助漢字にも第3・第4水準にも入らなかったものがありますが、そうした文字も実際にはパソコンの日本語フォントに含まれていたりするのです。

 その意味でもシフトJISが載っているのは便利なのですが、今のパソコンの状況から見るとやはりUnicodeも載せておいてほしい気がします。あれもこれもというわけにはいかないでしょうけれど……。

 なお、この「新漢語林」は、「新選漢和」と同様、JIS第1・第2水準は区点番号だけで表し、第3・第4水準にそれぞれ「1」「2」を小さく付けています。意味合いは先に述べた通りです。

 

■Unicodeがあったりなかったり

 

 上述の三つの辞書が補助漢字までカバーしているのに対し、「全訳漢辞海」「新明解現代漢和辞典」は、補助漢字の全文字収録はうたっていません。それぞれの凡例によれば、「全訳漢辞海」はJIS第1~第4水準を含む約12500字、「新明解現代漢和」は第1~第4水準を含む約10700字を収録しています。

 この二つの辞書の文字コードの記載形式は次の通りです。

 今回例に挙げた7字のうち、第1~第4水準に含まれないが補助漢字には入っている「噩」と「筷」を見ると、前者は「全訳漢辞海」と「新明解現代漢和」の両方に載っていますが、後者は文字そのものがどちらの辞書にも載っていません。補助漢字に入っている字には、収録されているものとされていないものとがある、ということです。実際のところ、補助漢字には現代日本語にあまり縁がないものも多く、小型の漢和辞典がそこまで字数を増やすべきか判断が分かれるのは自然なことだと思います。

 そんなわけでこの二つの漢和辞典には、補助漢字の区点番号を示す欄が無く、掲げているコードはJIS第1~第4水準とUnicodeの二つです。「補助漢字かどうか調べたい」というとき、この辞書からはその情報は得られません。

 第1~第4水準の欄を見ると、同じ版元ながら、区点番号の前に付ける数字が「面」(1または2)だったり「水準」(1~4)だったりと異なっているのが面白いところです。

 このほか、「」のUnicode欄を比べると、「新明解現代漢和」は「212FD」と記しているのに対し、「全訳漢辞海」は何も示していません。この字に限らず、どうやら「全訳漢辞海」は、Unicodeのうち2001年に拡張された5桁表記の領域(2xxxx)についてはコードを載せていないようです。

 JIS第3・第4水準のうち、対応するUnicodeが「2xxxx」であるものは、2000年に第3・第4水準が制定された時点では対応するUnicodeの値がまだ正式に決まっていなかったのですが、2004年のJIS改正で発行された規格票(追補)にはきちんと記載されていますので、これをその後の辞書にあえて載せない理由はちょっと思いつきません。同じ出版社があとから出した「新明解現代漢和」が5桁のUnicodeも載せているので、あるいは「全訳漢辞海」においても今後の改訂時に追記されるのでしょうか。

        ◇

 文字コードを載せることは漢和辞典にとって主たる仕事ではありませんし、その記載方法がその辞書の価値を大きく左右するなどとは、もちろん筆者も考えていません。

 しかし、「情報機器の普及」が29年ぶりの常用漢字表改定につながったように、現代の漢字にとっては文字コードとの関係も大事な要素のひとつです。

 漢和辞典における文字コードの記載には、上述のように補助漢字への対応のほか、Unicodeの取り扱いなどいくつかの点で方針の違いが見られます。次回以降、こうした細かな特徴を見ていきたいと思います。

(つづく)

(比留間直和)