メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

にんべんならこの番号?

比留間 直和

 文字コードや漢字字体についてずいぶん書いてきましたが、社内や職場でこういう話が広く理解されている……とは限りません。

 ITスキルの高い新聞記者も増えてきましたが、全員がそういうわけではありませんし、昔ならばなおさら。記事を書く道具が原稿用紙からワープロ専用機、そしてパソコンに変わったころは、文字の取り扱いを理解してもらうのに苦労したものです。

 今回は、かつて筆者が遭遇した「ちょっとした勘違い」をいくつか紹介します。
 すべて実話です。

 

■事例1

 新聞記事をワープロ専用機で入力し、そのデータを電話回線で新聞製作システムに送信していたころの話。
 ある上司が原稿を作成中、ワープロに搭載されていない字が必要になった。本来なら、とりあえず〓(ゲタ)を入力しておいて、別途フォント部門に作字を発注すべきケース。
 本人は記者出身だったが既に一線を退いていたためその手順を知らず、手元のワープロの作字機能を使って独自の「ユーザー外字」を作り、それを送稿しようとした。

 筆者が入社3~4年目のころ、たまたま用があってその上司の部屋に行ったところ、ワープロ専用機の画面を凝視して、漢字の部首を組み合わせていたのでした。それを文中に使って新聞製作システムに送稿すれば紙面にその字を載せられると思っていたようです。「そうやってもダメですよ」と教えたところ「えっ、そうなの?」とたいへん驚いていました。

 テキストデータをやりとりする際に行き交うのは「文字の形そのもの」ではなく「個々の文字にあらかじめ与えられた番号」、というのは文字コードの基本中の基本。しかしそのことをあまりイメージできないままワープロやパソコンを使って(使わされて)いた人も少なくなかったようです。

 小社では(おそらく同業他社も)ワープロ専用機の時代から、市販の機器にはない新聞用の外字(2桁のアラビア数字やテレビ欄の記号など)を記者のマシンにあらかじめ仕込んでおき、記者が入力・送稿できる仕組みを整えていました。これは、原稿を受ける本社システム側にも「このコードが来たらこの字」という準備があるからこそ可能なのであり、それなしに勝手に外字を作って送稿しても、ゲタになるか別の字に化けてしまいます。

 

■事例2

 10年あまり前の話。
 自社の記事データベースを利用した、ある部の部長。故・鄧小平氏の「鄧」が、紙面では漢字なのにデータベースで表示されるのは片仮名の「トウ」になっているのはなぜか、と隣の部署にいた筆者に尋ねてきた。分かりやすいように「パソコンに無い字だからです」と答えると、けげんな顔をして「こんなによく使う字なのに、うちのデータベース部門はなんでこの字を追加しないんだ」。

 パソコンで表示される字はそれぞれのマシンにあらかじめ搭載されたものであり、記事データベースの提供元が自由に追加できるものではない、ということがよく分かっていなかった例です。

 この「ことばマガジン」のようにHTMLで画像を使うなどの手法を使えば、普通のパソコンに無い文字でも「見せる」ことはできますが、テキスト形式の記事データベースでは、使用する文字コード規格に入っていない字はひらがなやカタカナに置き換えたり、別途「字解き」をしたりするほかありません。

 なお、「鄧」はJISの第1・第2水準にはありませんが、JISの補助漢字や第3水準、そしてUnicodeには入っており、今のパソコンならばほぼ間違いなく表示できます。しかしこの種のサービスはたいてい、最も基本的な文字コードである第1・第2水準の範囲で運用されているため、「鄧→トウ」とカナになっているのです。

 

■事例3

 十数年前に校閲にいた、あるデスクの話。
 当時、職場で部員同士が文字コードについて話していたところ、得意げな顔で割り込み「そうそう、漢字を番号で表すやつね。にんべんがつくと何番で、さんずいだと何番とか決まってるんだよな」。

 文字を番号で表すことは分かっていたのですが、惜しい!という感じです。JISの第2水準やUnicodeの漢字などは一応「部首順」に並んでいるので、「このへんにはにんべんの字が固まっている」といったことはあるのですが、コードの値が漢字の構成要素といちいち対応しているわけではありません。

 「そんなデスクがいたねえ。でも、文字コードが漢字の部品と対応しているって、どうしてそう思っちゃったのかな」
 「もしかすると、四角号碼(しかくごうま)のイメージがあったのかもしれませんね」
 「四角号碼?」

 四角号碼というのは中華民国時代の中国で考案された漢字の検索法で、「号碼」は中国語で番号のこと。漢字の左上、右上、左下、右下の四隅の形に従い、4桁の数字でその字を表すものです。日本でも「大漢和辞典」などは音訓索引や総画索引のほかに、この四角号碼による索引を設けています。

 「例えば朝日の『朝』は?」
 「左上が『十』で4、右上が『¬』で7、左下が『十』で4、右下が『亅』で2。つまり『4742』です」
 「部首ではないけど、形から番号が決まっているということか。でも、同じ番号になる字がほかにもあるんじゃない?」
 「だからもう一つ、右下のパーツのすぐ上の形で第5の数字をつけるのがふつうです。それでも同じ番号の字が少なからずありますが、これは文字コードではなくて辞書などを検索するためのものですから、重複があってもいいんですよ。漢和辞典の音訓索引でも、同じ音訓の漢字がどっさりあるでしょう」
 「なるほど」

 

■事例4

 1990年代の終わりごろから、古い用語関係資料を部内で検索できるよう、過去にさかのぼって電子データ化を進めた。
 このうち、「カツシカのカツ」の字体に関する社内文書をパソコンに打ち込む際、略字の「」にはパソコンに搭載された文字を使い、康熙体の「」は〓(ゲタ)で表した。
 しかしその後、JIS漢字改正でパソコン上の「」が「」に変わったため、電子化したデータを新しいパソコンで表示させると、「」のつもりだったところが「」になり、一部意味が通じなくなった。

 JIS漢字において「カツシカのカツ」の字体が複雑な経過をたどっていることは、これまでにも触れたとおりです。1978年のJIS制定時はだったのが83年の改正でに。90年と97年の改正ではそのままで、2004年の改正で再びになりました。Windowsに標準搭載されるMSフォントは、XPだと、Vista以降はが表示されます。

 上の事例は、当時のパソコンに搭載されていた略字のが別の字体に変わりうることを想定していなかったものです。

 「入力する時点では、JIS漢字が変わるなんて分からなかったんじゃないの」
 「でも、この作業をしたころはちょうど国語審議会で表外漢字の字体が議論されていて、JIS漢字の字体変更もささやかれていました」
 「実は予想できていた、ってことか」
 「字体変更は別にしても、もともとJIS漢字は細かい形まで統一する趣旨のものではありませんから、OSやフォントによって字体が違う可能性が常にあります。それを考えれば、画像を使うか、記号に置き換えて注釈を付けるなどの方法をとるべきでした」

 JIS漢字は1997年の改正で「包摂規準」が具体的に示され、についてもコード上は区別しない(同一のコードで表す)ことが明記されました。字体変更を経た現在もこの規定は同じで、今後も環境によってだったりだったりすることが考えられます。

 「包摂される範囲で字体が変わっても文句はいえないってことだね」
 「JISの規定としてはそういうことになりますね。フォントを埋め込んだPDFにしたりすれば、他のマシンでも同じ形で見えますが、純粋なテキストで表すときは要注意です」
 「だとすると、JIS漢字の包摂規準をいちいち調べないといけないってこと?」
 「第1~第4水準の規格(X0213)だと199種類もの包摂規準が示されていますけど、こんなふうに実務上問題になるのはある程度限られていますから、主なものを覚えておけばいいでしょう」

 過去に蓄積されたデータの意図を読み解くときや、漢字に関するデータを新たに作成するときに、JIS漢字の変遷や包摂規準を知っていると大いに役立ちます。特に、これから編集や校閲などの仕事で漢字と付き合おうという皆さんには、強くお勧めします。

          ◇

 上に挙げたエピソードはいずれも過去の出来事ですが、似たような勘違いは今も筆者の周りでしばしば起きています。
 今後も、こうした「文字コードの基本」にまつわる話を随時織り交ぜていきます。

 

(比留間直和)