メインメニューをとばして、このページの本文エリアへ

文字

文字@デジタル

続・Win8で味わう「IVS」

比留間 直和

 漢字を表すコードの後ろに「枝番号」(Variation Selector)をつけることで異体字を表す仕組み「IVS」(Ideographic Variation Sequence)に、Windows8のMSフォントが対応したことを前回紹介しました。XPまで(JIS90)とVista以降(JIS2004)とで字体が異なる主な漢字について、字体変更前の形を、このIVSの仕組みで出せるようになりました。Windows8付属のMS-IMEでは、初期状態から設定を変えれば「1点しんにょうの辻」と「2点しんにょうの辻」の両方が変換候補に出てくるようになります(MS-IMEの設定などは前回を参照)。

 
 「辻の場合、1点しんにょうのほうだけ枝番号付きなんだったね」
 「ええ、MS-IMEの変換候補に出てくる『2点しんにょうの辻』は、そのUnicodeを調べると『8FBB』だけですが、『1点しんにょうの辻』は『8FBB E0100』と枝番号付き、つまりIVSで表されています」

 

 

 

 「変換候補の右側に『環境依存』と付いてるけど、これが『枝番号が付いてます』って意味?」
 「この場合はたまたまそうですが、枝番号付きじゃなくてもJIS第1・第2水準以外の字を含む候補ならこのコメントが出てきます。『鄧小平』とか『鷗外』とかがそうですね。だから、枝番号付きかどうかを直接表すわけではありません」
 「そうなんだ。ところで辻の場合、決められている枝番号って、この E0100 だけなの?」
 「いえ、最新の漢字字形データベースには、E0100 から E0105 まで6個が登録されてます」
 「そんなに?」
 

 ユニコードコンソーシアムが管理している漢字字形データベース(IVD=Ideographic Variation Database、http://www.unicode.org/ivd/)の最新版に登録されている辻の字形は、以下の6個です。

 

 

 「2点しんにょうもちゃんと入ってるんだね」
 「Unicodeでは『8FBB』に2点も1点も統合されていて、MSフォントで8FBBが2点しんにょうなのは、『たまたまMSフォントだとそうである』に過ぎません。でも枝番号つきなら、2点しんにょうを意図している場合も1点しんにょうを意図している場合も、そのことがはっきりするわけです」
 「……あれ、2段目にあるのは『点なし』と『3点』か。こんな字、本当にあるの?」
 「戸籍などの文字を集めたものですから、まあ何というか、実にいろんなのが入っているんです。これくらいで驚いてはいけません」
 「それから、1個目と3個目はどっちも1点しんにょうで、2個目と4個目は2点しんにょうだよね。それぞれ同じに見えるけど、一体どこが違うんだい?」
 「ああ、特段の違いは無いですね」
 「どういうこと?」

 

■独立した2つの「コレクション」

 

 現時点でこの漢字字形データベースには、二つの「コレクション」が登録されています。個々の字の「出どころ」が2種類ある、ということです。

 まず一つは「Adobe-Japan1コレクション」。アドビシステムズ社が規定した、日本語フォントのための字形集合です。DTPで使われるCIDフォントはふつうこのAdobe-Japan1に準拠しており、DTPソフトなどでは、個々の字形に割り振られた番号(CID)を直接指定するなどして、UnicodeやJIS漢字といった文字コードだけでは区別できないさまざまな字形が使えるようになっています。IVSのための漢字字形データベースには、Adobe-Japan1から延べ1万4679の漢字(一部重複あり)が登録されています。

 もう一つが「汎用電子コレクション」。上の画像で、字形の下に「Hanyo-Denshi」と記されているのがそれです。個々の自治体などでバラバラに管理されている「外字」の解消をめざして経済産業省が進めた事業「汎用電子情報交換環境整備プログラム」で収集・整理された住民基本台帳や戸籍の漢字計約5万9000のうち、これまでに1万3045字(一部重複あり)が枝番号つきで表す対象としてデータベースに登録されています。

 この二つのコレクションには共通する字体が多数ありますが、統合はせず、別々の枝番号が割り振られているのです。

 
 「じゃあ、辻でいうと、E0100とE0102のどちらの枝番号を使っても1点しんにょうが出てくるの?」
 「フォントによって事情が違います。MSフォントの場合、E0100だと1点になりますが、E0102だと2点のままなんです」
 

 「IVS対応」をうたっていても、具体的にどの枝番号に対応しているかは、フォントによって異なります。下の表は、IVSに対応している主なフォントで実際に「辻」がどう表示されるか示したものです。

 ※MS明朝はWindows8付属のVer.5.10、小塚明朝は「小塚明朝 Pr6N R」、IPAmj明朝はVer.002.01、花園明朝は2012年4月21日版を使用しています。

 

 MSフォントの場合、JIS90の字形を出すために使っている枝番号は「Adobe-Japan1」コレクションのもので、汎用電子コレクションには対応していません。漢字字形データベースでは枝番号E0102も「1点しんにょうの辻」が登録されていますが、MSフォントでは「8FBB E0102」は1点しんにょうの辻にはならず、枝番号を付けないときの形、つまり2点しんにょうが出てきます。IVSではこのように、当該フォントが対応していない枝番号に対しては、そのフォントの標準(枝番号なし)の字形が表示されることになっています。E0104の「点なし」やE0105の「3点しんにょう」もMSフォントには含まれていないので、やはり2点しんにょうになります。

 
 「汎用電子の『E0103』はMS明朝でもデータベースの登録どおり『2点』になるみたいだけど、それは?」
 「MSフォントが枝番号なしのときに出す形がたまたま『2点』で、E0103と結果的に一致しているというだけですね」
 「なるほど」

 

■「どのフォントか」情報 必須

 

 ほかのフォントも見てみましょう。

 Adobe-Japan1準拠のDTP用フォントである小塚明朝も、IVSではAdobe-Japan1コレクションにだけ対応しており、汎用電子コレクションにはやはり対応していません。MSフォントと違ってAdobe-Japan1コレクションの非常に多くの字形を使うことができるのですが、この「辻」に関してはMSフォントと同じ状況です。

 IPAmj明朝は「汎用電子情報交換環境整備プログラム」を引き継いだ「文字情報基盤整備事業」で開発されたフォントで、戸籍などの人名表記に使うことを目的としています。こちらは汎用電子コレクションを採用しており、Adobe-Japan1コレクションには対応していません。なお、現時点のIPAmj明朝は、漢字字形データベースの最新版ではなく一つ前の版(2010年11月14日版)に準拠しているため、辻の場合、E0104の「点なし」やE0105の「3点しんにょう」は搭載されていません。

 花園明朝は、双方のコレクションをカバーしたフリーのフォントです。最新版の漢字字形データベースの字をすべて含んでおり、IVS対応フォントとしては目を引きますが、フォントメーカー等ではなくボランティアによって作成された字形であることに留意が必要です。

 このように、「どのコレクションに対応しているか」はフォントによって全く異なります。Windows8のMSフォントとMS-IMEを使って「1点しんにょうの辻」を入力した場合、その字のコードはAdobe-Japan1コレクションの「8FBB E0100」ですから、このデータをそのままIPAmj明朝で表示させると、枝番号なしのときと同じ「2点しんにょうの辻」に見えてしまいます。

 IVSは文字コードだけで細かい字形を区別できる便利な仕組みですが、「どのフォントで表示させるか」を常に意識し、ほかの人にデータを渡すときにはその情報も伝えなければならないわけです。「IVS対応」だけで安心することはできません。

(つづく)

(比留間直和)

 ◆ 1月7日の更新は休ませていただきます。次回は1月21日に更新します。