Windows標準のフォントだけで異体字(IVS)を扱う

Windows8以降であれば、Windowsに添付されているMS明朝、MSゴシック、メイリオのフォントだけで、IVS付の文字(異体字)を扱えることがわかった。

Unicode版msearchで異体字(IVS)が正しく扱えるかどうかを確認するためにIVS付の異体字について調べていたところ、Windows 8以降であれば、Windows添付のフォント(MS明朝、MSゴシック、メイリオ)だけでも、異体字が扱えることがわかった。(今頃になってようやくわかった、が本当のところだけれども。)

IPAmj明朝フォントほどには、多くの異体字を収録していないようだけれども、Windows標準のフォントで異体字(IVS)を扱えるというのは大きい。Webで使うことができるので。

まず、異体字の入力をできるようにするために、MS-IMEの設定を変更する。朱書きの箇所をたどっていき、「変換文字制限をしない」に設定する。こうすることで、異体字(IVS)も変換候補に表示されるようになる。

windows-ivs-01-01

windows-ivs-01-02

当方で確認した異体字(全部ではない)は、下記URLのページに列挙した。

https://www.marbacka.net/msearch/search-test-letters-utf8.php

そもそもの目的は、Unicode版msearchで、IVS付の異体字やBMP(基本多言語面)外の文字を正しく検索できるかどうかの再検証をすること。

Unicode版msearch開発当時(2004年)は、BMP外の文字を含んだフォントが一般的でなかった。そのため、BMP外の文字を多数含んだ検索テスト用のファイルを作成・インデックス化し、BMP外の文字で検索テストを行い、ブラウザの表示をバイナリエディタで調べて、BMP外の文字が正しく検索・表示されているかどうか、といった確認しか出来ていなかった。

Unicode版msearchは最初期のバージョンからUTF-8の4バイトでのエンコーディング、UTF-16のサロゲートペアに対応しているので問題ないとは思ったものの、再検証してみたくなった次第。

スポンサーリンク
スポンサーリンク
error: Content is protected !!