Windows8以降であれば、Windowsに添付されているMS明朝、MSゴシック、メイリオのフォントだけで、IVS付の文字(異体字)を扱えることがわかった。
Unicode版msearchで異体字(IVS)が正しく扱えるかどうかを確認するためにIVS付の異体字について調べていたところ、Windows 8以降であれば、Windows添付のフォント(MS明朝、MSゴシック、メイリオ)だけでも、異体字が扱えることがわかった。(今頃になってようやくわかった、が本当のところだけれども。)
IPAmj明朝フォントほどには、多くの異体字を収録していないようだけれども、Windows標準のフォントで異体字(IVS)を扱えるというのは大きい。Webで使うことができるので。
まず、異体字の入力をできるようにするために、MS-IMEの設定を変更する。朱書きの箇所をたどっていき、「変換文字制限をしない」に設定する。こうすることで、異体字(IVS)も変換候補に表示されるようになる。
当方で確認した異体字(全部ではない)は、下記URLのページに列挙した。
https://www.marbacka.net/msearch/search-test-letters-utf8.php
そもそもの目的は、Unicode版msearchで、IVS付の異体字やBMP(基本多言語面)外の文字を正しく検索できるかどうかの再検証をすること。
Unicode版msearch開発当時(2004年)は、BMP外の文字を含んだフォントが一般的でなかった。そのため、BMP外の文字を多数含んだ検索テスト用のファイルを作成・インデックス化し、BMP外の文字で検索テストを行い、ブラウザの表示をバイナリエディタで調べて、BMP外の文字が正しく検索・表示されているかどうか、といった確認しか出来ていなかった。
Unicode版msearchは最初期のバージョンからUTF-8の4バイトでのエンコーディング、UTF-16のサロゲートペアに対応しているので問題ないとは思ったものの、再検証してみたくなった次第。