Unicode文字の正規化 #1688

masao · 2022-06-19T04:53:52Z

現行では、Solr検索インデックスの文字列処理には特に手を加えておらず、個別の異体字のあいまい検索などは追加設定をマニュアルに記載している： https://next-l.github.io/manual/1.3/enju_install_vm_6.html

しかし、多言語における異体字処理の一部は、Unicode正規化 (Unicode normalization) として標準化されており、これらの処理を標準的に行うように考えておくとよいと思う。

また、NACSIS-CATなどでの目録での文字の正規化処理も公開されており、これらも参考にするとよい：
https://catdoc.nii.ac.jp/MAN2/catmanual/cat_normalization.html

masao · 2022-06-19T04:56:23Z

関連: #1111 統合漢字インデックスの取り込み

masao · 2022-06-19T04:57:20Z

Provide feedback