なぶんけんブログ|奈良文化財研究所に関する様々な情報を発信します。

全国遺跡報告総覧:類義語およびOCR誤認識用語検索機能の公開

以下の2つの機能を公開しました。より網羅的なテキスト全文検索を目指します。

キーワード検索時に類義語およびOCR誤認識用語(表記ゆれ)の登録がある用語の場合、検索結果にチェックボックスが表示されます。


〇類義語を含めた検索
専門用語の使い方は、専門家の認識や研究史に基づきます。ただし研究成果を社会に普及する観点からは検索性を確保する必要があります。そこで用語の類義関係を整理し、内部にシソーラスを構築することで、類義語も含めて検索できるようにしました。


〇OCR処理の誤認識用語を含めた検索
印刷物からスキャンした報告書データは、OCR処理によってテキストデータ化されています。しかし、似ている漢字については誤認識される場合があります。
 例) 石と右、文と丈
その場合、全文検索で検索結果に漏れが生じることになります。

そこで誤認識されやすい漢字をとりまとめ、専門用語と突合することによって、表記ゆれ専門用語約6万語を生成し、システムに組み込みました。


例)縄文土器の類義語とOCR処理の誤認識用語
https://sitereports.nabunken.go.jp/ja/search?all=%E7%B8%84%E6%96%87%E5%9C%9F%E5%99%A8

月別 アーカイブ