Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” (Спенсер) - страница 4

 Данная проблема предстает с особой очевидностью при использовании заглавных букв, где в частности (в зависимости от выбора типографских шрифтов) может не быть разницы в визуальном изображении греческой буквы “альфа”, кириллической “А” и латинской “А”. В отношении строчных букв, греческие буквы существенно отличаются по форме по сравнению с латинскими и кириллическими. Значение данной проблемы становится очевидным при принятии во внимание количества похожих символов в латинском, греческом и кириллическом алфавитах, учитывая что все три набора шрифтов имеют общее происхождение. Как и в случае заглавных букв, для строчных возможно более пятидесяти комбинаций ошибок, если в тексте используются все три алфавита. В более упрощенной ситуации, когда в тексте используются только кириллический и латинский шрифты, все же возможно большое количество ошибок. Оценить значение данной проблемы помогает Приложение, в котором представлены несколько примеров.

Наш опыт показывает, что большинство случаев ошибочного принятия символа из одного шрифта за символ другого программным продуктом OCR характерно для относительно изолированных символов, например, инициалов авторов, или изолированных символов римских цифр. Поскольку система OCR, которую мы используем, сопоставляет слова из текста с встроенными словарями, вероятность того, что она вставит букву из другого алфавита в середине слова, правильность которого была подтверждена одним из словарей, достаточно низка. Два фактора повлияли в сторону уменьшения неопределенности распознавания строчных букв при помощи OCR: прописные буквы как правило представлены в составе слов и эти слова сопоставляются со словарями, встроенными в программный продукт OCR; и меньшее количество идентичных (или похожих) строчных букв в указанных трех алфавитах.

К сожалению структура библиографических ссылок, составляющих “Летопись журнальных статей” соответствует стандартной русской библиографической практике, в соответствии с которой практически все имена представлены в формате “фамилия плюс инициалы”. В данной ситуации ошибки OCR наиболее вероятны: одиночные заглавные буквы без контекста, по которому OCR могла бы определить к какому алфавиту принадлежит наиболее похожая буква. То обстоятельство , что за инициалом следует точка, не меняет дела в плане выбора соответствующего алфавита, поскольку часто встречающиеся знаки пунктуации универсальны по всей системе Unicode. Точке (в конце предложения) соответствует символ Unicode U+002E вне зависимости от того, какой текст ее окружает - на русском, греческом или каком-либо другом языке, имеющем в своей основе латинский алфавит. Таким образом, наличие точки не добавляет информации в отношении того, к какому шрифту относится пунктуация.