Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” (Спенсер) - страница 5

Еще один распространенный источник ошибок, характерный для всех типов OCR, интерпретация отдельных дефектов и пятен на бумаге как знаков пунктуации или диакритики. Эта проблема особенно актуальна для “Летописи журнальных статей” при использовании греческого алфавита, поскольку внутри греческого алфавита в системе символов Unicode существуют некоторые буквы, представляющие собой производные от основного алфавита буквы с дополнительными tonos (U+0384) или dialytika (U+0308). Наш опыт показывает, что часто плохо пропечатанная или неразборчивая латинская заглавная I (U+0049) распознавалась системой OCR как заглавная греческая “Иота” c диалитикой (U+03AA) или заглавная греческая “Иота” c тонос (U+038A). Таким образом, в дополнение к ошибкам, допускаемым OCR при распознавании визуально идентичных символов, существует проблема производных символов, которая также ведет к снижению точности распознавания. Заглавная иота со связанными производными формами представляет собой большую проблему поскольку латинская заглавная “I” (U+0049), за которую ее чаще всего неправильно принимает OCR, обычно стоит в тексте обособленно, в особенности в составе римских чисел. Другие греческие буквы, имеющие производные формы, в частности “эпсилон” с tonos (U+0388) и “эта” с tonos (U+0389), и латинские и кириллические буквы, за которые их ошибочно принимают, как правило, встречаются внутри слов, так что их проверка по встроенным словарям OCR позволяет устранить большинство подобных ошибок. Тем не менее, эта проблема не сводится только к распознаванию, поскольку производные символы существуют во многих вариантах латинского шрифта, используемого в качестве основы французского, чешского и многих других алфавитов. 

В частном случае проекта “Летопись журнальных статей”, где основной объем текста представлен на кириллице, были предложены следующие возможные решения: удаление греческого языка из набора задаваемых параметров распознавания с последующей ручной корректировкой текста в тех местах, где встречается греческий; удаление из задаваемых параметров и греческого, и латинского, с последующей ручной корректировкой; и полное распознавание всех трех шрифтов и корректирование всех ошибок, возникающих в результате данного набора установок, на стадии ручной корректировки.

 Было установлено, что в проекте “Летопись журнальных статей” количество фактически встречающихся в документе греческих символов значительно меньше, чем количество ошибочно введенных в текст греческих символов при обработке системой OCR. Таким образом, мы решили что в нашем конкретном случае общий результат в плане точности распознавания текста на выходе из системы OCR существенно улучшится если удалить греческий язык из системы требований для распознавания, и внести в текст отдельные встречающиеся греческие символы впоследствии вручную.