Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” (Спенсер) - страница 6

Далее, было выявлено, что количество неправильно распознанных производных латинских символов намного превосходит их реальное количество в тексте. Поэтому было решено ограничить распознавание латинских символов базовым набором без производных символов, также как и в случае с греческими символами, с последующим внесением производных латинских символов в текст на стадии ручного корректирования. Если предположить, что текст состоял бы из более или менее равноценно представленных фрагментов текста на разных языках, вполне возможно, что данное решение не было бы наилучшим.

Проект “Летопись журнальных статей” имел определенные преимущества, поскольку практически весь объем текста на кириллице был русским, и мы имели возможность задать конфигурацию системы OCR с целью распознавания только тех символов кириллицы, которые принадлежат к русскому языку. Это позволило исключить еще несколько символов, имеющих изображение, похожее на латинские буквы, например, J (U+0408) и S (U+0405), используемые в сербской разновидности кириллицы.

Для будущих проектов перевода в электронный формат с использованием нескольких наборов шрифтов важным этапом планирования будет правильное определение набора шрифтов, необходимых для включения в стадию OCR при реализации проекта. Чем меньше количество наборов шрифтов в задаваемых параметрах распознавания, тем меньше количество возможных комбинаций идентичных или похожих символов, которые OCR может распознать неправильно. По нашим оценкам наличие в “Летописи журнальных статей” шрифтов помимо русского алфавита, являющегося разновидностью кириллицы, и как следствие данной установки уменьшение точности OCR, втрое увеличивает количество времени, необходимое для корректирования текстов на выходе из системы OCR по сравнению с результатом, получаемым при указании в параметрах распознавания исключительно русского текста.

По мере развития проектов электронных библиотек от текстов с одним или максимум двумя языками в многоязыковом направлении вероятно расширение использования программного продукта Unicode для целей кодирования. В ближайшее время вероятно увеличение степени соответствия стандарту Unicode простых текстовых редакторов, редакторов XML и поисковых систем XML. Как следствие, выбор программного обеспечения для работы с текстами Unicode не будет требовать столь интенсивного тестирования. Тем не менее, Unicode по-прежнему представляет определенные проблемы для нынешнего поколения системы Оптического Распознавания Символов (OCR), которые не возникают при использовании традиционной восьми- битовой системы кодирования и, как следствие, строго ограниченных наборов шрифтов. Таким образом, использование Unicode в ситуациях, где достоинства данного продукта проявляются наиболее полно (многоязыковые тексты), одновременно порождает наибольшее количество проблем в плане точности распознавания. Вероятность подмены похожих символов, принадлежащих к разным наборам шрифтов, порождает возможные серьезные последствия в отношении точности OCR и в особенности точности и полноты наборов результатов, выдаваемых поисковыми системами. Использование Unicode при работе с некоторыми информационными ресурсами стало необходимостью в случае многоязыковых документов. Тем не менее, усложнение использования Uniсode в сочетании с описанными в данном докладе типами проблемных ситуаций следует принимать во внимание на стадиях планирования каждого проекта, который предполагает в будущем использование набора символов Unicode.