Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” (Спенсер) - страница 2

В силу многошрифтовой специфики “Летописи журнальных статей” использование обычных кириллических наборов символов таких как CP-1251, KOI-8 или ISO-8859-5 было явно недостаточно. Для полного отражения содержания “Летописи журнальных статей” необходимо применение не только кириллического шрифта, но и основного латинского алфавита с западноевропейскими производными символами, а также восточноевропейских производных символов и греческого шрифта. Так, при избрании к примеру наборов символов Микрософт (таблиц кодирования) необходимо будет одновременно использовать как минимум следующие наборы символов: CP-1251, CP- 1252, CP-1250 и CP-1253. Если же избрать в качестве основы соответствующие наборы символов ISO, необходимо будет использовать символы ISO-8859-5, -1, -2, -7. Современные компьютерные web-брoузеры могут показывать только один набор символов, что очевидно неприемлемо для текстовых источников, использующих несколько различных шрифтов. В информационном источнике, содержащем относительно небольшое количество символов, не входящих в избранный базовый набор символов, возможны обходные приемы такие как вставки графических символов или ссылки на графические примитивы. Однако такие способы делают проблематичным компьютеризированный поиск по таким текстам. Существует более обширный набор символов, явившийся попыткой выйти за пределы лимита символов в 256 знаков, WGL-4 (Windows Glyph List 4), по сути объединяющий в себе таблицы кодирования Windows CP-1250, 1251, 1252, 1253 и 1254. Однако с учетом избрания Unicode специалистами Microsoft для Windows NT/2000 семейства операционных систем, WGL-4 в настоящее время используется редко [5].

 На сегодняшний день наилучшим остающимся возможным вариантом кодирования многошрифтовых текстов является многобайтовая система кодирования символов Unicode. Unicode был задуман с целью разрешения проблемы “распространения множественных несопоставимых и неадекватных систем шрифтов”[2]. К сожалению в последующие с момента начала разработки стандарта Unicode годы были разработаны схемы кодирования, представляющие собой различные вариации на тему стандарта Unicode, такие как стандарт UTF (Unicode Transformation Format)-8, UTF-16 формат с обратным порядком байтов и UTF-16 с прямым порядком байтов. 

Использование Unicode для текстовых файлов, которые кодировались при помощи XML для “Летописи журнальных статей” предполагало принятие ряда других важных решений, таких как выбор редактора для кодирования и поисковой системы для обеспечения доступа к данным. Спецификация XML предполагает распознавание всеми XML синтаксическими анализаторами версий UTF-8 и UTF-16 стандарта Unicode[8]. Тем не менее комбинирование Unicode и XML постепенно развивается с использованием редакторов XML и XML поисковых систем. Кроме того, некоторые программные продукты используют UTF-8 в качестве дефолт- схемы Unicode, в то время как другие используют для этих целей тот или иной вид UTF-16.