Занимательная анатомия роботов (Мацкевич) - страница 26

Учёные-бионики, преодолевая трудности, пытаются разгадать секреты слуха человека. К таким секретам относится, например, способность выделять нужный голос среди шума и десятков других голосов. Задача сложная, но нельзя отказываться от неё только потому, что она трудна.

Речь состоит из слогов, слов, фраз и т.д. Элементарной частью речи является звук (фонема). С физической точки зрения звуки речи различают по частоте, громкости и продолжительности. В речи нет чётких границ между звуками. Одни специалисты пытаются распознавать речь по фонемам, другие считают, что для этого следует использовать форманты частоты, присущие звучанию каждой буквы, произносимой человеком. Примером удачного решения задачи является фонетическая пишущая машинка, созданная учёными Г. Олсоном и Г. Беларом.

Устройство можно рассматривать как сложный аналог слухового аппарата, части мозга, нервной системы и нервно-мышечного аппарата человека, печатающего под диктовку. Бионическая схема человека, печатающего под диктовку, и схема фонетической пишущей машинки показаны на рис. 33. Чтобы понять принцип работы устройства, проследим, как перерабатывается звуковая информация по пути её следования.

Звуковая энергия улавливается наружным ухом человека, передаётся по слуховому проходу и воздействует на барабанную перепонку среднего уха. Механическое движение перепонки передаётся жидкости, которая заполняет улитку (внутреннее ухо), при помощи слуховых косточек, перемещающихся нелинейно. При этом происходит компрессия сигнала, т.е. более громкие звуки уменьшаются сильнее, чем тихие.

На рис. 33 показаны схематическое изображение «развёрнутой» улитки и частоты, воспринимаемые pa зличными её участками. Здесь происходит первичный анализ информации. Окончательно её анализирует мозг, куда сигналы поступают по слуховому нерву. На основе результатов этого анализа мозг вырабатывает команды, посылаемые мышцам руки, нажимающей на соответствующие клавиши пишущей машинки.

В машине, распознающей речь, голос оператора воспринимает микрофон и преобразует в электрические колебания.

После усиления и компрессии речевой сигнал поступает на анализатор частот – блок из восьми полосовых фильтров, охватывающих диапазон 250… 10000 Гц, и систему детекторов сравнения амплитуд. Последняя собрана так, что реле, соответствующее данному каналу, включается, лишь когда уровень в этом канале больше среднего в двух соседних.

Речь опознается по группе фонем, составляющих слог, а не по отдельным фонемам (так как распознать многие фонемы вне контекста очень трудно). В слоговой памяти хранятся комбинации сигналов, соответствующие различным произношениям одного и того же слога или слова. Распознавание слога представляет собой определённый вид процесса сравнения с имеющимися в слоговой памяти образцовыми матрицами звукосочетаний.