Незаметная смерть распознавания речи

14.05.2010 — Новости Hi-Tech |

Размер текста:: A; A; A

Источник материала:

Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать искусственный интеллект. Но точность систем распознавания речи достигла своего пика в 1999 году и с тех пор застыла на месте. Академические тесты (cs.brandeis.edu/~marc/misc/proceedings/lrec-2006/pdf/802_pdf.pdf) 2006 года констатируют: системы общего профиля так и не преодолели уровень 80%, тогда как у человека этот показатель составляет 96-98%.

Профессор Роберт Фортнер из Media Research Institute считает, что создатели систем распознавания речи окончательно зашли в тупик. Программисты сделали все, что смогли, и у них не получилось. Спустя несколько десятилетий они поняли, что человеческая речь - не просто набор звуков. Акустический сигнал не несет достаточно информации для распознавания текста.

Сложность задачи можно себе представить. По некоторым оценкам (clas.mq.edu.au/infinite_sentences/index.html), количество возможных предложений в человеческом языке составляет 10⁵⁷⁰. В документированных источниках зафиксирована лишь малая их часть, так что систему невозможно научить, даже если "скормить" ей все тексты, созданные людьми.

У многих слов в языке - сотни или тысячи значений. Выбор конкретного значения зависит от контекста, то есть от окружающих слов. В устной речи он еще зависит от выражения лица или от интонации.

Наш мозг способен генерировать текст совершенно произвольно, используя интуитивно понятные правила функциональной грамматики и усвоенную с возрастом семантическую парадигму каждого слова. Эти правила описывают, какие слова могут сочетаться друг с другом и каким образом (через какие функциональные элементы). Значение каждого слова зависит от значения предыдущего слова, а в сложных случаях наш мозг распознает речь лишь по обрывкам фраз, зная контекст.

Базовые правила функциональной грамматики понятны каждому человеку, но их никак не удается формализовать, чтобы стало понятно и компьютеру. А без этого никак. Когда компьютер пытается распознать ранее не встречавшиеся ему предложения, он неизбежно будет допускать ошибки в распознавании, если у него нет грамматического парсера и словаря с семантическими парадигмами, встроенного в человеческий мозг.

Например, российские лингвисты когда-то попытались составить семантическую парадигму одного простого предлога русского языка (кажется, ПРИ). Они дошли до нескольких сотен значений, каждое из которых допускает свой набор последующих элементов. И это был явно не полный список.

По грамматике предлогов проводятся целые научные конференции (www.philol.msu.ru/~lex/gsp/gsppart.php, некоторые ученые всю жизнь изучают предлог ПО и не могут до конца раскрыть его тайны). А ведь подобное описание требуется для каждой морфемы человеческого языка, включая приставки и суффиксы. Только после этого можно будет приступить к программированию компьютерных систем распознавания речи. По силам ли человечеству эта задача? Ведь нужно учесть еще, что парадигма каждого элемента человеческой речи постоянно меняется, ведь язык живет своей жизнью и все время эволюционирует. Как компьютерная система сможет самообучаться?

Самый поверхностный анализ опубликованных компанией Google в Интернете текстов позволил выявить триллион объектов (googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html). Это лишь мизерная часть морфем, из которых состоит наша речь. Google выложил 24-гигабайтный архив с текстами во всеобщий доступ и прекратил дальнейшие публикации по этой теме.

Проект MindNet по созданию "универсального парсера" компания Microsoft начала в 1991 году. Они пытались построить универсальную карту всех возможных взаимосвязей между словами. На проект потратили много сил и финансовых средств, но были вынуждены практически прекратить исследования в 2005 году.

Можно поставить точку и начинать все сначала, только другим способом (гораздо более сложным). Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьезной помощи лингвистов тут не обойтись, если задача вообще решаема.

Анатолий АЛИЗАР