Обмануть глаза проще, чем уши. Когда Юрий Гецевич набирает на клавиатуре предложение «Мама мыла раму» и его тут же произносит «говорящая голова» на мониторе, зрение соглашается: да, мимика по ту сторону экрана абсолютно достоверна. А вот слух все же сомневается в интонации. Еще ярче различия компьютерной и реальной речи слышны при воспроизведении большого фрагмента текста — не хватает эмоций. Поначалу это мешает, но стоит «настроиться на волну», и суть сказанного легко воспринимается. Тем не менее работа над созданием более совершенной, естественной речи — одна из главных задач, которую решают сегодня ученые под руководством Юрия Гецевича, и.о. заведующего лаборатории распознавания и синтеза речи Объединенного института проблем информатики НАН.
Интонации хорошие, но хромают
Казалось бы, говорящие компьютер и мобильник — не новость, сейчас без проблем можно купить программы, озвучивающие текст. Однако коммерческие компании, адаптирующие саму идею синтеза речи для применения в конкретных областях, «впереди паровоза» не бегут — используют исключительно наработанное наукой. Юрий Гецевич обращает внимание, что во всех синтезаторах, присутствующих на рынке, сильно хромают интонации — длинные предложения произносятся так, что после одной–двух страниц текст слушать невозможно, у них сравнительно небольшое количество интонационных контуров и правил их применения, а значит, в голосовом варианте проявляются неточности.
Как правило, компании ждут новых научных публикаций и уж затем берут свежие наработки на вооружение. Так, например, произошло с обработкой и проговариванием чисел в тексте, которых еще несколько лет назад не было ни у кого, а сегодня это обычная опция. Озвучивание текстов — вообще одна из самых сложных областей, и белых пятен, над которыми еще трудиться и трудиться, тут хватает. Например, Юрий Гецевич сейчас занят тем, чтобы машина могла понять и правильно прочитать вслух разные сочетания цифр и букв, аббревиатур, сокращений, автоматически ставила ударения в новых (неизвестных для синтезатора) словах. Ведь далеко не все при написании придерживаются правил. Его диссертация посвящена лингвистической обработке текста для синтезатора речи: «Мы даже в незнакомых фамилиях можем поставить ударения — а как научить машину искать такие, интуитивные решения? Есть и еще более интересная задача: слова–омографы. В русском и белорусском их не так много, около 10 тысяч, но они так портят картину! Как компьютеру разобраться — правильно сказать «приобретает все бОльшую популярность или большУю? В белорусском языке я знаю тройные омографы. Например, «прыгожая казачка распавяла казачку свайму казачку»... Да, у нас есть система, которая ищет слова–омографы, но рано или поздно мы все равно сталкиваемся с тем, что машина не в состоянии воспринять смысл, контекст». Поэтому–то совершенствование синтеза речи — задача того же уровня, что и создание искусственного интеллекта.
Из чего сшито слово
С тех пор как на молодежном инновационном форуме Национальной академии наук проект Юрия Гецевича и Дмитрия Покладка — синтезатор русской и белорусской речи по тексту для стационарных и мобильных платформ был признан лучшим, произошло много чего. Он был презентован на конференции, посвященной искусственному интеллекту OSTIS–2012, участвовал в инновационной неделе, получил диплом на «ТИБО–2012». На выставки приглашают постоянно. Ведь именно эти молодые ученые научили компьютер и мобильный телефон говорить по–белорусски. Раньше синтезатора «роднай мовы» попросту не существовало!
Добиться, чтобы компьютер заговорил, — огромный, кропотливый труд. Записывается голос реального человека, раскладывается в специальной программе, показывающей мельчайшие колебания звука, нарезается на «детали» — аллофоны (мельчайшие вариации фонемы) — ведь та же буква «а» в ударном и безударном слогах и произносится по–разному. В итоге складывается база из тысяч аллофонов. А уже потом создаются алгоритмы, которые вынимают из этой базы нужные детали слова, которое надо воспроизвести. «Сшивают» слово из мельчайших кусочков. Интересно, что при записи голоса диктору вовсе не нужно начитывать объемные произведения. Ученые разработали специальный сбалансированный текст, на шесть минут читки, в котором есть все необходимые фонемы.
Естественно, у программы, переводящей текстовые файлы в звуковые, должны быть обширный словарь и система его пополнения — детище Юрия Гецевича оперирует более чем двумя миллионами слов русского и белорусского языков.
Айфонов не надо
Первым на восточноевропейском пространстве 40 лет назад начал учить компьютеры проговаривать набранный текст Борис Лобанов, главный научный сотрудник лаборатории распознавания и синтеза речи Объединенного института проблем информатики. Он и создал базис, на котором синтез речи совершенствуется сейчас и у нас, и в России, — кстати, по большей части учениками Бориса Мефодьевича. Юрий Гецевич — один из них. Он достает старенький мобильный со словами: «Специально храню, чтобы не думали, что для наших программ нужны навороченные айфоны. Это экспериментальная программная модель мобильного синтезатора речи по тексту, сделанная в нашей лаборатории. Она требует всего 2 мегабайта памяти и поэтому может работать на самых простых приспособлениях». И вот синтезированный голос нараспев начинает читать «Зорку Венеру». Так же можно озвучить и эсэмэску, и имя звонящего. Был бы текст!
Разработана и компьютерная система создания аудиокниг. Недавно тут со студентами–практикантами перевели учебник «Грамадазнаўства» за 10–й класс в звуковой вариант — это заняло всего около недели. Студенты говорили, что такой реально нужной для людей практики у них еще не было. «Говорящая библиотека» уже существует. Например, она работает в молодечненской школе для детей с нарушениями зрения. Вообще для тех, у кого проблемы со зрением, программа синтеза речи — находка. Книги со шрифтом Брайля дорогие, не говоря уже о том, что литературных новинок среди них не найдешь. А тут программа переведет в звуковой вариант любое произведение, электронная версия которого есть в сети. Создана в лаборатории и обучающая программа для тех, кому надо научиться говорить, например, после инсульта: слова произносит «говорящая голова» на мониторе, мимику которой можно воспроизводить даже в замедленном режиме, чтобы правильнее ей подражать.
А самая свежая разработка делает систему синтеза применимой для систем оповещения: достаточно набрать нужную информацию, и голос объявит, когда и на какой путь прибывает поезд или какая остановка у троллейбуса следующая. Или — из новинок: телефонный робот. Сам наберет десятки номеров абонентов и каждому сообщит о задолженности с указанием конкретной суммы, лишь бы эти данные были в компьютере.
В ближайших планах ученых — создание интернет–версии программы синтеза речи. Вполне вероятно, что первым «заговорит» сайт Национальной библиотеки. Тогда любой посетитель сможет воспользоваться поиском книги «на слух», будет озвучиваться весь текст, на который попадет курсор «мышки», — рубрики, вкладки, разделы. В общем, серьезных наработок, которые позволяют применять синтез речи для образования, реабилитации, в банковской системе, на транспорте, в ЖКХ — масса. Осталось лишь потенциальным потребителям развернуться в сторону научных достижений и оценить их преимущества.
Скажешь «паровоз» — пишет «молоко»
А вот с мечтой писателей и журналистов — компьютером, который бы воспринимал голос и переводил его в текст, чтобы можно было начитывать поэмы и статьи, расхаживая по комнате, дело обстоит сложнее. Да, такие программы продаются и рекламируются, но ни одна из них пока не способна заменить набор текста. Как правило, более–менее достоверно они различают лишь голоса своих создателей, а с остальными дело обстоит так: произносишь «паровоз», а пишется «молоко». Юрий Гецевич объясняет малую их эффективность тем, что программе крайне сложно вычленить слова из потока живой речи и при этом их ни с чем не спутать. Однако решения ищут в том числе и наши ученые.