50 лет системам распознования речи

Май 11, 2012

50 лет системам распознования речи

50 лет назад (21 апреля 1962) на Всемирной выставке в Сиэтле широкой общественности был представлен компьютер IBM размером с коробку для обуви. В тени футуристических Space Needle удивляющаяся публика видела, как машина могла понимать устную арифметическую задачу «5 плюс 3 плюс 8 плюс 7 плюс 4 минус 9, вместе» по-английски и выдавать правильный ответ «17». После даты IBM еще почти 20 лет потребовалось для развития первого персонального компьютера.

Если быть еще точнее, автоматизированное распознавание голоса даже на десять лет старше. Разработанная в 1952 году американским Bell-лаборантом, система “Одри”, должна была распознавать отдельные числа. «Нужно было делать между числами, однако, длинные паузы, чтобы Одри, вообще, смогла понимать цифры», говорит профессор Ханс Усцкорайт из Немецкого научно-исследовательского центра для искусственного интеллекта (DFKI) в Берлине.

Следующей вехи распознавания языка достигали в семидесятые годы в университете Carnegie Mellon с массивным содействием американского Министерства обороны и его агентства DARPA. «Harpy» владел языковым запасом в 1000 слов. И это продолжалось следующие 10 лет, до тех пор, пока не смогли достичь следующей степени развития. Исследователи позволяли своей системе в восьмидесятые годы анализировать не только отдельные устные слова, но рассматривать отдельные фразы.

На основе, названой в честь русского математика Андрея Маркова, «Hidden Markov Model» была рассчитана статистическая вероятность того, что данное слово следует за другим. Таким образом, система может лучше различать разные наборы сходных по звучанию слов. “Фраза – “я мою пол”, так же вероятна, как “я мою стол””, говорит эксперт Усцкорайт.

В девяностые годы распознавание речи достигало персонального компьютера: в то время между собой конкурировали IBM, Дракон, Philips, бельгийский специалист Lernout и Hauspie, а так же Microsoft, со своим программным пакетом распознавания голоса для клиентов. После лопания “интернет-пузыря” в 2000 году последовал трудный период консолидации на рынке.

Lernout и Hauspie купил Dragon Systems в 2000 году, а годом позже ScanSoft принял технологию распознавания языка бельгийцев, включая торговый знак NaturallySpeaking Дракона. В сентябре 2005 года, снова ScanSoft принял Nuance и был переименован в Nuance Communications. За последние десять лет Nuance принял снова длинный перечень небольших компаний-специалистов и закончил распознавания речи технологиями IBM и Philips.

Новое движение в отрасли сделала система обработки речи в прошлом году, Siri от Apple, которая на iPhone 4S получила роль персональных цифровых помощников. Siri базируется на научно-исследовательском проекте, финансируемого американским военным агентством DARPA, а затем выделена в отдельную компанию – до того, как Apple поглотила компанию в 2010 году, по оценкам, за 200 миллионов долларов. В Siri, записанные звуки передаются по сети на сервер, где они анализируются. Реакция системы в свою очередь, поступает обратно в iPhone.

Похоже функционируют также системы распознавания речи Google и Microsoft, которые оснастили маленькими символами микрофона в браузере сеть, чтобы слушать. Также здесь устные данные на серверах в США загружаются и способствуют тому, чтобы коэффициент узнавания систем постоянно мог улучшаться. Однако, в конечном счете хитроумные системы Apple, Google и Microsoft работают по статистическим методам анализа девяностых годов.

Однако, в частности, в Google исследователи работают уже над следующим поколением распознавания языка, при котором полные предложения исследуются после его значения. «Не случайно, что Google переименовал внутренне область “Поиск” в “Knowledge” (знание), говорит эксперт распознавания языка Усцкорайт. Если системы распознавания языка учат значение слов и предложений, то будет становиться реальностью, также видение, которое прогнозировал основатель Microsoft Билл Гейтс в своей книге “Der Weg nachvorn”, где он уже предсказывал в 2007 году, что можно будет беседовать с машинами почти, так естественно, как с людьми.

ads

Узнайте больше на TechFever о: