Впервые искусственный интеллект (ИИ) смог добиться более высокой точности, чем люди, в распознавании повседневных разговоров. В будущем технология может служить основой для автоматических переводов.
Цифровые помощники, такие как Alexa, Cortana или Siri, позволяют автоматически транскрибировать устные тексты и переводы. Для этого в системах распознавания речи используются искусственные нейронные сети, которые с помощью библиотек назначают акустические сигналы отдельным слогам и словам. Теперь результаты очень хорошие, когда к помощникам обращаются напрямую или когда текст читается вслух. Однако в повседневной жизни по-прежнему часто возникают проблемы, которые, как показало недавнее исследование Ruhr-Universität-Bochum (RUB), также могут привести к непреднамеренной активации речевых помощников из-за неправильно понятых сигнальных слов.
Разговоры между несколькими людьми в настоящее время также часто вызывают проблемы. По словам Алекса Вайбеля из Технологического института Карлсруэ (KIT), «люди прерывают разговор, заикаются, наполняются звуками типа« ах »или« хм », а также смех или кашель. Кроме того, как объясняет Вайбель, «слова часто произносятся нечетко. В результате даже людям сложно создать точную транскрипцию такого неформального диалога. Однако еще большие трудности создает искусственный интеллект (ИИ).
Повседневные разговоры проблематичны для ИИ
Согласно препринту, опубликованному arXiv, ученым из Вайбеля теперь удалось разработать ИИ, который расшифровывает повседневные разговоры быстрее и лучше, чем люди. Новая система основана на технологии, которая переводит университетские лекции с немецкого и английского языков в режиме реального времени. Так называемые сети кодировщиков-декодеров используются для анализа акустических сигналов и присвоения им слов. По словам Вайбеля, «распознавание спонтанной речи – самый важный компонент в этой системе, потому что ошибки и задержки быстро делают перевод непонятным.
Повышенная точность и уменьшенная задержка
Теперь ученые KIT значительно улучшили систему и, в частности, значительно сократили латентность. Вайбель и его команда использовали подход, основанный на вероятности определенных словосочетаний, и связали его с двумя другими модулями распознавания.
В стандартизированном тесте новая система распознавания речи прослушивала отрывки из набора около 2000 часов телефонных разговоров, которые система должна была автоматически расшифровать. По словам Вайбеля, «уровень человеческих ошибок здесь составляет около 5,5 процента. ИИ, с другой стороны, достиг всего 5,0 процента ошибок, впервые превзойдя людей в распознавании повседневных разговоров. Время ожидания, то есть задержка между поступлением сигнала и результатом, также очень короткое и составляет в среднем 1,63 секунды, но еще не совсем близко к средней задержке в 1 секунду для человека.
В будущем новую систему можно будет использовать, например, в качестве основы для автоматических переводов или для других сценариев, в которых компьютеры должны обрабатывать естественный язык.