Whisper и WhisperX: система транскрипции речи с точностью до времени от исследователей из Оксфорда

Основываясь на Шепотисследователи из Оксфорда разрабатывают WhisperX для эффективной отметки времени на уровне слов в длинные речевые транскрипции.

Благодаря наличию обширных онлайн-наборов данных, слабо контролируемые и неконтролируемые подходы к обучению продемонстрировали выдающуюся производительность в различных задачах обработки звука, включая голоспризнание, ораторпризнание, речьразделениеи ключевое словопятнистость.

Как работают Whisper и WhisperX?

Whisper — система распознавания речи, созданная Оксфордские исследователи, использует эту существенную информацию в большем масштабе. Они показывают, как слабо контролируемая предварительная подготовка базового преобразователя кодера-декодера может обеспечить нулевую транскрипцию многоязычной речи на признанных эталонных тестах с использованием 125 000 часов данных перевода на английский язык и 680 000 часов шумных данных обучения речи на 96 дополнительных языках.

В то время как большинство академических тестов состоят из кратких утверждений, в реальных условиях, таких как встречи, подкасты и видео, часто требуется расшифровка длинных аудиозаписей, которые могут длиться часами или минутами.

Более 40 смартфонов и планшетов Samsung получат обновления безопасности в течение 4 лет

Конструкции трансформаторов, используемые в автоматическое распознавание речи (ASR) не позволяют транскрибировать входной звук произвольной длины (до 30 секунд в случае Whisper) из-за нехватки памяти.

В недавних исследованиях используются эвристические методы скользящего окна, которые подвержены ошибкам из-за неполный звук, где некоторые слова могут быть пропущены или неправильно расшифрованы, если они находятся в начале или в конце входного сегмента; и перекрывающийся звукчто может привести к несогласованности транскрипции, если модель дважды обрабатывает одну и ту же речь.

Whisper представляет технику буферизованной транскрипции, которая определяет как далеко должно быть сдвинуто окно ввода на основе точное предсказание метки времени. Такой метод подвержен серьезному дрейфу, поскольку неточности временных меток в одном окне могут привести к проблемам в последующих окнах.

Они используют ряд самодельных эвристик, чтобы попытаться искоренить эти ошибки, хотя часто это им не удается. Связанное декодирование Whisper, которое использует один кодер-декодер для декодирования временных меток и транскрипций, склонен к обычным проблемам с авторегрессивной генерацией языкаособенно галлюцинации и повторение.

Длинные формы и другие действия, чувствительные к отметкам времени, такие как диаризация динамиков, читать по губами аудиовизуальное обучение на них отрицательно влияет это, а также буферизованная транскрипция.

Как исправить проблему «Ошибка RuneScape при загрузке конфигурации игры»?

Бумага шепота утверждает, что значительная часть учебного корпуса состоит из неполные данные (пары аудио-транскрипции без информации о метках времени), обозначаемые токеном |nottimestamps|>. Производительность транскрипции речи непреднамеренно приносится в жертву менее точная временная метка предсказание при масштабировании на несовершенном и зашумленном транскрипционном материале.

В результате при использовании дополнительных модулей речь и расшифровка должны правильно выстраиваться. В “принудительное выравнивание«, транскрипция речи и звуковые волны синхронизируются на уровне слов или фонем. Скрытая марковская модель (HMM) и побочный продукт возможного выравнивания состояний часто используются при обучении моделей акустических телефонов.

Модели коррекции внешних границ часто используются для исправления временных меток для этих слов или телефонных номеров. В связи с быстрым расширением методологии глубокого обучениянекоторые недавние исследования используют методы глубокого обучения для принудительного выравнивания, такие как применение двунаправленной матрицы внимания или сегментация CTC с помощью сквозной обученной модели.

Дальнейшее улучшение может быть достигнуто путем объединения современной модели ASR с простой моделью распознавания фонем, обе из которых были построены с использованием значительных крупномасштабных наборов данных.

Недавнее нарушение безопасности Microsoft имеет необычную мотивацию

Когда на сцену выходит WhisperX

Они предлагают шепотX, метод точной транскрипции речи длинных записей с точными временными метками на уровне слов, как решение этих проблем. В дополнение к транскрипция шепотомон также включает следующие три шага:

Использование внешней модели обнаружения голосовой активности (VAD) для предварительной сегментации входящего звука.
Результирующие сегменты VAD разделяются и объединяются в примерно 30-секундные входные фрагменты с границами речевых областей с наименьшим количеством активности.
Для предоставления точных временных меток на уровне слов требуется согласование с внешней моделью фонемы.

С появлением искусственного интеллекта и текстовых чат-ботов с искусственным интеллектом программы преобразования текста в речь и распознавания речи пользуются большим спросом. Буквально на этой неделе приложение для видеочата ChatGPT Call Annie AI было выпущено в попытке извлечь выгоду из этого растущего спроса. Хотя будущее WhisperX еще не совсем ясно в отношении его возможностей, мы можем сказать, что определенно стоит следить за его развитием.

Source: Whisper и WhisperX: система транскрипции речи с точностью до времени от исследователей из Оксфорда