Основываясь на Шепотисследователи из Оксфорда разрабатывают WhisperX для эффективной отметки времени на уровне слов в длинные речевые транскрипции.
Благодаря наличию обширных онлайн-наборов данных, слабо контролируемые и неконтролируемые подходы к обучению продемонстрировали выдающуюся производительность в различных задачах обработки звука, включая голос признание, оратор признание, речь разделениеи ключевое слово пятнистость.
Как работают Whisper и WhisperX?
Whisper — система распознавания речи, созданная Оксфордские исследователи, использует эту существенную информацию в большем масштабе. Они показывают, как слабо контролируемая предварительная подготовка базового преобразователя кодера-декодера может обеспечить нулевую транскрипцию многоязычной речи на признанных эталонных тестах с использованием 125 000 часов данных перевода на английский язык и 680 000 часов шумных данных обучения речи на 96 дополнительных языках.
В то время как большинство академических тестов состоят из кратких утверждений, в реальных условиях, таких как встречи, подкасты и видео, часто требуется расшифровка длинных аудиозаписей, которые могут длиться часами или минутами.
Конструкции трансформаторов, используемые в автоматическое распознавание речи (ASR) не позволяют транскрибировать входной звук произвольной длины (до 30 секунд в случае Whisper) из-за нехватки памяти.
В недавних исследованиях используются эвристические методы скользящего окна, которые подвержены ошибкам из-за неполный звук, где некоторые слова могут быть пропущены или неправильно расшифрованы, если они находятся в начале или в конце входного сегмента; и перекрывающийся звукчто может привести к несогласованности транскрипции, если модель дважды обрабатывает одну и ту же речь.
Whisper представляет технику буферизованной транскрипции, которая определяет как далеко должно быть сдвинуто окно ввода на основе точное предсказание метки времени. Такой метод подвержен серьезному дрейфу, поскольку неточности временных меток в одном окне могут привести к проблемам в последующих окнах.
Они используют ряд самодельных эвристик, чтобы попытаться искоренить эти ошибки, хотя часто это им не удается. Связанное декодирование Whisper, которое использует один кодер-декодер для декодирования временных меток и транскрипций, склонен к обычным проблемам с авторегрессивной генерацией языкаособенно галлюцинации и повторение.
Длинные формы и другие действия, чувствительные к отметкам времени, такие как диаризация динамиков, читать по губами аудиовизуальное обучение на них отрицательно влияет это, а также буферизованная транскрипция.
Бумага шепота утверждает, что значительная часть учебного корпуса состоит из неполные данные (пары аудио-транскрипции без информации о метках времени), обозначаемые токеном |nottimestamps|>. Производительность транскрипции речи непреднамеренно приносится в жертву менее точная временная метка предсказание при масштабировании на несовершенном и зашумленном транскрипционном материале.
В результате при использовании дополнительных модулей речь и расшифровка должны правильно выстраиваться. В “принудительное выравнивание«, транскрипция речи и звуковые волны синхронизируются на уровне слов или фонем. Скрытая марковская модель (HMM) и побочный продукт возможного выравнивания состояний часто используются при обучении моделей акустических телефонов.
Модели коррекции внешних границ часто используются для исправления временных меток для этих слов или телефонных номеров. В связи с быстрым расширением методологии глубокого обучениянекоторые недавние исследования используют методы глубокого обучения для принудительного выравнивания, такие как применение двунаправленной матрицы внимания или сегментация CTC с помощью сквозной обученной модели.
Дальнейшее улучшение может быть достигнуто путем объединения современной модели ASR с простой моделью распознавания фонем, обе из которых были построены с использованием значительных крупномасштабных наборов данных.
Когда на сцену выходит WhisperX
Они предлагают шепотX, метод точной транскрипции речи длинных записей с точными временными метками на уровне слов, как решение этих проблем. В дополнение к транскрипция шепотомон также включает следующие три шага:
- Использование внешней модели обнаружения голосовой активности (VAD) для предварительной сегментации входящего звука.
- Результирующие сегменты VAD разделяются и объединяются в примерно 30-секундные входные фрагменты с границами речевых областей с наименьшим количеством активности.
- Для предоставления точных временных меток на уровне слов требуется согласование с внешней моделью фонемы.
С появлением искусственного интеллекта и текстовых чат-ботов с искусственным интеллектом программы преобразования текста в речь и распознавания речи пользуются большим спросом. Буквально на этой неделе приложение для видеочата ChatGPT Call Annie AI было выпущено в попытке извлечь выгоду из этого растущего спроса. Хотя будущее WhisperX еще не совсем ясно в отношении его возможностей, мы можем сказать, что определенно стоит следить за его развитием.
Source: Whisper и WhisperX: система транскрипции речи с точностью до времени от исследователей из Оксфорда