Французская компания Mistral, занимающаяся искусственным интеллектом, запустила модель преобразования текста в речь с открытым исходным кодом под названием Voxtral TTS, предназначенную для голосовых помощников с искусственным интеллектом и корпоративных приложений, таких как служба поддержки клиентов. Эта разработка ставит Mistral непосредственно перед конкурентами, включая ElevenLabs, Deepgram и OpenAI.
Voxtral TTS поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский. Модель направлена на удовлетворение потребностей клиентов в гибкой речевой модели, подходящей для различных периферийных устройств, обеспечивая экономичное решение, сохраняющее высокую производительность.
Пьер Сток, вице-президент по научным операциям Mistral AI, сказал: «Наши клиенты просили речевую модель. Поэтому мы создали небольшую речевую модель, которая может поместиться на умных часах, смартфоне, ноутбуке или других периферийных устройствах». Он подчеркнул, что, хотя модель имеет конкурентоспособную цену, она обеспечивает самые современные характеристики.
Модель позволяет адаптировать собственные голоса с семплами менее пяти секунд. Он улавливает такие тонкие характеристики, как акценты и нарушения речи. Кроме того, Voxtral TTS, основанный на Ministral 3B, может переключать языки без потери качества голоса, что делает его пригодным для перевода и дублирования в реальном времени.
Показатели производительности модели заслуживают внимания. Он имеет время до первого звука (TTFA) 90 миллисекунд для 10-секундной выборки из 500 символов и коэффициент реального времени (RTF) 6x, что означает, что он может визуализировать клип примерно за 1,6 секунды.
Этот запуск последовал за представлением Mistral двух моделей транскрипции ранее в 2023 году, нацеленных на крупномасштабную пакетную обработку и сценарии использования в реальном времени с малой задержкой. Voxtral TTS является частью стратегии Mistral по предоставлению предприятиям комплексного набора голосовых продуктов.
Сток обрисовал планы на будущее, заявив: «Мы планируем создать комплексную платформу, которая сможет обрабатывать мультимодальные потоки ввода, включая аудио, текст и изображения». Эта платформа предназначена для улучшения информации, обрабатываемой системами, в которые она интегрируется.
<час />








