ElevenLabs значительно расширил языковые возможности модели Text-To Speek (TTS), в настоящее время поддерживая в общей сложности 70 языков. На прошлой неделе базирующийся в Нью-Йорке стартап объявил, что добавление 41 новых языков делает их модель доступной примерно до 90% населения мира.

Расширение было реализовано на модели Eleven V3 (Alpha), которую ElevenLabs запустили 8 июня, рекламируя ее как «самую выразительную модель TTS». Компания сделала объявление через свою официальную учетную запись X, ранее известную как Twitter.

Недавно поддерживаемые языки включают в себя разнообразный диапазон, такой как арабский, ассамский, бенгальский, болгарный, каталонский, гуджарати, латвийский, малайский, малаялам, маратхи, непальский, суахили, тамильский и телугу. Это расширяет утилиту модели для создателей контента и предприятий, стремящихся охватить более широкую аудиторию.

ElevenLabs советует пользователям, которые хотят генерировать текст на любом из новых языков, чтобы записать мгновенный голосовой клон (IVC) при выборе желаемого языка. Кроме того, компания планирует добавить голоса голосовой библиотеки для вновь поддерживаемых языков в ближайшие недели.

  Информационные бюллетени скоро появятся в Twitter

Одиннадцать V3 основаны на основе многоязычных моделей V2 и V2.5 TTS. Ключевой особенностью Eleven V3 является его поддержка встроенных аудиотех, в том числе «Шепот», «Взволнован» и «Вздох». Эти теги позволяют пользователям внедрить эмоциональные нюансы и невербальные сигналы в созданный звук, что приводит к более драматичной и увлекательной доставке.

Кроме того, модель поддерживает многопрофильные взаимодействия, в комплекте с перерывами, естественным стимулом и перекрывающимися диалогами, создавая более реалистичный разговорной опыт. ElevenLabs подчеркивает, что одиннадцать V3 демонстрируют улучшенную обработку таких элементов, как стресс, каденция и контекстная осведомленность.

Модель Eleven V3 в настоящее время доступна через веб -сайт компании и мобильные приложения. Тем не менее, он еще не доступен в качестве интерфейса прикладного программирования (API).

До этого языкового расширения, в апреле, ElevenLabs представила агентскую Transfer, новую агентскую функцию, ориентированную на предприятие, предназначенную для разговорного ИИ. Эта функция позволяет двум агентам искусственного интеллекта общаться друг с другом и плавно передавать разговоры, а также соответствующие данные разговора, более специализированному агенту.

  Instagram представляет события Live Shopping к праздникам

Source: ElevenLabs AI Text-To Speek теперь поддерживает 70 языков