OpenAI запускает усовершенствованные модели голосового искусственного интеллекта в реальном времени

OpenAI представляет новые функции голосового интеллекта в своем API, включая GPT‑Realtime‑2, обеспечивающий перевод, транскрипцию и общение в реальном времени.

Emre Çıtak · May 8, 2026, 14:07 ·1 min read

OpenAI анонсировала новые функции голосового интеллекта для своего API, призванные помочь разработчикам в создании интерактивных приложений, способных общаться, расшифровывать и переводить в режиме реального времени. Недавно выпущенная модель GPT-Realtime-2, основанная на классах GPT-5, предназначена для обработки более сложных запросов пользователей по сравнению с ее предшественницей, GPT-Realtime-1.5.

Кроме того, OpenAI представила GPT-Realtime-Translate, который предоставляет услуги перевода в реальном времени для более чем 70 языков ввода и 13 языков вывода. Эта функция предназначена для того, чтобы идти в ногу с пользователями во время разговоров.

Еще одним важным обновлением является возможность GPT-Realtime-Whisper, которая обеспечивает транскрипцию речи в текст для взаимодействия в реальном времени. «Вместе модели, которые мы запускаем, перемещают звук в реальном времени от простого вызова и ответа к голосовым интерфейсам, которые действительно могут работать: слушать, рассуждать, переводить, расшифровывать и действовать по мере развития разговора», — заявил OpenAI.

По данным OpenAI, эти обновления предназначены для нескольких отраслей, включая обслуживание клиентов, образование, средства массовой информации и мероприятия. Компания отметила, что новые функции также могут представлять риск неправильного использования, например рассылки спама или мошенничества. Чтобы смягчить это, OpenAI внедрила защитные ограждения, предназначенные для прекращения разговоров, нарушающих правила содержания вредоносного контента.

Google лицензирует проекты «полного стека искусственного интеллекта» для расширения технологий умного дома Gemini

Все новые модели голоса являются частью API реального времени OpenAI. Структура выставления счетов различается: GPT-Realtime-Translate и GPT-Realtime-Whisper оплачиваются поминутно, а GPT-Realtime-2 выставляется на основе потребления токенов.

<час />

Автор рекомендуемого изображения

OpenAI запускает усовершенствованные модели голосового искусственного интеллекта в реальном времени

Related Stories

Apple добавляет больше персональных средств управления речью Siri в бета-версию 3

Антропное исследование показало, что модели Клода формируют внутреннее рабочее пространство, напоминающее сознание

Apple активирует Siri AI на Apple Watch в watchOS 27 beta 3

Midjourney подталкивает Disney и других к раскрытию внутреннего использования искусственного интеллекта в судебном процессе