OpenAI анонсировала новые функции голосового интеллекта для своего API, призванные помочь разработчикам в создании интерактивных приложений, способных общаться, расшифровывать и переводить в режиме реального времени. Недавно выпущенная модель GPT-Realtime-2, основанная на классах GPT-5, предназначена для обработки более сложных запросов пользователей по сравнению с ее предшественницей, GPT-Realtime-1.5.
Кроме того, OpenAI представила GPT-Realtime-Translate, который предоставляет услуги перевода в реальном времени для более чем 70 языков ввода и 13 языков вывода. Эта функция предназначена для того, чтобы идти в ногу с пользователями во время разговоров.
Еще одним важным обновлением является возможность GPT-Realtime-Whisper, которая обеспечивает транскрипцию речи в текст для взаимодействия в реальном времени. «Вместе модели, которые мы запускаем, перемещают звук в реальном времени от простого вызова и ответа к голосовым интерфейсам, которые действительно могут работать: слушать, рассуждать, переводить, расшифровывать и действовать по мере развития разговора», — заявил OpenAI.
По данным OpenAI, эти обновления предназначены для нескольких отраслей, включая обслуживание клиентов, образование, средства массовой информации и мероприятия. Компания отметила, что новые функции также могут представлять риск неправильного использования, например рассылки спама или мошенничества. Чтобы смягчить это, OpenAI внедрила защитные ограждения, предназначенные для прекращения разговоров, нарушающих правила содержания вредоносного контента.
Все новые модели голоса являются частью API реального времени OpenAI. Структура выставления счетов различается: GPT-Realtime-Translate и GPT-Realtime-Whisper оплачиваются поминутно, а GPT-Realtime-2 выставляется на основе потребления токенов.
<час />








