Виртуальный помощник Apple Siri стал неотъемлемая часть экосистемы iOS, но его возможности распознавания голоса столкнулись с проблемами в шумной обстановке и с искаженными голосами. Стремясь устранить эти ограничения, недавняя патентная заявка от Apple пролил свет на исследования технологического гиганта по включению способности чтения по губам в Siri.
Эта новаторская функция может использовать технологию обнаружения движения, такую как акселерометры или гироскопы, обнаруживать тонкие движения лица и повысить точность голосовых команд. Хотя этот патент намекает на захватывающие возможности, он остается неопределенным. когда и как Apple планирует внедрить эту новую функцию.
Логика патента Apple на чтение по губам для Siri
Заявка на патент, поданная в г. январь, описывает систему, которая использует данные движения для определения совпадают ли движения рта пользователя с произносимыми словами или фразами. Вместо того, чтобы полагаться исключительно на традиционные системы распознавания голоса, на которые может повлиять фоновый шум и отток ресурсов устройства, Предлагаемый Apple метод наблюдает вибрации мышц лица, движения головы и других частей рта. Используя датчики движения, такие как акселерометры и гироскопы, этот инновационный подход потенциально может преодолеть многие из проблем, с которыми сталкиваются существующие технологии распознавания голоса.
Последствия для смартфонов
В то время как патент в первую очередь упоминает айфоны, это намекает на более широкий спектр реализации. Apple предполагает распространить эту технологию на другие устройства, включая AirPods и даже «умные очки», подразумевая широкий спектр потенциальных применений. Однако, учитывая прекращение Apple своего проекта умных очков, основное внимание, похоже, уделяется гарнитуре Vision Pro, которая остается окутанной тайной.
В поисках данных
Чтобы развить эту способность чтения по губам, Apple потребуется значительное количество данных о движениях рта человека. Создание «голосовой профиль» для пользователей может потенциально удовлетворить эту потребность. Новые специальные возможности Apple, в том числе Live Speech на iOS, позволяют собирать голосовые профили пользователей. Эти профили могут служить основой для обучение языковой модели который распознает движения лица из обширных наборов данных. Склонность компании к тонкой интеграции ИИ в свои функции согласуется с идеей включения «языковая модель трансформера» для возможности чтения по губам.
Дорога впереди
Хотя заявка на патент означает значительный прогресс в технологии распознавания голоса, его фактическая интеграция в продукты Apple остается неопределенной. известный аналитик цепочки поставок Apple, Минг-Чи Куо, указал, что прогресс компании в области генеративного ИИ отстает от конкурентов, и нет прямых указаний на то, что такие модели глубокого обучения будут интегрированы в аппаратные продукты в ближайшее время. Однако разработка Apple внутреннего чат-бота под кодовым названием «Яблоко GPT» может намекнуть на потенциальные улучшения Siri, связанные с искусственным интеллектом.
Патентная заявка Apple раскрывает планы Siri, читающая по губам открывает новую эру технологии распознавания голоса. Изучая технологию обнаружения движения как средство улучшения точность голосовых команд, Apple демонстрирует свою приверженность улучшая пользовательский опыт и оставаясь в авангарде интеграции ИИ.
Хотя сроки реализации остаются неясными, концепция верна. значительный потенциал революционных взаимодействий с помощью голоса на различных устройствах Apple. По мере того как будущее разворачивается, пользователи Apple с нетерпением ждут того дня, когда их виртуальный помощник сможет легко читать по их губам и выполнять каждую их команду.
Рекомендуемое изображение: Омид Армин / Скрыть
Source: Новый патент Apple направлен на подготовку Siri к чтению по губам