- Everyday Robots, принадлежащие Google Research и Alphabet, сочетают то, что они называют «SayCan» (языковые модели с реальной основой в предварительно обученных способностях), с PaLM или моделью языка Pathways.
- Исследователи Google объясняют, как они организуют возможности планирования робота для выбора одного из его «навыков» на основе инструкции высокого уровня от человека, а затем анализируют, насколько вероятно, что каждый возможный навык соответствует инструкции в их статье «Делай, как я могу». , Не так, как я говорю.
Принадлежит Google Research и Alphabet Повседневные роботы интегрировать SayCan (языковые модели с реальной основой в виде предварительно обученных навыков) и PaLM, или Языковая модель путей, его самая большая языковая модель. Исследователи из Everyday Robots используют крупномасштабные языковые модели, чтобы помочь роботам избежать неправильной интерпретации человеческого общения, что может привести к неуместным или даже опасным действиям.
Это сочетание, известное как PaLM-SayCanдемонстрирует путь вперед для упрощения связи между человеком и роботом и повышения производительности роботизированных задач.
Винсент Ванхоук, выдающийся ученый и глава отдела робототехники в Google Research, объясняет: «PaLM может помочь роботизированной системе обрабатывать более сложные, открытые подсказки и реагировать на них разумным и разумным образом».
Большие языковые модели, такие как GPT-3 от OpenAI, могут имитировать использование языка людьми и помогать программистам с предложениями по автодополнению кода, такими как Copilot от GitHub, но они не переносятся на физический мир, в котором роботы однажды могут работать в домашних условиях.
Что касается робототехники, сегодня заводские роботы жестко запрограммированы. Исследование Google демонстрирует, как однажды люди смогут использовать естественный язык, чтобы задать роботу вопрос, требующий, чтобы робот понял контекст вопроса, а затем предпринял соответствующие действия в заданной среде.
Например, текущий ответ GPT-3 на «Я пролил свой напиток, вы можете помочь?» «Вы могли бы попробовать использовать пылесос». Это потенциально опасное поведение. LaMDA, разговорный или основанный на диалогах искусственный интеллект Google, отвечает: «Вы хотите, чтобы я нашел уборщика?» в то время как FLAN отвечает: «Извините, я не хотел об этом говорить».
Команда из Google Research и Everyday Robots протестировала метод PALM-SayCan на кухне с помощью робота.
Их стратегия заключалась в «заземлении» PaLM в контексте получения роботом высокоуровневых команд от человека, где робот должен определить, какие действия полезны и на что он способен в этой среде.
Теперь, когда исследователь Google говорит: «Я пролил свой напиток, вы можете помочь?» робот отвечает губкой и пытается поместить пустую банку в правильный мусорный бак. Дополнительное обучение может включать в себя обучение очистке разлива.
Ванхоук описывает операцию по обоснованию языковой модели в PaLM-SayCan.
«PaLM предлагает возможные подходы к задаче на основе понимания языка, а модели роботов делают то же самое на основе набора навыков, который технически осуществим. Затем комбинированная система сопоставляет их, чтобы определить более эффективные и реализуемые стратегии роботов».
Помимо облегчения общения человека с роботом, эта стратегия повышает производительность робота и его способность планировать и выполнять задачи.
В своей статье под названием «Делай, как я могу, а не как я говорю» исследователи Google описывают, как они структурируют возможности планирования робота, чтобы определить один из его «навыков» на основе инструкции высокого уровня от человека, а затем оценивают вероятность каждого возможного навыка для выполнения инструкции.
«Практически мы структурируем планирование как диалог между пользователем и роботом, в котором пользователь предоставляет высокоуровневую инструкцию, например: «Как бы ты принес мне банку колы?» и языковая модель отвечает явной последовательностью, например: «Я бы: 1. Нашел банку кока-колы, 2. Поднял банку из-под кока-колы, 3. Принес ее тебе, 4. Готово».
«SayCan, получив инструкцию высокого уровня, выбирает навык для выполнения, комбинируя вероятности из языковой модели (представляющие вероятность того, что навык полезен для инструкции) и вероятности из функции ценности (представляющей вероятность успешного выполнения указанного навыка). ). Это излучает осуществимую и полезную способность. Повторение процесса путем добавления выбранного навыка к ответу робота и запроса моделей до завершения шага вывода».
Source: Google будет использовать языковые модели ИИ для создания роботов-помощников по дому