Силиконовая долина делает существенные ставки на среду обучения подкреплению (RL) как ключевой инструмент для продвижения агентов ИИ, способных к автономной обработке сложных программных задач. В течение многих лет руководители крупных технологических компаний раскрывали потенциал этих агентов для революции производительности, взаимодействуя с приложениями от имени пользователей. Тем не менее, текущие примеры, ориентированные на потребителя, такие как агент Openai Catgpt и комета «Незрелости», выявляют значительные ограничения в их способности выполнять многоэтапные процессы надежно. Этот разрыв вызвал всплеск инновационных методов, причем RL -среда стала многообещающим решением. Эти моделируемые учебные площадки имитируют реальные программные взаимодействия, позволяя моделям искусственного интеллекта учиться через пробные и ошибки, очень похоже на то, как помеченные наборы данных подпитывали предыдущую эру генеративных прорывов ИИ. Среда RL функционирует как контролируемые моделирование, когда агенты ИИ практикуют задачи в виртуальной обстановке, получают вознаграждения или штрафы на основе их производительности. Представьте себе цифровое рабочее пространство, повторяющую браузер Chrome, где агенту поручено навигацию Amazon для покупки пары носков. Успех может включать в себя правильный выбор элементов, завершение заказа и избежать ошибок, таких как покупка неправильного количества или застрявшая в меню. Как описал один из основателей в недавнем интервью, создание этих сред, сродни «созданию очень скучной видеоигры». В отличие от статических наборов данных, которые предоставляют фиксированные входы и выходы, среда RL должна предвидеть и обрабатывать непредсказуемые действия агента, предоставляя последовательную обратную связь для руководства обучением. Эта сложность требует надежного дизайна, чтобы гарантировать, что моделирование остается полезным, даже если агенты отклоняются от ожидаемых путей. Спрос на такую среду взлетел среди ведущих лабораторий искусственного интеллекта, в том числе OpenAI, Google DeepMind, Anpropic и Meta. Дженнифер Ли, генеральный партнер Andreessen Horowitz, подчеркнута в интервью TechCrunch, что «все крупные лаборатории искусственных технологий создают среду RL на месте». Тем не менее, сложный характер разработки заставил эти организации обратиться за партнерством со сторонними поставщиками для высококачественной среды и инструментов оценки. Эта тенденция зажгла волну инвестиций и предпринимательства, с стартапами и известными фирмами, гонящимися, чтобы захватить долю того, что может стать рынком в несколько миллиардов долларов. Согласно сообщениям этой информации, руководство Anpropic даже обсудило выделение более 1 миллиарда долларов в средах RL в следующем году, подчеркивая стратегический приоритет этой технологии. Исторические прецеденты иллюстрируют основополагающую роль RL в развитии ИИ. В 2016 году Openai представила «RL Gyms», ранние рамки для тренировочных агентов в моделируемых сценариях. В том же году Google DeepMind AlphaGo одержал знаковую победу, победив чемпиона мира в игре GO, используя RL в моделируемой среде для освоения стратегических решений. Эти усилия заложили основу, но сегодняшние приложения означают значительную эволюцию. Современные среды RL нацелены на крупные модели на основе трансформаторов, предназначенные для задач общего назначения в разных программных инструментах, в отличие от специализированных систем с закрытым миром, такими как Alphago. В настоящее время исследователи начинают с более продвинутых фундаментальных моделей, но амбиции по созданию широко способных агентов вводят новые проблемы, такие как обеспечение надежности в открытых взаимодействиях. Установленные гиганты по маркировке данных агрессивно разворачиваются для удовлетворения этого спроса, используя их существующую инфраструктуру и отношения с клиентами. По словам генерального директора Эдвина Эдвина и Meta, Surge, который, как сообщается, принесла доход в размере 1,2 млрд. Долл. США в прошлом году от сотрудничества с AI Labs, такими как Openai, Google, Antropic и Meta, наблюдал «значительное увеличение» в запросах на RL. В ответ компания создала выделенную внутреннюю организацию, чтобы сосредоточиться на их создании. Этот ход позиционирует переход от традиционной аннотации данных к динамическим моделированию, используя свой доказанный послужной список в поддержке Frontier AI Research. Mercor, оцененный в 10 миллиардов долларов, является еще одним ключевым игроком, подчеркивающим RL-среда, специально предназначенные для таких секторов, как кодирование, здравоохранение и право. Стартап обеспечил партнерские отношения с OpenAI, Meta и Anpropic, и его генеральный директор Brendan Foody подчеркнул в интервью TechCrunch, что «немногие понимают, насколько велика такая возможность в области RL на самом деле». Подход Mercor включает в себя создание специализированных симуляций, которые решают нишевые проблемы, такие как навигация по легальным базам данных или анализ медицинских карт, потенциально ускорение принятия ИИ в регулируемых отраслях. Масштаб AI, когда -то неоспоримый лидер в области маркировки данных с оценкой на 29 миллиардов долларов столкнулся с недавними неудачами. Инвестиции Meta в 14 миллиардов долларов в конкурирующее предприятие и браконьерство бывшего генерального директора Scale привели к потерянным контрактам с Google и OpenAI, а также внутренней конкуренции в Meta. Тем не менее, масштаб адаптируется путем расширения в среда RL. Четан Рейн, глава продукта Scale для агентов и RL, отметил: «Это просто характер бизнеса [Scale AI] находится в. Scale доказала свою способность быстро адаптироваться. Мы сделали это в первые дни автономных транспортных средств, нашего первого бизнес -подразделения. Когда вышел CHATGPT, масштабируется AI, адаптировался к этому. И теперь, еще раз, мы адаптируемся к новым пограничным пространствам, таким как агенты и окружающую среду. «Этот опорник отражает историю переосмысления шкалы, от самостоятельного вождения автомобилей до бума с чат-ботом, позиционируя его, чтобы вернуть актуальность в эпоху агента. На фоне этой консолидации, когорта неизму Видение «Автоматизировать все задания», начиная с RL-среда для агентов по кодированию. Сотрудничество с антропной разработкой в области разработки RL, хотя обе стороны отказались от комментариев. Menlo Ventures, стартап запустил центр RL в прошлом месяце. Часть того, что мы делаем,-это просто пытаться построить хорошую инфраструктуру с открытым исходным кодом вокруг нее. Сервис, который мы продаем, вычисляется, так что это удобно для использования графических процессоров, но мы думаем об этом больше в долгосрочной перспективе ». Из-за облегчения доступа графического процессора Prime Intellect не только способствует развитию сообщества прогресс, но и вступает в растущую потребность в масштабируемых оборудованиях в обучении. Доминирующая сила, сродни к тому, как масштаб приводил в действие генеративную волну AI, приток финансирования отражает оптимизм, что RL -среда может разблокировать следующий скачок в Agentic AI, что позволяет плавно интегрировать с инструментами, просматривать веб -сайт и выполнять рабочие места. Стартапы в недавнем подкасте В связи с инвестициями в RL в сочетании с вычислением времени тестирования, так как создатели O1 ранее использовались с TechCrunch, ставясь на его масштабируемость с дополнительными данными и ресурсами. Endeavour-эти моделирования могут стимулировать постоянный прогресс в направлении общего назначения AI-агентов. недооценивая, насколько сложно масштабировать окружающую среду. Даже лучший публичный доступный [RL environments] Как правило, не работают без серьезных модификаций ». Масштабирование требует не только большего количества среды, но и для усовершенствования для смягчения таких проблем, обеспечение моделирования остается верным для реальных приложений. Даже публичные критерии часто требуют обширных настроек, подчеркивая разрыв между прототипом и готовыми к производству инструментов. Андрей Карпати Заявлено: «Я оптимистичен в условиях окружающей среды и агентских взаимодействий, но я в частности, в области подкрепления».
Source: Масштаб AI расширяется в RL -среда для агентов искусственного интеллекта





