OpenAI вызвала технологическую революцию в дебюте CHATGPT в ноябре 2022 года, и миллионы удивительных пользователей во всем мире были поражены способностью его культового чат-бота вступать в разговоры, похожие на человека практически на любую тему, которую они могли бы придумать.
Он начал увлечение ИИ, который с каждым днем стал более маниакальным, и каждая технологическая компания стоит своей соли, чтобы принять участие в акте со своими собственными генеративными моделями ИИ. Мы быстро увидели ответ от Google и Meta с их моделями Biemini и Llama Llama Large Language, а Microsoft, которая уже тесно связана с OpenAI, также наладилась в создании собственных моделей.
Добавьте к этому хозяин стартапов ИИ, от антропного до атмосфера до лабораторий AI21, а теперь и Deepseek, и ясно, что индустрия стала безумной свободной для всех, с десятками конкурирующих игроков, борющихся, чтобы заработать на безумном уровне. спроса на инструменты AI следующего поколения.
Модели ИИ обучаются и создаются с использованием огромных объемов данных, и им необходимы постоянно их увеличение количества для улучшения. Чтобы получить эти данные, большинство разработчиков ИИ обращаются к наиболее очевидному источнику – общедоступному Интернету, где они свободно царапают огромные объемы информации.
Ползание и царапина
Одна вещь, которую большинство людей не понимают, это то, что нет простого места, куда вы можете пойти, чтобы просто «скачать Интернет». Таким образом, разработчики ИИ полагаются на инструменты, известные как «веб -сканеры», которые обыскивают всемирную паутину, переходя от ссылки на ссылку, поскольку они индексируют всю информацию, которую они видят в базе данных. Затем они используют «веб -скребки», которые проходят эту базу данных и загружают всю информацию, к которой они их приводят.
Компании с огромными ресурсами, такими как Google и Microsoft, обладают деньгами и опытом для создания этих веб -сканеров и самих скребков, и эта способность, вероятно, дает им преимущество перед конкурентами, которые не могут. В остальном они, как правило, обращаются к существующим ресурсам, таким как Common Crawl, которая является некоммерческой организацией, которая сканирует в Интернете и загружает ее, собирая информацию в огромную базу данных с открытым исходным кодом, которая обновляется каждые несколько месяцев. Другим ресурсом является крупномасштабная открытая сеть искусственного интеллекта, известная как Laion, которая полна ссылок на изображения, которые он находит в Интернете, и любые подписи, размещенные вместе с ними.
Кроме того, существуют другие некоммерческие организации, которые заинтересованы в продвижении развития ИИ, таких как Институт ИИ Аллен. Он работает для составления открытых наборов данных для разработчиков крупных языковых моделей, таких как база данных Dolma, которая содержит более трех триллионов токенов с различных веб -страниц, книг, кодовых баз, академических документов и энциклопедий, найденных в Интернете.
Создатели контента отталкивают
Все эти базы данных создаются веб -сканерами и скребками, но есть много споров по поводу этой общей практики, поскольку она поднимает вопросы о точности и надежности моделей, обученных с использованием этой информации. В конце концов, есть много нежелательной информации и слухов и слухов, размещенных в Интернете. Конечно, это также привело к спорам о авторском праве, когда многие создатели контента утверждают, что они должны быть компенсированы, учитывая, что ИИ воспринимается как угроза их средствам к существованию.
Некоторые компании пытались обойти это, заплатив за доступ к данным. Например, OpenAI согласен с такими новостными организациями, как Axel Springer и Internet Forum Reddit, оплачивая доступ к своему контенту. Другие, такие как Meta, используют свои собственные данные, такие как миллионы публичных постов в Facebook и Instagram, для обучения своих моделей. Элон Маск, владелец X, говорит, что его компания делает то же самое, чтобы обучить свою семью Грока LLMS. Amazon заявил, что будет использовать голосовые данные от клиентов, которые общаются со своим цифровым помощником Alexa.

Тем не менее, эти практики тоже не так популярны, так как многим пользователям в социальных сетях довольно неудобно мысль о том, что их сообщения и комментарии используются для обучения моделей ИИ.
Было очень много откатов, но разработчики ИИ не могут утолить свою жажду постоянных данных, учитывая, что это жизнь их алгоритмов. Таким образом, есть вопросы о том, где они могут получить информацию, необходимую для продолжения создания инновационных новых приложений искусственного интеллекта.
Синтезирование данных может быть решением
Одним из возможных решений этого вопроса могут быть «синтетические данные», которая является информацией, которая искусственно генерируется машинами, которые сначала потребляют огромные объемы реальных данных.
Если у вас есть много реальных данных для начала, можно создать столько синтетической информации, основываясь на этом, как вам когда-либо понадобится, но есть вопросы о качестве этой искусственной информации. В конце концов, все это получено из реальных данных, сделанных людьми, и если эти исходные данные являются неточными или предвзятыми, полученная синтетическая информация, вероятно, увеличит эти проблемы.
В результате, более синтетическая информация, которая используется для обучения моделей ИИ, тем хуже станут их предубеждения и неточности, что приводит к большему количеству «галлюцинаций», что относится к случаям, когда ИИ делает ошибки или просто создает факты из воздуха.
Если синтетические данные должны стать жизнеспособным решением для парящего спроса на наборы обучения, то необходимо обеспечить, чтобы они соответствовали базовой линии стандартов качества, что будет возможно только в том случае, если какой -то входной вклад останется.
Повышение качества данных с помощью конкуренции
Вот где Фракция ай может изменить ситуацию. Это создатель уникального протокола на основе блокчейна, который преобразовал задачу создания синтетических данных в конкуренцию, где человеческие разработчики создают агенты искусственного интеллекта, которые конкурируют за создание новых наборов данных. Создавая успешный агент ИИ, который превосходен в создании синтетических данных, разработчики могут получить существенное вознаграждение за их участие.
Фракция AI проводит регулярные соревнования между агентами искусственного интеллекта, которые конкурируют за создание наиболее точных и надежных наборов данных в соответствии с конкретными требованиями. Они платят в криптовалюту за участие в этих соревнованиях, но только лучшие исполнители получают вознаграждение, заставляя разработчиков создавать лучшие агенты ИИ.
Строители могут создавать эти агенты без каких -либо навыков кодирования, просто вводя подсказки. Этот подход гарантирует, что он доступен для всех.
Кроме того, Fraction AI также полагается на «Stakers», которые ставят токены криптовалюты Eth Eth для защиты сети. Они также получают вознаграждения за это, благодаря сочетанию доли платы за конкуренцию, плату за протокол и любого дохода, который поступает от лицензирования его синтетических наборов данных.
Гениальная вещь о фракции AI заключается в том, что он внедряет совершенно новый подход к маркировке данных, который должен обеспечить его гораздо более качественную синтетическую информацию. Традиционно маркировка данных была выполнена только людьми, что является точным, но слишком медленным, либо с помощью ИИ -моделей, которые намного быстрее, но менее точны.
Фракция ИИ позволяет людям сообщать агентам, как они должны маркировать данные, поэтому эти агенты могут делать это более точно в гораздо более высоких масштабах. Это подход, который объединяет преимущества обоих методов, и он обеспечивает ценность для всех трех участников экосистемы.
Строители, или создатели агентов ИИ, вознаграждены за создание более эффективных агентов, что обеспечивает более качественные данные. Поскольку только лучшие агенты вознаграждены, те, чьи агенты проигрывают, вынуждены улучшить свои агенты, чтобы они могли начать зарабатывать. Стакеры получают возможность получить регулярную доходность от своих инвестиций, поддерживая создание большего количества учебных данных. Наконец, разработчики ИИ получают выгоду от непрерывного потока новых высококачественных синтетических данных, которые можно использовать для обучения более способных моделей ИИ.
Потребность в людях в петле
Это новый подход, который показывает, что он обладает реальным потенциалом. Фракция AI уже продемонстрировала свою способность настраивать небольшой мультимодальный LLM, чтобы позволить его выполнять наравне с GPT-4 Openai, за долю от стоимости этой более крупной модели.
Протокол демонстрирует важность обеспечения того, чтобы люди оставались в цикле во время процесса создания синтетических данных. Люди являются одной из главных причин раннего успеха CHATGPT. В то время как он находился в стадии разработки, Openai нанял сотни работников для экспериментов с ранней версией CHATGPT и предоставления обратной связи, которая затем использовалась для повышения его производительности. В конечном итоге это оказало преобразующее влияние на качество ответов чат -бота, вызвав безумную схватку для ИИ, который существует сегодня.
По мере того, как модели ИИ становятся более распространенными и более изощренными, в мире быстро заканчивается надежные данные. Синтетические данные, созданные с людьми в цикле, стали наиболее жизнеспособными решениями этой проблемы, и ее важность для индустрии ИИ будет продолжать расти.
Показанный кредит изображения: Максим Берг/Неспособный
В разработчиках Post AI не хватает данных. Где они могут получить больше? впервые появился на техническом обращении.
Source: Разработчики ИИ не хватают данных. Где они могут получить больше?





