Wikipedia делает свои данные более доступными для разработчиков искусственного интеллекта, выпустив набор данных, оптимизированный для машинного обучения, в попытке уменьшить соскоба и напряжение на его серверах, вызванных автоматизированными ботами ИИ.
Фонд Wikimedia вступил в партнерские отношения с платформой Caggle, принадлежащей Google Data Scemine, чтобы опубликовать бета-набор данных структурированного контента Википедии на английском и французском языке. Этот набор данных «разработан с учетом рабочих процессов машинного обучения», что облегчает разработчикам доступ к данным статей, читаемых на машинном виде, для различных приложений искусственного интеллекта, включая моделирование, точную настройку, сравнительный анализ, выравнивание и анализ.
Набор данных включает в себя множество контента, таких как резюме исследований, короткие описания, ссылки на изображения, данные Infobox и разделы статьи. Тем не менее, он исключает ссылки и незаписанные элементы, такие как аудиофайлы. По состоянию на 15 апреля данные представлены в «хорошо структурированных представлениях JSON», которые должны быть более привлекательными для разработчиков, чем соскабливание или анализ необработанного текста статьи. Ожидается, что этот шаг облегчит напряжение на серверах Википедии, которые в настоящее время сильно потребляются автоматической активностью ИИ.
Фонд Wikimedia уже имеет соглашения об обмене контентом с Google и Интернет-архивом. Тем не менее, это партнерство с Kaggle нацелено на то, чтобы сделать данные более доступными для небольших компаний и независимых ученых данных. Размещая набор данных, Kaggle играет решающую роль в обеспечении доступных, доступных данных, доступных и полезных для сообщества машинного обучения.
«Поскольку место, где сообщество машинного обучения приходит для инструментов и тестов, Kaggle очень рад быть хозяином для данных Фонда Викимедии», – сказала Бренда Флинн, лидер Partnerships Kaggle. «Kaggle взволнован, чтобы сыграть роль в обеспечении доступных, доступных и полезных этих данных».
Выпуск набора данных был объявлен 17 апреля 2025 года, что ознаменовало значительный шаг в усилиях Википедии по взаимодействию с разработчиками ИИ и управлению влиянием трафика, управляемого ИИ, на его платформу.
Source: Wikipedia предлагает готовые данные для обуздания соскоба








