На этой неделе Reddit внес большие изменения, чтобы защитить свой контент от использования без разрешения. Они обновили файл robots.txt, который сообщает компьютерным программам (например, тем, которые используются поисковыми системами), могут ли они просматривать веб-сайт. Этот файл важен для того, чтобы поисковые системы могли показывать вам веб-сайты, когда вы что-то ищете.
Но теперь, с развитием искусственного интеллекта, некоторые компании берут контент с таких сайтов, как Reddit, для обучения своих систем искусственного интеллекта, не спрашивая и не отдавая должное первоначальным создателям. Это стало большой проблемой, поскольку не уважается ни к людям, создавшим контент, ни к веб-сайтам, на которых он размещен.
Что делает Реддит?
Обновление Reddit файла robots.txt направлено на контроль использования его содержимого. Они также собираются ограничить и заблокировать доступ к своему сайту неизвестным компьютерным программам и ботам, если они не следуют правилам Reddit или не имеют разрешения на использование контента.
Reddit утверждает, что эти изменения не затронут большинство людей или хорошие организации, такие как исследователи или группы, которые сохраняют историю Интернета (например, Интернет-архив). Вместо этого они пытаются помешать компаниям, занимающимся искусственным интеллектом, использовать контент Reddit без разрешения. Однако эти программы искусственного интеллекта все равно могут игнорировать правила Reddit.
Недавнее расследование и ответы
Это объявление последовало за отчетом Wired, в котором выяснилось, что поисковая компания Perplexity, работающая на базе искусственного интеллекта, брала контент с веб-сайтов, хотя в файле robots.txt ей было сказано не делать этого. Генеральный директор Perplexity заявил, что эти правила не являются юридическими требованиями, что вызвало дискуссию о том, как веб-сайты могут защитить свой контент.
Данные Reddit на данный момент принадлежат Google.
Новые правила Reddit не повлияют на компании, у которых уже есть с ними соглашения. Например, Reddit заключил сделку с Google на 60 миллионов долларов, позволяющую Google использовать данные Reddit для своих проектов в области искусственного интеллекта. Это показывает, что Reddit внимательно относится к тому, кто может использовать его данные, и хочет быть уверенным, что они являются надежными партнерами.
«Каждый, кто использует контент Reddit, должен следовать нашим правилам, чтобы защитить пользователей Reddit», — говорится в заявлении Reddit. Сообщение блога. «Мы тщательно выбираем тех, с кем работаем и кому доверяем доступ к контенту Reddit».
Заглядывая вперед
Это изменение Reddit является частью их усилий по контролю того, как используются их данные, особенно компаниями в коммерческих целях. Это показывает растущую тенденцию среди веб-сайтов защищать свой контент в эпоху ИИ и больших данных.
Шаг Reddit посылает четкий сигнал: хотя ИИ имеет большой потенциал, очень важно уважать происхождение данных и получать разрешение. По мере изменения Интернета действия Reddit могут повлиять на то, как другие веб-сайты защищают свой контент и права пользователей.
Все изображения созданы Эрай Элиачик/Бинг
Source: Reddit заставит вас платить за свои данные