Сообщается, что для разработки своей усовершенствованной языковой модели GPT-4 OpenAI использовала огромное количество видеоданных YouTube.
Сообщается, что компания записала более миллиона часов видеоконтента.
Эта новость появляется вместе с более широкой тенденцией в индустрии искусственного интеллекта (ИИ), где технологические гиганты находят все более творческие (а иногда и противоречивые) способы сбора топлива, которого жаждут их модели ИИ, — данных.
Почему шепот YouTube важен для ИИ
Газета “Нью-Йорк Таймс недавно пролил свет на эту тревожную ситуацию, когда несколько дней назад YouTube спросил, используются ли видео на их платформе в качестве источника обучающих данных для SORA или нет.
Так зачем же обращаться к YouTube за обучающими данными? Это просто, правда. YouTube предлагает практически безграничный кладезь разговорной речи. Каждый видеоблог, видео о распаковке и бессвязное руководство включают человеческую речь во всем ее разнообразном и запутанном великолепии. Поскольку большие языковые модели, такие как GPT-4, обучаются путем «поглощения» и анализа огромных объемов текста, расшифрованный звук из видео становится бесценным кормом.
Однако превращение аудио YouTube в полезные обучающие данные поднимает сложные вопросы. Инструмент распознавания речи OpenAIШепотсыграл решающую роль в расшифровке огромного количества видеоматериала. Хотя этот процесс транскрипции и необходим, он фокусирует внимание на вопросах авторского права и добросовестного использования.
Данные, данные повсюду… Но можно ли поймать OpenAI?
Поиск надежных наборов данных для поддержки ИИ ни в коем случае не является чем-то уникальным для OpenAI. Технологические гиганты всех стран сталкиваются с одной и той же проблемой. В конце концов, модели ИИ, как известно, очень требовательны к данным. Чем разнообразнее и качественнее входные данные, тем лучше модели способны справляться со сложностями реального мира.
Стремление найти творческие источники данных понятно. В случае с OpenAI, как сообщается, компания изучала такие варианты, как подкасты и аудиокниги, после того, как в 2021 году столкнулась с нехваткой более традиционных учебных материалов. Но у этой охоты за данными есть потенциальный недостаток — расширение границ того, что считается юридически и этически приемлемым.
Серая зона, где сталкиваются данные ИИ и авторские права
YouTube имеет свои собственные четкие условия обслуживания, которые обычно ограничивают использование его контента. Хотя положения о «добросовестном использовании» в законе об авторском праве действительно существуют (с разными интерпретациями в разных странах), полагаться на них как на оправдание обширного сбора данных может быть юридической авантюрой.
Вопрос далеко не однозначен. Когда технологические компании используют существующий контент для обучения своих систем искусственного интеллекта, возникают вопросы:
- Ограничивает ли это потенциально возможность создателей оригинального контента получать прибыль от своей работы?
- Получают ли создатели достаточную компенсацию, если их материалы способствуют разработке коммерческих инструментов искусственного интеллекта?
- Должны ли быть более четкие инструкции или правила для крупномасштабного сбора данных по обучению?
Большой аппетит ИИ вызывает еще большие вопросы
Случай OpenAI подчеркивает более широкую тенденцию – ненасытную потребность в данных в современной индустрии искусственного интеллекта. По мере того, как технологии искусственного интеллекта становятся все более сложными, этические и юридические проблемы, связанные с получением данных для обучения, будут занимать центральное место.
Будь то видеоролики YouTube, репозитории кода или другие типы пользовательского контента, обеспечение справедливого и ответственного использования данных станет решающим фактором для поддержания общественного доверия к этой быстро развивающейся технологии.
Автор избранного изображения: Зак Вольф/Unsplash
Source: Сообщается, что OpenAI использовала данные YouTube при разработке GPT-4.