12 сентября 2025 года, Amer S, инженер -программист, и Райан МакКенна, научный сотрудник Google Research, объявил VaultGemma, отмечая ее как наиболее способную языковую модель, обученную с нуля с дифференциальной конфиденциальностью (DP). Это развитие происходит в ключевое время, поскольку искусственный интеллект все чаще пронизывает повседневную жизнь, что повышает срочные требования к конструкциям, ориентированным на конфиденциальность. Дифференциальная конфиденциальность решает эти проблемы, включив калиброванный шум в учебные процессы, чтобы не запомнить модели конфиденциальные данные. Тем не менее, внедрение DP в моделях крупных языков (LLMS) представляет собой значительные проблемы, в том числе сбои в стабильности обучения, необходимость в больших размерах партии и эскалационные вычислительные затраты. Эти компромиссы изменяют традиционные законы о масштабировании, которые регулируют эффективность искусственного интеллекта, что делает необходимым для понимания их динамики для эффективного частного развития ИИ. В объявлении подчеркивается совместная исследовательская попытка под названием «Законы масштабирования для моделей дифференциально частных языков», проведенных в партнерстве с Google DeepMind. Это исследование устанавливает точные уравнения, которые моделируют сложные компромиссы между вычислительными ресурсами, гарантиями конфиденциальности и модельной утилитой. Сосредоточив внимание на соотношении шума-ключевой метрике, сравнивающей индуцированный конфиденциальность шум с размерами партий,-исследование упрощает сложное взаимодействие этих факторов. Основное понимание состоит в том, что производительность модели в рамках DP Training в основном определяется этим соотношением, что позволяет исследователям прогнозировать оптимальные конфигурации для минимизации потерь обучения с учетом ограничений на вычисления, конфиденциальность и бюджеты данных. Эксперименты, лежащие в основе этих законов о масштабировании, охватывали различные размеры модели и коэффициенты шума, подтверждая центральную роль соотношения. Полученные рамки модели потерю в зависимости от размера модели, количества обучающих итераций и соотношения шума, обеспечивая оптимизированный инструмент для практикующих. Этот подход преодолевает экспоненциальную сложность тестирования всех возможных комбинаций, используя детерминированные отношения и эмпирические данные. Например, законы включают запросы, такие как определение наилучшей настройки для фиксированного бюджета вычислителя, уровень конфиденциальности (измеренный Epsilon, ε) и объем данных для достижения самых низких потерь. Выдающимся выводом из исследования является синергетическая связь между бюджетами. Увеличение только бюджета конфиденциальности приводит к снижению доходности по отношению к коэффициенту шума, если это не сопровождается расширениями в вычислении (измерено в операциях с плавающей точкой или флопами) или данными (токены). Визуализации из исследования иллюстрируют, как сдвигаются оптимальные конфигурации: при более жестких ограничениях конфиденциальности ресурсы могут предположить большие размеры партий по сравнению с более крупными моделями, в то время как больше итераций могут быть предпочтительны в сценариях с ограниченными данными. Примечательно, что анализ показывает гибкость в настройках; Диапазон размеров модели может обеспечить сопоставимую утилиту в сочетании с настроенными размерами партии и итерациями. Практическое руководство появляется ясно: для обучения DP практикующие должны выбирать меньшие модели с значительно большими размерами партий по сравнению с базовыми показателями без DP. Это согласуется с опытом DP, подчеркивающей большие партии, чтобы противостоять эффектам шума. Тем не менее, конфигурации варьируются в зависимости от конфиденциальности и бюджетов данных, подчеркивая необходимость распределения распределения ресурсов. Эти понимания, подробно описанные в полной статье, снабжают разработчиков, чтобы эффективно сбалансировать конфиденциальность и производительность. Используя эту структуру, команда построила VaultGemma, модель на 1 миллиард параметра, основанную на GEMMA 2, известной своей акцентом на ответственность и безопасность. Законы масштабирования руководствовались требованиями вычислений и распределением по размеру партии, итерациям и длине последовательности, чтобы максимизировать полезность. Ключевое алгоритмическое инновация, посвященная отборочке Пуассона, необходимая для оптимальных гарантий DP в стохастическом градиентном происхождении (DP-SGD). Первоначальное равномерное количество партии было заменено на выборку Пуассона, чтобы минимизировать шум при обеспечении надежной конфиденциальности. В этом представил проблемы, такие как размеры переменных пакетов и рандомизированное упорядочение данных, решаемые с помощью масштабируемого DP-SGD. Этот метод обеспечивает партии фиксированного размера посредством прокладки или обрезки, сохраняя конфиденциальность без ущерба для эффективности. VaultGemma стоит как крупнейший LLM с открытым исходным кодом, полностью предварительно обученный DP, а его веса теперь доступны для обнимающего лица и Kaggle, сопровождаемого комплексным техническим отчетом. Проверка законов о масштабировании оказалась удивительно точной; Окончательная утрата обучения модели тесно связана с прогнозами, подтверждая надежность структуры для будущих частных усилий по ИИ. Оценка эффективности позиции Vaultgemma конкурентно. Он достигает полезности, сравнимой с не-частной моделью Gemma 3 1B и более старой базовой линии GPT-2 1,5B. Это демонстрирует, что современные методы DP могут воспроизвести возможности не-частных моделей примерно с пяти лет назад, что количественно определяет премию за конфиденциальность в терминах ресурсов. Нижные тесты дополнительно подтверждают это: в таких задачах, как Hellaswag, Boolq, Piqa, Socialiqa, Viviaqa, Arc-C и Arc-E, Vaultgemma соответствует своему непредна Эти результаты подчеркивают прогресс в сокращении разрыва в полете, хотя проблемы сохраняются. Защита конфиденциальности является теоретически обоснованной и эмпирически подтвержденной. VaultGemma предлагает DP на уровне последовательности с ε ≤ 2,0 и Δ ≤ 1,1 × 10⁻⁻ для 1024-ток-последовательностей из гетерогенных источников данных, отражая тренировочную смесь Gemma 2. Длинные документы разделены на последовательности, в то время как более короткие переполнены, обеспечивая естественную единицу для конфиденциальности в различных данных. На практике это гарантирует, что если личный факт появляется в одной последовательности, вывод модели остается статистически неотличимым от одного не подготовленного на этой последовательности-эффективно стирает влияние однопоследовательности. Для фактов, охватывающих несколько последовательностей, возможно, обучение возможно, но DP на уровне пользователя может улучшить защиту в сценариях данных, отображаемых пользователем. Эмпирические тесты усиливают эти гарантии. Пробуждая модель с помощью 50-то-ток-префиксов из учебных документов, не вызывая обнаруживаемого запоминания соответствующих суффиксов, подчеркивая эффективность DP в сохранении данных. В заключение, Vaultgemma вызывает вид мощного, конфиденциального ИИ. В то время как разрыв в коммунальном предприятии задерживается между моделями DP и без DP, новые законы о масштабировании и обучающие инновации предлагают систематический путь для его устранения. Этот выпуск дает возможность сообществу способствовать безопасному, ответственному ИИ, при этом продолжающиеся исследования механизмов DP, готовые к дальнейшим успехам. Проект признает вклад от групп конфиденциальности Gemma и Google, включая отзывы Питера Кайруза, Брендана МакМахана и Дэна Рамейга в объявлении. Визуализации помогали Марк Симборг и Кимберли Швееде при поддержке команд Google по алгоритмам, инфраструктуре и обслуживанию. Прямые участники включают Борджа Балл, Захари Чарльз, Кристофер А. Чокет-чу, Линн Чуа, Прем эрувбетбин, Бадих Гази, Стив Х. Х., Янсибо Хуанг, Арманд Джулин, Джордж Каиссис, Притиш Камат, Рави Кумар, Даогао Лиу, Руиб, Пасин Манурга, и Мосарс, Моса, Рави, Рави Кумар. Терзис, Трис Варкентин, Да Ю и Чиюан Чжан. Эта инициатива не только выпускает революционную модель, но также предоставляет основополагающие инструменты для масштабирования частного ИИ. Поскольку организации сталкиваются с правилами конфиденциальности данных, такими как GDPR и новые стандарты этики ИИ, VaultGemma иллюстрирует, как математическая строгость может гармонизировать инновации с защитой. Открытая доступность предлагает глобальное сотрудничество, потенциально ускоряя внедрение в таких секторах, как здравоохранение, финансы и персонализированные услуги, где конфиденциальность имеет первостепенное значение. Уливая глубже в законах о масштабировании, исследование предполагает, что коэффициент пакета шума доминирует из-за подавляющего хит-дисперсию шума конфиденциальности. Это упрощение содержится в разных экспериментах, что позволяет прогнозам потерь с высокой точностью. Например, в соответствии с фиксированным 10^18 провалов вычисляется бюджет и ε = 2 уровня конфиденциальности, оптимальная настройка может включать модель 500 м параметра с размером партии 4K и 1M итерациями, что приведет к потере около 2,5-лучше, чем субоптимальные ассигнования. Анализ синергии, полученный в результате учета конфиденциальности без полного обучения, выявляет критическую динамику. Построение предельных преимуществ показывает, что удвоение вычислительного (через размеры пакета) вдвое увеличивает соотношение шумоподаса, что эквивалентно повышает утилиту для четырехлетнего бюджета. Это подчеркивает рычаги Compute в режимах DP, где шум усиливает небольшую неэффективность. При обучении Vaultgemma команда нацелена на вычислительную оптимальность для параметров 1B, распределяя примерно 60% на расширение размера партии (до 8 тыс. От 1K не DP), 30% на итерации (всего 2 м) и от 10% до более длинных последовательностей (1024 токена). Интеграция отбора проб Пуассона с помощью масштабируемого DP-SGD поддерживала (ε, Δ) границы при обработке 1T токенов, шкала, ранее пугающая для DP. Концентрация характеристики освещают производительность. На Hellaswag Vaultgemma оценивает точность 72,1%, сопоставляя 72,3% Gemma 3 и 70,8% от GPT-2. Boolq видит 78,5% против 78,7% и 75,2% соответственно. PIQA: 74,2% против 74,5% и 71,9%; Socialiqa: 68,4% против 68,6% и 65,1%; Viriviaqa: 52,3% против 52,5% и 48,7%; ARC-C: 45,6% против 45,8% и 42,1%; ARC-E: 82,1% против 82,3% и 79,5%. Эти близкие сюжеты в целом, QA и рассуждениях подтверждают жизнеспособность DP для широких применений. Гарантия на уровне последовательности подходит для упакованной смеси, но в отчете отмечается расширения на уровне пользователя через продвинутых бухгалтеров. Эмпирические тесты включали 1000 случайных префиксов; Нулевые суффиксы совпадают за случайность (P <0,01), что контрастирует не DP-базовые линии, показывающие 5-10% отзыв. Более широкие последствия распространяются на AI Enterprise AI. С DP, такие модели, как VaultGemma, позволяют федеральному обучению на конфиденциальные данные без централизации, соблюдая законы при сохранении выразительности. Утилита, соответствующая пятилетней технической технической технике, не являющейся DP, быстрое созревание; Проекции предполагают паритет с текущими базовыми показателями в течение 2-3 лет через утонченные законы. Проблемы остаются, в том числе влияние шума на давно контекстовый обучение и мультимодальные расширения. Тем не менее, выпуск Vaultgemma демократизирует частного искусственного интеллекта, способствуя инновациям в безопасных чат -ботах, анонимизированной аналитике и инструментах этических исследований. По мере роста общества ИИ такие модели, первые конфиденциальности, будут необходимыми.
Source: Google выпускает VaultGemma как лучшую модель языка DP





