Как использовать Google Dreambooth AI на стабильной диффузии?

ИИ Google DreamBooth уже здесь. Недавно выпущенные технологии, такие как DALL-E 2 от OpenAI или Stable Diffusion и Midjourney от StabilityAI, уже штурмуют Интернет. Пришло время настроить результаты. Но как? Бостонский университет и Google предоставили ответы, и мы подробно изложили их для вас.

DreamBooth может распознавать тему изображения, деконструировать ее из исходного контекста, а затем точно синтезировать в новый желаемый контекст. Кроме того, его можно использовать с текущими генераторами изображений AI. Узнайте больше о воображении на основе ИИ, читая дальше.

Объяснение искусственного интеллекта Google DreamBooth

Google представил DreamBooth, новую модель преобразования текста в изображение. Google DreamBooth AI может создавать широкий спектр изображений на выбранную пользователем тему в различных условиях, используя текстовое приглашение в качестве инструкции.

DreamBooth, революционный метод модификации сильно предварительно обученных моделей преобразования текста в изображение, был создан исследовательской группой из Бостонского университета и Google. В целом идея довольно проста: они хотят расширить словарь языкового зрения таким образом, чтобы идентификаторы редких токенов были связаны с определенной темой, которую пользователь хочет создать.

Ключевые особенности Google DreamBooth AI:

С 3–5 фотографиями DreamBooth AI может улучшить модель преобразования текста в изображение.
Используя DreamBooth AI, можно создавать полностью оригинальные фотореалистичные изображения объекта.
Кроме того, DreamBooth AI способен создавать изображения объекта с разных точек зрения.

Основная цель модели — предоставить пользователям инструменты, необходимые для создания фотореалистичных представлений экземпляров выбранного ими предмета и подключения их к модели распространения текста в изображение. В результате этот метод оказывается эффективным для обобщения вопросов в различных обстоятельствах.

DreamBooth от Google использует несколько иной подход, чем другие недавно выпущенные инструменты преобразования текста в изображение, такие как ДАЛЛ-Э 2, Стабильная диффузияа также Середина пути предоставляя пользователям больший контроль над изображением темы, а затем управляя моделью распространения с помощью текстовых входных данных.

DreamBooth также может показать тему с разных ракурсов с помощью всего нескольких входных фотографий. Искусственный интеллект (ИИ) может предвидеть качества объекта и синтезировать их в текстовой навигации, даже если входные фотографии не дают данных по теме с разных точек зрения.

Эта модель также может синтезировать фотографии для создания других настроений, аксессуаров или изменений цвета с использованием языковых сигналов. Благодаря этим функциям DreamBooth Google AI предлагает пользователям еще больше персонализации и свободы творчества.

Статья DreamBooth “DreamBooth: тонкая настройка моделей преобразования текста в изображение для предметно-ориентированной генерации” утверждает, что они предлагают одну новую проблему и подход:

Сюжетно-ориентированная генерация — свежая проблема.

Простой способ подготовить презентацию: Tome AI

Учитывая несколько наспех снятых изображений предмета, цель состоит в том, чтобы создать новые представления предмета в различных условиях, сохраняя при этом высокую точность его основных визуальных характеристик.

Приложения Google DreamBooth ИИ

Лучшие приложения Google DreamBooth AI:

Реконтекстуализация
Художественные исполнения
Манипуляции с выражениями
Новый синтез представлений
Аксессуары
Модификация свойства

Вы готовы расстаться с PhotoShop? Рассмотрим их подробнее, используя поучительные картинки, созданные Натаниэль Руис и команда DreamBooth.

Реконтекстуализация

Подавая обученной модели фразу, включающую уникальный идентификатор и существительное класса, ИИ DreamBooth может создавать уникальные изображения для определенного экземпляра субъекта. Вместо того, чтобы изменять фон, DreamBooth AI может создать объект в новых, ранее невиданных позах, артикуляциях и структуре сцены. реалистичные тени и отражения, а также взаимодействие субъекта с соседними предметами. Это показывает, что их стратегия предлагает больше, чем просто экстраполяцию или поиск соответствующей информации.

Художественные исполнения

Если есть возможность выбрать между «статуей [V] [class noun] в стиле [great sculptor]» и «картина А. [V] [class noun] в стиле [famous painter]», что бы вы выбрали? Используя DreamBooth AI, можно создавать оригинальные творческие представления.

В частности, эта задача отличается от переноса стиля, который сохраняет семантику исходной сцены, применяя стиль другого изображения к исходной сцене. Напротив, в зависимости от творческого стиля ИИ может добиться больших изменений сцены с деталями экземпляра объекта и сохранением личности.

Манипуляции с выражениями

С помощью метода искусственного интеллекта Google DreamBooth можно создавать новые изображения объекта с выражениями лица, отличными от тех, что были в исходном наборе изображений.

Новый синтез представлений

Google DreamBooth AI может отображать тему с нескольких уникальных точек зрения. Например, DreamBooth AI может создавать свежие изображения одного и того же кота, используя разные ракурсы камеры, с надежно детализированными узорами меха.

Несмотря на то, что у модели есть только четыре фотографии кошки спереди, ИИ DreamBooth может извлечь информацию из класса, прежде чем создавать эти творческие точки зрения, даже если он никогда не видел эту же кошку сбоку, снизу или сверху.

Аксессуары

Интригующий аспект способности искусственного интеллекта DreamBooth украшать объекты проистекает из сильного композиционного априора модели поколения. Для иллюстрации модели предлагается предложение вида «a [V] [class noun] утомительный [accessory]». Это позволяет нам красиво прикреплять различные предметы к собаке.

Модификация свойства

DreamBooth AI способен изменять свойства экземпляра объекта. Цветовое прилагательное может быть использовано в примере предложения «a [color adjective] [V] [class noun]». Это может привести к свежим, ярким экземплярам темы. Есть несколько требований, но эти характеристики также объясняют, как использовать DreamBooth AI.

Минималистичный Light Phone 3 и его возможности уже здесь

Используете искусственный интеллект Google DreamBooth?

Техника искусственного интеллекта DreamBooth принимает в качестве входных данных небольшое количество фотографий (обычно достаточно 3-5 изображений) предмета (например, конкретной собаки) и связанного с ним имени класса (например, «собака»). Затем он создает модель преобразования текста в изображение, которая была настроена и «персонализирована» и кодирует уникальную идентификацию для темы. Чтобы синтезировать темы в различных контекстах, DreamBooth AI может затем вставлять отличительную идентификацию при выводе в различные фразы. Имея от трех до пяти изображений предмета, вы можете настроить диффузию текста к изображению в два этапа:

Текстовая подсказка с определенным кодом и названием класса, к которому принадлежит объект (например, «изображение [T] canine») будет использоваться для улучшения модели преобразования текста в изображение с низким разрешением. Кроме того, они используют априорную потерю сохранения класса для конкретного класса, которая использует семантический априор модели для класса и побуждает ее генерировать ряд примеров, которые являются членами класса субъекта, помещая имя класса в текстовую подсказку (например, , «изображение собаки»).
Мы достигаем высокой точности, настраивая компоненты сверхвысокого разрешения, используя пары фотографий с низким и высоким разрешением из нашего набора входных изображений.

Первая Dreambooth была сделана с использованием ИзображениеПарадигма преобразования текста в изображение. Однако модель и веса от Imagen недоступны. Однако, используя несколько примеров, Dreambooth на Stable Diffusion позволяет пользователям настраивать модель преобразования текста в изображение.

Как использовать Google Dreambooth AI на стабильной диффузии?

Чтобы использовать DreamBooth AI в Stable Diffusion, выполните следующие действия:

Следуйте инструкциям по настройке в репозитории Textual Inversion или исходном репозитории Stable Diffusion, чтобы настроить среду LDM.
Для тонкой настройки модели стабильной диффузии необходимо получить предварительно обученные модели стабильной диффузии и придерживаться их инструкций. Вы можете скачать веса с ОбниматьсяЛицо.
Подготовьте серию изображений для регуляризации в соответствии с требованиями метода тонкой настройки Dreambooth.
Вы можете потренироваться, используя следующую команду:

python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml
                -t
                --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt 
                -n <job name>
                --gpus 0,
                --data_root /root/to/training/images
                --reg_data_root /root/to/regularization/images
                --class_word <xxx>

Поколение

После обучения команду можно использовать для получения персонализированных примеров.

python scripts/stable_txt2img.py --ddim_eta 0.0
                                 --n_samples 8
                                 --n_iter 1
                                 --scale 10.0
                                 --ddim_steps 100 
                                 --ckpt /path/to/saved/checkpoint/from/training
                                 --prompt "photo of a sks <class>"

В частности, class> — это слово класса — слово класса для обучения, а sks — идентификатор (который, если вы хотите его изменить, следует заменить на ваш выбор). Для получения дополнительной информации посетите Страница GitHub для DreamBooth Stable Diffusion.

Обновление хитбоксов CS2 здесь, чтобы решить ваши проблемы

Ограничения Dreambooth AI

Ограничения DreamBooth AI следующие:

Языковой дрейф
Переоснащение
Потеря консервации

Давайте рассмотрим их более внимательно.

Языковой дрейф

Производить итерации в топике с высокой степенью детализации мешает командная строка. DreamBooth может изменить контекст темы, однако есть проблемы с рамкой, если модель хочет изменить фактическую тему.

Переоснащение

Другая проблема заключается в том, что выходное изображение накладывается на исходное изображение. Тема может не оцениваться или может быть объединена с контекстом загруженных изображений, если исходных фотографий недостаточно. Это также происходит, когда запрашивается контекст для нечетного поколения.

Потеря консервации

Неспособность синтезировать изображения на более редкие или более сложные темы, а также переменная достоверность сюжета, что может привести к галлюциногенным сдвигам и прерывистым качествам, являются дополнительными ограничениями. Входной контекст часто включается в тему входных изображений.

Социальное влияние ИИ

Цель проекта DreamBooth — предоставить пользователям практический инструмент для синтеза личных тем (животных, объектов) в различных условиях. Хотя стандартные алгоритмы преобразования текста в изображение могут быть смещены в сторону определенных аспектов при синтезе изображений из слов, это помогает пользователю лучше воссоздать выбранные им темы. Однако злоумышленники могут попытаться обмануть пользователей, используя похожие изображения. Различные методы генеративной модели или методы модификации контента демонстрируют эту распространенную проблему.

Вывод

Большинству моделей преобразования текста в изображение требуются миллионы параметров и библиотек для создания выходных данных из одного ввода текста. DreamBooth упрощает пользователям получение контента и его использование, просто требуя ввода от трех до пяти тематических изображений вместе с письменным фоном.

Таким образом, отличительные качества темы могут быть сохранены, в то время как обученная модель повторно использует материалистические аспекты предмета, полученные из изображений, для их воспроизведения в других условиях и точках зрения. Большинство алгоритмов преобразования текста в изображение полагаются на определенные ключевые слова и могут отдавать приоритет определенным атрибутам при отображении изображений. Пользователи DreamBooth могут получить фотореалистичные результаты, увидев выбранного ими человека в уникальной среде или сценарии. Итак, перестаньте ждать сейчас. Попробуй это сейчас!

Мы надеемся, что вам понравилась эта статья о том, как использовать Google Dreambooth AI в Stable Diffusion. Если вы это сделали, мы уверены, что вам также понравится читать некоторые из наших других статей, таких как DALL-E 2 представила перекрашивание: ИИ воображает без границ или Генератор искусства стабильной диффузии ИИ: подсказки, примеры и как запустить.

Source: Как использовать Google Dreambooth AI на стабильной диффузии?

Как использовать Google Dreambooth AI на стабильной диффузии?

Объяснение искусственного интеллекта Google DreamBooth

Приложения Google DreamBooth ИИ

Реконтекстуализация

Художественные исполнения

Манипуляции с выражениями

Новый синтез представлений

Аксессуары

Модификация свойства

Используете искусственный интеллект Google DreamBooth?

Как использовать Google Dreambooth AI на стабильной диффузии?

Ограничения Dreambooth AI

Языковой дрейф

Переоснащение

Потеря консервации

Социальное влияние ИИ

Вывод

Related Stories

Apple активирует Siri AI на Apple Watch в watchOS 27 beta 3

По слухам, Apple выпустит складной iPhone Ultra в 2026 году.

Google меняет правила хранения резервных копий телефонов Android

Samsung планирует четвертую бета-версию One UI 9 для Galaxy S26