Apple сделала свой FASTVLM (модель визуального языка) доступным для тестирования непосредственно в веб-браузере, что позволило пользователям с Mac-мощностью Apple Macs оценить свои возможности обработки изображений с высоким разрешением. Модель, первоначально выпущенная несколько месяцев назад, использует MLX, открытую структуру Apple, оптимизированную для Apple Silicon, для достижения значительно более быстрого подписания видео и меньшего размера модели по сравнению с его аналогами. Сообщается, что FASTVLM в 85 раз быстрее при подписке на видео и более чем в три раза меньше, чем сопоставимые модели. Apple расширила доступность проекта, что сделало его доступным для обнимающего лица в дополнение к GitHub. Теперь пользователи могут загрузить легкую модель FASTVLM-0,5B непосредственно в своем браузере, чтобы оценить ее производительность. Согласно тестам, загрузка модели занимает пару минут на 16 ГБ M2 Pro Macbook Pro. После загрузки модель точно описывает внешний вид пользователя, окружающую среду, выражения и объекты. Пользователи могут взаимодействовать с моделью, настраивая подсказку или выбирая из предварительных вариантов, таких как «Опишите то, что вы видите в одном предложении», «Каков цвет моей рубашки?», «Определите какой -либо текст или письменный контент видимым», «Какие эмоции или действия изображаются?» и «Назовите объект, который я держу в руке». Это допускает индивидуальный и интерактивный опыт. Кроме того, пользователи могут использовать приложение для виртуальной камеры для подачи живого видео в инструмент, что позволяет ему мгновенно описать несколько сцен в подробности. Это подчеркивает скорость и точность модели. Ключевой особенностью этой реализации является то, что она работает локально в браузере, обеспечивая конфиденциальность данных, поскольку данные не покидают устройство. Модель также может работать в автономном режиме, что делает ее подходящей для применений в области носимых и вспомогательных технологий, где низкая задержка и эффективность имеют решающее значение. Демонстрация на основе браузера использует версию FASTVLM на 0,5 миллиарда параметров. Семейство FASTVLM включает в себя большие варианты с 1,5 миллиардами и 7 миллиардами параметров. В то время как эти более крупные модели могут предложить улучшенную производительность и скорость, запуск их непосредственно в браузере маловероятно из -за ограничений ресурсов. Apple поощряет пользователей проверять модель и поделиться своими отзывами.
Source: Демонстрация Apple FASTVLM теперь работает в браузере на Apple Silicon





