26.03.2026

MolmoWeb от AI2 управляет браузером по скриншотам и почти догоняет OpenAI o3

Алленовский институт ИИ выпустил полностью открытый веб-агент MolmoWeb, который управляет сайтами только по снимкам экрана, не читая HTML и DOM-структуру страниц.

25 марта 2026 года Allen Institute for AI (AI2) опубликовал MolmoWeb — открытый веб-агент, который умеет работать в браузере так же, как это делает человек. Он видит скриншот текущей страницы, принимает решение и выполняет действие. Потом делает новый скриншот и повторяет.

Никакого доступа к исходному коду страницы или DOM-дереву у него нет. Только то, что видно на экране. Разработчики говорят, что это делает агент устойчивее на практике: визуальная часть сайта меняется реже, чем его внутренняя структура.

Что умеет и как работает

Агент обучен на наборе данных MolmoWebMix. Это 36 000 полных сессий выполнения задач на более чем 1 100 сайтах, записанных с участием живых людей. Плюс синтетические прогоны, сгенерированные автоматически через трёхролевую систему. Планировщик на базе Gemini 2.5 Flash разбивал задачу на шаги, оператор выполнял действия, а верификатор на GPT-4o проверял результат по скриншоту. В итоге синтетические данные оказались полезнее человеческих — автоматические агенты находят более прямые пути к цели, чем реальные пользователи.

Архитектура MolmoWeb строится на Molmo2. Языковую часть обеспечивает Qwen3, визуальный энкодер — SigLIP2. Обучение прошло на 64 GPU H100, без обучения с подкреплением, без дистилляции из проприетарных моделей.

Доступны две версии с открытыми весами:

MolmoWeb-4B — компактная версия для менее ресурсоёмких задач
MolmoWeb-8B — основная, показывает лучшие результаты среди открытых моделей
Датасет MolmoWebMix полностью открыт для скачивания
Все инструменты оценки опубликованы вместе с моделью

Результаты на бенчмарках

На WebVoyager — тесте навигации по 15 популярным сайтам вроде GitHub и Google Flights — MolmoWeb-8B набирает 78,2%. Лидер среди открытых моделей. OpenAI o3 на том же тесте получает 79,3%. Разрыв в один процентный пункт.

На бенчмарках ScreenSpot по локализации элементов интерфейса MolmoWeb-8B обходит Claude 3.7 и CUA от OpenAI. На DeepShop агент отстаёт от GPT-5 всего на 6 пунктов. Это заметный результат для модели на 8 миллиардов параметров.

Главная ценность проекта даже не в самих моделях. До MolmoWeb открытое сообщество не имело ни приличных весов, ни нормального датасета для веб-агентов. Теперь есть и то, и другое. AI2 прямо сравнивает ситуацию с тем, как выход OLMo изменил рынок языковых моделей несколько лет назад.