MolmoWeb от AI2 управляет браузером по скриншотам и почти догоняет OpenAI o3
Алленовский институт ИИ выпустил полностью открытый веб-агент MolmoWeb, который управляет сайтами только по снимкам экрана, не читая HTML и DOM-структуру страниц.
25 марта 2026 года Allen Institute for AI (AI2) опубликовал MolmoWeb — открытый веб-агент, который умеет работать в браузере так же, как это делает человек. Он видит скриншот текущей страницы, принимает решение и выполняет действие. Потом делает новый скриншот и повторяет.
Никакого доступа к исходному коду страницы или DOM-дереву у него нет. Только то, что видно на экране. Разработчики говорят, что это делает агент устойчивее на практике: визуальная часть сайта меняется реже, чем его внутренняя структура.
Что умеет и как работает
Агент обучен на наборе данных MolmoWebMix. Это 36 000 полных сессий выполнения задач на более чем 1 100 сайтах, записанных с участием живых людей. Плюс синтетические прогоны, сгенерированные автоматически через трёхролевую систему. Планировщик на базе Gemini 2.5 Flash разбивал задачу на шаги, оператор выполнял действия, а верификатор на GPT-4o проверял результат по скриншоту. В итоге синтетические данные оказались полезнее человеческих — автоматические агенты находят более прямые пути к цели, чем реальные пользователи.
Архитектура MolmoWeb строится на Molmo2. Языковую часть обеспечивает Qwen3, визуальный энкодер — SigLIP2. Обучение прошло на 64 GPU H100, без обучения с подкреплением, без дистилляции из проприетарных моделей.
Доступны две версии с открытыми весами:
- MolmoWeb-4B — компактная версия для менее ресурсоёмких задач
- MolmoWeb-8B — основная, показывает лучшие результаты среди открытых моделей
- Датасет MolmoWebMix полностью открыт для скачивания
- Все инструменты оценки опубликованы вместе с моделью
Результаты на бенчмарках
На WebVoyager — тесте навигации по 15 популярным сайтам вроде GitHub и Google Flights — MolmoWeb-8B набирает 78,2%. Лидер среди открытых моделей. OpenAI o3 на том же тесте получает 79,3%. Разрыв в один процентный пункт.
На бенчмарках ScreenSpot по локализации элементов интерфейса MolmoWeb-8B обходит Claude 3.7 и CUA от OpenAI. На DeepShop агент отстаёт от GPT-5 всего на 6 пунктов. Это заметный результат для модели на 8 миллиардов параметров.
Главная ценность проекта даже не в самих моделях. До MolmoWeb открытое сообщество не имело ни приличных весов, ни нормального датасета для веб-агентов. Теперь есть и то, и другое. AI2 прямо сравнивает ситуацию с тем, как выход OLMo изменил рынок языковых моделей несколько лет назад.