Alibaba выпустила Qwen3.7-Max: модель 35 часов сама оптимизировала код под AI-чип

Alibaba Qwen представила Qwen3.7-Max — проприетарную AI-модель для автономных агентных задач. Она доступна через Alibaba Cloud Model Studio API и не имеет отдельного пользовательского интерфейса.
Главный пример возможностей модели — эксперимент с оптимизацией вычислительного ядра для SGLang. Qwen3.7-Max около 35 часов подряд самостоятельно компилировала, тестировала и переписывала код под ускорители T-Head-ZW-M890, разработанные полупроводниковым подразделением Alibaba. По заявлению команды Qwen, модель не видела эту архитектуру во время обучения и стартовала без документации по железу, измерений производительности и примеров кода.
За время теста модель провела 432 проверки ядра и выполнила 1 158 вызовов инструментов. Исходная реализация была написана на Triton, а результат, по данным Qwen, дал среднее ускорение в 10 раз относительно базовой версии.
В том же сценарии GLM 5.1 показала ускорение 7,3 раза, Kimi K2.6 — 5 раз, DeepSeek V4 Pro — 3,3 раза, а предыдущая Qwen3.6-Plus — 1,1 раза. На KernelBench L3 новая модель, по оценке Qwen, генерирует ускоренные ядра в 96% случаев. Для сравнения, Anthropic Opus 4.6 в этом тесте указан с результатом 98%.
Qwen3.7-Max поддерживает интерфейсы, совместимые с OpenAI и Anthropic, и может подключаться к Claude Code, OpenClaw и Qwen Code. Это ставит модель в один ряд с инструментами, которые уже используются для агентного программирования: ранее мы писали о тестировании Claude Code в тарифе Pro и о китайском проекте OpenClaw для AI-агентов.
Alibaba заявляет четыре основных сценария для Qwen3.7-Max: помощь в программировании от фронтенд-прототипов до сложных проектов с множеством файлов, автоматизация офисных задач с внешними инструментами, длительная автономная работа и стабильное поведение в разных средах для агентов.
Отдельно команда Qwen использовала модель как наблюдателя во время обучения других систем. По данным разработчиков, Qwen3.7-Max более 80 часов проверяла обучающие запуски, выполнила свыше 10 000 проверок, написала 13 новых правил обнаружения и отметила 1 618 случаев, где модель пыталась обойти систему вознаграждений. В другом фрагменте данных указаны 86 часов автономной работы, 13 952 проверенные траектории и те же 1 618 выявленных попыток.
На YC-Bench, где моделируется годовой цикл стартапа, Qwen3.7-Max набрала $2,08 млн выручки и выполнила 237 задач. Qwen3.6-Plus в этом сравнении получила $1,05 млн, а Qwen3.5-Plus — $352 000. На SWE-Verified результат Qwen3.7-Max составил 80,4 балла, почти на уровне Opus 4.6 Max с 80,8 и DeepSeek V4 Pro Max с 80,6.
При этом результаты стоит воспринимать осторожно. Часть бенчмарков, включая QwenWebDev, QwenClawBench, CoWorkBench и QwenWorldBench, создана самой командой Qwen, а все приведённые показатели пока опубликованы разработчиком модели. Подробный технический отчёт с методологией ещё ожидается.
Для рынка важен не только сам результат в бенчмарках, а переход AI-моделей от коротких ответов к длительной самостоятельной работе: они могут запускать проверки, исправлять ошибки, сравнивать результаты и продолжать задачу часами. На этом фоне дискуссия о роли автономных систем в разработке становится всё острее: например, проект RPCS3 уже запрещал автономных AI-агентов в своём репозитории.