Alibaba собрала три AI-модели Qwen в стек для робототехники

Alibaba вывела семейство Qwen в более физический мир: компания представила Qwen-Robot Suite, набор из трёх AI-моделей для робототехники. Это не новый гуманоид и не бытовой робот «для кухни и тапочек», а программный стек, который должен помогать машинам ориентироваться, выполнять действия и просчитывать последствия в реальной среде.
В комплект входят Qwen-RobotNav, Qwen-RobotManip и Qwen-RobotWorld. Первая модель отвечает за навигацию: следование инструкциям, движение к точке, поиск объектов, отслеживание цели и автономное вождение. По данным источника, Qwen-RobotNav обучали на 15,6 млн примеров; на VLN-CE RxR она показала 76,5% успешности, а на EVT-Bench — 90% отслеживания.
Qwen-RobotManip занимается манипуляциями: от работы с координатами суставов до управления конечным положением рабочего органа и движениями всего корпуса. Alibaba утверждает, что для модели синтезировали около 38 100 часов обучающих данных из открытых робототехнических наборов и видео с людьми. На RoboChallenge Table30-v1 модель заняла первое место и, по оценке компании, обошла прежние подходы на 20%.
Третья часть, Qwen-RobotWorld, ближе всего к идее «воображения» для робота: модель должна по текстовой команде моделировать, что произойдёт в физическом мире. Для неё использовали корпус Embodied World Knowledge: 8,6 млн пар видео–текст, 200 млн кадров, 5,9 млн примеров манипуляций, более 1 300 навыков и свыше 20 типов конструкций роботов. Alibaba также говорит о переносе навыков между 14 роботизированными руками.
Звучит почти как заявка на «операционную систему для экономики роботов», но тут лучше не разгоняться раньше времени. Qwen-Robot Suite пока выглядит как набор моделей для разработчиков и исследователей, а не как готовая ОС, которую завтра поставят на любого домашнего помощника. В этом смысле новость ближе к теме edge AI и вычислений на устройстве, чем к привычным релизам чат-ботов.
Интереснее другое: Alibaba пытается собрать не одну «умную» модель, а связку для разных роботехнических задач. Навигация, манипуляции и моделирование мира обычно живут отдельными слоями, а здесь их подают как единый стек. Похожая логика уже заметна в автомобильной автономности и роботакси, о которых мы писали в материале про Tesla Cybercab и автономное вождение: софт всё чаще становится главным полем боя, а железо без нормального «мозга» быстро превращается в дорогую тележку с датчиками.
Пока у проекта хватает белых пятен. Alibaba не раскрыла цену, сроки массового запуска, регионы доступности, формат доступа, требования к железу и полный список клиентов пилотных программ. Неясно и то, насколько красиво бенчмарки перенесутся в обычный хаос реального мира, где объекты стоят не по датасету, люди двигаются непредсказуемо, а робот иногда просто не видит то, что человек считает очевидным.
Но направление важное. После бума LLM крупные AI-компании всё чаще смотрят туда, где текст заканчивается и начинаются вещи: камеры, руки, колёса, датчики, полки, дороги и помещения. На этом же стыке развиваются AI-инфраструктура и специализированные вычисления, включая решения вроде Nvidia AI Aerial. Qwen-Robot Suite показывает, что Alibaba хочет быть не только в разговорах с AI, но и в машинах, которые смогут что-то делать.
Источник: Decrypt