2026年5月30日

608

Qwen-VLA：迈向通用具身智能的统一动作框架

在现有具身智能研究中，操作、导航、轨迹预测这些本应协同工作的能力，却被拆分成独立的模型，各自为战。这种碎片化的架构导致机器人换个物体、环境、甚至换一个机械臂就会失效。这让我们不禁思考：既然大语言模型能用一个大脑统一处理翻译、写作、问答等千百种文本任务，那机器人的“看、动、走”是不是也能装进同一个大脑？

统一动作轨迹预测框架

基于这一思路，研究团队提出了Qwen-VLA——一个基于大模型的通用具身智能统一动作框架。该模型以Qwen3.5-4B为底座，搭配基于DiT的动作解码器，通过三大核心技术路径构建了通用的视觉-语言-动作模型：统一动作轨迹预测框架、本体感知提示条件化、文本到动作DiT预训练（T2A）。

本体感知提示条件化

传统方案中，操作模型、导航模型和轨迹预测模型针对单一任务设计，碎片化的能力限制了跨任务迁移、跨环境适应和跨本体部署。但研究团队观察到一个关键事实：尽管这些任务表面上差异巨大，它们在计算结构上是同构的——都是“观察场景 + 理解指令 → 预测未来动作序列”。 Qwen-VLA将视觉语言主干网络（负责感知和推理功能）与DiT动作解码器相结合，不同任务数据可以在同一个训练过程中共同提供监督，模型从中习得的视觉定位和空间推理能力也因此可以跨任务迁移。

操作、导航和轨迹预测确实可以被视为同一个条件动作预测问题的不同实例化，而跨本体泛化可以通过将硬件差异编码为自然语言来优雅地实现。

“技术洞察”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

四阶段训练策略

真实世界中的机器人硬件差异巨大：自由度数量、控制频率、运动学约束、接口协议各不相同。传统方案通常为每种机器人本体定制独立的模型分支或输出头。 Qwen-VLA选择了一条更轻量的路径：将硬件差异转化为语言理解问题，用一段结构化文本提示作为唯一的平台特定接口。通过在每个训练样本输入前端拼接描述当前机器人的文本提示，将机器人型号、机械臂数量、控制频率和预测时域等关键信息全部编码为自然语言，交由VLM骨干网络处理。这一机制使得同一个动作解码器可以在训练时同时接受来自十余种机器人平台的数据，在推理时只需替换提示中的平台描述即可切换控制约定。目前该框架已支持11种机器人平台类型的统一控制。

实验结果与性能验证

Qwen-VLA采用渐进式的四阶段训练策略，确保VLM和DiT能够高效协同：第一阶段：文本到动作预训练（T2A）。冻结VLM，纯文本训练DiT。这一步让DiT先学会“动作是什么”——理解不同指令对应什么样的动作模式，学会根据机器人类型调整控制方式。由于省去了图像编码，T2A每步的计算代价约为多模态训练的1/10。第二阶段：持续预训练（CPT）。解锁全部参数，在大规模异构数据混合上联合训练。这一阶段专注于将动作落地到视觉观测，让骨干网络适应具身感知。第三阶段：监督微调（SFT）。分两条并行分支——在多种仿真环境采集的异构任务上联合微调，以及针对真机遥操作数据微调，验证预训练表征向真实场景的迁移能力。第四阶段：强化学习（RL）。在SimplerEnv中用稀疏二值成功奖励做强化学习，直接优化闭环任务成功率。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

具身智能视觉语言动作模型机器人控制多模态AI 积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

Qwen-VLA：迈向通用具身智能的统一动作框架

统一动作轨迹预测框架

本体感知提示条件化

JimoClaw — 桌面 AI Agent 工作台

四阶段训练策略

实验结果与性能验证

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

Qwen-VLA：迈向通用具身智能的统一动作框架

统一动作轨迹预测框架

本体感知提示条件化

JimoClaw — 桌面 AI Agent 工作台

四阶段训练策略

实验结果与性能验证

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向