宇树开源多模态视觉语言大模型UnifoLM-VLA-0_k8凯发集团官网开户,k8凯发推荐手机网址

宇树开源多模态视觉语言大模型UnifoLM-VLA-0

时间：2026-02-12 21:23:11

　　凤凰网科技讯 1月29日，机器人公司宇树科技宣布开源其视觉-语言-动作（VLA）大模型 UnifoLM-VLA-0。该模型旨在解决传统视觉语言大模型（VLM）在物理交互中的局限，通过针对性的预训练，使之从图文理解能力进化成具备物理常识的“具身大脑”。

　　据官方介绍，UnifoLM-VLA-0 是 UnifoLM 系列下专门面向通用人形机器人操作的模型。其基于开源的 Qwen2.5-VL-7B 模型构建，使用了覆盖通用与机器人场景的多任务数据集进行持续预训练，以提升模型对几何空间与语义逻辑的对齐能力。

　　模型的核心突破在于针对操作任务的高要求，深度融合了文本指令与2D/3D空间细节，并构建了全链路动力学预测数据以增强任务泛化性。特别地，宇树在模型架构上集成了动作预测头，并对开源数据集进行了系统化清洗，最终仅利用约340小时的真机数据，结合动作分块预测与动力学约束，实现了对复杂动作序列的统一建模与长时序规划。

　　评估结果显示，该模型在多个空间理解基准上的能力较基础模型有显著提升，并在“no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。在 LIBERO 仿真基准测试中，其多任务模型也取得了接近最优的性能。

　　在真机验证环节，UnifoLM-VLA-0 在宇树 G1 人形机器人平台上，仅凭单一策略网络即可高质量完成开闭抽屉、插拔插头、抓取放置等12类复杂的操作任务。官方称，即使在外部扰动条件下，模型也表现出良好的执行鲁棒性与抗干扰能力。

　　目前，该模型的项目主页与开源代码已在 GitHub 平台公布，供开发者与研究人员获取。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　案｜邓炳强拟建议行政长官会同行会命令，剔除《苹果日报》相关3公司注册，任何人提供援助即属违法

　　亏麻了！福特2025年业绩爆冷：营收连增5年却净亏约82亿美元，中国市场销量腰斩

　　广东汕头亚朵酒店春节一晚4200多元，当地发告诫书要求“合理定价”，市监局：价格由经营者自主制定，未出台节假日住宿价格干预政策

　　数十人死伤！加拿大18岁变性枪手穿裙闯进中学扫射，行凶前已杀妈妈和弟弟

　　“他告诉我，‘我可以杀了你’”：瑞典前模特在恐惧数十年后公开谴责爱泼斯坦的招募者

　　刚建国就敢盖皇宫？毛主席回京看到这一幕，拍着桌子吼了5个字，周总理都不敢劝，这究竟是谁有这么大的胆子？