清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。
AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。而 VPP 的诞生标志着这一技术的应用迈向了具身智能机器人领域。VPP 的独特之处在于其利用了海量互联网视频数据进行训练,使得机器人能够在接收到简单指令后,实时预测未来场景并执行相应动作。例如,用户只需说出 “给我盛一碗热腾腾的鸡汤”,VPP 模型便能让机器人完成这一任务。
根据 ICML2025的统计,今年的 Spotlight 论文评选竞争激烈,投稿总数超过12000篇,而获奖论文仅占2.6%。VPP 通过将视频扩散模型的泛化能力引入机器人操作策略,创新性地解决了传统推理速度的瓶颈,实现了机器人实时预测和动作执行的能力,显著提升了策略的泛化性。
VPP 的学习框架分为两个阶段,首先利用视频扩散模型学习预测性视觉表征,然后通过 Video Former 和 DiT 扩散策略进行动作学习。这种方法使得机器人不仅能快速响应用户指令,还能在不同的人形机器人平台之间自如切换,极大降低了对高质量实机数据的依赖,推动了机器人技术的商业化进程。
在基准测试中,VPP 的表现也令人瞩目。在 Calvin ABC-D 基准测试中,其任务完成平均长度达到4.33,成功率显著高于现有技术,展现出其卓越的性能。此外,VPP 的多任务学习能力也在真实环境中得到了验证,能够完成100多种复杂的灵巧操作任务。
Tags:
相关文章
英伟达首席执行官黄仁勋宣布推出最新的人形机器人基础模型 ——Isaac GR00T N1.5。此次发布标志着英伟达在机器人开发基础设施上迈出了重要的一步,黄仁勋表示...
2025-05-20 244 A I 资讯
马斯克的人工智能聊天机器人 Grok 因在回答有关大屠杀的问题时表现出怀疑态度而引发广泛争议。Grok 在回答中表示,对主流来源所称的 “约600万名犹太人在大屠杀中遇害” 的数字表示怀疑,认为没有原...
2025-05-19 382 A I 资讯
今天腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0)。目前已经在腾讯混元官方网站上线,并对外开放注册体验,该模型主要有两大特点:实时生图、超写实画质...
2025-05-16 220 A I 资讯
近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了 DeepSe...
2025-05-16 849 A I 资讯
在当今科技行业,关于人类在日益自动化的世界中所扮演的角色,出现了两种截然不同的观点:一种认为除了他们自己,其他所有工作都将被机器人取代;另一种则认为机器人会承担那些乏味和重复的工作,而人类将...
2025-05-12 606 A I 资讯