Paper Detail
VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action ModelsVAMPO:面向视频动作模型视觉动力学的策略优化方法
cs.CV端到端CV热门获取具身智能多模态
VAMPO Authors
2026年03月20日
arXiv: 2603.19370v1
作者人数
1
标签数量
5
内容状态
含 PDF
原文 + 中文
同页查看标题和摘要的双语信息
PDF 预览
直接在详情页阅读或下载论文全文
深度分析
继续下钻到 AI 生成的结构化解读
摘要 / Abstract
This paper presents VAMPO, a post-training framework that improves visual dynamics in video action models for robot control. The key contribution is formulating multi-step denoising as a sequential decision process and optimizing the denoising policy with rewards defined over expert visual dynamics in latent space. The approach addresses the objective mismatch in current diffusion-based video predictors by explicitly optimizing precision-critical visual dynamics needed for manipulation tasks.
本文提出VAMPO,一种用于改进机器人控制中视频动作模型视觉动力学的后训练框架。其核心贡献是将多步去噪建模为序列决策过程,并利用潜在空间中专家视觉动力学定义的奖励来优化去噪策略。该方法通过显式优化操作任务所需的精度关键视觉动力学,解决了当前基于扩散的视频预测器中的目标不匹配问题。
分类 / Categories
cs.CVcs.RO
深度分析
AI 深度理解论文内容,生成具有洞见性的总结