作者人数
标签数量
内容状态
原文 + 中文
同页查看标题和摘要的双语信息
PDF 预览
直接在详情页阅读或下载论文全文
深度分析
继续下钻到 AI 生成的结构化解读
摘要 / Abstract
This paper presents SpatialReward, a novel verifiable reward model designed to evaluate fine-grained spatial relationships in text-to-image generation. The approach employs a multi-stage pipeline consisting of a Prompt Decomposer for extracting spatial metadata, expert detectors for visual grounding of object positions, and a vision-language model with chain-of-thought reasoning to assess complex spatial relations. By focusing on spatial layout evaluation rather than just semantic alignment, this work addresses a critical gap in current reward modeling approaches for generative AI systems.
本文提出了SpatialReward,这是一种用于评估文本到图像生成中细粒度空间关系的新型可验证奖励模型。该方法采用多阶段流水线,包括用于提取空间元数据的提示分解器、用于视觉定位物体位置的专家检测器,以及具有思维链推理能力的视觉-语言模型,用于评估复杂的空间关系。通过关注空间布局评估而不仅仅是语义对齐,本工作解决了当前生成式人工智能系统奖励建模方法中的一个关键空白。
分类 / Categories
深度分析
AI 深度理解论文内容,生成具有洞见性的总结