返回论文列表
Paper Detail
SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image GenerationSpatialReward:用于文本到图像生成中细粒度空间一致性的可验证空间奖励建模
cs.CV大语言模型CV热门获取目标检测多模态
Anonymous
2026年03月24日
arXiv: 2603.22228v1

作者人数

1

标签数量

5

内容状态

含 PDF

原文 + 中文

同页查看标题和摘要的双语信息

PDF 预览

直接在详情页阅读或下载论文全文

深度分析

继续下钻到 AI 生成的结构化解读

摘要 / Abstract

This paper presents SpatialReward, a novel verifiable reward model designed to evaluate fine-grained spatial relationships in text-to-image generation. The approach employs a multi-stage pipeline consisting of a Prompt Decomposer for extracting spatial metadata, expert detectors for visual grounding of object positions, and a vision-language model with chain-of-thought reasoning to assess complex spatial relations. By focusing on spatial layout evaluation rather than just semantic alignment, this work addresses a critical gap in current reward modeling approaches for generative AI systems.

本文提出了SpatialReward,这是一种用于评估文本到图像生成中细粒度空间关系的新型可验证奖励模型。该方法采用多阶段流水线,包括用于提取空间元数据的提示分解器、用于视觉定位物体位置的专家检测器,以及具有思维链推理能力的视觉-语言模型,用于评估复杂的空间关系。通过关注空间布局评估而不仅仅是语义对齐,本工作解决了当前生成式人工智能系统奖励建模方法中的一个关键空白。

PDF 预览
1
在 arXiv 查看下载 PDF

分类 / Categories

cs.CVcs.AI

深度分析

AI 深度理解论文内容,生成具有洞见性的总结