返回论文列表
Paper Detail
The Dual Mechanisms of Spatial Reasoning in Vision-Language Models视觉-语言模型中空间推理的双重机制
cs.CV大语言模型CVTransformer热门获取多模态
Anonymous Authors
2026年03月24日
arXiv: 2603.22278v1

作者人数

1

标签数量

5

内容状态

含 PDF

原文 + 中文

同页查看标题和摘要的双语信息

PDF 预览

直接在详情页阅读或下载论文全文

深度分析

继续下钻到 AI 生成的结构化解读

摘要 / Abstract

This paper investigates how vision-language models associate objects with their properties and spatial relations in multimodal tasks like image captioning and visual question answering. The research reveals that VLMs employ two concurrent mechanisms for spatial reasoning: the language model backbone represents content-independent spatial relations on visual tokens, while the vision encoder encodes object layouts that are directly utilized by the language model. The dominant spatial information originates from the vision encoder and is distributed globally across visual tokens, extending beyond object regions. These findings provide insights into the internal workings of multimodal models for spatial understanding.

本文研究了视觉-语言模型如何在图像描述和视觉问答等多模态任务中将对象与其属性和空间关系相关联。研究发现,视觉-语言模型采用两种并行机制进行空间推理:语言模型主干在视觉令牌上表示与内容无关的空间关系,而视觉编码器编码的对象布局则由语言模型直接利用。主导的空间信息源自视觉编码器,并在视觉令牌上全局分布,超出对象区域。这些发现为理解多模态模型空间认知的内部工作机制提供了重要启示。

PDF 预览
1
在 arXiv 查看下载 PDF

分类 / Categories

cs.CVcs.CL

深度分析

AI 深度理解论文内容,生成具有洞见性的总结