Paper Detail

MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language ModelMultihopSpatial：面向视觉-语言模型的多跳组合式空间推理基准

cs.CVCVTransformer热门获取具身智能多模态

MultihopSpatial Team

2026年03月19日

arXiv: 2603.18892v1

作者人数

1

标签数量

5

内容状态

含 PDF

原文 + 中文

同页查看标题和摘要的双语信息

PDF 预览

直接在详情页阅读或下载论文全文

深度分析

继续下钻到 AI 生成的结构化解读

摘要 / Abstract

Spatial reasoning is foundational for Vision-Language Models deployed as Vision-Language-Action agents in physical environments. This paper introduces MultihopSpatial, a benchmark designed for multi-hop and compositional spatial reasoning with complex queries across diverse spatial perspectives. The work proposes Acc@50IoU, a metric that simultaneously evaluates reasoning and visual grounding by requiring both answer selection and precise bounding box prediction. MultihopSpatial-Train provides a large-scale training corpus to foster spatial intelligence. Extensive evaluation of 37 state-of-the-art VLMs yields key insights into the capabilities and limitations of current models for robust VLA deployment in embodied AI scenarios.

摘要 / Abstract

分类 / Categories

深度分析