📁 AI

SpatialVLM

给视觉语言模型赋予空间推理能力

#视觉语言模型
#空间推理
#机器人控制
#VQA
SpatialVLM

产品详情

SpatialVLM是一个由谷歌DeepMind开发的视觉语言模型,能够对空间关系进行理解和推理。它通过大规模合成数据的训练,获得了像人类一样直观地进行定量空间推理的能力。这不仅提高了其在空间VQA任务上的表现,还为链式空间推理和机器人控制等下游任务打开了新的可能。

主要功能

1
定性空间关系推理
2
定量距离和尺寸估计
3
支持链式多步空间推理
4
为机器人控制提供奖励

适用人群

空间VQA、链式空间推理、机器人控制

使用示例

判断两个物体哪个离摄像头更近

估计两个物体之间的水平距离

判断桌子上是否形成等边三角形

快速访问

访问官网 →

所属分类

📁 AI
› AI模型
› AI图像检测识别

相关推荐

发现更多类似的优质AI工具