🖼️ 图像

Sparsh

Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示,并在TacBench提出的下游任务中大幅度超越端到端模型,同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

#机器学习
#数据集
#PyTorch
#自监督学习
#触觉传感
定价: 免费
Sparsh

产品详情

自监督触觉表示,用于基于视觉的触觉传感。

主要功能

1
- 自监督学习算法:Sparsh通过MAE、DINO和JEPA等自监督学习算法进行训练。
2
- 多触觉传感器支持:能够为DIGIT、Gelsight'17和Gelsight Mini等多种触觉传感器生成有用的表示。
3
- 下游任务性能优异:在TacBench提出的下游任务中,Sparsh的性能大幅度超越端到端模型。
4
- 数据高效训练:Sparsh可以支持新下游任务的数据高效训练。
5
- 预训练模型和数据集:提供PyTorch实现、预训练模型和数据集,方便研究者和开发者使用。
6
- 多下游任务支持:Sparsh支持包括力估计、滑移检测和姿态估计等多个下游任务。
7
- 代码和模型开源:Sparsh的代码和模型在GitHub上开源,便于社区贡献和改进。

使用教程

1
1. 克隆Sparsh仓库到本地:使用git clone命令克隆Sparsh的GitHub仓库。
2
2. 创建环境:根据项目提供的environment.yml文件创建conda环境,并激活。
3
3. 下载数据集:按照指南下载并设置预训练数据集。
4
4. 训练模型:使用train.py脚本和配置文件开始训练Sparsh模型。
5
5. 微调模型:针对特定的下游任务,使用train_task.py脚本微调Sparsh模型。
6
6. 测试模型:使用test_task.py脚本测试训练好的模型,并评估性能。
7
7. 可视化演示:运行demo_forcefield.py脚本,进行力场可视化演示。

使用示例

- 在机器人抓取任务中,使用Sparsh预测抓取力,以优化抓取策略。

- 在医疗辅助设备中,利用Sparsh进行触觉反馈,提高设备的交互性和安全性。

- 在工业检测领域,应用Sparsh进行产品质量检测,通过触觉数据分析提高检测精度。

快速访问

访问官网 →

所属分类

🖼️ 图像
› 研究工具
› 模型训练与部署

相关推荐

发现更多类似的优质AI工具

Google CameraTrapAI

Google CameraTrapAI

Google CameraTrapAI 是一个用于野生动物图像分类的 AI 模型集合。它通过运动触发的野生动物相机(相机陷阱)拍摄的图像来识别动物物种。该技术对于野生动物监测和保护工作具有重要意义,能够帮助研究人员和保护工作者更高效地处理大量的图像数据,节省时间并提高工作效率。该模型基于深度学习技术开发,具有高准确性和强大的分类能力。

AI 图像识别
🖼️ 图像
SRM

SRM

SRM是一种基于去噪生成模型的空间推理框架,用于处理连续变量集合的推理任务。它通过为每个未观测变量分配独立的噪声水平,逐步推断出这些变量的连续表示。该技术在处理复杂分布时表现出色,能够有效减少生成过程中的幻觉现象。SRM首次证明了去噪网络可以预测生成顺序,从而显著提高了特定推理任务的准确性。该模型由德国马普信息研究所开发,旨在推动空间推理和生成模型的研究。

生成模型 空间推理
🖼️ 图像
Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型,专为研究多模态 AI 代理而设计。它结合了文本和图像输入,能够生成文本输出,并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干,并结合 CLIP-ConvNeXt-XXLarge 视觉编码器,支持从无标签视频数据中学习时空关系,具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色,特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具,推动了虚拟和现实环境中复杂交互的研究。

AI 文本生成
🖼️ 图像
ZeroBench

ZeroBench

ZeroBench 是一个专为评估大型多模态模型(LMMs)视觉理解能力而设计的基准测试。它通过 100 个精心设计且经过严格审查的复杂问题,以及 334 个子问题,挑战当前模型的极限。该基准测试旨在填补现有视觉基准的不足,提供更具挑战性和高质量的评估工具。ZeroBench 的主要优点是其高难度、轻量级、多样化和高质量的特点,使其能够有效区分模型的性能。此外,它还提供了详细的子问题评估,帮助研究人员更好地理解模型的推理能力。

人工智能 多模态
🖼️ 图像
MILS

MILS

MILS是一个由Facebook Research发布的开源项目,旨在展示大型语言模型(LLMs)在未经过任何训练的情况下,能够处理视觉和听觉任务的能力。该技术通过利用预训练的模型和优化算法,实现了对图像、音频和视频的自动描述生成。这一技术突破为多模态人工智能的发展提供了新的思路,展示了LLMs在跨模态任务中的潜力。该模型主要面向研究人员和开发者,为他们提供了一个强大的工具来探索多模态应用。目前该项目是免费开源的,旨在推动学术研究和技术发展。

人工智能 多模态
🖼️ 图像
InternVL2_5-26B-MPO

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型(MLLM),它在InternVL2.5的基础上,通过混合偏好优化(Mixed Preference Optimization, MPO)进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据,广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本,推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能,以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具,以探索和实现多模态人工智能的潜力。

多模态 大型语言模型
🖼️ 图像
DeepSeek-VL2-Tiny

DeepSeek-VL2-Tiny

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型,相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下,与现有的开源密集型和基于MoE的模型相比,达到了竞争性或最先进的性能。

自然语言处理 图像识别
🖼️ 图像
DeepSeek-VL2

DeepSeek-VL2

DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型,相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务上展现出卓越的能力。DeepSeek-VL2包含三个变体:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下,与现有的开源密集和MoE基础模型相比,达到了竞争性或最先进的性能。

视觉语言模型 视觉问答
🖼️ 图像
Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练,包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源,旨在推动多模态性能的发展,特别是在图像和文本的结合处理方面。

机器学习 文本生成
🖼️ 图像
DreamClear

DreamClear

DreamClear是一个专注于高容量真实世界图像修复的深度学习模型,它通过隐私安全的数据管理技术,提供了一种高效的图像超分辨率和修复解决方案。该模型在NeurIPS 2024上被提出,主要优点包括高容量处理能力、隐私保护以及实际应用中的高效性。DreamClear的背景信息显示,它是基于先前工作的改进,并且提供了多种预训练模型和代码,以便于研究者和开发者使用。产品是免费的,定位于科研和工业界的图像处理需求。

深度学习 隐私保护
🖼️ 图像
DocLayout-YOLO

DocLayout-YOLO

DocLayout-YOLO是一个用于文档布局分析的深度学习模型,它通过多样化的合成数据和全局到局部自适应感知来增强文档布局分析的准确性和处理速度。该模型通过Mesh-candidate BestFit算法生成大规模多样化的DocSynth-300K数据集,显著提升了不同文档类型在微调性能上的表现。此外,它还提出了一个全局到局部可控的感受野模块,更好地处理文档元素的多尺度变化。DocLayout-YOLO在各种文档类型上的下游数据集上表现出色,无论是在速度还是准确性上都有显著优势。

深度学习 图像识别
🖼️ 图像
VisRAG

VisRAG

VisRAG是一个创新的视觉语言模型(VLM)基础的RAG(Retrieval-Augmented Generation)流程。与传统的基于文本的RAG不同,VisRAG直接将文档作为图像通过VLM进行嵌入,然后检索以增强VLM的生成能力。这种方法最大限度地保留了原始文档中的数据信息,并消除了解析过程中引入的信息损失。VisRAG模型在多模态文档上的应用,展示了其在信息检索和增强文本生成方面的强大潜力。

视觉语言模型 检索增强型生成
🖼️ 图像
Long-LRM

Long-LRM

Long-LRM是一个用于3D高斯重建的模型,能够从一系列输入图像中重建出大场景。该模型能在1.3秒内处理32张960x540分辨率的源图像,并且仅在单个A100 80G GPU上运行。它结合了最新的Mamba2模块和传统的transformer模块,通过高效的token合并和高斯修剪步骤,在保证质量的同时提高了效率。与传统的前馈模型相比,Long-LRM能够一次性重建整个场景,而不是仅重建场景的一小部分。在大规模场景数据集上,如DL3DV-140和Tanks and Temples,Long-LRM的性能可与基于优化的方法相媲美,同时效率提高了两个数量级。

机器学习 图像处理
🖼️ 图像
Proofig AI

Proofig AI

Proofig AI是一款基于AI的自动化图片校对工具,专为科学出版领域打造,备受世界顶尖研究人员、出版商和研究机构信赖。该系统提供先进的支持,可检测图片重复使用和篡改,包括图片之间的重复以及单张图片内部的重复。此外,Proofig专注于检测诸如克隆、旋转、翻转、缩放等变体。产品定价灵活,定位于科学研究领域,旨在为用户提供高效、精准的图片校对服务。

AI 自动化
🖼️ 图像
HyFluid

HyFluid

HyFluid是一种从稀疏多视角视频中推断流体密度和速度场的神经方法。与现有的神经动力学重建方法不同,HyFluid能够准确估计密度并揭示底层速度,克服了流体速度的固有视觉模糊性。该方法通过引入一组基于物理的损失来实现推断出物理上合理的速度场,同时处理流体速度的湍流性质,设计了一个混合神经速度表示,包括捕捉大部分无旋能量的基础神经速度场和模拟剩余湍流速度的涡粒子速度。该方法可用于各种围绕3D不可压缩流的学习和重建应用,包括流体再模拟和编辑、未来预测以及神经动态场景合成。

视频处理 流体动力学
🖼️ 图像
MyLens

MyLens

MyLens 是一个 AI 驱动的时间线产品,帮助用户深入了解历史事件之间的交叉点。用户可以创建、探索和连接故事,无缝地探索不同历史之间的联系。

AI 故事
🖼️ 图像