标签: 多模态

找到 231 个相关的AI工具

#多模态

标签工具数: 231

产品总数: 100

Fotol AI

Fotol AI

Fotol AI是一个提供AGI技术和服务的网站，致力于为用户提供强大的人工智能解决方案。其主要优点包括先进的技术支持、丰富的功能模块和广泛的应用领域。Fotol AI的定位为成为用户探索AGI的首选平台，并为用户提供灵活多样的AI解决方案。

多模态实时处理 AI解决方案 AGI

Grok 4

Grok 4

Grok 4是xAI推出的最新版本大型语言模型，于2025年7月正式发布。它具有领先的自然语言、数学和推理能力，是顶级模型AI。Grok 4代表了巨大的进步，跳过了预期的Grok 3.5版本，以在激烈的AI竞争中加快进展。

人工智能多模态推理编码

OmniGen2

OmniGen2

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

人工智能图像生成开源多模态 +1

OneReach.ai

OneReach.ai

OneReach.ai是一个平台，旨在帮助组织编排提升员工和客户体验的高级多模态AI代理。它让用户轻松打造智能数字劳动者(IDWs)，并提供强大的工作流自动化功能。

AI 自动化多模态工作流 +1

Fluxx.AI

Fluxx.AI

FLUX.1 Kontext是一款革命性的多模态AI模型，将文本指令与图像编辑和生成相结合，实现精准本地化编辑，保持角色一致性和风格连贯性。该产品适用于营销内容创作、电影制作和设计等专业工作流程。

图像生成多模态 AI图像编辑文本指令 +1

Bagel

Bagel

BAGEL是一款可扩展的统一多模态模型，它正在革新AI与复杂系统的交互方式。该模型具有对话推理、图像生成、编辑、风格转移、导航、构图、思考等功能，通过深度学习视频和网络数据进行预训练，为生成高保真度、逼真图像提供了基础。

人工智能图像生成深度学习多模态 +1

MNN-LLM Android App

MNN-LLM Android App

MNN-LLM 是一款高效的推理框架，旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。它通过模型量化、混合存储和硬件特定优化，解决高内存消耗和计算成本的问题。MNN-LLM 在 CPU 基准测试中表现卓越，速度显著提升，适合需要隐私保护和高效推理的用户。

人工智能深度学习隐私保护多模态 +1

HunyuanCustom

HunyuanCustom

HunyuanCustom 是一个多模态定制视频生成框架，旨在根据用户定义的条件生成特定主题的视频。该技术在身份一致性和多种输入模式的支持上表现出色，能够处理文本、图像、音频和视频输入，适合虚拟人广告、视频编辑等多种应用场景。

视频生成多模态 AI 技术定制化

InternVL3

InternVL3

InternVL3是由OpenGVLab开源发布的多模态大型语言模型（MLLM），具备卓越的多模态感知和推理能力。该模型系列包含从1B到78B共7个尺寸，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。InternVL3在工业图像分析、3D视觉感知等领域表现出色，其整体文本性能甚至优于Qwen2.5系列。该模型的开源为多模态应用开发提供了强大的支持，有助于推动多模态技术在更多领域的应用。

AI 图像处理多模态视频分析 +1

DreamActor-M1

DreamActor-M1

DreamActor-M1 是一个基于扩散变换器 (DiT) 的人类动画框架，旨在实现细粒度的整体可控性、多尺度适应性和长期时间一致性。该模型通过混合引导，能够生成高表现力和真实感的人类视频，适用于从肖像到全身动画的多种场景。其主要优势在于高保真度和身份保留，为人类行为动画带来了新的可能性。

深度学习视频生成多模态面部表情 +1

Gemini 2.5

Gemini 2.5

Gemini 2.5 是谷歌推出的最先进的 AI 模型，具备高效的推理能力和编码性能，能够处理复杂问题，并在多项基准测试中表现出色。该模型引入了新的思维能力，结合增强的基础模型和后期训练，支持更复杂的任务，旨在为开发者和企业提供强大的支持。Gemini 2.5 Pro 可在 Google AI Studio 和 Gemini 应用中使用，适合需要高级推理和编码能力的用户。

人工智能多模态编程开发者工具 +1

Mistral Small 3.1

Mistral Small 3.1

Mistral-Small-3.1-24B-Base-2503 是一款具有 240 亿参数的先进开源模型，支持多语言和长上下文处理，适用于文本与视觉任务。它是 Mistral Small 3.1 的基础模型，具有较强的多模态能力，适合企业需求。

人工智能开源多模态文本处理 +1

MistralOCR.net

MistralOCR.net

Mistral OCR 是由 Mistral AI 开发的先进光学字符识别 API，旨在以无与伦比的准确性提取和结构化文档内容。它能够处理包含文本、图像、表格和方程式的复杂文档，输出 Markdown 格式的结果，便于与 AI 系统和检索增强生成（RAG）系统集成。其高精度、高速度和多模态处理能力使其在大规模文档处理场景中表现出色，尤其适用于科研、法律、客服和历史文献保护等领域。Mistral OCR 的定价为每美元 1000 页标准使用量，批量处理可达每美元 2000 页，还提供企业自托管选项，满足特定隐私需求。

AI 多语言支持多模态文档处理 +3

Gemini Robotics

Gemini Robotics

Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型，专为机器人应用而设计。它基于Gemini 2.0架构，通过视觉、语言和动作（VLA）的融合，使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程，为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性，使其能够适应不同的任务和环境。目前，该技术处于研究和开发阶段，尚未明确具体的价格和市场定位。

人工智能多模态机器人交互 +1

R1-Omni

R1-Omni

R1-Omni 是一个创新的多模态情绪识别模型，通过强化学习提升模型的推理能力和泛化能力。该模型基于 HumanOmni-0.5B 开发，专注于情绪识别任务，能够通过视觉和音频模态信息进行情绪分析。其主要优点包括强大的推理能力、显著提升的情绪识别性能以及在分布外数据上的出色表现。该模型适用于需要多模态理解的场景，如情感分析、智能客服等领域，具有重要的研究和应用价值。

深度学习多模态模型强化学习 +2

GO-1

GO-1

智元通用具身基座大模型GO-1是智元推出的一款革命性的人工智能模型。该模型基于创新的Vision-Language-Latent-Action（ViLLA）架构，通过多模态大模型（VLM）和混合专家（MoE）系统，实现了从视觉和语言输入到机器人动作执行的高效转换。GO-1能够利用人类视频和真实机器人数据进行学习，具备强大的泛化能力，能够在极少数据甚至零样本下快速适应新任务和环境。其主要优点包括高效的学习能力、强大的泛化性能以及对多种机器人本体的适配性。该模型的推出标志着具身智能向通用化、开放化和智能化方向迈出了重要一步，有望在商业、工业和家庭等多个领域发挥重要作用。

人工智能多模态机器人泛化能力 +1

OpenAI Agents SDK

OpenAI Agents SDK

OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包。它基于 OpenAI 的先进模型能力，如高级推理、多模态交互和新的安全技术，为开发者提供了一种简化的方式来构建、部署和扩展可靠的智能体应用。该工具包不仅支持单智能体和多智能体工作流的编排，还集成了可观测性工具，帮助开发者追踪和优化智能体的执行流程。其主要优点包括易于配置的 LLM 模型、智能的智能体交接机制、可配置的安全检查以及强大的调试和性能优化功能。该工具包适用于需要自动化复杂任务的企业和开发者，旨在通过智能体技术提升生产力和效率。

人工智能自动化生产力多模态 +1

SmolVLM2

SmolVLM2

SmolVLM2 是一种轻量级的视频语言模型，旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点，适合在多种设备上运行，包括移动设备和桌面客户端。其主要优点是能够快速处理视频数据并生成高质量的文本输出，为视频内容创作、视频分析和教育等领域提供了强大的技术支持。该模型由 Hugging Face 团队开发，定位为高效、轻量化的视频处理工具，目前处于实验阶段，用户可以免费试用。

教育内容创作文本生成多模态 +2

Inception Labs

Inception Labs

Inception Labs 是一家专注于开发扩散式大语言模型（dLLMs）的公司。其技术灵感来源于先进的图像和视频生成系统，如 Midjourney 和 Sora。通过扩散模型，Inception Labs 提供了比传统自回归模型快 5-10 倍的速度、更高的效率和更强的生成控制能力。其模型支持并行文本生成，能够纠正错误和幻觉，适合多模态任务，并且在推理和结构化数据生成方面表现出色。公司由斯坦福、UCLA 和康奈尔大学的研究人员和工程师组成，是扩散模型领域的先驱。

人工智能语言模型多模态扩散模型 +2

Aya Vision

Aya Vision

Aya Vision 是 Cohere For AI 团队开发的先进视觉模型，专注于多语言多模态任务，支持 23 种语言。该模型通过创新的算法突破，如合成标注、多语言数据扩展和多模态模型融合，显著提升了视觉和文本任务的性能。其主要优点包括高效性（在计算资源有限的情况下仍能表现出色）和广泛的多语言支持。Aya Vision 的发布旨在推动多语言多模态研究的前沿发展，并为全球研究社区提供技术支持。

多语言多模态高效计算视觉模型 +1

EgoLife

EgoLife

EgoLife是一个面向长期、多模态、多视角日常生活的AI助手项目。该项目通过记录六名志愿者一周的共享生活体验，生成了约50小时的视频数据，涵盖日常活动、社交互动等场景。其多模态数据（包括视频、视线、IMU数据）和多视角摄像头系统为AI研究提供了丰富的上下文信息。此外，该项目提出了EgoRAG框架，用于解决长期上下文理解任务，推动了AI在复杂环境中的应用能力。

AI 多模态视频社交互动 +2

UniTok

UniTok

UniTok是一种创新的视觉分词技术，旨在弥合视觉生成和理解之间的差距。它通过多码本量化技术，显著提升了离散分词器的表示能力，使其能够捕捉到更丰富的视觉细节和语义信息。这一技术突破了传统分词器在训练过程中的瓶颈，为视觉生成和理解任务提供了一种高效且统一的解决方案。UniTok在图像生成和理解任务中表现出色，例如在ImageNet上实现了显著的零样本准确率提升。该技术的主要优点包括高效性、灵活性以及对多模态任务的强大支持，为视觉生成和理解领域带来了新的可能性。

人工智能图像处理深度学习多模态 +2

ViDoRAG

ViDoRAG

ViDoRAG 是阿里巴巴自然语言处理团队开发的一种新型多模态检索增强生成框架，专为处理视觉丰富文档的复杂推理任务设计。该框架通过动态迭代推理代理和高斯混合模型（GMM）驱动的多模态检索策略，显著提高了生成模型的鲁棒性和准确性。ViDoRAG 的主要优点包括高效处理视觉和文本信息、支持多跳推理以及可扩展性强。该框架适用于需要从大规模文档中检索和生成信息的场景，例如智能问答、文档分析和内容创作。其开源特性和灵活的模块化设计使其成为研究人员和开发者在多模态生成领域的重要工具。

自然语言处理多模态检索增强生成动态迭代推理 +1

Migician

Migician

Migician 是清华大学自然语言处理实验室开发的一种多模态大语言模型，专注于多图像定位任务。该模型通过引入创新的训练框架和大规模数据集 MGrounding-630k，显著提升了多图像场景下的精确定位能力。它不仅超越了现有的多模态大语言模型，甚至在性能上超过了更大规模的 70B 模型。Migician 的主要优点在于其能够处理复杂的多图像任务，并提供自由形式的定位指令，使其在多图像理解领域具有重要的应用前景。该模型目前在 Hugging Face 上开源，供研究人员和开发者使用。

人工智能自然语言处理开源多模态 +1

Mochii AI

Mochii AI

Mochii AI 旨在通过自适应记忆、自定义个性和无缝多平台集成，推动人类与人工智能的协作。它支持多种高级 AI 模型，如 OpenAI、Claude、Gemini、DALL-E 和 Stable Diffusion，能够实现智能对话、内容创作、数据分析和图像生成等功能。产品提供免费层级，无需信用卡即可使用，适合希望提升工作效率和创造力的专业人士。

人工智能内容创作生产力工具多模态 +1

M2RAG

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

多模态图像大语言模型问答 +3

TheoremExplainAgent

TheoremExplainAgent

TheoremExplainAgent 是一款基于人工智能的模型，专注于为数学和科学定理生成详细的多模态解释视频。它通过结合文本和视觉动画，帮助用户更深入地理解复杂概念。该产品利用 Manim 动画技术生成超过 5 分钟的长视频，填补了传统文本解释的不足，尤其在揭示推理错误方面表现出色。它主要面向教育领域，旨在提升学习者对 STEM 领域定理的理解能力，目前尚未明确其价格和商业化定位。

人工智能教育视频生成多模态 +2

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite 是 Google 推出的高效语言模型，专为长文本处理和复杂任务优化。它在推理、多模态、数学和事实性基准测试中表现出色，具备简化的价格策略，使得百万级上下文窗口更加经济实惠。Gemini 2.0 Flash-Lite 已在 Google AI Studio 和 Vertex AI 中全面开放，适合企业级生产使用。

AI 数据分析语言模型多模态 +3

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

多语言多模态语音识别 AI模型 +1

Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型，专为研究多模态 AI 代理而设计。它结合了文本和图像输入，能够生成文本输出，并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干，并结合 CLIP-ConvNeXt-XXLarge 视觉编码器，支持从无标签视频数据中学习时空关系，具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色，特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具，推动了虚拟和现实环境中复杂交互的研究。

AI 文本生成多模态图像 +2

DeepSeek Japanese

DeepSeek Japanese

DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型，专注于开源模型和创新训练方法。其 R1 系列模型在逻辑推理和问题解决方面表现出色，采用强化学习和混合专家框架优化性能，以低成本实现高效训练。DeepSeek 的开源策略推动了社区创新，同时引发了关于 AI 竞争和开源模型影响力的行业讨论。其免费且无需注册的使用方式进一步降低了用户门槛，适合广泛的应用场景。

AI 开源教育语言模型 +3

ZeroBench

ZeroBench

ZeroBench 是一个专为评估大型多模态模型（LMMs）视觉理解能力而设计的基准测试。它通过 100 个精心设计且经过严格审查的复杂问题，以及 334 个子问题，挑战当前模型的极限。该基准测试旨在填补现有视觉基准的不足，提供更具挑战性和高质量的评估工具。ZeroBench 的主要优点是其高难度、轻量级、多样化和高质量的特点，使其能够有效区分模型的性能。此外，它还提供了详细的子问题评估，帮助研究人员更好地理解模型的推理能力。

人工智能多模态基准测试模型评估 +1

Magma

Magma

Magma 是微软研究团队推出的一个多模态基础模型，旨在通过视觉、语言和动作的结合，实现复杂任务的规划和执行。它通过大规模的视觉语言数据预训练，具备了语言理解、空间智能和动作规划的能力，能够在 UI 导航、机器人操作等任务中表现出色。该模型的出现为多模态 AI 代理任务提供了一个强大的基础框架，具有广泛的应用前景。

AI 多模态机器人预训练模型 +3

Grok 3

Grok 3

Grok 3是由Elon Musk的AI公司xAI开发的最新旗舰AI模型。它在计算能力和数据集规模上显著提升，能够处理复杂的数学、科学问题，并支持多模态输入。其主要优点是推理能力强大，能够提供更准确的答案，并且在某些基准测试中超越了现有的顶尖模型。Grok 3的推出标志着xAI在AI领域的进一步发展，旨在为用户提供更智能、更高效的AI服务。该模型目前主要通过Grok APP和X平台提供服务，未来还将推出语音模式和企业API接口。其定位是高端AI解决方案，主要面向需要深度推理和多模态交互的用户。

AI 教育生产力多模态 +2

CLaMP 3

CLaMP 3

CLaMP 3 是一种先进的音乐信息检索模型，通过对比学习对齐乐谱、演奏信号、音频录音与多语言文本的特征，支持跨模态和跨语言的音乐检索。它能够处理未对齐的模态和未见的语言，展现出强大的泛化能力。该模型基于大规模数据集 M4-RAG 训练，涵盖全球多种音乐传统，支持多种音乐检索任务，如文本到音乐、图像到音乐等。

多语言多模态对比学习零样本分类 +1

VideoRAG

VideoRAG

VideoRAG 是一种创新的检索增强型生成框架，专门用于理解和处理极长上下文视频。它通过结合图驱动的文本知识锚定和层次化多模态上下文编码，实现了对无限制长度视频的理解。该框架能够动态构建知识图谱，保持多视频上下文的语义连贯性，并通过自适应多模态融合机制优化检索效率。VideoRAG 的主要优点包括高效的极长上下文视频处理能力、结构化的视频知识索引以及多模态检索能力，使其能够为复杂查询提供全面的回答。该框架在长视频理解领域具有重要的技术价值和应用前景。

人工智能多模态知识图谱视频理解 +2

MedRAX

MedRAX

MedRAX是一个创新的AI框架，专门用于胸部X光（CXR）的智能分析。它通过整合最先进的CXR分析工具和多模态大型语言模型，能够动态处理复杂的医疗查询。MedRAX无需额外训练即可运行，支持实时CXR解读，适用于多种临床场景。其主要优点包括高度的灵活性、强大的推理能力以及透明的工作流程。该产品面向医疗专业人员，旨在提高诊断效率和准确性，推动医疗AI的实用化。

AI 多模态推理医疗 +2

Qwen2.5-VL

Qwen2.5-VL

Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型，是视觉语言模型领域的重要进步。它不仅能够识别常见物体，还能分析图像中的文字、图表、图标等复杂内容，并支持对长视频的理解和事件定位。该模型在多个基准测试中表现出色，尤其在文档理解和视觉代理任务中具有显著优势，展现了强大的视觉理解和推理能力。其主要优点包括高效的多模态理解、强大的长视频处理能力以及灵活的工具调用能力，适用于多种应用场景。

多模态图像识别智能代理视频理解 +1

Gemini 2.0 Family

Gemini 2.0 Family

Gemini 2.0 是谷歌在生成式 AI 领域的重要进展，代表了最新的人工智能技术。它通过强大的语言生成能力，为开发者提供高效、灵活的解决方案，适用于多种复杂场景。Gemini 2.0 的主要优点包括高性能、低延迟和简化的定价策略，旨在降低开发成本并提高生产效率。该模型通过 Google AI Studio 和 Vertex AI 提供，支持多种模态输入，具备广泛的应用前景。

多模态编程高性能低延迟 +1

Gemini 2.0 Pro

Gemini 2.0 Pro

Gemini Pro 是 Google DeepMind 推出的最先进 AI 模型之一，专为复杂任务和编程场景设计。它在代码生成、复杂指令理解和多模态交互方面表现出色，支持文本、图像、视频和音频输入。Gemini Pro 提供强大的工具调用能力，如 Google 搜索和代码执行，能够处理长达 200 万字的上下文信息，适合需要高性能 AI 支持的专业用户和开发者。

AI 多模态编程高性能 +1

OmniHuman-1

OmniHuman-1

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架，能够基于单张人像和运动信号（如音频、视频或其组合）生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题，支持任意宽高比的图像输入，生成逼真的人类视频。它在弱信号输入（尤其是音频）方面表现出色，适用于多种场景，如虚拟主播、视频制作等。

人工智能内容创作视频生成多模态 +1

MILS

MILS

MILS是一个由Facebook Research发布的开源项目，旨在展示大型语言模型（LLMs）在未经过任何训练的情况下，能够处理视觉和听觉任务的能力。该技术通过利用预训练的模型和优化算法，实现了对图像、音频和视频的自动描述生成。这一技术突破为多模态人工智能的发展提供了新的思路，展示了LLMs在跨模态任务中的潜力。该模型主要面向研究人员和开发者，为他们提供了一个强大的工具来探索多模态应用。目前该项目是免费开源的，旨在推动学术研究和技术发展。

人工智能多模态预训练模型图像描述 +2

MNN 大模型 Android App

MNN 大模型 Android App

MNN 大模型 Android App 是阿里巴巴开发的一款基于大语言模型（LLM）的安卓应用。它支持多种模态输入和输出，包括文本生成、图像识别、音频转录等。该应用通过优化推理性能，确保在移动设备上高效运行，同时保护用户数据隐私，所有处理均在本地完成。它支持多种领先的模型提供商，如 Qwen、Gemma、Llama 等，适用于多种场景。

多模态数据隐私大语言模型推理优化 +1

Janus-Pro-7B

Janus-Pro-7B

Janus-Pro-7B 是一个强大的多模态模型，能够同时处理文本和图像数据。它通过分离视觉编码路径，解决了传统模型在理解和生成任务中的冲突，提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景，例如图像生成和文本理解。

人工智能图像生成深度学习多模态 +1

Janus-Pro-1B

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

图像生成自然语言处理开源深度学习 +2

Humanity's Last Exam

Humanity's Last Exam

Humanity's Last Exam 是一个由全球专家合作开发的多模态基准测试，旨在衡量大型语言模型在学术领域的表现。它包含来自 50 个国家超过 500 个机构的近 1000 名专家贡献的 3000 个问题，覆盖超过 100 个学科。该测试旨在成为最终的封闭式学术基准，通过挑战模型的极限来推动人工智能技术的发展。其主要优点是难度高，能够有效评估模型在复杂学术问题上的表现。

人工智能多模态基准测试模型性能 +1

CUA

CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。它能够像人类一样与图形用户界面（GUI）交互，无需依赖特定操作系统的 API 或网络接口。CUA 的灵活性使其能够在多种数字环境中执行任务，如填写表单、浏览网页等。这一技术的出现标志着 AI 发展的下一步，为 AI 在日常工具中的应用开辟了新的可能性。CUA 目前处于研究预览阶段，通过 Operator 提供给美国的 Pro 用户使用。

AI 自动化生产力多模态 +1

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

图像处理文本生成多模态高效 +1

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

开源多模态高效图像描述 +2

VideoLLaMA3

VideoLLaMA3

VideoLLaMA3是由DAMO-NLP-SG团队开发的前沿多模态基础模型，专注于图像和视频理解。该模型基于Qwen2.5架构，结合了先进的视觉编码器（如SigLip）和强大的语言生成能力，能够处理复杂的视觉和语言任务。其主要优点包括高效的时空建模能力、强大的多模态融合能力以及对大规模数据的优化训练。该模型适用于需要深度视频理解的应用场景，如视频内容分析、视觉问答等，具有广泛的研究和商业应用潜力。

自然语言处理深度学习多模态视频理解 +1

UI-TARS

UI-TARS

UI-TARS 是由字节跳动开发的一种新型 GUI 代理模型，专注于通过类似人类的感知、推理和行动能力与图形用户界面进行无缝交互。该模型将感知、推理、定位和记忆等关键组件集成到单一的视觉语言模型中，能够实现无需预定义工作流程或手动规则的端到端任务自动化。其主要优点包括强大的跨平台交互能力、多步任务执行能力以及从合成和真实数据中学习的能力，适用于多种自动化场景，如桌面、移动和网页环境。

人工智能自动化多模态推理 +3

Doubao-1.5-pro

Doubao-1.5-pro

Doubao-1.5-pro 是由豆包团队开发的高性能稀疏 MoE（Mixture of Experts）大语言模型。该模型通过训练-推理一体化设计，实现了模型性能与推理性能的极致平衡。它在多个公开评测基准上表现出色，尤其在推理效率和多模态能力方面具有显著优势。该模型适用于需要高效推理和多模态交互的场景，如自然语言处理、图像识别和语音交互等。其技术背景基于稀疏激活的 MoE 架构，通过优化激活参数比例和训练算法，实现了比传统稠密模型更高的性能杠杆。此外，该模型还支持动态调整参数，以适应不同的应用场景和成本需求。

多模态大语言模型高效推理动态调整 +1

Gemini 2.0 Flash Thinking Experimental

Gemini 2.0 Flash Thinking Experimental

Gemini Flash Thinking 是 Google DeepMind 推出的最新 AI 模型，专为复杂任务设计。它能够展示推理过程，帮助用户更好地理解模型的决策逻辑。该模型在数学和科学领域表现出色，支持长文本分析和代码执行功能。它旨在为开发者提供强大的工具，以推动人工智能在复杂任务中的应用。

AI 多模态推理代码执行 +2

Kimi k1.5

Kimi k1.5

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

多模态编程辅助推理强化学习 +1

OmAgent.com

OmAgent.com

OmAgent是一个多模态原生代理框架，用于智能设备等。它采用分治算法高效解决复杂任务，能预处理长视频并以类似人类的精度进行问答，还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格，但从功能来看，主要面向需要高效任务处理和智能交互的用户群体，如开发者、企业等。

多模态视频理解视觉问答任务处理 +1

InternVL2_5-78B-MPO

InternVL2_5-78B-MPO

InternVL2.5-MPO是一个基于InternVL2.5和混合偏好优化（MPO）的多模态大型语言模型系列。它在多模态任务中表现出色，通过整合新近增量预训练的InternViT与多种预训练的大型语言模型（LLMs），如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。该模型系列在多模态推理偏好数据集MMPR上进行了训练，包含约300万个样本，通过有效的数据构建流程和混合偏好优化技术，提升了模型的推理能力和回答质量。

多模态大型语言模型推理生成 +1

MiniCPM-o-2_6

MiniCPM-o-2_6

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色，支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异，超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗，能够在iPad等终端设备上高效支持多模态直播。此外，MiniCPM-o 2.6易于使用，支持多种使用方式，包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。

语言模型多模态语音交互高效推理 +2

Moondream AI

Moondream AI

Moondream AI是一个开源的视觉语言模型，具有强大的多模态处理能力。它支持多种量化格式，如fp16、int8、int4，能够在服务器、PC、移动设备等多种目标设备上进行GPU和CPU优化推理。其主要优点包括快速、高效、易于部署，且采用Apache 2.0许可证，允许用户自由使用和修改。Moondream AI的定位是为开发者提供一个灵活、高效的人工智能解决方案，适用于需要视觉和语言处理能力的各种应用场景。

人工智能开源多模态视觉语言模型 +1

InternVL2_5-38B-MPO

InternVL2_5-38B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化（MPO）构建。该系列模型在多模态任务中表现出色，能够处理图像、文本和视频数据，并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式，通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外，模型还引入了多图像和视频数据的支持，进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型，证明了其在多模态领域的领先地位。

图像处理文本生成多模态大型语言模型 +2

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型，旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色，能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术，使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景，如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。

图像处理多模态大型语言模型文本处理 +2

CreatiLayout

CreatiLayout

CreatiLayout是一种创新的布局到图像生成技术，利用孪生多模态扩散变换器（Siamese Multimodal Diffusion Transformer）来实现高质量和细粒度可控的图像生成。该技术能够精确渲染复杂的属性，如颜色、纹理、形状、数量和文本，适用于需要精确布局和图像生成的应用场景。其主要优点包括高效的布局引导集成、强大的图像生成能力和大规模数据集的支持。CreatiLayout由复旦大学和字节跳动公司联合开发，旨在推动图像生成技术在创意设计领域的应用。

图像生成多模态扩散模型布局 +1

VITA-1.5

VITA-1.5

VITA-1.5 是一款开源的多模态大语言模型，旨在实现接近实时的视觉和语音交互。它通过显著降低交互延迟和提升多模态性能，为用户提供更流畅的交互体验。该模型支持英语和中文，适用于多种应用场景，如图像识别、语音识别和自然语言处理等。其主要优点包括高效的语音处理能力和强大的多模态理解能力。

开源多模态大语言模型实时交互

FlexRAG

FlexRAG

FlexRAG是一个用于检索增强生成（RAG）任务的灵活且高性能的框架。它支持多模态数据、无缝配置管理和开箱即用的性能，适用于研究和原型开发。该框架使用Python编写，具有轻量级和高性能的特点，能够显著提高RAG工作流的速度和减少延迟。其主要优点包括支持多种数据类型、统一的配置管理以及易于集成和扩展。

多模态编程高性能生成模型 +1

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

多模态大型语言模型图像描述视觉问答 +1

InternVL2_5-8B-MPO-AWQ

InternVL2_5-8B-MPO-AWQ

InternVL2_5-8B-MPO-AWQ是OpenGVLab推出的一款多模态大型语言模型，它基于InternVL2.5系列，并采用混合偏好优化（Mixed Preference Optimization, MPO）技术。该模型在视觉和语言的理解与生成方面展现了卓越的性能，尤其在多模态任务中表现出色。它通过结合视觉部分InternViT和语言部分InternLM或Qwen，使用随机初始化的MLP投影器进行增量预训练，实现了对图像和文本的深入理解与交互。该技术的重要性在于它能够处理包括单图像、多图像以及视频数据在内的多种数据类型，为多模态人工智能领域提供了新的解决方案。

多模态大型语言模型混合偏好优化视觉-语言交互

InternVL2_5-8B-MPO

InternVL2_5-8B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，它基于InternVL2.5和混合偏好优化构建。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在新版本中保留了与InternVL 2.5及其前身相同的模型架构，遵循“ViT-MLP-LLM”范式。该模型支持多图像和视频数据，通过混合偏好优化（MPO）进一步提升模型性能，使其在多模态任务中表现更优。

自然语言处理机器学习图像处理多模态 +1

DiffSensei

DiffSensei

DiffSensei是一个结合了多模态大型语言模型（LLMs）和扩散模型的定制化漫画生成模型。它能够根据用户提供的文本提示和角色图像，生成可控制的黑白漫画面板，并具有灵活的角色适应性。这项技术的重要性在于它将自然语言处理与图像生成相结合，为漫画创作和个性化内容生成提供了新的可能性。DiffSensei模型以其高质量的图像生成、多样化的应用场景以及对资源的高效利用而受到关注。目前，该模型在GitHub上公开，可以免费下载使用，但具体的使用可能需要一定的计算资源。

人工智能图像生成多模态扩散模型 +1

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型（MLLM），专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列，并通过混合偏好优化（MPO）进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入，适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力，为图像-文本到文本的任务提供了一个强大的解决方案。

人工智能机器学习多模态大型语言模型 +1

OpenEMMA

OpenEMMA

OpenEMMA是一个开源项目，复现了Waymo的EMMA模型，提供了一个端到端框架用于自动驾驶车辆的运动规划。该模型利用预训练的视觉语言模型（VLMs）如GPT-4和LLaVA，整合文本和前视摄像头输入，实现对未来自身路径点的精确预测，并提供决策理由。OpenEMMA的目标是为研究人员和开发者提供易于获取的工具，以推进自动驾驶研究和应用。

开源多模态预训练模型自动驾驶 +1

InternVL2_5-4B-MPO

InternVL2_5-4B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

自然语言处理图像处理多模态大型语言模型

Valley 2.0

Valley 2.0

Valley是由字节跳动开发的多模态大型模型（MLLM），旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，远超过其他开源模型，并在OpenCompass多模态模型评估排行榜上展现了出色的性能，平均得分67.40，位列已知开源MLLMs（<10B）中的前两名。

人工智能开源机器学习多模态 +2

Valley-Eagle-7B

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

多模态图像识别文本处理视频分析 +1

Valley

Valley

Valley是由字节跳动开发的尖端多模态大型模型，能够处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，比其他开源模型表现更优。在OpenCompass测试中，与同规模模型相比，平均得分大于等于67.40，在小于10B模型中排名第二。Valley-Eagle版本参考了Eagle，引入了一个可以灵活调整令牌数量并与原始视觉令牌并行的视觉编码器，增强了模型在极端场景下的性能。

人工智能图像处理多模态视频分析 +1

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO是一个多模态大型语言模型系列，展示了卓越的整体性能。该系列基于InternVL2.5和混合偏好优化构建。它集成了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。该模型在多模态任务中表现出色，能够处理包括图像和文本在内的多种数据类型，适用于需要理解和生成多模态内容的场景。

自然语言处理图像处理多模态大型语言模型

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO是一个多模态大型语言模型（MLLM），它基于InternVL2.5和混合偏好优化（MPO）构建，展示了优越的整体性能。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在模型架构上保留了与InternVL 2.5及其前身相同的“ViT-MLP-LLM”范式，并引入了对多图像和视频数据的支持。该模型在多模态任务中表现出色，能够处理包括图像描述、视觉问答等多种视觉语言任务。

自然语言处理多模态大型语言模型图像描述 +1

InternVL2-8B-MPO

InternVL2-8B-MPO

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

多模态推理大语言模型混合偏好优化 +1

Gemini Multimodal Live + WebRTC

Gemini Multimodal Live + WebRTC

Gemini Multimodal Live + WebRTC是一个展示如何构建简单语音AI应用的示例项目，使用Gemini多模态直播API和WebRTC技术。该产品的主要优点包括低延迟、更好的鲁棒性、易于实现核心功能，并且兼容多种平台和语言的SDK。产品背景信息显示，这是一个开源项目，旨在通过WebRTC技术提升实时媒体连接的性能，并简化开发流程。

开源多模态 Gemini 实时通信 +1

The Language of Motion

The Language of Motion

这是一个由斯坦福大学研究团队开发的多模态语言模型框架，旨在统一3D人体动作中的言语和非言语语言。该模型能够理解并生成包含文本、语音和动作的多模态数据，对于创建能够自然交流的虚拟角色至关重要，广泛应用于游戏、电影和虚拟现实等领域。该模型的主要优点包括灵活性高、训练数据需求少，并且能够解锁如可编辑手势生成和从动作中预测情感等新任务。

语言模型多模态虚拟角色 3D人体动作 +1

Infini-Megrez

Infini-Megrez

Infini-Megrez是一个由无问芯穹研发的端侧全模态理解模型，它基于Megrez-3B-Instruct扩展，具备图片、文本、音频三种模态数据的理解分析能力，并在图像理解、语言理解和语音理解三个方面均取得最优精度。该模型通过软硬协同优化，确保了各结构参数与主流硬件高度适配，推理速度领先同精度模型最大300%。它简单易用，采用最原始的LLaMA结构，开发者无需任何修改便可将模型部署于各种平台，最小化二次开发复杂度。此外，Infini-Megrez还提供了完整的WebSearch方案，使模型可以自动决策搜索调用时机，在搜索和对话中自动切换，并提供更好的总结效果。

人工智能深度学习多模态端侧智能 +1

POINTS-Yi-1.5-9B-Chat

POINTS-Yi-1.5-9B-Chat

POINTS-Yi-1.5-9B-Chat是一个视觉语言模型，它集成了最新的视觉语言模型技术和微信AI提出的新技术。该模型在预训练数据集过滤、模型汤（Model Soup）技术等方面有显著创新，能够显著减少预训练数据集的大小并提高模型性能。它在多个基准测试中表现优异，是视觉语言模型领域的一个重要进展。

多模态对话系统视觉语言模型预训练 +1

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

多模态对话系统视觉语言模型图像文本到文本

WePOINTS

WePOINTS

WePOINTS是由微信AI团队开发的一系列多模态模型，旨在创建一个统一框架，容纳各种模态。这些模型利用最新的多模态模型进展和技术，推动内容理解和生成的无缝统一。WePOINTS项目不仅提供了模型，还包括了预训练数据集、评估工具和使用教程，是多模态人工智能领域的重要贡献。

人工智能自然语言处理多模态图像分割 +1

InternVL 2.5

InternVL 2.5

InternVL 2.5是基于InternVL 2.0的高级多模态大型语言模型系列，它在保持核心模型架构的同时，在训练和测试策略以及数据质量方面引入了显著的增强。该模型深入探讨了模型扩展与性能之间的关系，系统地探索了视觉编码器、语言模型、数据集大小和测试时配置的性能趋势。通过在包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理在内的广泛基准测试中进行的广泛评估，InternVL 2.5展现出了与GPT-4o和Claude-3.5-Sonnet等领先商业模型相媲美的竞争力。特别是，该模型是第一个在MMMU基准测试中超过70%的开源MLLM，通过链式思考（CoT）推理实现了3.7个百分点的提升，并展示了测试时扩展的强大潜力。

人工智能开源机器学习多模态 +1

InternVL2_5-4B

InternVL2_5-4B

InternVL2_5-4B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上进行了核心模型架构的维护，并在训练和测试策略以及数据质量上进行了显著增强。该模型在处理图像、文本到文本的任务中表现出色，特别是在多模态推理、数学问题解决、OCR、图表和文档理解等方面。作为开源模型，它为研究人员和开发者提供了强大的工具，以探索和构建基于视觉和语言的智能应用。

多语言多模态大型语言模型 Transformers +3

InternVL2_5-2B

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据，具备动态高分辨率训练方法，能够在处理多模态数据时提供更好的性能。

多模态大型语言模型图像-文本-文本动态高分辨率 +1

InternVL2_5-1B

InternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM)，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs)，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据，通过动态高分辨率训练方法，增强了模型处理多模态数据的能力。

机器学习多模态大型语言模型图像识别 +1

Gemini 2.0 Flash

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的下一代AI模型，旨在赋予开发者构建未来AI应用的能力。自去年12月发布Gemini 1.0以来，数百万开发者已使用Google AI Studio和Vertex AI构建了支持109种语言的Gemini应用。Gemini 2.0 Flash在性能上是1.5 Pro的两倍，同时实现了更强的性能，包括新的多模态输出和原生工具使用。它通过Gemini API在Google AI Studio和Vertex AI中提供实验性访问，并计划在明年初全面上市。Gemini 2.0 Flash的主要优点包括更好的性能、新的输出模态、原生工具使用和多模态实时API，这些功能将进一步提升开发者的工作效率和应用的互动性。

AI 多模态开发代码辅助 +1

Gemini 2.0

Gemini 2.0

Gemini 2.0是Google DeepMind推出的最新AI模型，旨在为“智能助理时代”提供支持。该模型在多模态能力上进行了升级，包括原生图像和音频输出以及工具使用能力，使得构建新的AI智能助理更加接近通用助理的愿景。Gemini 2.0的发布，标志着Google在AI领域的深入探索和持续创新，通过提供更强大的信息处理和输出能力，使得信息更加有用，为用户带来更高效和便捷的体验。

AI 多模态搜索推理 +2

MAmmoTH-VL

MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台，它通过指令调优技术，显著提升了多模态大型语言模型（MLLMs）在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集，覆盖了多样化的、推理密集型的任务，并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能，展现了其在教育和研究领域的重要性。

教育多模态研究推理 +2

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型，通过使用ViT增量学习与NTP损失（阶段1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新增量预训练的InternViT与各种预训练的LLMs，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

多模态图像识别 OCR 视觉模型 +1

InternVL2_5-8B

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

多语言多模态大型语言模型 Transformers +3

InternVL2_5-26B

InternVL2_5-26B

InternVL2_5-26B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型保持了其前身的“ViT-MLP-LLM”核心模型架构，并集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5系列模型在多模态任务中展现出卓越的性能，尤其在视觉感知和多模态能力方面。

多模态大型语言模型预训练模型 Hugging Face +1

InternVL2_5-38B

InternVL2_5-38B

InternVL 2.5是OpenGVLab推出的多模态大型语言模型系列，它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型系列能够处理图像、文本和视频数据，具备多模态理解和生成的能力，是当前多模态人工智能领域的前沿产品。InternVL 2.5系列模型以其高性能和开源特性，为多模态任务提供了强大的支持。

自然语言处理多模态大型语言模型图像识别 +1

InternVL2_5-78B

InternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化，支持包括图像、文本到文本的转换在内的多种功能，适用于需要处理视觉和语言信息的复杂任务。

机器学习多模态大型语言模型视觉感知 +1

Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

多语言支持文本生成多模态视觉语言模型 +1

Pi-智能演示文档

Pi-智能演示文档

Pi-智能演示文档是一个利用AI技术，提供丰富设计元素和多模态模型构建设计的演示文档制作平台。它能够整合用户的笔记、PDF、网页、图片、视频和数据，创建任何格式的内容。产品背景信息显示，Pi旨在通过AI智能和知识引擎，为用户提供优雅结构化的内容生成和设计灵感，适合需要制作演示文档的用户。产品定位于提高演示文档的制作效率和质量，价格信息未在页面中明确提供。

设计多模态智能推荐演示文档

Amazon Nova

Amazon Nova

Amazon Nova是亚马逊推出的新一代基础模型，能够处理文本、图像和视频提示，使客户能够使用Amazon Nova驱动的生成性AI应用程序理解视频、图表和文档，或生成视频和其他多媒体内容。Amazon Nova模型在亚马逊内部约有1000个生成性AI应用正在运行，旨在帮助内部和外部构建者应对挑战，并在延迟、成本效益、定制化、信息接地和代理能力方面取得有意义的进展。

人工智能机器学习多模态技术创新 +1

Aria-Base-64K

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

多模态预训练模型长文本处理问答系统

Qwen2vl-Flux

Qwen2vl-Flux

Qwen2vl-Flux是一个结合了Qwen2VL视觉语言理解能力的FLUX框架的先进多模态图像生成模型。该模型擅长基于文本提示和视觉参考生成高质量图像，提供卓越的多模态理解和控制。产品背景信息显示，Qwen2vl-Flux集成了Qwen2VL的视觉语言能力，增强了FLUX的图像生成精度和上下文感知能力。其主要优点包括增强的视觉语言理解、多种生成模式、结构控制、灵活的注意力机制和高分辨率输出。

图像生成深度学习多模态视觉语言理解

jina-clip-v2

jina-clip-v2

jina-clip-v2是由Jina AI开发的多语言多模态嵌入模型，支持89种语言的图像检索，能够处理512x512分辨率的图像，提供从64到1024不同维度的输出，以适应不同的存储和处理需求。该模型结合了强大的文本编码器Jina-XLM-RoBERTa和视觉编码器EVA02-L14，通过联合训练创建了对齐的图像和文本表示。jina-clip-v2在多模态搜索和检索方面提供了更准确、更易用的能力，特别是在打破语言障碍、提供跨模态理解和检索方面表现出色。

多语言多模态图像检索特征提取 +1