💼

生产力分类

多模态

共找到 4 个AI工具

个工具

主分类: 生产力

子分类: 多模态

找到 4 个匹配工具

相关AI工具

点击任意工具查看详细信息

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

多语言多模态语音识别 +2

生产力访问

Valley-Eagle-7B

Valley-Eagle-7B是由字节跳动开发的多模态大型模型，旨在处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，并在OpenCompass测试中展现出与同规模模型相比的卓越性能。Valley-Eagle-7B结合了LargeMLP和ConvAdapter构建投影器，并引入了VisionEncoder，以增强模型在极端场景下的性能。

多模态图像识别文本处理 +2

生产力访问

Megrez-3B-Omni

Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型，基于大语言模型Megrez-3B-Instruct扩展，具备图片、文本、音频三种模态数据的理解分析能力。该模型在图像理解、语言理解、语音理解方面均取得最优精度，支持中英文语音输入及多轮对话，支持对输入图片的语音提问，根据语音指令直接响应文本，在多项基准任务上取得了领先的结果。

自然语言处理语音识别图像识别 +2

生产力访问

InternVL 2.5

InternVL 2.5是基于InternVL 2.0的高级多模态大型语言模型系列，它在保持核心模型架构的同时，在训练和测试策略以及数据质量方面引入了显著的增强。该模型深入探讨了模型扩展与性能之间的关系，系统地探索了视觉编码器、语言模型、数据集大小和测试时配置的性能趋势。通过在包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理在内的广泛基准测试中进行的广泛评估，InternVL 2.5展现出了与GPT-4o和Claude-3.5-Sonnet等领先商业模型相媲美的竞争力。特别是，该模型是第一个在MMMU基准测试中超过70%的开源MLLM，通过链式思考（CoT）推理实现了3.7个百分点的提升，并展示了测试时扩展的强大潜力。

人工智能开源机器学习 +2

生产力访问

探索更多生产力工具

多模态是生产力分类下的热门子分类，包含 4 个优质AI工具

浏览生产力分类分类

多模态

相关AI工具

Phi-4-multimodal-instruct

Valley-Eagle-7B

Megrez-3B-Omni

InternVL 2.5

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多生产力工具

多模态

相关AI工具

Phi-4-multimodal-instruct

Valley-Eagle-7B

Megrez-3B-Omni

InternVL 2.5

相关子分类

开发与工具

效率工具

个人助理

AI模型

写作助手

知识管理

聊天机器人

AI设计工具

探索更多 生产力 工具

探索更多生产力工具