🖼️

图像分类

AI模型

共找到 100 个AI工具

100

个工具

主分类: 图像

子分类: AI模型

找到 100 个匹配工具

相关AI工具

点击任意工具查看详细信息

FLUX.1 Krea [dev]

FLUX.1 Krea [dev]

FLUX.1 Krea [dev] 是一个拥有 120 亿参数的修正流转换器，专为从文本描述生成高质量图像而设计。该模型经过指导蒸馏训练，使其更高效，且开放权重推动科学研究和艺术创作。产品强调其美学摄影能力和强大的提示遵循能力，是对封闭源替代品的有力竞争。使用该模型的用户能够进行个人、科学和商业用途，推动创新的工作流程。

图像生成深度学习文本到图像 +2

MuAPI

MuAPI

WAN 2.1 LoRA T2V是一款能够根据文本提示生成视频的工具，通过LoRA模块的定制训练，用户可以定制化生成视频，适用于品牌叙事、粉丝内容和风格化动画。产品背景丰富，提供高度定制化的视频生成体验。

视频生成品牌叙事风格化动画

Fotol AI

Fotol AI

Fotol AI是一个提供AGI技术和服务的网站，致力于为用户提供强大的人工智能解决方案。其主要优点包括先进的技术支持、丰富的功能模块和广泛的应用领域。Fotol AI的定位为成为用户探索AGI的首选平台，并为用户提供灵活多样的AI解决方案。

多模态实时处理 AI解决方案 +1

OmniGen2

OmniGen2

OmniGen2 是一个高效的多模态生成模型，结合了视觉语言模型和扩散模型，能够实现视觉理解、图像生成及编辑等功能。其开源特性为研究人员和开发者提供了强大的基础，助力个性化和可控生成 AI 的探索。

人工智能图像生成开源 +2

Bagel

Bagel

BAGEL是一款可扩展的统一多模态模型，它正在革新AI与复杂系统的交互方式。该模型具有对话推理、图像生成、编辑、风格转移、导航、构图、思考等功能，通过深度学习视频和网络数据进行预训练，为生成高保真度、逼真图像提供了基础。

人工智能图像生成深度学习 +2

FastVLM

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

自然语言处理图像处理深度学习 +2

F Lite

F Lite

F Lite 是由 Freepik 和 Fal 开发的一个大型扩散模型，具有 100 亿个参数，专门训练于版权安全和适合工作环境 (SFW) 的内容。该模型基于 Freepik 的内部数据集，包含约 8000 万张合法合规的图像，标志着公开可用的模型在这一规模上首次专注于合法和安全的内容。它的技术报告提供了详细的模型信息，并且使用了 CreativeML Open RAIL-M 许可证进行分发。该模型的设计旨在推动人工智能的开放性和可用性。

图像生成开源深度学习 +2

Flex.2-preview

Flex.2-preview

Flex.2 是当前最灵活的文本到图像扩散模型，具备内置的重绘和通用控制功能。它是一个开源项目，由社区支持，旨在推动人工智能的民主化。Flex.2 具备 8 亿参数，支持 512 个令牌长度输入，并符合 OSI 的 Apache 2.0 许可证。此模型可以在许多创意项目中提供强大的支持。用户可以通过反馈不断改善模型，推动技术进步。

人工智能图像生成开源 +2

InternVL3

InternVL3

InternVL3是由OpenGVLab开源发布的多模态大型语言模型（MLLM），具备卓越的多模态感知和推理能力。该模型系列包含从1B到78B共7个尺寸，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。InternVL3在工业图像分析、3D视觉感知等领域表现出色，其整体文本性能甚至优于Qwen2.5系列。该模型的开源为多模态应用开发提供了强大的支持，有助于推动多模态技术在更多领域的应用。

AI 图像处理多模态 +2

VisualCloze

VisualCloze

VisualCloze 是一个通过视觉上下文学习的通用图像生成框架，旨在解决传统任务特定模型在多样化需求下的低效率问题。该框架不仅支持多种内部任务，还能泛化到未见过的任务，通过可视化示例帮助模型理解任务。这种方法利用了先进的图像填充模型的强生成先验，为图像生成提供了强有力的支持。

图像生成深度学习图像编辑 +2

Step-R1-V-Mini

Step-R1-V-Mini

Step-R1-V-Mini是阶跃星辰推出的全新多模态推理模型，支持图文输入和文字输出，具备良好的指令遵循和通用能力。该模型在多模态协同场景下的推理表现上进行了技术优化，采用了多模态联合强化学习和充分利用多模态合成数据的训练方法，有效提升了模型在图像空间的复杂链路处理能力。Step-R1-V-Mini在多个公开榜单中表现亮眼，特别是在MathVision视觉推理榜单上位列国内第一，展现了其在视觉推理、数学逻辑和代码等方面的优异表现。该模型已正式上线阶跃AI网页端，并在阶跃星辰开放平台提供API接口，供开发者和研究人员体验和使用。

"多模态推理、图像识别、地点判断、菜谱生成、物体数量计算"

HiDream-I1

HiDream-I1

HiDream-I1 是一款新型的开源图像生成基础模型，拥有 170 亿个参数，能够在几秒内生成高质量图像。该模型适用于研究和开发，并在多个评测中表现优异，具有高效性和灵活性，适合用于各种创意设计和生成任务。

图像生成 AI 技术开源模型 +1

EasyControl

EasyControl

EasyControl 是一个为 Diffusion Transformer（扩散变换器）提供高效灵活控制的框架，旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。其主要优点包括：支持多种条件组合、提高生成灵活性和推理效率。该产品是基于最新研究成果开发的，适合在图像生成、风格转换等领域使用。

图像生成深度学习计算机视觉 +2

RF-DETR

RF-DETR

RF-DETR 是一个基于变压器的实时目标检测模型，旨在为边缘设备提供高精度和实时性能。它在 Microsoft COCO 基准测试中超过了 60 AP，具有竞争力的性能和快速的推理速度，适合各种实际应用场景。RF-DETR 旨在解决现实世界中的物体检测问题，适用于需要高效且准确检测的行业，如安防、自动驾驶和智能监控等。

机器学习深度学习边缘计算 +2

Stable Virtual Camera

Stable Virtual Camera

Stable Virtual Camera是Stability AI开发的一个1.3B参数的通用扩散模型，属于Transformer图像转视频模型。其重要性在于为新型视图合成（NVS）提供了技术支持，能够根据输入视图和目标相机生成3D一致的新场景视图。主要优点是可自由指定目标相机轨迹，能生成大视角变化且时间上平滑的样本，无需额外神经辐射场（NeRF）蒸馏即可保持高一致性，还能生成长达半分钟的高质量无缝循环视频。该模型仅可免费用于研究和非商业用途，定位是为研究人员和非商业创作者提供创新的图像转视频解决方案。

图像转视频 Transformer模型 3D场景生成 +2

Flat Color - Style

Flat Color - Style

Flat Color - Style是一款专为生成扁平色彩风格图像和视频设计的LoRA模型。它基于Wan Video模型训练，具有独特的无线条、低深度效果，适合用于动漫、插画和视频生成。该模型的主要优点是能够减少色彩渗出，增强黑色表现力，同时提供高质量的视觉效果。它适用于需要简洁、扁平化设计的场景，如动漫角色设计、插画创作和视频制作。该模型是免费提供给用户使用的，旨在帮助创作者快速实现具有现代感和简洁风格的视觉作品。

图像生成设计视频生成 +3

Aya Vision 32B

Aya Vision 32B

Aya Vision 32B 是由 Cohere For AI 开发的先进视觉语言模型，拥有 320 亿参数，支持 23 种语言，包括英语、中文、阿拉伯语等。该模型结合了最新的多语言语言模型 Aya Expanse 32B 和 SigLIP2 视觉编码器，通过多模态适配器实现视觉与语言理解的结合。它在视觉语言领域表现出色，能够处理复杂的图像与文本任务，如 OCR、图像描述、视觉推理等。该模型的发布旨在推动多模态研究的普及，其开源权重为全球研究人员提供了强大的工具。该模型遵循 CC-BY-NC 许可证，并需遵守 Cohere For AI 的合理使用政策。

开源多语言 OCR +3

Aya Vision 8B

Aya Vision 8B

CohereForAI的Aya Vision 8B是一个8亿参数的多语言视觉语言模型，专为多种视觉语言任务优化，支持OCR、图像描述、视觉推理、总结、问答等功能。该模型基于C4AI Command R7B语言模型，结合SigLIP2视觉编码器，支持23种语言，具有16K上下文长度。其主要优点包括多语言支持、强大的视觉理解能力以及广泛的适用场景。该模型以开源权重形式发布，旨在推动全球研究社区的发展。根据CC-BY-NC许可协议，用户需遵守C4AI的可接受使用政策。

开源多语言 OCR +3

Aya Vision

Aya Vision

Aya Vision 是 Cohere For AI 团队开发的先进视觉模型，专注于多语言多模态任务，支持 23 种语言。该模型通过创新的算法突破，如合成标注、多语言数据扩展和多模态模型融合，显著提升了视觉和文本任务的性能。其主要优点包括高效性（在计算资源有限的情况下仍能表现出色）和广泛的多语言支持。Aya Vision 的发布旨在推动多语言多模态研究的前沿发展，并为全球研究社区提供技术支持。

多语言多模态高效计算 +2

CogView4

CogView4

CogView4 是由清华大学开发的先进文本到图像生成模型，基于扩散模型技术，能够根据文本描述生成高质量图像。它支持中文和英文输入，并且可以生成高分辨率图像。CogView4 的主要优点是其强大的多语言支持和高质量的图像生成能力，适合需要高效生成图像的用户。该模型在 ECCV 2024 上展示，具有重要的研究和应用价值。

图像生成多语言支持文本到图像 +2

UniTok

UniTok

UniTok是一种创新的视觉分词技术，旨在弥合视觉生成和理解之间的差距。它通过多码本量化技术，显著提升了离散分词器的表示能力，使其能够捕捉到更丰富的视觉细节和语义信息。这一技术突破了传统分词器在训练过程中的瓶颈，为视觉生成和理解任务提供了一种高效且统一的解决方案。UniTok在图像生成和理解任务中表现出色，例如在ImageNet上实现了显著的零样本准确率提升。该技术的主要优点包括高效性、灵活性以及对多模态任务的强大支持，为视觉生成和理解领域带来了新的可能性。

人工智能图像处理深度学习 +3

Migician

Migician

Migician 是清华大学自然语言处理实验室开发的一种多模态大语言模型，专注于多图像定位任务。该模型通过引入创新的训练框架和大规模数据集 MGrounding-630k，显著提升了多图像场景下的精确定位能力。它不仅超越了现有的多模态大语言模型，甚至在性能上超过了更大规模的 70B 模型。Migician 的主要优点在于其能够处理复杂的多图像任务，并提供自由形式的定位指令，使其在多图像理解领域具有重要的应用前景。该模型目前在 Hugging Face 上开源，供研究人员和开发者使用。

人工智能自然语言处理开源 +2

Magma-8B

Magma-8B

Magma-8B 是微软开发的一款多模态 AI 基础模型，专为研究多模态 AI 代理而设计。它结合了文本和图像输入，能够生成文本输出，并具备视觉规划和代理能力。该模型使用了 Meta LLaMA-3 作为语言模型骨干，并结合 CLIP-ConvNeXt-XXLarge 视觉编码器，支持从无标签视频数据中学习时空关系，具有强大的泛化能力和多任务适应性。Magma-8B 在多模态任务中表现出色，特别是在空间理解和推理方面。它为多模态 AI 研究提供了强大的工具，推动了虚拟和现实环境中复杂交互的研究。

AI 文本生成多模态 +3

SigLIP2

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器，具有改进的语义理解、定位和密集特征。它支持零样本图像分类，能够通过文本描述直接对图像进行分类，无需额外训练。该模型在多语言场景下表现出色，适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整，以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案，尤其适合需要快速部署和多语言支持的场景。

多语言视觉语言模型语义理解 +2

VLM-R1

VLM-R1

VLM-R1 是一种基于强化学习的视觉语言模型，专注于视觉理解任务，如指代表达理解（Referring Expression Comprehension, REC）。该模型通过结合 R1（Reinforcement Learning）和 SFT（Supervised Fine-Tuning）方法，展示了在领域内和领域外数据上的出色性能。VLM-R1 的主要优点包括其稳定性和泛化能力，使其能够在多种视觉语言任务中表现出色。该模型基于 Qwen2.5-VL 构建，利用了先进的深度学习技术，如闪存注意力机制（Flash Attention 2），以提高计算效率。VLM-R1 旨在为视觉语言任务提供一种高效且可靠的解决方案，适用于需要精确视觉理解的应用场景。

自然语言处理深度学习强化学习 +2

ZeroBench

ZeroBench

ZeroBench 是一个专为评估大型多模态模型（LMMs）视觉理解能力而设计的基准测试。它通过 100 个精心设计且经过严格审查的复杂问题，以及 334 个子问题，挑战当前模型的极限。该基准测试旨在填补现有视觉基准的不足，提供更具挑战性和高质量的评估工具。ZeroBench 的主要优点是其高难度、轻量级、多样化和高质量的特点，使其能够有效区分模型的性能。此外，它还提供了详细的子问题评估，帮助研究人员更好地理解模型的推理能力。

人工智能多模态基准测试 +2

WHAM

WHAM

WHAM（World and Human Action Model）是由微软研究院开发的一种生成式模型，专门用于生成游戏场景和玩家行为。该模型基于Ninja Theory的《Bleeding Edge》游戏数据训练，能够生成连贯、多样化的游戏视觉和控制器动作。WHAM 的主要优点在于其能够捕捉游戏环境的3D结构和玩家行为的时间序列，为游戏设计和创意探索提供了强大的工具。该模型主要面向学术研究和游戏开发领域，帮助开发者快速迭代游戏设计。

图像生成生成式AI 游戏开发 +2

Pippo

Pippo

Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型，能够从单张普通照片生成高分辨率的多人视角视频。该技术的核心优势在于无需额外输入（如参数化模型或相机参数），即可生成高质量的 1K 分辨率视频。它基于多视角扩散变换器架构，具有广泛的应用前景，如虚拟现实、影视制作等。Pippo 的代码已开源，但不包含预训练权重，用户需要自行训练模型。

图像生成计算机视觉扩散模型 +2

One Shot LoRA

One Shot LoRA

One Shot LoRA 是一个专注于从视频中快速训练 LoRA 模型的在线平台。它利用先进的机器学习技术，能够将视频内容高效转化为 LoRA 模型，为用户提供快速、便捷的模型生成服务。该产品的主要优点是操作简单、无需登录且隐私安全。它无需用户上传私人数据，也不存储或收集任何用户信息，确保用户数据的私密性和安全性。该产品主要面向需要快速生成 LoRA 模型的用户，如设计师、开发者等，帮助他们快速获取所需的模型资源，提升工作效率。

隐私保护视频处理高效生成 +1

Janus Pro

Janus Pro

Janus Pro 是由 DeepSeek 技术驱动的先进 AI 图像生成与理解平台。它采用革命性的统一变换器架构，能够高效处理复杂的多模态操作，实现图像生成和理解的卓越性能。该平台训练了超过 9000 万个样本，其中包括 7200 万个合成美学数据点，确保生成的图像在视觉上具有吸引力且上下文准确。Janus Pro 为开发者和研究人员提供强大的视觉 AI 能力，帮助他们实现从创意到视觉叙事的转变。平台提供免费试用，适合需要高质量图像生成和分析的用户。

AI 图像生成创意 +2

Agentic Object Detection

Agentic Object Detection

Agentic Object Detection 是一种先进的推理驱动目标检测技术，能够通过文本提示精确识别图像中的目标对象。它无需大量的自定义训练数据，即可实现类似人类精度的检测。该技术利用设计模式对目标的独特属性（如颜色、形状和纹理）进行深度推理，从而在各种场景中实现更智能、更精确的识别。其主要优点包括高精度、无需大量训练数据以及能够处理复杂场景。该技术适用于需要高精度图像识别的行业，如制造业、农业、医疗等领域，能够帮助企业提高生产效率和质量控制水平。产品目前处于试用阶段，用户可以免费试用体验其功能。

图像识别目标检测高精度 +2

DiffSplat

DiffSplat

DiffSplat 是一种创新的 3D 生成技术，能够从文本提示和单视图图像快速生成 3D 高斯点云。该技术通过利用大规模预训练的文本到图像扩散模型，实现了高效的 3D 内容生成。它解决了传统 3D 生成方法中数据集有限和无法有效利用 2D 预训练模型的问题，同时保持了 3D 一致性。DiffSplat 的主要优点包括高效的生成速度（1~2 秒内完成）、高质量的 3D 输出以及对多种输入条件的支持。该模型在学术研究和工业应用中具有广泛前景，尤其是在需要快速生成高质量 3D 模型的场景中。

文本到图像扩散模型高斯点云 +2

Qwen2.5-VL

Qwen2.5-VL

Qwen2.5-VL 是 Qwen 团队推出的最新旗舰视觉语言模型，是视觉语言模型领域的重要进步。它不仅能够识别常见物体，还能分析图像中的文字、图表、图标等复杂内容，并支持对长视频的理解和事件定位。该模型在多个基准测试中表现出色，尤其在文档理解和视觉代理任务中具有显著优势，展现了强大的视觉理解和推理能力。其主要优点包括高效的多模态理解、强大的长视频处理能力以及灵活的工具调用能力，适用于多种应用场景。

多模态图像识别智能代理 +2

Animagine XL 4.0

Animagine XL 4.0

Animagine XL 4.0 是一款基于Stable Diffusion XL 1.0微调的动漫主题生成模型。它使用了840万张多样化的动漫风格图像进行训练，训练时长达到2650小时。该模型专注于通过文本提示生成和修改动漫主题图像，支持多种特殊标签，可控制图像生成的不同方面。其主要优点包括高质量的图像生成、丰富的动漫风格细节以及对特定角色和风格的精准还原。该模型由Cagliostro Research Lab开发，采用CreativeML Open RAIL++-M许可证，允许商业使用和修改。

图像生成 AI模型动漫 +3

MILS

MILS

MILS是一个由Facebook Research发布的开源项目，旨在展示大型语言模型（LLMs）在未经过任何训练的情况下，能够处理视觉和听觉任务的能力。该技术通过利用预训练的模型和优化算法，实现了对图像、音频和视频的自动描述生成。这一技术突破为多模态人工智能的发展提供了新的思路，展示了LLMs在跨模态任务中的潜力。该模型主要面向研究人员和开发者，为他们提供了一个强大的工具来探索多模态应用。目前该项目是免费开源的，旨在推动学术研究和技术发展。

人工智能多模态预训练模型 +3

Janus-Pro-7B

Janus-Pro-7B

Janus-Pro-7B 是一个强大的多模态模型，能够同时处理文本和图像数据。它通过分离视觉编码路径，解决了传统模型在理解和生成任务中的冲突，提高了模型的灵活性和性能。该模型基于 DeepSeek-LLM 架构，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并在多模态任务中表现出色。其主要优点包括高效性、灵活性和强大的多模态处理能力。该模型适用于需要多模态交互的场景，例如图像生成和文本理解。

人工智能图像生成深度学习 +2

Janus-Pro-1B

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

图像生成自然语言处理开源 +3

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

图像处理文本生成多模态 +2

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

开源多模态高效 +3

Flex.1-alpha

Flex.1-alpha

Flex.1-alpha 是一个强大的文本到图像生成模型，基于80亿参数的修正流变换器架构。它继承了FLUX.1-schnell的特性，并通过训练指导嵌入器，使其无需CFG即可生成图像。该模型支持微调，并且具有开放源代码许可（Apache 2.0），适合在多种推理引擎中使用，如Diffusers和ComfyUI。其主要优点包括高效生成高质量图像、灵活的微调能力和开源社区支持。开发背景是为了解决图像生成模型的压缩和优化问题，并通过持续训练提升模型性能。

图像生成开源深度学习 +2

moonshot-v1-vision-preview

moonshot-v1-vision-preview

Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。它能够准确识别和理解图片中的文字、颜色和物体形状等内容，为用户提供强大的视觉分析能力。该模型具有高效、准确的特点，适用于多种场景，如图像内容描述、视觉问答等。其定价与 moonshot-v1 系列模型一致，根据模型推理的总 Tokens 计费，每张图片消耗的 Tokens 为固定值 1024。

图像识别 AI 模型多轮对话 +2

StructLDM

StructLDM

StructLDM是一个结构化潜在扩散模型，用于从2D图像学习3D人体生成。它能够生成多样化的视角一致的人体，并支持不同级别的可控生成和编辑，如组合生成和局部服装编辑等。该模型在无需服装类型或掩码条件的情况下，实现了服装无关的生成和编辑。项目由南洋理工大学S-Lab的Tao Hu、Fangzhou Hong和Ziwei Liu提出，相关论文发表于ECCV 2024。

人工智能图像处理潜在扩散模型 +1

ViTPose

ViTPose

ViTPose是一系列基于Transformer架构的人体姿态估计模型。它利用Transformer的强大特征提取能力，为人体姿态估计任务提供了简单而有效的基线。ViTPose模型在多个数据集上表现出色，具有较高的准确性和效率。该模型由悉尼大学社区维护和更新，提供了多种不同规模的版本，以满足不同应用场景的需求。在Hugging Face平台上，ViTPose模型以开源的形式供用户使用，用户可以方便地下载和部署这些模型，进行人体姿态估计相关的研究和应用开发。

人工智能计算机视觉 Transformer +1

Hallo3

Hallo3

Hallo3是一种用于肖像图像动画的技术，它利用预训练的基于变换器的视频生成模型，能够生成高度动态和逼真的视频，有效解决了非正面视角、动态对象渲染和沉浸式背景生成等挑战。该技术由复旦大学和百度公司的研究人员共同开发，具有强大的泛化能力，为肖像动画领域带来了新的突破。

人工智能图像处理视频生成 +2

Stable Point Aware 3D

Stable Point Aware 3D

Stable Point Aware 3D (SPAR3D) 是 Stability AI 推出的先进3D生成模型。它能够在不到一秒的时间内，从单张图像中实现3D对象的实时编辑和完整结构生成。SPAR3D采用独特的架构，结合精确的点云采样与先进的网格生成技术，为3D资产创建提供了前所未有的控制力。该模型免费提供给商业和非商业用途，可在Hugging Face下载权重，GitHub获取代码，或通过Stability AI开发者平台API访问。

3D建模实时编辑网格生成 +1

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

多模态大型语言模型图像描述 +2

InternVL2_5-8B-MPO-AWQ

InternVL2_5-8B-MPO-AWQ

InternVL2_5-8B-MPO-AWQ是OpenGVLab推出的一款多模态大型语言模型，它基于InternVL2.5系列，并采用混合偏好优化（Mixed Preference Optimization, MPO）技术。该模型在视觉和语言的理解与生成方面展现了卓越的性能，尤其在多模态任务中表现出色。它通过结合视觉部分InternViT和语言部分InternLM或Qwen，使用随机初始化的MLP投影器进行增量预训练，实现了对图像和文本的深入理解与交互。该技术的重要性在于它能够处理包括单图像、多图像以及视频数据在内的多种数据类型，为多模态人工智能领域提供了新的解决方案。

多模态大型语言模型混合偏好优化 +1

1.58-bit FLUX

1.58-bit FLUX

1.58-bit FLUX是一种先进的文本到图像生成模型，通过使用1.58位权重（即{-1, 0, +1}中的值）来量化FLUX.1-dev模型，同时保持生成1024x1024图像的可比性能。该方法无需访问图像数据，完全依赖于FLUX.1-dev模型的自监督。此外，开发了一种定制的内核，优化了1.58位操作，实现了模型存储减少7.7倍，推理内存减少5.1倍，并改善了推理延迟。在GenEval和T2I Compbench基准测试中的广泛评估表明，1.58-bit FLUX在保持生成质量的同时显著提高了计算效率。

图像生成模型优化量化 +2

InternVL2_5-8B-MPO

InternVL2_5-8B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，它基于InternVL2.5和混合偏好优化构建。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在新版本中保留了与InternVL 2.5及其前身相同的模型架构，遵循“ViT-MLP-LLM”范式。该模型支持多图像和视频数据，通过混合偏好优化（MPO）进一步提升模型性能，使其在多模态任务中表现更优。

自然语言处理机器学习图像处理 +2

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ

InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型（MLLM），专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列，并通过混合偏好优化（MPO）进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入，适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力，为图像-文本到文本的任务提供了一个强大的解决方案。

人工智能机器学习多模态 +2

DynamicControl

DynamicControl

DynamicControl是一个用于提升文本到图像扩散模型控制力的框架。它通过动态组合多样的控制信号，支持自适应选择不同数量和类型的条件，以更可靠和详细地合成图像。该框架首先使用双循环控制器，利用预训练的条件生成模型和判别模型，为所有输入条件生成初始真实分数排序。然后，通过多模态大型语言模型（MLLM）构建高效条件评估器，优化条件排序。DynamicControl联合优化MLLM和扩散模型，利用MLLM的推理能力促进多条件文本到图像任务，最终排序的条件输入到并行多控制适配器，学习动态视觉条件的特征图并整合它们以调节ControlNet，增强对生成图像的控制。

机器学习文本到图像扩散模型 +2

InternVL2_5-4B-MPO

InternVL2_5-4B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

自然语言处理图像处理多模态 +1

Valley

Valley

Valley是由字节跳动开发的尖端多模态大型模型，能够处理涉及文本、图像和视频数据的多种任务。该模型在内部电子商务和短视频基准测试中取得了最佳结果，比其他开源模型表现更优。在OpenCompass测试中，与同规模模型相比，平均得分大于等于67.40，在小于10B模型中排名第二。Valley-Eagle版本参考了Eagle，引入了一个可以灵活调整令牌数量并与原始视觉令牌并行的视觉编码器，增强了模型在极端场景下的性能。

人工智能图像处理多模态 +2

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO是一个多模态大型语言模型系列，展示了卓越的整体性能。该系列基于InternVL2.5和混合偏好优化构建。它集成了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。该模型在多模态任务中表现出色，能够处理包括图像和文本在内的多种数据类型，适用于需要理解和生成多模态内容的场景。

自然语言处理图像处理多模态 +1

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO是一个多模态大型语言模型（MLLM），它基于InternVL2.5和混合偏好优化（MPO）构建，展示了优越的整体性能。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在模型架构上保留了与InternVL 2.5及其前身相同的“ViT-MLP-LLM”范式，并引入了对多图像和视频数据的支持。该模型在多模态任务中表现出色，能够处理包括图像描述、视觉问答等多种视觉语言任务。

自然语言处理多模态大型语言模型 +2

DisPose

DisPose

DisPose是一种用于控制人类图像动画的方法，它通过运动场引导和关键点对应来提高视频生成的质量。这项技术能够从参考图像和驱动视频中生成视频，同时保持运动对齐和身份信息的一致性。DisPose通过从稀疏的运动场和参考图像生成密集的运动场，提供区域级别的密集引导，同时保持稀疏姿态控制的泛化能力。此外，它还从参考图像中提取与姿态关键点对应的扩散特征，并将这些点特征转移到目标姿态，以提供独特的身份信息。DisPose的主要优点包括无需额外的密集输入即可提取更通用和有效的控制信号，以及通过即插即用的混合ControlNet提高生成视频的质量和一致性，而无需冻结现有模型参数。

视频生成图像动画控制信号 +2

Ruyi-Models

Ruyi-Models

Ruyi-Models是一个图像到视频的模型，能够生成高达768分辨率、每秒24帧的电影级视频，支持镜头控制和运动幅度控制。使用RTX 3090或RTX 4090显卡，可以无损生成512分辨率、120帧的视频。该模型以其高质量的视频生成能力和对细节的精确控制而受到关注，尤其在需要生成高质量视频内容的领域，如电影制作、游戏制作和虚拟现实体验中具有重要应用价值。

视频生成图像到视频高质量视频 +2

CAP4D

CAP4D

CAP4D是一种利用可变形多视图扩散模型（Morphable Multi-View Diffusion Models）来创建4D人像化身的技术。它能够从任意数量的参考图像生成不同视角和表情的图像，并将其适配到一个4D化身上，该化身可以通过3DMM控制并实时渲染。这项技术的主要优点包括高度逼真的图像生成、多视角的适应性以及实时渲染的能力。CAP4D的技术背景是基于深度学习和图像生成领域的最新进展，尤其是在扩散模型和3D面部建模方面。由于其高质量的图像生成和实时渲染能力，CAP4D在娱乐、游戏开发、虚拟现实等领域具有广泛的应用前景。目前，该技术是免费提供代码的，但具体的商业化应用可能需要进一步的授权和定价。

图像生成实时渲染 4D化身 +2

Historical Document Repair

Historical Document Repair

HDR是一个专注于修复受损历史文档的新技术，旨在预测受损历史文档的原始外观。这项技术通过创建大规模数据集HDR28K和基于扩散的网络DiffHDR，能够处理包括字符缺失、纸张损坏和墨水侵蚀等多种损害。HDR的主要优点在于其能够精确捕捉字符内容和风格，并与修复区域内的背景协调一致。该技术不仅能够修复受损文档，还能扩展到文档编辑和文本块生成，展现出高灵活性和泛化能力。HDR对于传承无价文化和文明具有重要意义。

人工智能图像修复文档编辑 +2

ComfyUI-IF_MemoAvatar

ComfyUI-IF_MemoAvatar

ComfyUI-IF_MemoAvatar是一个基于记忆引导扩散的模型，用于生成表达性的视频。该技术允许用户从单一图像和音频输入创建富有表现力的说话头像视频。这项技术的重要性在于其能够将静态图像转化为动态视频，同时保留图像中人物的面部特征和情感表达，为视频内容创作提供了新的可能性。该模型由Longtao Zheng等人开发，并在arXiv上发布相关论文。

AI 图像生成视频制作 +2

GenEx

GenEx

GenEx是一个AI模型，它能够从单张图片创建一个完全可探索的360°3D世界。用户可以互动地探索这个生成的世界。GenEx在想象空间中推进具身AI，并有潜力将这些能力扩展到现实世界的探索。

AI 图像生成虚拟现实 +2

DeepSeek-VL2-Small

DeepSeek-VL2-Small

DeepSeek-VL2是一系列先进的大型混合专家(MoE)视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等多种任务上展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有10亿、28亿和45亿激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

多模态学习视觉问答混合专家模型 +3

DeepSeek-VL2-Tiny

DeepSeek-VL2-Tiny

DeepSeek-VL2是一系列先进的大型混合专家（MoE）视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

自然语言处理图像识别视觉语言模型 +2

DeepSeek-VL2

DeepSeek-VL2

DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务上展现出卓越的能力。DeepSeek-VL2包含三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集和MoE基础模型相比，达到了竞争性或最先进的性能。

视觉语言模型视觉问答光学字符识别 +2

InternVL2_5-4B

InternVL2_5-4B

InternVL2_5-4B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上进行了核心模型架构的维护，并在训练和测试策略以及数据质量上进行了显著增强。该模型在处理图像、文本到文本的任务中表现出色，特别是在多模态推理、数学问题解决、OCR、图表和文档理解等方面。作为开源模型，它为研究人员和开发者提供了强大的工具，以探索和构建基于视觉和语言的智能应用。

多语言多模态大型语言模型 +4

InternVL2_5-2B

InternVL2_5-2B

InternVL 2.5 是一个先进的多模态大型语言模型系列，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，维持了其核心模型架构。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5 支持多图像和视频数据，具备动态高分辨率训练方法，能够在处理多模态数据时提供更好的性能。

多模态大型语言模型图像-文本-文本 +2

InternVL2_5-1B

InternVL2_5-1B

InternVL 2.5是一系列先进的多模态大型语言模型(MLLM)，它在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，保持了其核心模型架构。该模型集成了新增量预训练的InternViT与各种预训练的大型语言模型(LLMs)，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5支持多图像和视频数据，通过动态高分辨率训练方法，增强了模型处理多模态数据的能力。

机器学习多模态大型语言模型 +2

Sana_600M_512px

Sana_600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，可以在笔记本电脑GPU上部署，代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到，其研究和应用前景广阔，尤其在艺术创作、教育工具和模型研究等方面。

图像生成文本到图像高分辨率 +2

InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5是一个基于InternViT-300M-448px的增强版本，通过采用ViT增量学习与NTP损失（Stage 1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternViT 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新的增量预训练的InternViT与各种预训练的LLMs，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

多模态学习图像分类语义分割 +3

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5

InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型，通过使用ViT增量学习与NTP损失（阶段1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新增量预训练的InternViT与各种预训练的LLMs，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

多模态图像识别 OCR +2

InternVL2_5-8B

InternVL2_5-8B

InternVL2_5-8B是由OpenGVLab开发的一款多模态大型语言模型（MLLM），它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型采用'ViT-MLP-LLM'架构，集成了新增量预训练的InternViT与多种预训练语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP projector。InternVL 2.5系列模型在多模态任务上展现出卓越的性能，包括图像和视频理解、多语言理解等。

多语言多模态大型语言模型 +4

InternVL2_5-26B

InternVL2_5-26B

InternVL2_5-26B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型保持了其前身的“ViT-MLP-LLM”核心模型架构，并集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5系列模型在多模态任务中展现出卓越的性能，尤其在视觉感知和多模态能力方面。

多模态大型语言模型预训练模型 +2

Sana_600M_1024px

Sana_600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型，拥有1648M参数，专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示，它是基于开源代码开发的，可以在GitHub上找到源代码，同时它也遵循特定的许可证（CC BY-NC-SA 4.0 License）。

开源文本到图像高分辨率 +2

InternVL2_5-38B

InternVL2_5-38B

InternVL 2.5是OpenGVLab推出的多模态大型语言模型系列，它在InternVL 2.0的基础上进行了显著的训练和测试策略增强，以及数据质量提升。该模型系列能够处理图像、文本和视频数据，具备多模态理解和生成的能力，是当前多模态人工智能领域的前沿产品。InternVL 2.5系列模型以其高性能和开源特性，为多模态任务提供了强大的支持。

自然语言处理多模态大型语言模型 +2

InternVL2_5-78B

InternVL2_5-78B

InternVL 2.5是一系列先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型系列在视觉感知和多模态能力方面进行了优化，支持包括图像、文本到文本的转换在内的多种功能，适用于需要处理视觉和语言信息的复杂任务。

机器学习多模态大型语言模型 +2

Sana_1600M_1024px_MultiLing

Sana_1600M_1024px_MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。该模型以惊人的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐能力，可部署在笔记本电脑GPU上。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，支持Emoji、中文和英文以及混合提示。

多语言文本到图像高分辨率 +2

TRELLIS

TRELLIS

TRELLIS是一个基于统一结构化潜在表示和修正流变换器的原生3D生成模型，能够实现多样化和高质量的3D资产创建。该模型通过整合稀疏的3D网格和从强大的视觉基础模型提取的密集多视图视觉特征，全面捕获结构（几何）和纹理（外观）信息，同时在解码过程中保持灵活性。TRELLIS模型能够处理高达20亿参数，并在包含50万个多样化对象的大型3D资产数据集上进行训练。该模型在文本或图像条件下生成高质量结果，显著超越现有方法，包括规模相似的最近方法。TRELLIS还展示了灵活的输出格式选择和局部3D编辑能力，这些是以前模型所没有提供的。代码、模型和数据将被发布。

机器学习模型训练 3D生成 +2

Qwen2-VL-72B

Qwen2-VL-72B

Qwen2-VL-72B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最新的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，并可以集成到手机、机器人等设备中，进行基于视觉环境和文本指令的自动操作。除了英语和中文，Qwen2-VL现在还支持图像中不同语言文本的理解，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

多语言支持视觉理解多模态处理 +2

Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

多语言支持文本生成多模态 +2

AWPortraitCN

AWPortraitCN

AWPortraitCN是一个基于FLUX.1-dev开发的文本到图像生成模型，专门针对中国人的外貌和审美进行训练。它包含多种类型的肖像，如室内外肖像、时尚和摄影棚照片，具有强大的泛化能力。与原始版本相比，AWPortraitCN在皮肤质感上更加细腻和真实。为了追求更真实的原始图像效果，可以与AWPortraitSR工作流程一起使用。

文本到图像肖像生成 FLUX.1-dev +3

Sana_1600M_1024px

Sana_1600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的高清晰度、高文本-图像一致性的图像，并且速度极快，可以在笔记本电脑GPU上部署。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器。该技术的重要性在于其能够快速生成高质量的图像，对于艺术创作、设计和其他创意领域具有革命性的影响。Sana模型遵循CC BY-NC-SA 4.0许可协议，源代码可在GitHub上找到。

开源文本到图像高分辨率 +3

Sana_1600M_512px

Sana_1600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度、强大的文本图像对齐能力以及可在笔记本电脑GPU上部署的特性而著称。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，代表了文本到图像生成技术的最新进展。Sana的主要优点包括高分辨率图像生成、快速合成、笔记本电脑GPU上的可部署性，以及开源的代码，使其在研究和实际应用中具有重要价值。

开源文本到图像高分辨率 +2

FLOAT

FLOAT

FLOAT是一种音频驱动的人像视频生成方法，它基于流匹配生成模型，将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器，并具有简单而有效的逐帧条件机制。此外，FLOAT支持语音驱动的情感增强，能够自然地融入富有表现力的运动。广泛的实验表明，FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。

人工智能音频驱动人像动画 +2

Luma Photon

Luma Photon

Luma Photon 是一个创新的图像生成模型，以其高度创造性、智能化和个性化而著称。它建立在一个新的突破性架构之上，能够提供超高画质的图像，并且成本效率提高了10倍。Luma Photon 在大规模双盲评估中超越了市场上的所有模型，无论是在质量、创造力还是理解力方面都表现出色，同时在效率上也有了革命性的提升。

AI 图像生成创意工具 +2

MV-Adapter

MV-Adapter

MV-Adapter是一种基于适配器的多视图图像生成解决方案，它能够在不改变原有网络结构或特征空间的前提下，增强预训练的文本到图像（T2I）模型及其衍生模型。通过更新更少的参数，MV-Adapter实现了高效的训练并保留了预训练模型中嵌入的先验知识，降低了过拟合风险。该技术通过创新的设计，如复制的自注意力层和并行注意力架构，使得适配器能够继承预训练模型的强大先验，以建模新的3D知识。此外，MV-Adapter还提供了统一的条件编码器，无缝整合相机参数和几何信息，支持基于文本和图像的3D生成以及纹理映射等应用。MV-Adapter在Stable Diffusion XL（SDXL）上实现了768分辨率的多视图生成，并展示了其适应性和多功能性，能够扩展到任意视图生成，开启更广泛的应用可能性。

图像生成文本到图像适配器 +3

PSHuman

PSHuman

PSHuman是一个创新的框架，它利用多视图扩散模型和显式重构技术，从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题，并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征，实现了细节丰富且保持身份特征的新视角生成。此外，PSHuman还通过SMPL-X等参数化模型提供的身体先验，增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。

人工智能图像生成计算机视觉 +2

MyTimeMachine

MyTimeMachine

MyTimeMachine是一个基于人工智能技术的面部年龄变换模型，它能够通过约50张个人自拍照片个性化地进行年龄回退（减龄）和年龄前进（增龄），在保持高保真度和身份特征的同时，生成与目标年龄相似的面部图像。这项技术在电影和电视特效等虚拟年龄应用领域具有重要价值，能够提供高质量的、身份保持一致的、时间上连贯的年龄效果。

人工智能个性化 VFX +2

Sana-1.6B

Sana-1.6B

Sana-1.6B是一个高效的高分辨率图像合成模型，它基于线性扩散变换器技术，能够生成高质量的图像。该模型由NVIDIA实验室开发，使用DC-AE技术，具有32倍的潜在空间，能够在多个GPU上运行，提供强大的图像生成能力。Sana-1.6B以其高效的图像合成能力和高质量的输出结果而闻名，是图像合成领域的重要技术。

AI 深度学习高分辨率 +2

Diffusion Self-Distillatio

Diffusion Self-Distillatio

Diffusion Self-Distillation是一种基于扩散模型的自蒸馏技术，用于零样本定制图像生成。该技术允许艺术家和用户在没有大量配对数据的情况下，通过预训练的文本到图像的模型生成自己的数据集，进而微调模型以实现文本和图像条件的图像到图像任务。这种方法在保持身份生成任务的性能上超越了现有的零样本方法，并能与每个实例的调优技术相媲美，无需测试时优化。

图像生成扩散模型零样本学习 +2

SmolVLM

SmolVLM

SmolVLM是一个小型但功能强大的视觉语言模型（VLM），拥有2B参数，以其较小的内存占用和高效性能在同类模型中处于领先地位。SmolVLM完全开源，包括所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可下发布。该模型适合在浏览器或边缘设备上进行本地部署，降低推理成本，并允许用户自定义。

开源视觉语言模型 Transformers +2

OneDiffusion

OneDiffusion

OneDiffusion是一个多功能、大规模的扩散模型，它能够无缝支持双向图像合成和理解，覆盖多种任务。该模型预计将在12月初发布代码和检查点。OneDiffusion的重要性在于其能够处理图像合成和理解任务，这在人工智能领域是一个重要的进步，尤其是在图像生成和识别方面。产品背景信息显示，这是一个由多位研究人员共同开发的项目，其研究成果已在arXiv上发表。

人工智能扩散模型图像合成 +1

FLUX 1.1 Pro Ultra

FLUX 1.1 Pro Ultra

FLUX1.1 [pro] 是一款高分辨率图像生成模型，支持高达4MP的图像分辨率，同时保持每样本仅10秒的生成时间。FLUX1.1 [pro] – ultra模式能够在不牺牲速度的情况下，生成四倍于标准分辨率的图像，性能基准测试显示其生成速度超过同类高分辨率模型2.5倍以上。此外，FLUX1.1 [pro] – raw模式为追求真实感的创作者提供了更自然、更少合成感的图像生成效果，显著提高了人物多样性和自然摄影的真实性。该模型以每张图片0.06美元的竞争力价格提供。

图像生成高分辨率快速生成 +2

Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型（VLM），选用Qwen2.5-1.5B-instruct模型作为语言模型（LLM），并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练，包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源，旨在推动多模态性能的发展，特别是在图像和文本的结合处理方面。

机器学习文本生成多模态 +2

Claude Vision Object Detection

Claude Vision Object Detection

Claude Vision Object Detection是一个基于Python的工具，它利用Claude 3.5 Sonnet Vision API来检测图像中的物体并进行可视化。该工具能够自动在检测到的物体周围绘制边界框，对它们进行标记，并显示置信度分数。它支持处理单张图片或整个目录中的图片，并且具有高精度的置信度分数，为每个检测到的物体使用鲜艳且不同的颜色。此外，它还能保存带有检测结果的注释图片。

自动化图像处理 API +2

D-FINE

D-FINE

D-FINE是一个强大的实时目标检测模型，它通过将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入全局最优定位自蒸馏（GO-LSD），在不增加额外推理和训练成本的情况下，实现了出色的性能。该模型由中国科学院的研究人员开发，旨在提高目标检测的精度和效率。

目标检测实时检测自蒸馏 +2

InstantIR

InstantIR

InstantIR是一种基于扩散模型的盲图像恢复方法，能够在测试时处理未知退化问题，提高模型的泛化能力。该技术通过动态调整生成条件，在推理过程中生成参考图像，从而提供稳健的生成条件。InstantIR的主要优点包括：能够恢复极端退化的图像细节，提供逼真的纹理，并且通过文本描述调节生成参考，实现创造性的图像恢复。该技术由北京大学、InstantX团队和香港中文大学的研究人员共同开发，得到了HuggingFace和fal.ai的赞助支持。

扩散模型生成模型图像增强 +2

Stable Diffusion 3.5 Medium 2.6B

Stable Diffusion 3.5 Medium 2.6B

Stable Diffusion 3.5 Medium 是由 Stability AI 提供的一款基于人工智能的图像生成模型，它能够根据文本描述生成高质量的图像。这项技术的重要性在于它能够极大地推动创意产业的发展，如游戏设计、广告、艺术创作等领域。Stable Diffusion 3.5 Medium 以其高效的图像生成能力、易用性和较低的资源消耗而受到用户的青睐。目前，该模型在 Hugging Face 平台上以免费试用的形式提供给用户。

AI 图像生成创意工具 +2

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器，通过QK-规范化提高训练稳定性，并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

图像生成多模态文本到图像 +2

Flux.1 Lite

Flux.1 Lite

Flux.1 Lite是一个由Freepik发布的8B参数的文本到图像生成模型，它是从FLUX.1-dev模型中提取出来的。这个版本相较于原始模型减少了7GB的RAM使用，并提高了23%的运行速度，同时保持了与原始模型相同的精度（bfloat16）。该模型的发布旨在使高质量的AI模型更加易于获取，特别是对于消费级GPU用户。

机器学习图像处理深度学习 +2

Ultralight-Digital-Human

Ultralight-Digital-Human

Ultralight-Digital-Human是一个超轻量级的数字人模型，可以在移动端实时运行。这个模型是开源的，据开发者所知，它是第一个如此轻量级的开源数字人模型。该模型的主要优点包括轻量级设计，适合移动端部署，以及实时运行的能力。它的背后是深度学习技术，特别是在人脸合成和声音模拟方面的应用，这使得数字人模型能够以较低的资源消耗实现高质量的表现。产品目前是免费的，主要面向技术爱好者和开发者。

人工智能开源深度学习 +3

相关子分类

探索图像分类下的其他子分类

AI设计工具

832 个工具

图片生成

771 个工具

AI图像生成

543 个工具

图片编辑

522 个工具

AI图像编辑

196 个工具

开发与工具

95 个工具

平面设计

68 个工具

AI图像检测识别

63 个工具

🖼️

探索更多图像工具

AI模型是图像分类下的热门子分类，包含 352 个优质AI工具

浏览图像分类分类