搜索结果

找到 1,000 条结果

·

用时 0.268 秒

·

关键词： "图片生成"

Fashion-Hut-Modeling-LoRA

Fashion-Hut-Modeling-LoRA

Fashion-Hut-Modeling-LoRA是一个基于Diffusion技术的文本到图像生成模型，主要用于生成时尚模特的高质量图像。该模型通过特定的训练参数和数据集，能够根据文本提示生成具有特定风格和细节的时尚摄影图像。它在时尚设计、广告制作等领域具有重要应用价值，能够帮助设计师和广告商快速生成创意概念图。模型目前仍在训练阶段，可能存在一些生成效果不佳的情况，但已经展示了强大的潜力。该模型的训练数据集包含14张高分辨率图像，使用了AdamW优化器和constant学习率调度器等参数，训练过程注重图像的细节和质量。

图像生成文本到图像时尚 +2

Flux-Midjourney-Mix2-LoRA

Flux-Midjourney-Mix2-LoRA

Flux-Midjourney-Mix2-LoRA 是一款基于深度学习的文本到图像生成模型，旨在通过自然语言描述生成高质量的图像。该模型基于Diffusion架构，结合了LoRA技术，能够实现高效的微调和风格化图像生成。其主要优点包括高分辨率输出、多样化的风格支持以及对复杂场景的出色表现能力。该模型适用于需要高质量图像生成的用户，如设计师、艺术家和内容创作者，能够帮助他们快速实现创意构思。

深度学习文本到图像创意生成 +2

CreateMyBanner

CreateMyBanner

CreateMyBanner 是一款基于人工智能的横幅生成工具，旨在帮助用户快速创建高质量的横幅图像。它利用先进的AI算法，能够根据用户的输入自动生成符合不同平台需求的横幅设计。该工具的主要优点包括操作简单、设计灵活以及能够节省大量设计时间。它适合需要快速生成横幅的个人和企业，尤其是那些缺乏专业设计技能的用户。CreateMyBanner 提供多种定价计划，从免费的入门套餐到适合专业工作室的付费套餐，满足不同用户的需求。

社交媒体内容创作AI设计 +2

🎨 设计 www.createmybanner.com

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct

SmolVLM-256M 是由 Hugging Face 开发的多模态模型，基于 Idefics3 架构，专为高效处理图像和文本输入而设计。它能够回答关于图像的问题、描述视觉内容或转录文本，且仅需不到 1GB 的 GPU 内存即可运行推理。该模型在多模态任务上表现出色，同时保持轻量化架构，适合在设备端应用。其训练数据来自 The Cauldron 和 Docmatix 数据集，涵盖文档理解、图像描述等多领域内容，使其具备广泛的应用潜力。目前该模型在 Hugging Face 平台上免费提供，旨在为开发者和研究人员提供强大的多模态处理能力。

图像处理文本生成多模态 +2

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct

SmolVLM-500M 是由 Hugging Face 开发的轻量级多模态模型，属于 SmolVLM 系列。该模型基于 Idefics3 架构，专注于高效的图像和文本处理任务。它能够接受任意顺序的图像和文本输入，生成文本输出，适用于图像描述、视觉问答等任务。其轻量级架构使其能够在资源受限的设备上运行，同时保持强大的多模态任务性能。该模型采用 Apache 2.0 许可证，支持开源和灵活的使用场景。

开源多模态高效 +3

TokenVerse

TokenVerse

TokenVerse 是一种创新的多概念个性化方法，它利用预训练的文本到图像扩散模型，能够从单张图像中解耦复杂的视觉元素和属性，并实现无缝的概念组合生成。这种方法突破了现有技术在概念类型或广度上的限制，支持多种概念，包括物体、配饰、材质、姿势和光照等。TokenVerse 的重要性在于其能够为图像生成领域带来更灵活、更个性化的解决方案，满足用户在不同场景下的多样化需求。目前，TokenVerse 的代码尚未公开，但其在个性化图像生成方面的潜力已经引起了广泛关注。

图像生成个性化扩散模型 +2

🖼️ 图像 token-verse.github.io

商汤秒画SenseMirage

商汤秒画SenseMirage

商汤秒画SenseMirage是商汤科技推出的AI绘画平台，采用百亿级参数的Transformer扩散模型，支持多种绘画风格，包括摄影、赛博朋克、二次元等。其主要优点是操作简单，用户只需输入文字描述即可生成高质量图像，适合绘画新手和创意工作者。平台免费开放，旨在降低AI绘画门槛，推动创意表达。

创意工具免费AI绘画 +4

🖼️ 图像 miaohua.sensetime.com

秒画趣拍

秒画趣拍

秒画趣拍是一款专为年轻人设计的AI写真社区应用。它通过先进的AI技术，让用户能够快速生成高质量的写真照片，满足用户在不同场景下的拍摄需求。该应用的核心优势在于其高效生成能力和隐私保护措施，同时提供多样化的模板和简洁友好的用户界面。秒画趣拍以免费的形式推出，旨在为用户提供一种全新的数字创作体验。

AI技术隐私保护免费 +2

🖼️ 图像 apps.apple.com

Brat Generator.design

Brat Generator.design

Brat Generator是一个以Charli XCX的专辑封面风格为灵感的在线图像生成工具。它允许用户通过输入文本和选择背景颜色，快速生成具有个性化的专辑封面风格图像。该工具的主要优点是操作简单、快速生成图像，并且可以自定义字体风格和颜色。它适合那些希望在社交媒体上分享个性化图像的用户，尤其是音乐爱好者和创意内容创作者。目前该工具是免费的，旨在为用户提供一种轻松创建独特图像的方式。

图像生成社交媒体个性化 +2

🖼️ 图像 bratgenerator.design

What do I look like

What do I look like

该产品利用先进的AI技术，通过分析用户的面部特征、表情和姿势，将其与电影、电视剧和游戏中的角色进行匹配。用户可以上传照片，快速找到与自己相似的角色，并体验变脸功能，生成有趣的内容。该产品以趣味性和娱乐性为主，旨在为用户提供一种全新的互动体验，适合喜欢电影、电视剧和社交媒体分享的用户。产品目前免费，定位为轻娱乐工具，适合广泛的用户群体。

AI技术社交媒体分享变脸 +2

JoggAI Community

JoggAI Community

JoggAI Community 是一个专注于AI头像生成的创意平台。它利用先进的AI技术，帮助用户快速生成个性化的头像。这种技术不仅能够提升用户的创造力，还能满足他们在社交媒体、游戏或其他在线平台上展示独特形象的需求。该平台强调用户参与和社区互动，用户可以分享自己的作品并从中获得灵感。目前，该平台的具体价格和定位未明确，但从其功能来看，它可能面向追求个性化和创意的用户群体。

AI社交媒体个性化 +2

🖼️ 图像 www.jogg.ai

Make Real

Make Real

Make Real 是一个基于 tldraw 的工具，能够将用户绘制的图形通过 AI 技术转化为实际的图像或模型。它主要面向设计师、创意工作者等群体，帮助他们快速将想法转化为可视化的成果。用户需要输入相应的 API 密钥，即可使用该工具。其主要优点是操作简单，能够快速实现创意的可视化。

AI设计创意 +1

Flex.1-alpha

Flex.1-alpha

Flex.1-alpha 是一个强大的文本到图像生成模型，基于80亿参数的修正流变换器架构。它继承了FLUX.1-schnell的特性，并通过训练指导嵌入器，使其无需CFG即可生成图像。该模型支持微调，并且具有开放源代码许可（Apache 2.0），适合在多种推理引擎中使用，如Diffusers和ComfyUI。其主要优点包括高效生成高质量图像、灵活的微调能力和开源社区支持。开发背景是为了解决图像生成模型的压缩和优化问题，并通过持续训练提升模型性能。

图像生成开源深度学习 +2

FLUX Pro Finetuning API

FLUX Pro Finetuning API

FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像（1-5张）对 FLUX Pro 模型进行微调，从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方，帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息，但其定位为高端创意工具，适合对生成内容质量有较高要求的用户。

图像生成内容创作创意设计 +3

🎨 设计 blackforestlabs.ai

Worlds of Frames

Worlds of Frames

Frames 是 Runway 的核心产品之一，专注于图像生成领域。它通过深度学习技术，为用户提供高度风格化的图像生成能力。该模型允许用户定义独特的艺术视角，生成具有高度视觉保真度的图像。其主要优点包括强大的风格控制能力、高质量的图像输出以及灵活的创作空间。Frames 面向创意专业人士、艺术家和设计师，旨在帮助他们快速实现创意构思，提升创作效率。Runway 提供了多种使用场景和工具支持，用户可以根据需求选择不同的功能模块。价格方面，Runway 提供了付费和免费试用的选项，以满足不同用户的需求。

图像生成设计深度学习 +2

朱雀大模型AI生成图像检测

朱雀大模型AI生成图像检测

朱雀大模型检测是腾讯推出的一款AI检测工具，主要功能是检测图片是否由AI模型生成。它经过大量自然图片和生成图片的训练，涵盖摄影、艺术、绘画等内容，可检测多类主流文生图模型生成图片。该产品具有高精度检测、快速响应等优点，对于维护内容真实性、打击虚假信息传播具有重要意义。目前暂未明确其具体价格，但从功能来看，主要面向需要进行内容审核、鉴别真伪的机构和个人，如媒体、艺术机构等。

图像识别AI检测内容审核 +1

🖼️ 图像 matrix.tencent.com

Raphael

Raphael

Raphael是一款强大的AI图像生成工具，其核心是先进的Flux.1-Dev模型。该产品完全免费，无需用户注册或登录，即可无限生成高质量的AI图像。它不仅为创作者提供了强大的图像生成能力，还通过零数据保留政策保护用户隐私。其定位是成为全球最大的免费AI图像生成器，适用于各种需要图像生成的场景，如艺术创作、营销设计、游戏开发等。

隐私保护免费AI图像生成 +2

🖼️ 图像 raphael.app

moonshot-v1-vision-preview

moonshot-v1-vision-preview

Kimi 视觉模型是 Moonshot AI 开放平台提供的先进图像理解技术。它能够准确识别和理解图片中的文字、颜色和物体形状等内容，为用户提供强大的视觉分析能力。该模型具有高效、准确的特点，适用于多种场景，如图像内容描述、视觉问答等。其定价与 moonshot-v1 系列模型一致，根据模型推理的总 Tokens 计费，每张图片消耗的 Tokens 为固定值 1024。

图像识别AI 模型多轮对话 +2

🖼️ 图像 platform.moonshot.cn

KLINGAI

KLINGAI

KLINGAI是一个由Kling大模型和Kolors大模型驱动的下一代AI创意工作室，受到全球创作者的高度评价。它支持视频和图像的生成与编辑，用户可以在这里释放想象力，或从其他创作者的作品中获取灵感，将想法变为现实。该应用在App Store中属于图形与设计类别，排名123，拥有3.9的用户评分。它适用于iPad，提供免费下载，但包含应用内购买项目。

多语言支持视频生成图像编辑 +2

💼 生产力 apps.apple.com

Gaze Demo

Gaze Demo

Gaze Demo是一个基于Hugging Face Spaces平台的项目，由用户moondream创建。它主要展示与注视点（Gaze）相关的技术，可能涉及到图像识别、用户交互等领域。该技术的重要性在于能够通过分析用户的注视点来增强用户体验，例如在人机交互、广告投放、虚拟现实等场景中有广泛应用。产品目前处于展示阶段，未明确具体价格和详细定位。

图像识别用户交互注视点技术 +1

🖼️ 图像 huggingface.co

FitDiT

FitDiT

FitDiT 旨在解决图像基础虚拟试衣中高保真度和鲁棒性不足的问题，通过引入服装纹理提取器和频域学习，以及采用扩张松弛掩码策略，显著提升了虚拟试衣的贴合度和细节表现，其主要优点是能够生成逼真且细节丰富的服装图像，适用于多种场景，具有较高的实用价值和竞争力，目前尚未明确具体价格和市场定位。

人工智能图像处理虚拟试衣 +1

🖼️ 图像 byjiang.com

NeuralSVG

NeuralSVG

NeuralSVG是一种用于从文本提示生成矢量图形的隐式神经表示方法。它受到神经辐射场（NeRFs）的启发，将整个场景编码到一个小的多层感知器（MLP）网络的权重中，并使用分数蒸馏采样（SDS）进行优化。该方法通过引入基于dropout的正则化技术，鼓励生成的SVG具有分层结构，使每个形状在整体场景中具有独立的意义。此外，其神经表示还提供了推理时控制的优势，允许用户根据提供的输入动态调整生成的SVG，如颜色、宽高比等，且只需一个学习到的表示。通过广泛的定性和定量评估，NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。该模型由特拉维夫大学和MIT CSAIL的研究人员共同开发，目前代码尚未公开。

人工智能设计工具文本到图像 +2

🎨 设计 sagipolaczek.github.io

LLaVA-Mini

LLaVA-Mini

由ictnlp团队开发的多模态模型，仅用1个视觉令牌提效，改进多项性能，开源免费，适用于需快速准确理解视觉内容的场景。

"图像理解、视频处理、多模态模型、高效计算、低延迟"

🎬 视频 github.com

PaliGemma2-3b-pt-224

PaliGemma2-3b-pt-224

PaliGemma 2是由Google开发的视觉-语言模型，它结合了SigLIP视觉模型和Gemma 2语言模型的能力，能够处理图像和文本输入，并生成相应的文本输出。该模型在多种视觉-语言任务上表现出色，如图像描述、视觉问答等。其主要优点包括强大的多语言支持、高效的训练架构以及在多种任务上的优异性能。PaliGemma 2的开发背景是为了解决视觉和语言之间的复杂交互问题，帮助研究人员和开发者在相关领域取得突破。

多语言支持图像描述视觉问答 +2

9 10 11 12 13 14 15

12 / 42