搜索结果

LLaSA_training

LLaSA_training 是一个基于 LLaMA 的语音合成训练项目，旨在通过优化训练时间和推理时间的计算资源，提升语音合成模型的效率和性能。该项目利用开源数据集和内部数据集进行训练，支持多种配置和训练方式，具有较高的灵活性和可扩展性。其主要优点包括高效的数据处理能力、强大的语音合成效果以及对多种语言的支持。该项目适用于需要高性能语音合成解决方案的研究人员和开发者，可用于开发智能语音助手、语音播报系统等应用场景。

深度学习语音合成分布式训练 +2

💻 编程

F5-TTS

F5-TTS是由SWivid团队开发的一个文本到语音合成（TTS）模型，它利用深度学习技术将文本转换为自然流畅、忠实于原文的语音输出。该模型在生成语音时，不仅追求高自然度，还注重语音的清晰度和准确性，适用于需要高质量语音合成的各种应用场景，如语音助手、有声读物制作、自动新闻播报等。F5-TTS模型在Hugging Face平台上发布，用户可以方便地下载和部署，支持多种语言和声音类型，具有很高的灵活性和可扩展性。

人工智能自然语言处理深度学习 +2

Llama 3.2 3b Voice

Llama 3.2 3b Voice 是基于Hugging Face平台的一款语音合成模型，能够将文本转换为自然流畅的语音。该模型采用了先进的深度学习技术，能够模仿人类说话的语调、节奏和情感，适用于多种场景，如语音助手、有声读物、自动播报等。

人工智能自然语言处理深度学习 +1

VALL-E 2

VALL-E 2 是微软亚洲研究院推出的一款语音合成模型，它通过重复感知采样和分组编码建模技术，大幅提升了语音合成的稳健性与自然度。该模型能够将书面文字转化为自然语音，适用于教育、娱乐、多语言交流等多个领域，为提高无障碍性、增强跨语言交流等方面发挥重要作用。

人工智能自然语言处理语音合成 +1

💼 生产力 www.msra.cn

ToucanTTS

ToucanTTS是由德国斯图加特大学自然语言处理研究所开发的多语言且可控的文本到语音合成工具包。它使用纯Python和PyTorch构建，以保持简单、易于上手，同时尽可能强大。该工具包支持教学、训练和使用最前沿的语音合成模型，具有高度的灵活性和可定制性，适用于教育和研究领域。

多语言语音合成教育工具 +2

🎓 教育 github.com

sherpa-onnx

sherpa-onnx 是一个基于下一代 Kaldi 的语音识别和语音合成项目，使用onnxruntime进行推理，支持多种语音相关功能，包括语音转文字(ASR)、文字转语音(TTS)、说话人识别、说话人验证、语言识别、关键词检测等。它支持多种平台和操作系统，包括嵌入式系统、Android、iOS、Raspberry Pi、RISC-V、服务器等。

机器学习语音识别语音合成 +1

💻 编程 github.com

💼 生产力 aura-tts-demo.deepgram.com

Aura TTS Demo by Deepgram

Aura TTS（文字转语音）演示展现了Deepgram的高级语音合成技术，可以将文本转换成自然发音的语音，并提供多种声音选项。

AI语音合成语音技术 +1

EmoPP

EmoPP是一个情绪感知的韵律分析模型,它可以更准确地挖掘语音的情感线索,预测更合适的停顿位置,从而提高端到端语音合成系统的情绪表达能力。该模型通过在ESD数据集上进行客观观察,证明了情绪和韵律分析之间存在强相关性。目标评估和主观评估结果表明,EmoPP模型优于所有基准,在情绪表达方面取得了显著的效果。

开发编程语音合成韵律分析

📁 语音 ai-s2-lab.github.io

EASY.DX

EASY.DX是一个AI语音合成工具，专为游戏开发而设计。它能够快速生成逼真的角色配音，帮助游戏开发者节省时间和成本。使用EASY.DX，你可以轻松创建自定义角色的声音，并将音频导出到游戏开发软件中。不需要额外的音频编辑，EASY.DX会为你生成清晰的对话音频。

AI语音合成音频 +1

🎵 音乐 www.easydx.ai

匹配度 15

Spakfly

Spakfly是一款能将任何文本转换为逼真人声的语音合成服务。它适用于视频销售信、教育视频、YouTube视频、营销视频、培训视频、有声读物等各种场景。Spakfly拥有多种语言和声音选择，包括标准声音和AI声音，具有灵活的定价模式。

人工智能视频语音合成 +1

📁 语音合成 spakfly.com

IndexTTS

IndexTTS 是一种基于 GPT 风格的文本到语音（TTS）模型，主要基于 XTTS 和 Tortoise 进行开发。它能够通过拼音纠正汉字发音，并通过标点符号控制停顿。该系统在中文场景中引入了字符-拼音混合建模方法，显著提高了训练稳定性、音色相似性和音质。此外，它还集成了 BigVGAN2 来优化音频质量。该模型在数万小时的数据上进行训练，性能超越了当前流行的 TTS 系统，如 XTTS、CosyVoice2 和 F5-TTS。IndexTTS 适用于需要高质量语音合成的场景，如语音助手、有声读物等，其开源性质也使其适合学术研究和商业应用。

人工智能自然语言处理开源 +2

Deepgram Voice Agent API

Deepgram Voice Agent API 是一个统一的语音到语音API，它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别和语音合成模型提供支持，能够自然且实时地听、思考和说话。Deepgram致力于通过其语音代理API推动语音优先AI的未来，通过集成先进的生成AI技术，打造能够进行流畅、类似人类语音代理的业务世界。

自然语言处理语音识别语音合成 +2

💻 编程 deepgram.com

OptiSpeech

OptiSpeech是一个高效、轻量级且快速的文本到语音模型，专为设备端文本到语音转换设计。它利用了先进的深度学习技术，能够将文本转换为自然听起来的语音，适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持，显著加速了开发进程。

深度学习语音合成文本到语音 +1

💼 生产力 github.com

🔧 其他 giantailab.github.io

Bailing-TTS

Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列，专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构，通过多阶段训练过程，有效对齐文本和语音标记，实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果，对于方言语音合成领域具有重要意义。

语音合成Transformer文本到语音 +2

ElevenLabs AI audio API

ElevenLabs AI音频API提供了高质量的语音合成服务，支持多种语言，适用于聊天机器人、代理、网站、应用程序等，具有低延迟和高响应速度。该API支持企业级需求，确保数据安全，符合SOC2和GDPR合规性。

多语言支持语音合成数据安全 +1

💻 编程

CosyVoice

CosyVoice 是一个多语言的大型语音生成模型，它不仅支持多种语言的语音生成，还提供了从推理到训练再到部署的全栈能力。该模型在语音合成领域具有重要性，因为它能够生成自然流畅、接近真人的语音，适用于多种语言环境。CosyVoice 的背景信息显示，它是由 FunAudioLLM 团队开发，使用了 Apache-2.0 许可证。

机器学习多语言语音合成 +1

🔧 其他 github.com

Swift

Swift是一个由Groq、Cartesia和Vercel支持的快速AI语音助手。它使用Groq进行OpenAI Whisper和Meta Llama 3的快速推理，Cartesia的Sonic语音模型进行快速语音合成，并实时流式传输到前端。VAD技术用于检测用户说话并运行语音片段上的回调。Swift是一个使用TypeScript编写的Next.js项目，并部署在Vercel上。

AI语音合成语音助手 +4

💼 生产力 github.com

ChatTTS-ui

ChatTTS-ui是一个为ChatTTS项目提供的web界面和API接口，允许用户通过网页进行语音合成操作，并通过API接口进行远程调用。它支持多种音色选择，用户可以自定义语音合成的参数，如笑声、停顿等。此项目为语音合成技术提供了一个易于使用的界面，降低了技术门槛，使得语音合成更加便捷。

语音合成API接口web界面 +2

💻 编程 github.com

Voice Engine

Voice Engine是一种先进的语音合成模型,它仅需15秒的语音样本,便能生成与原始说话人极为相似的自然语音。该模型广泛应用于教育、娱乐、医疗等领域,可为非读写人群提供朗读辅助、为视频和播客内容翻译语音、为非语言人群赋予独特语音等。其显著优势在于所需语音样本少、生成语音质量高、支持多语种。Voice Engine目前处于小规模预览阶段,OpenAI正在与各界人士探讨其潜在应用和伦理挑战。

人工智能语音合成语音翻译 +2

💼 生产力 openai.com

Whisper Speech

Whisper Speech是一款完全开源的文本转语音模型，由Collabora和Lion在Juwels超级计算机上训练。它支持多种语言和多种形式的输入，包括Node.js、Python、Elixir、HTTP、Cog和Docker。该模型的优势在于高效的语音合成和灵活的部署方式。定价方面，Whisper Speech完全免费。它定位于为开发者和研究人员提供一个强大的、可定制的文本转语音解决方案。

开源语音合成文本转语音

🎵 音乐 replicate.com

魔音工坊

魔音工坊是一款功能强大的在线智能配音工具,能够快速高效地实现文字到语音的转换。它拥有强大的语音合成技术,提供真人录音质量的配音效果。用户只需输入文字,即可生成逼真的语音音频。魔音工坊支持中文、英文等多种语言的配音,提供不同性别、不同口音的人声音色。用户可以精心调整每个句子的语速、音调等参数,输出流畅自然的配音作品。该产品适用于视频创作者、主播、录音师等创作者,能大大提高他们的内容输出效率。

语音合成在线配音智能配音

💼 生产力 www.moyin.com

🛠️ 工具 www.text-to-speech.online

Free Text To Speech Online

在线语音合成工具是一款将文字转换为自然流畅的人声的工具。它提供100多种说话人供您选择，支持多种语言、多种方言以及中英文混合，并且可以灵活配置音频参数。它广泛应用于新闻阅读、旅行导航、智能硬件和通知广播等领域。您可以将文本内容转换为MP3文件并下载保存。

在线工具语音合成