-->
Fish Audio是一个提供文本到语音转换服务的平台,利用生成式AI技术,用户可以将文本转换为自然流畅的语音。该平台支持声音克隆技术,允许用户创建和使用个性化的声音。它适用于娱乐、教育和商业等多种场景,为用户提供了一种创新的交互方式。
心辰Lingo语音大模型是一款先进的人工智能语音模型,专注于提供高效、准确的语音识别和处理服务。它能够理解并处理自然语言,使得人机交互更加流畅和自然。该模型背后依托西湖心辰强大的AI技术,致力于在各种场景下提供高质量的语音交互体验。
Easy Voice Toolkit是一个基于开源语音项目的AI语音工具箱,提供包括语音模型训练在内的多种自动化音频工具。该工具箱能够无缝集成,形成完整的工作流程,用户可以根据需要选择性使用这些工具,或按顺序使用,逐步将原始音频文件转换为理想的语音模型。
auto-video-generateor自动视频生成器是一个创新的AI模型,能够根据用户输入的主题文字,自动生成解说视频。它利用大语言模型生成故事或解说文本,再通过语音合成技术生成解说语音,结合文生图技术生成与文本内容相匹配的图片,最终将这些元素融合生成解说视频。产品背景基于百度智能云的千帆大模型平台,采用ERNIE系列模型,结合开源的语音合成和文生图技术,实现自动化视频生成流程。
Open-LLM-VTuber 是一个开源项目,旨在通过语音与大型语言模型(LLM)进行交互,具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台,允许用户选择不同的语音识别和语音合成后端,以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。
YouDub-webui 是一个基于 Gradio 构建的网页交互版本工具,用于将 YouTube 和其他平台上的高质量视频翻译和配音成中文版本。它结合了 AI 技术,包括语音识别、大型语言模型翻译和 AI 声音克隆技术,提供与原视频相似的中文配音,为中文用户提供卓越的观看体验。
ElevenStudios提供全托管的视频和播客配音服务,利用AI和双语配音专家将内容翻译成多种语言,扩大全球受众。AI声音模型生成的音频听起来就像用户本人在说外语,同时保证翻译忠实于原意,并能与外国受众产生共鸣。
Bark是由Suno开发的基于Transformer的文本到音频模型,能够生成逼真的多语言语音以及其他类型的音频,如音乐、背景噪声和简单音效。它还支持生成非语言交流,例如笑声、叹息和哭泣声。Bark支持研究社区,提供预训练模型检查点,适用于推理并可用于商业用途。
Pandrator 是一个基于开源软件的工具,能够将文本、PDF、EPUB 和 SRT 文件转换成多种语言的语音音频,包括语音克隆、基于LLM的文本预处理以及将生成的字幕音频直接保存到视频文件中,与视频的原始音轨混合。它旨在易于使用和安装,具有一键安装程序和图形用户界面。
LlamaVoice是一个基于羊驼模型的大型语音生成模型,它通过直接预测连续特征,提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效的处理过程。该模型具有连续特征预测、变分自编码器(VAE)潜在特征预测、联合训练、先进采样策略和基于流的增强等关键特点。
SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型,能够感知并表达情感,并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器(750bps),模拟语义和声学信息,并通过多输入多输出语言模型(MIMO-LM)进行初始化。目前,SpeechGPT2还是一个基于轮次的对话系统,正在开发全双工实时版本,并已取得一些有希望的进展。尽管受限于计算和数据资源,SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足,计划未来开源技术报告、代码和模型权重。
TTSynth.com是一个免费的在线文本转语音(TTS)生成器,它使用先进的AI技术将书面文本转换为自然发音的语音。该服务支持多种语言和口音,适用于全球用户。它提供了高质量的音频输出,并且用户可以轻松下载TTS MP3文件。TTS技术在教育、营销、无障碍解决方案等多个领域都有广泛的应用。
SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础模型。它专注于高精度多语种语音识别、语音情感识别和音频事件检测,支持超过50种语言,识别性能超越Whisper模型。模型采用非自回归端到端框架,推理延迟极低,是实时语音处理的理想选择。
WAKE UP MOTHAF$R是一个提供个性化AI语音唤醒服务的网站,模仿知名人物David Goggins的声音,帮助用户在早晨醒来。该工具由David Goggins的粉丝们创建,并非由David Goggins本人或其团队正式支持。
ElevenLabs Reader App是一款可以将文本内容转化为语音的应用程序,它适用于iOS设备,并在美国、加拿大和英国上线。该应用提供高质量的语音朗读服务,支持多种格式的文本内容,包括文章、PDF、电子邮件等。用户可以从丰富的语音库中选择喜欢的语音,上传内容后即可随时随地收听。此外,ElevenLabs还提供了3个月的免费试用期,让用户可以尽情体验接近无限的文本生成和高品质语音服务。
ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。
ChatTTS-Forge是一个围绕TTS生成模型ChatTTS开发的项目,实现了API服务器和基于Gradio的WebUI,能够提供全面的API服务,支持生成1000字以上的长文本,保持一致性,并通过内置32种不同风格进行风格管理。
ElevenLabs Audio Native 是一款自动化的嵌入式语音播放器,它可以为任何文章、博客或新闻简报自动生成类人声旁白。它具有可定制性、易于设置,并有助于提高读者参与度,同时使内容对全球的读者和听众更加易于访问。
Notta Showcase是一款在线视频翻译和配音工具,它通过AI技术帮助用户将视频内容翻译成15种不同的语言,同时保持原始的语音风格和情感,以提供自然的听觉体验。该产品的主要优点包括高效率、成本效益、用户友好的界面、高准确度的转录和翻译,以及支持多种文件格式和平台。它适用于营销、社交媒体和教育等多个领域,可以显著扩大内容的全球影响力。
必剪 Studio 是一款数字分身工具,支持形象驱动和音色定制。用户可以定制专属数字分身,用于配音、口播等场景。产品背景为解决用户在音频制作中个性化需求的问题,定位于提供便捷的数字分身创作工具。
赛灵力虚拟数字人工厂致力于 2D 虚拟人、3D 虚拟人、声音克隆等 AI 技术探索和产业应用,为企业、政府、个人提供虚拟数字人 AI 视频创作、个人形象定制、声音定制、智能语音合成等服务。
Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够以给定说话者的风格(性别、音调、说话风格等)生成高质量、自然 sounding 的语音。它是基于 Dan Lyth 和 Simon King 发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作复现,两位作者分别来自 Stability AI 和爱丁堡大学。与其他TTS模型不同,Parler-TTS 完全开源发布,包括数据集、预处理、训练代码和权重。功能包括:生成高质量且自然 sounding 的语音输出、灵活的使用和部署、提供丰富的注释语音数据集。定价:免费。
Ramban AI是一款集成了先进的人工智能能力的全能平台,可用于内容创作、多媒体制作和智能协作。它提供了AI文章生成器、智能编辑器、AI重写工具和抄袭检测器等AI驱动的内容创作工具,让您能够轻松高效地创建高质量、吸引人的内容。AI视频制作、AI图像生成和AI语音合成等功能可提升您的多媒体制作能力。此外,AI聊天、AI视觉、AI文件聊天和AI网页聊天等工具可实现实时团队协作和高效沟通。Ramban AI还提供AI代码助手和品牌声音功能,以简化编码过程并在所有渠道保持一致的品牌声音。用户友好的界面和易用性使所有技术背景的人都能轻松利用AI的力量。解锁无限可能,实现卓越创造力,与Ramban AI一起保持领先。
MeloTTS是由MyShell.ai开发的多语言文本转语音库,支持英语、西班牙语、法语、中文、日语和韩语。它能够实现实时CPU推理,适用于多种场景,并且对开源社区开放,欢迎贡献。