-->
XMetaverso CREAkey是一个AI智能创作平台,提供多种功能,包括生成文章、改进内容、博客写作、广告创作、语音合成等。用户可以通过AI生成各种内容,满足不同的写作需求。平台简单易用,可应用于广告、博客、社交媒体等场景。定价详见官方网站。
SonixTw AI Voice Cloning 是一款高质量的在线人工智能语音克隆产品,通过一次录音即可实现克隆,保留细腻的情感和音调。您可以为自己和团队创建数字孪生身份,发挥声音的全部潜力,提升生活体验和工作效率。
Felo 瞬訳是一款智能手机应用,拥有世界首创的实时重写翻译(RRT)功能,满足同声传译的速度和翻译准确性的要求。支持超过13种语言的同声翻译,自动识别会话语言并保存翻译内容,用户可选择女性或男性的翻译音频。利用最新的人工智能技术,提供高速且精准的翻译结果,考虑了文本风格和语境,使翻译更加准确和丰富。适用于国际旅行、国际会议、交易展会等多种场景,也可用于学习外语和口语练习。
米可智能是由人工智能驱动的一站式语音翻译、音色定制、配音等音视频服务。它通过 AI 技术将复杂操作极致简化,提高工作效率超过 90%。功能包括语音翻译,将音视频的语音翻译为其他语言的语音,全流程 AI 驱动,精准度超过 98%;音色定制,定制个性化的音色,用于语音翻译、配音等功能;语音合成,将文字转为自然生动的语音。产品定价合理,使用场景广泛,适用于跨境市场营销、教育、媒体等领域。
SpeechGPT是一种多模态语言模型,具有内在的跨模态对话能力。它能够感知并生成多模态内容,遵循多模态人类指令。SpeechGPT-Gen是一种扩展了信息链的语音生成模型。SpeechAgents是一种具有多模态多代理系统的人类沟通模拟。SpeechTokenizer是一种统一的语音标记器,适用于语音语言模型。这些模型和数据集的发布日期和相关信息均可在官方网站上找到。
啤啤熊是一个为用户提供全面AI应用和服务的平台。该平台集成了各类高效、易用的AI工具,可以帮助用户提高工作和生活效率。平台提供语音识别、语音合成、文本生成、图像处理等AI功能模块。用户可以通过简单配置,无需编程就可以构建自己需要的AI应用。平台采用免费使用模式,提供开放易用的AI能力,降低用户使用AI的门槛。
StreamVoice是一种基于语言模型的零唇语音转换模型,可实现实时转换,无需完整的源语音。它采用全因果上下文感知语言模型,结合时间独立的声学预测器,能够在每个时间步骤交替处理语义和声学特征,从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降,StreamVoice通过两种策略增强了语言模型的上下文感知性:1)教师引导的上下文预见,在训练过程中利用教师模型总结当前和未来的语义上下文,引导模型对缺失上下文进行预测;2)语义屏蔽策略,促进从先前受损的语义和声学输入进行声学预测,增强上下文学习能力。值得注意的是,StreamVoice是第一个基于语言模型的流式零唇语音转换模型,无需任何未来预测。实验结果表明,StreamVoice具有流式转换能力,同时保持与非流式语音转换系统相媲美的零唇性能。
GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI。它具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能。该产品支持英语、日语和中文,提供了集成工具,包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练数据集和GPT/SoVITS模型。用户可以通过输入5秒的声音样本,即可体验即时的文本到语音转换,还可以通过仅使用1分钟的训练数据对模型进行微调,以提高语音相似度和逼真度。产品支持环境准备、Python和PyTorch版本、快速安装、手动安装、预训练模型、数据集格式、待办事项和致谢。
LinkAI是一个提供智能对话、绘画等AI产品和解决方案的科技公司。我们的核心产品包括:1) 智能对话,利用大模型技术,实现人机自然语言交互,可用于客服问答、知识库问答等业务场景;2) AI绘画,利用生成对抗网络等技术,实现用户语言描述到图像生成,可用于创意设计、游戏绘画等场景;3) AI应用创建,通过无代码方式,快速构建包含智能对话、语音合成等AI能力的应用。我们致力于用AI赋能客户,提升工作生产力,为用户带来简单高效的交互体验。
RayNeo AI是雷鸟自主研发的人工智能语音助手,集成了自然语言处理、语音识别、语音合成等核心技术,可实现自然语言交互、语音控制等功能。该产品已在雷鸟XR系列产品中进行内测,支持行程规划、天气查询、百科知识问答等服务,提升了产品的智能化水平。下一步,RayNeo AI计划推出视觉识别等多模态交互能力,实现更丰富的人机交互体验。
Clone-Voice是一个带 web 界面的声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。支持中、英、日、韩、法、德、意等 16 种语言,可在线从麦克风录制声音。功能包括文字到语音和声音到声音转换。优势在于简单易用且无需 N 卡 GPU,支持多种语言,录制声音灵活。产品目前免费使用。
Text2Audio是一个免费的在线TTS工具,能够轻松将文本转化为自然、逼真的语音。无论是用于什么目的,都能轻松创建清晰、生动的语音。
Botticelli是一个开源的.NET Core框架,用于构建自己的通用聊天机器人,集成了数据库、队列代理、语音引擎和AI引擎,如GPT-3和ChatGPT。Botticelli跨平台、可靠、易于使用、易于部署,支持Docker,易于与数据库、AI解决方案、语音合成器和队列代理集成,可用于高负载系统的调度。
Deepgram Aura 是一个创新的文本转语音模型,提供与真人对话相似的音质,速度和成本比其他语音 AI 解决方案更高效。它适用于构建实时的 AI 助手和代理程序,能够以自然的方式与人类交互。Aura 可独立使用,也可以与 Deepgram 的 Nova-2 语音转文本 API 配合使用,为开发人员提供一个完整的语音 AI 平台,帮助他们构建未来的高吞吐量、实时的 AI 助手。
HitPaw Voice Changer是一款智能辅助工具,可以在任何场景中智能辅助您变成任何声音。它是实现实时变声的最佳语音变声器。
Narrativ与多个领域的出版商合作,使用克隆声音将书面文章翻译成朗读的音频。通过我们的应用,您可以流式传输最新新闻,逐篇故事,直到您了解本地、州、国家甚至国际事件。
Seamless Communication是一家致力于消除语言障碍的AI翻译技术的公司,旨在通过高质量的AI翻译实现更自然、更真实的跨语言交流。其SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2等系列模型,致力于保留语言表达的细微差别,实现近乎实时的翻译,并为全球用户提供更自然、更便捷的语言交流体验。
Blerp是一个AI TTS声音模因、表情GIF和声音提示的产品。它提供了最有趣的AI TTS警报、表情和声音包,适用于聊天和直播社区。观众可以在任何流媒体平台上播放最好的声音和AI TTS语音,并可以将表情和GIF附加到它们上。作为观众,您还可以在您最喜欢的主播流媒体上收集频道积分,以及播放属于您自己的WalkOn Sounds。主播可以设置自己的声音,并在任何支持的扩展平台上使用WalkOn Subscriber声音。
DubWiz是一款基于AI技术的视频翻译和配音服务,能够快速准确地将视频转录、翻译并生成逼真的配音。它提供简单易用的用户界面,支持准确的语音转文本、自定义词典、神经机器翻译以及多语种语音合成。无需专业翻译和编辑技能,轻松将视频本地化到你的母语。
Voice Changer可以将您的声音转换为另一个角色,并控制其情感和表达。通过单击轻松为游戏、视频、播客等创建自定义语音。您可以选择现有的声音库中的声音,也可以在几分钟内创建自己的声音。通过高级设置自定义您的声音输出,精确控制音频的清晰度、稳定性和质量增强。ElevenLabs的Voice Changer被全球的开发人员、创作者和企业使用,并受到高度赞誉。
RealtimeTTS 是一个易于使用、低延迟的文本转语音库,用于实时应用。它可以将文本流转换为立即的音频输出。主要功能包括实时流式合成和播放、高级句子边界检测、模块化引擎设计等。该库支持多种文本到语音引擎,并适用于语音助手和需要即时音频反馈的应用。详细定价和定位信息请参考官方网站。
narrator是一款Python应用,通过使用OpenAI和ElevenLabs的API,能够让David Attenborough来为您的生活进行解说。用户需要设置相关的API密钥和语音ID,并运行webcam捕捉和narrator两个Python脚本即可。
Insanely Fast Whisper是一个提供快速文本转语音服务的网站。它具有极快的转换速度和高质量的语音输出。用户可以将任何文本输入到网站中,然后选择语音类型和速度,即可生成相应的语音文件。超快速耳语适用于需要大量语音输出的场景,如语音朗读、语音导航等。
Personal Voice 是一款定制个人化语音体验的工具。它允许用户通过提供一个 1 分钟的语音样本来复制自己的声音,并生成支持 100 种语言的语音输出。用户可以在语音助手、游戏、媒体娱乐等场景中使用个人化语音,实现更加沉浸式和情感化的体验。