💼

生产力分类

AI文本转语音

共找到 33 个AI工具

33

个工具

主分类: 生产力

子分类: AI文本转语音

找到 33 个匹配工具

相关AI工具

点击任意工具查看详细信息

Audeus

Audeus

Audeus for Chrome是一款文本转语音的Chrome浏览器扩展程序，它通过使用人工智能技术，将网页、文档等文本内容转化为语音，帮助用户在阅读时节省时间、提高效率。这款插件特别适合需要大量阅读的用户，如学生、专业人士等，它支持多种语言，并且具有高度可定制的播放速度和语音选择。Audeus for Chrome的背景信息显示，它被设计为一个提高生产力的工具，旨在通过语音输出帮助用户更有效地处理信息，尤其是在多任务处理或需要长时间集中注意力的场景中。该产品提供免费试用，并且有明确的定价策略，定位于需要高效阅读和信息处理的用户群体。

多语言支持文本转语音 Chrome扩展 +2

生产力访问

F5-TTS

F5-TTS

F5-TTS是由SWivid团队开发的一个文本到语音合成（TTS）模型，它利用深度学习技术将文本转换为自然流畅、忠实于原文的语音输出。该模型在生成语音时，不仅追求高自然度，还注重语音的清晰度和准确性，适用于需要高质量语音合成的各种应用场景，如语音助手、有声读物制作、自动新闻播报等。F5-TTS模型在Hugging Face平台上发布，用户可以方便地下载和部署，支持多种语言和声音类型，具有很高的灵活性和可扩展性。

人工智能自然语言处理深度学习 +2

生产力访问

Praises

Praises

Praises是一款文本转语音（TTS）工具，它通过将文本转换为语音输出，帮助用户更轻松地获取信息。这款工具支持多种API，包括Azure API、Edge API等，并且支持多语言，使得它能够服务于全球用户。Praises的主要优点包括支持多种语音合成技术、易于集成和使用，以及开源的特性，使得开发者可以自由地修改和优化。Praises的背景信息显示，它是由个人开发者ElmTran开发的，并且遵循MIT开源协议，这意味着用户可以免费使用和修改该软件。

开源多语言支持生产力工具 +1

生产力访问

QuickPiperAudiobook

QuickPiperAudiobook

QuickPiperAudiobook是一款能够将PDF、epub、txt、mobi、djvu、HTML、docx等多种文本格式转换为有声读物的桌面客户端软件。它使用piper模型支持多种语言，所有转换过程完全离线进行，保护用户隐私。该软件特别适合需要将文本内容快速转换为音频格式的用户，例如视障人士、喜欢听书的用户或需要学习外语的用户。

生产力隐私保护多语言 +2

生产力访问

Open NotebookLM

Open NotebookLM

Open NotebookLM是一个利用开源语言模型和文本到语音模型的工具，它可以处理PDF内容，生成适合音频播客的自然对话，并将其输出为MP3文件。该项目的灵感来自于NotebookLM工具，通过使用开源的大型语言模型（LLMs）和文本到语音模型来实现。它不仅提高了信息的可访问性，还为内容创作者提供了一种新的媒体形式，使他们能够将书面内容转换为音频格式，扩大其受众范围。

人工智能开源文本到语音 +2

生产力访问

ebook2audiobookXTTS

ebook2audiobookXTTS

ebook2audiobookXTTS是一个利用Calibre和Coqui TTS技术将电子书转换为有声书的模型，支持章节和元数据的保留，并且可以选择使用自定义语音模型进行语音克隆，支持多种语言。该技术的主要优点是能够将文本内容转换为高质量的有声读物，适合需要将大量文本信息转换为音频格式的用户，如视障人士、喜欢听书的用户或者需要学习外语的用户。

gradio windows tts +7

生产力访问

pdf-to-podcast

pdf-to-podcast

pdf-to-podcast是一个基于人工智能技术的生产力工具，能够将PDF文档转换成播客节目。它使用OpenAI的文本到语音模型和Google Gemini技术，将PDF内容处理成适合音频播客的自然对话，并输出为MP3文件。该工具的主要优点是能够将静态的文档内容转化为动态的音频内容，方便用户在移动设备上收听，同时也可以作为播客节目的内容来源。

人工智能文本到语音播客制作 +1

生产力访问

PDF2Audio

PDF2Audio

PDF2Audio是一个利用OpenAI的GPT模型将PDF文档转换成音频内容的工具。它能够将文本生成和文本到语音转换技术结合起来，为用户提供一个可以编辑草稿、提供反馈和改进建议的平台。该技术对于提高信息获取效率、辅助学习和教育等领域具有重要意义。

文本到语音音频生成 PDF转换 +1

生产力访问

reader-lm-1.5b

reader-lm-1.5b

Jreader-lm-1.5b是由Jina AI开发的一款文本生成模型，专门用于将HTML格式的内容转换为Markdown格式。这一技术对于需要进行内容转换的开发者和内容创作者来说非常重要，因为它可以自动完成格式转换，提高工作效率。该模型在Hugging Face平台上提供，支持多语言，并且可以在Google Colab上免费试用。

自动化文本生成 Markdown +2

生产力访问

reader-lm-0.5b

reader-lm-0.5b

Jina Reader-LM是一系列将HTML内容转换为Markdown内容的模型，适用于内容转换任务。该模型在精选的HTML及其对应Markdown内容上进行训练，能够高效地处理网页内容的格式转换，为内容创作者和开发者提供便利。

文本生成 Markdown 内容转换 +1

生产力访问

Reader-LM

Reader-LM

Reader-LM是Jina AI开发的小型语言模型，旨在将网络中的原始、杂乱的HTML内容转换为清洁的Markdown格式。这些模型特别针对长文本处理进行了优化，支持多语言，并能够处理高达256K令牌的上下文长度。Reader-LM模型通过直接从HTML到Markdown的转换，减少了对正则表达式和启发式规则的依赖，提高了转换的准确性和效率。

多语言 Markdown 长文本处理 +1

生产力访问

OptiSpeech

OptiSpeech

OptiSpeech是一个高效、轻量级且快速的文本到语音模型，专为设备端文本到语音转换设计。它利用了先进的深度学习技术，能够将文本转换为自然听起来的语音，适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持，显著加速了开发进程。

深度学习语音合成文本到语音 +1

生产力访问

MixTeX-Latex-OCR

MixTeX-Latex-OCR

MixTeX是一个创新的多模态LaTeX识别小程序，由团队独立开发，能够在本地离线环境中执行高效的基于CPU的推理。无论是LaTeX公式、表格还是混合文本，MixTeX都能轻松识别，支持中英文处理。得益于强大的技术支持和优化设计，MixTeX无需GPU资源即可高效运行，适合任何Windows电脑，极大地方便了用户体验。

机器学习深度学习 python +4

生产力访问

LLM-Aided OCR

LLM-Aided OCR

llm_aided_ocr是一个高级系统，旨在显著提高光学字符识别（OCR）输出的质量。通过利用尖端的自然语言处理技术和大型语言模型（LLMs），该项目将原始OCR文本转化为高度准确、格式良好、易读的文档。

LLMs ocr Tesseract

生产力访问

RecurrentGPT

RecurrentGPT

RecurrentGPT是一种用于交互式生成任意长度文本的模型。它通过将长短期记忆网络（LSTM）中的向量化元素替换为自然语言（即文本段落），并使用提示工程模拟递归机制。在每个时间步，RecurrentGPT接收一个文本段落和一个简短的下一段计划，这些内容都是在前一个时间步生成的。它还维护一个短期记忆，总结近期时间步中的关键信息，并在每个时间步更新。RecurrentGPT通过将所有输入组合成一个提示，请求基础语言模型生成新的段落、下一段的简短计划，并更新长短期记忆。

人工智能自然语言处理文本生成 +1

生产力访问

ChatTTS-Forge

ChatTTS-Forge

ChatTTS-Forge是一个围绕TTS生成模型ChatTTS开发的项目，实现了API服务器和基于Gradio的WebUI，能够提供全面的API服务，支持生成1000字以上的长文本，保持一致性，并通过内置32种不同风格进行风格管理。

生产力访问

ElevenLabs Audio Native

ElevenLabs Audio Native

ElevenLabs Audio Native 是一款自动化的嵌入式语音播放器，它可以为任何文章、博客或新闻简报自动生成类人声旁白。它具有可定制性、易于设置，并有助于提高读者参与度，同时使内容对全球的读者和听众更加易于访问。

自动化可访问性语音技术 +1

生产力访问

OpenVoice V2

OpenVoice V2

OpenVoice V2是一款文本到语音（Text-to-Speech, TTS）的模型，它在2024年4月发布，包含了V1的所有功能，并进行了改进。它采用了不同的训练策略，提供了更好的音质，支持英语、西班牙语、法语、中文、日语和韩语等多种语言。此外，它还允许商业用途的免费使用。OpenVoice V2能够精确地克隆参考音调色彩，并在多种语言和口音中生成语音。它还支持零样本跨语言语音克隆，即生成语音的语言和参考语音的语言不需要在大规模多语种训练数据集中出现。

多语言语音合成音质优化 +1

生产力访问

Parler-TTS

Parler-TTS

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音（TTS）模型，能够以给定说话者的风格（性别、音调、说话风格等）生成高质量、自然 sounding 的语音。它是基于 Dan Lyth 和 Simon King 发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作复现，两位作者分别来自 Stability AI 和爱丁堡大学。与其他TTS模型不同，Parler-TTS 完全开源发布，包括数据集、预处理、训练代码和权重。功能包括：生成高质量且自然 sounding 的语音输出、灵活的使用和部署、提供丰富的注释语音数据集。定价：免费。

Hugging Face 语音生成 TTS

生产力访问

Aura TTS Demo by Deepgram

Aura TTS Demo by Deepgram

Aura TTS（文字转语音）演示展现了Deepgram的高级语音合成技术，可以将文本转换成自然发音的语音，并提供多种声音选项。

AI 语音合成语音技术 +1

生产力访问

Immersive Translate

Immersive Translate

Immersive Translate提供免费的双语网页翻译和各种文档格式、文学作品、PDF、EPUB电子书、字幕文件和TXT文本的翻译服务。它支持多种语言的互译，包括中文、英文、日文、韩文、法文、德文、俄文、西班牙文、葡萄牙文、越南文、印尼文、意大利文、荷兰文、泰文等。它提供多个翻译接口选项：DeepL翻译、Google翻译、Open AI翻译、有道翻译、财语小译翻译、百度翻译、Volcano翻译、小牛翻译等。作为最懂你的翻译工具，为您提供最流畅的翻译体验。

插件文档翻译网页翻译 +2

生产力访问

EasyTranslator

EasyTranslator

EasyTranslator是一个基于OpenAI API的命令行工具，支持多种文件格式（包括.txt、.pdf、.docx、.md、.mobi和.epub）的翻译。它可以轻松地翻译文本文件，消除语言障碍。

开发编程 AI文档工具文本翻译 +1

生产力访问

Narrativ.ai

Narrativ.ai

Narrativ与多个领域的出版商合作，使用克隆声音将书面文章翻译成朗读的音频。通过我们的应用，您可以流式传输最新新闻，逐篇故事，直到您了解本地、州、国家甚至国际事件。

新闻多任务处理智能朗读

生产力访问

Insanely Fast Whisper

Insanely Fast Whisper

Insanely Fast Whisper是一个提供快速文本转语音服务的网站。它具有极快的转换速度和高质量的语音输出。用户可以将任何文本输入到网站中，然后选择语音类型和速度，即可生成相应的语音文件。超快速耳语适用于需要大量语音输出的场景，如语音朗读、语音导航等。

文本转语音语音输出快速转换

生产力访问

Free AI Voice: Best Text to Speech Tool

Free AI Voice: Best Text to Speech Tool

免费AI语音是一款Chrome浏览器插件，利用文本转语音（TTS）技术将网页文章转换成语音，并支持40多种语言。适用于各种网站，包括新闻网站、博客、粉丝作品、出版物、教材、学校和课堂网站，以及在线大学课程材料。免费AI语音可以选择多种TTS声音，包括浏览器提供的声音。一些云端声音可能需要额外的应用内购买才能激活。免费AI语音适用于那些喜欢听内容而不是阅读的人，患有阅读障碍或其他学习障碍的人，以及正在学习阅读的儿童。

效率助手学习文字转语音 +2

生产力访问

GPT Workspace

GPT Workspace

GPT Workspace是一个基于OpenAI GPT-4和Bard模型构建的AI助手，可用于文本和数据分析的各种任务：写作、编辑、提取、清洗、翻译、总结、概述、解释等。它适用于Google Sheets™、Docs™和Slides™，提供编辑范围、大纲、内容生成、图片插入等功能。

AI助手数据处理文本分析

生产力访问

Voice Remaker - Free AI Voice

Voice Remaker - Free AI Voice

Voice Remaker是一个完全免费的AI语音生成工具，使用最好的合成音色，为您生成最接近人声的文本转语音（TTS）音频。即时将文本转换为自然流畅的语音，并以MP3音频文件的形式下载。

语音合成文本转语音 AI音频

生产力访问

Voice Remaker - The Best AI Generator

Voice Remaker - The Best AI Generator

Voice Remaker是一个完全免费的嵌入式AI语音生成工具，使用最好的合成语音技术来生成最接近人声的音频。它支持AI文本转语音、历史记录、音频文件下载和删除功能。通过Voice Remaker，您可以立即将文本转换为自然音质的语音，并以MP3格式下载保存。

插件文字转语音 TTS +2

生产力访问

NaturalReader - AI Text to Speech

NaturalReader - AI Text to Speech

NaturalReader - AI Text to Speech 是一款Chrome插件，能够将在线文本转换成自然流畅的音频。只需点击播放，就可以让您的电子邮件、网页、PDF文件、Google文档和Kindle图书朗读给您听！通过使用我们的语音阅读器，用户可以节省时间，以比阅读更快的速度听取文本，并在无法阅读的时间提高工作效率，例如通勤、遛狗或做饭！免费版本功能丰富，还有两个付费高级套餐可供选择，适合各种预算。

AI 在线阅读语音阅读

生产力访问

OmniReader - AI-powered Free Text To Speech

OmniReader - AI-powered Free Text To Speech

OmniReader是一款AI语音朗读工具，可以轻松地将网页、EPUB、PDF等内容朗读出来。它使用逼真的AI声音，提供多语言支持，并具备将PDF和EPUB转换为音频的功能。OmniReader还可以与AI互动，通过语音与Claude或chatGPT对话。

AI PDF转换语音朗读 +1

生产力访问

PlayHT AI

PlayHT AI

PlayHT AI语音生成器是一款能够使用人工智能技术将文本转化为自然、逼真的人类语音表演的工具。无论是哪种语言和口音，我们的语音AI都能瞬间将文本转化为自然流畅的语音。

文本转语音 AI语音生成逼真语音

生产力访问

Text Assistant

Text Assistant

Text Assistant是一个功能强大的工具，可以帮助您理解、校对和回复浏览器中的文本。通过简单的选择，您可以利用OpenAI的先进语言模型获得有用的解释、语法和拼写建议，甚至可以生成自然语言的文本回复。使用Text Assistant，您需要一个OpenAI API密钥。获取API密钥后，只需在扩展的设置中输入即可开始使用。

OpenAI 自然语言生成文本解释 +1

生产力访问

SpeechFlow - Advanced Speech-to-Text API

SpeechFlow - Advanced Speech-to-Text API

SpeechFlow是一款强大的语音转文字API，可在13种语言中以极高的准确率进行转录。它是将声音转为文字、语音转为文字和音频转为文字的强大工具。SpeechFlow支持云端和本地部署，提供可靠且易于部署和扩展的解决方案。它还具有快速处理速度，可以在短短几分钟内处理长达1小时的音频文件。

语音转文字自动语音识别声音转文字 +1

生产力访问

相关子分类

探索生产力分类下的其他子分类

开发与工具

1361 个工具

效率工具

904 个工具

个人助理

767 个工具

AI模型

619 个工具

写作助手

607 个工具

知识管理

431 个工具

聊天机器人

406 个工具

AI设计工具

398 个工具

💼

探索更多生产力工具

AI文本转语音是生产力分类下的热门子分类，包含 33 个优质AI工具

浏览生产力分类分类