💼

生产力分类

AI语音转文本

共找到 49 个AI工具

49

个工具

主分类: 生产力

子分类: AI语音转文本

找到 49 个匹配工具

相关AI工具

点击任意工具查看详细信息

FunASR

FunASR

FunASR是一款语音离线文件转写服务软件包，集成了语音端点检测、语音识别、标点等模型，能够将长音频与视频转换成带标点的文字，并支持多路请求同时转写。它支持ITN与用户自定义热词，服务端集成有ffmpeg，支持多种音视频格式输入，并提供多种编程语言客户端，适用于需要高效、准确语音转写服务的企业和开发者。

多语言支持语音识别语音转写 +2

生产力访问

AsrTools

AsrTools

AsrTools是一款基于人工智能技术的语音转文字工具，它通过调用大厂的ASR服务接口，实现了无需GPU和复杂配置的高效语音识别功能。该工具支持批量处理和多线程并发，能够快速将音频文件转换成SRT或TXT格式的字幕文件。AsrTools的用户界面基于PyQt5和qfluentwidgets，提供高颜值且易于操作的交互体验。它的主要优点包括调用大厂接口的稳定性、无需复杂配置的便捷性、以及多格式输出的灵活性。AsrTools适合需要快速将语音内容转换成文字的用户，特别是在视频制作、音频编辑和字幕生成等领域。目前，AsrTools提供免费使用大厂ASR服务的模式，对于个人和小团队来说，可以显著降低成本并提高工作效率。

语音识别批量处理音频转文字 +4

生产力访问

NotesGPT

NotesGPT

NotesGPT是一款利用人工智能技术将用户的语音笔记转换成有组织的摘要和清晰的行动项的在线服务。它通过先进的语音识别和自然语言处理技术，帮助用户更高效地记录和管理笔记，特别适合需要快速记录信息并整理成结构化内容的用户。产品背景信息显示，NotesGPT由Together.ai和Convex提供技术支持，这表明其背后有着强大的AI技术支撑。目前，该产品似乎处于推广阶段，具体价格和定位信息未在页面中明确展示。

AI 自然语言处理生产力工具 +2

生产力访问

Echo

Echo

Echo是一款结合了人工智能技术的语音和文本笔记应用，它通过AI技术帮助用户组织和提炼思考。Echo利用GPT-4o大型语言模型进行转录、回忆和洞察力生成，能够准确转录用户的语音输入，并根据用户过去的想法提供有意义的答案，使日记体验更具互动性和吸引力。该产品注重隐私和安全性，笔记加密，不查看用户数据，也不使用数据训练AI，遵循行业最佳实践进行数据保护。目前Echo处于免费测试阶段，未来计划引入高级功能。

隐私保护语音转录 AI笔记 +2

生产力访问

园丁提词器

园丁提词器

园丁提词器是一款专为直播、演讲、教学等场景设计的桌面提词器应用。它通过智能语音识别技术，实时感知用户语速，智能调节文本滚动速度，确保提词与表达同步。产品融合尖端AI技术，提供文案优化、全渠道提取文案、无水印视频下载、违禁词检测、文案配音等功能，显著提升文本创作效率。园丁提词器支持多窗口同步播放，满足多样展示需求，所有窗口均可置顶，避免遮挡，实现真正的隐形提词。产品背景信息显示，园丁提词器历经万场直播考验，稳定耐用，团队持续创新，稳定迭代，提供卓越服务。

AI技术直播演讲 +2

生产力访问

FineVoice

FineVoice

FineVoice是一个多功能的AI配音平台，它使用先进的人工智能技术，为用户提供逼真的个性化语音服务。这个平台不仅可以将文本转换为自然逼真的声音，还能进行语音转文本、语音变声等操作，极大地丰富了内容创作的可能性。FineVoice的主要优点包括高效率、低成本、多语言支持和易用性，特别适合需要快速生成大量配音内容的个人和企业用户。

多语言支持文本转语音 AI配音 +2

生产力访问

Rev AI

Rev AI

Rev AI提供高精度的语音转录服务，支持58种以上语言，能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练，为视频和语音应用设定了准确性标准。Rev AI还提供实时流媒体转录、人类转录、语言识别、情感分析、主题提取、总结和翻译等服务。Rev AI的技术优势在于低词错误率、对性别和种族口音的最小偏见、支持更多语言以及提供最易读的转录文本。此外，它还符合世界顶级的安全标准，包括SOC II、HIPAA、GDPR和PCI合规性。

多语言支持语音识别实时转录 +2

生产力访问

Youtube-Whisper

Youtube-Whisper

Youtube-Whisper是一个基于Gradio的应用程序，它通过提取YouTube视频的音频并使用OpenAI的Whisper模型来转录成文本。这个工具对于需要将视频内容转化为文本以进行分析、存档或翻译的用户来说非常有用。它利用了最新的人工智能技术，提高了视频内容的可访问性和可用性。

人工智能数据提取视频分析 +1

生产力访问

Whisper large-v3-turbo

Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练，能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本，解码层从32减少到4，以提高速度，但可能会略微降低质量。

多语言支持语音翻译零样本学习 +1

生产力访问

OmniSenseVoice

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

开源多语言支持语音识别 +2

生产力访问

CrisperWhisper

CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体，专为快速、准确、逐字的语音识别设计，提供准确的词级时间戳。与原始Whisper模型相比，CrisperWhisper旨在逐字转录每一个说出的单词，包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集（如TED、AMI）中排名第一，并在INTERSPEECH 2024上被接受。

时间戳自动语音识别逐字转录 +1

生产力访问

babelfish.ai

babelfish.ai

babelfish.ai 是一个基于浏览器的实时语音转文字和翻译应用。它利用 Huggingface Transformer.js 和 Supabase Realtime 技术，实现了本地化的实时语音识别和多语言翻译功能。该应用支持将语音实时转换为文本，并能将文本翻译成200种语言，极大地提高了跨语言沟通的效率和便捷性。

多语言翻译实时语音转写本地化应用 +1

生产力访问

汉王语音王

汉王语音王

汉王语音王App是汉王科技基于自研多模态天地大模型，自主研发的智能语音旗舰应用。它集AI语音记录、智能翻译与同声传译于一体，支持AI精准转写、拍录同步、话稿整理、智能总结及不间断实时翻译等功能。依托全栈AI技术，汉王语音王致力于帮助用户跨越语言障碍，提高办公、学习、会议、旅游等场景的效率和便捷性。

语音识别智能翻译同声传译 +2

生产力访问

Real-time-translation-typing

Real-time-translation-typing

Real-time-translation-typing 是一款集成了实时打字翻译、语音实时打字和翻译、LOL 语音打字功能的软件。它通过AutoHotkey技术实现，支持多种翻译API，如搜狗、百度、有道等，为用户提供了高效、便捷的翻译体验。软件适用于需要快速翻译文本和语音的商务人士、学生和游戏玩家。

实时翻译多平台支持语音输入

生产力访问

CLASI

CLASI

CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟，采用多模态检索模块来增强特定领域术语的翻译，利用大型语言模型（LLMs）生成容错翻译，考虑输入音频、历史上下文和检索信息。在真实世界场景中，CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例（VIP），远超其他系统。

人工智能多语言大型语言模型 +1

生产力访问

aTrain

aTrain

aTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发，并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型，无需上传任何数据即可自动转录语音录音。aTrain在《行为与实验金融学杂志》上发表的论文中被介绍，如果用于研究，请引用该论文。它支持Windows 10和11系统，用户可以通过Microsoft应用商店或BANDAS中心网站下载安装。对于Linux系统，提供了Wiki上的安装指南。aTrain的主要优点包括无需上传数据的隐私保护、高质量的转录质量、以及在本地计算机上的快速处理速度。

机器学习隐私保护多平台支持 +2

生产力访问

视频提取文字工具

视频提取文字工具

AIbase视频提取文字工具是一个利用人工智能和机器学习技术，为用户提供快速、准确的视频文字转录服务。它优化了文字排版，使得转录内容易于理解且忠实于原视频。作为一项基础服务，该工具完全免费，无需安装、下载或付费订阅，极大地方便了创意人员的视频内容处理工作。

免费工具视频转录视频转文字 +1

生产力访问

音频提取文字工具

音频提取文字工具

AIbase音频提取文字工具利用人工智能技术，通过机器学习模型快速生成高质量的音频文本描述，优化文本排版，提升可读性，同时完全免费使用，无需安装、下载或付款，为创意人员提供便捷的基础服务。

人工智能机器学习免费工具 +1

生产力访问

Voice Pen

Voice Pen

Voice Pen是一款利用人工智能技术将语音转换为文字的应用程序，它支持超过50种语言，使用OpenAI的Whisper技术提供完美的转录和标点。用户可以使用Voice Pen记录语音，生成笔记、摘要、电子邮件、消息、博客帖子等。此外，它还具备AI重写功能，帮助用户清晰地组织文本、总结、制作列表、创建博客/帖子/推文、Instagram标题和电子邮件。Voice Pen注重用户隐私，不收集任何录音或文本数据。

多语言支持隐私保护语音转文字 +1

生产力访问

RTranslator

RTranslator

RTranslator 是全球首款开源的实时翻译应用，专为 Android 设计，支持多种语言的实时对话翻译。它利用 Meta 的 NLLB 和 OpenAI 的 Whisper 模型，实现高质量的翻译和语音识别，保护用户隐私，且支持离线使用。

AI 隐私保护翻译 +2

生产力访问

StreamSpeech

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

语音识别语音合成实时翻译 +1

生产力访问

Seed-TTS

Seed-TTS

Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型，能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色，通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力，并能生成高度表达性和多样性的语音。此外，提出了一种自蒸馏方法用于语音分解，以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT，它采用完全基于扩散的架构，不依赖于预先估计的音素持续时间，通过端到端处理进行语音生成。

AI 自然语言处理语音合成 +1

生产力访问

Subtitle

Subtitle

subtitle是一个开源的字幕生成工具，利用先进的机器学习技术，为用户提供准确且自然的声音字幕。它支持多种语言，易于集成到现有的工作流程中，并允许用户在自己的服务器上自托管，增强控制权和隐私保护。

开源机器学习多语言支持 +2

生产力访问

Transkriptor Transcribe Audio to Text

Transkriptor Transcribe Audio to Text

Transkriptor是一款将音频转换为文本的浏览器插件。它使用先进的人工智能技术，可以自动记录和转录会议、访谈和讲座等不同类型的语音内容。Transkriptor具有简单直观的界面，支持多种文件格式，提供安全的转录服务，并具备生成字幕、支持多语言转录和远程协作编辑等功能。

人工智能语音识别会议记录 +2

生产力访问

Universal-1

Universal-1

探索 AssemblyAI 当前的研究、新闻和有关语音 AI 技术的更新。AssemblyAI 的 Universal-1 在多语言环境下实现了行业领先的性能，准确、强大且鲁棒，帮助全球客户和开发人员构建各种语音 AI 应用。Universal-1 在英语、西班牙语和德语语音转文本准确度方面均实现了 10% 或更高的改进，减少了关于语音数据和环境噪声的幻觉率，客户对 Universal-1 的输出更为偏好，具有代码转换能力等。

多语言研究高效推理 +2

生产力访问

Fathom AI Meeting Assistant for Google Meet

Fathom AI Meeting Assistant for Google Meet

Fathom是一款能够记录、转录和总结Zoom、Google Meet或Microsoft Teams会议的AI助手。它能够自动转录会议内容并生成摘要，提供即时访问和可搜索的完整记录。同时，Fathom还能与Salesforce和Hubspot等CRM系统集成，自动更新会议信息。Fathom完全免费使用，可以帮助用户节省时间和精力。

摘要 CRM 转录 +2

生产力访问

腾讯云语音识别ASR

腾讯云语音识别ASR

腾讯云语音识别(ASR)为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。技术先进,性价比高,多语种支持,适用于客服、会议、法庭等多场景。

语音识别语音转文字 ASR

生产力访问

Summify - Summarize speech

Summify - Summarize speech

Summify - Summarize speech是一款移动应用程序，可以让您轻松记录和总结任何演讲，从大学讲座或学校课堂到人工智能商务会议！它利用 OpenAI 的 Whisper AI 模型和 ChatGPT 的强大功能，以尽可能高的准确性转录文本并进行总结，捕捉每一个重要细节。Summify可以帮助您提高生产力，集中注意力，在家修改演讲内容，并保护您的隐私。

人工智能隐私保护学习 +2

生产力访问

33字幕

33字幕

33字幕是一款桌面端精准识别音视频转文字或SRT字幕的软件,支持50多种语言识别和翻译,翻译支持DeepL和ChatGPT,可搜索和编辑字幕,支持批量处理,还可以一键剪切口播和播客。

字幕翻译字幕识别音视频转字幕 +1

生产力访问

Whisper Memo Dictation

Whisper Memo Dictation

使用先进的人工智能技术，将语音备忘录转录为文字。该应用能够轻松处理大型音频录音并生成准确的转录。支持离线转录，所有数据在设备上进行处理。免费功能包括：轻松录制和转录音频文件、无需互联网进行转录、所有数据在设备上处理、即时获取转录结果、自动检测语言、支持 5 个转录结果，界面简单易用，支持后台录制和分享转录结果至邮件和其他应用。Pro 功能包括无限次转录结果生成。立即下载！

语音转文字语音备忘录录音转录

生产力访问

VoiceRec

VoiceRec

VoiceRec 是一款集语音录制、转文字识别与共享于一体的人工智能语音应用。支持语音转文字、精准识别、支持多国语言、支持导出多种格式。

会议记录语音转文字音频编辑

生产力访问

Recty AI

Recty AI

智能翻译是一款功能强大的翻译工具，能够快速准确地将文本、语音进行翻译。具有实时翻译、离线翻译、语音转文本等功能。同时支持多种语言互译，为用户提供便捷的国际交流工具。定价灵活，提供免费和付费套餐供选择。定位于个人用户、学生、商务人士等。

多语言翻译工具语音翻译

生产力访问

Transcribe

Transcribe

Transcribe ~ Speech to Text是一个语音转文字的iOS应用程序。它利用OpenAI的Whisper技术和Apple的神经引擎,实现语音文件的高精度识别,可将音频和视频文件直接转录成可阅读的文本。支持离线识别和云端识别两种模式。适用于各类语音转文字的需求,使用简单方便。

语音识别语音转文字录音转文字

生产力访问

Whisper Notes

Whisper Notes

Whisper Notes 是一款准确的语音转文字工具，使用 OpenAI 的 Whisper 模型。无需网络连接，用户数据不会上传，支持 80 多种语言。可以用于记笔记、快速发送消息等。

语音转文字记笔记消息发送

生产力访问

Fathom AI Notetaker for Google Meet

Fathom AI Notetaker for Google Meet

Fathom可以记录、转录和突出显示Google Meet中的关键时刻，让您专注于对话而不是记笔记。免费使用。支持全文转录、自动生成会议总结、与Salesforce和Hubspot集成、轻松分享关键摘录、搜索跨会议和转录等功能。

AI助手生产力工具会议记录 +2

生产力访问

TextScan AI

TextScan AI

TextScan AI是一款免费的移动应用程序，可以从图像中轻松转换文本并与AI聊天，让您告别手动输入，享受更快速、更准确的聊天体验。它提供了智能的消息功能，让您与AI聊天更加便捷。TextScan AI是一款智能、高效的聊天工具，让您的聊天更加智能、高效。

AI聊天智能消息文字扫描

生产力访问

Hanami Live Translator

Hanami Live Translator

Hanami Live Translator是一个实时翻译器，可以捕捉来自WINDOWS扬声器和麦克风的任何音频。它使用轻量级多进程和分块处理音频，每个块处理时间约为3-5秒。该应用程序通过低级访问创建硬件回环，即使扬声器静音，也可以监听内容。它使用soundcard库捕获音频信号，SpeechRecognition库将二进制音频转换为文本，selenium库模拟deepl服务器的网络调用进行免费翻译。该应用程序需要与互联网连接才能运行，并通过Traces.log文件记录所有操作。

语音识别音频处理实时翻译

生产力访问

Freed AI Medical Scribe

Freed AI Medical Scribe

Freed的AI医学记录员可以帮助医生减少文档时间，提高工作效率。它使用人工智能技术，能够自动识别医生的口述内容并将其转化为文本记录，大大减轻了医生的负担。Freed还具有高度准确的识别率，能够准确地理解和记录医生的语音输入。该产品定价灵活，可以根据医疗机构的需求进行定制。Freed定位为一款提升医生工作效率的专业工具。

AI 工具文档 +2

生产力访问

彩云小译

彩云小译

「彩云小译」是一款提供同声传译、双语对照、文档翻译等功能的在线翻译工具。它可以实现中日韩英四种语言的互译，并支持文档翻译、视频字幕翻译等功能。彩云小译通过人工智能和深度学习技术，为用户提供高质量的翻译服务。用户可以在网页上直接输入需要翻译的文字，也可以将文档、视频等文件上传进行翻译。

文档翻译双语对照同声传译 +2

生产力访问

VNSplit

VNSplit

VNSplit是一款AI语音笔记摘要工具，可以在几秒钟内为您提供强大而详细的语音笔记摘要。通过AI发送语音笔记摘要，摆脱在iMessage和Whatsapp上听语音笔记的一切繁琐。只需订阅任何计划并提供您的iMessage或Whatsapp号码给Stripe，您将收到AI机器人的消息。将来的消息转发到该号码即可。

AI 摘要语音笔记

生产力访问

Speechless

Speechless

Speechless 是一款基于 OpenAI 的 Whisper API 的终极应用，提供无缝的音频转录和翻译功能。通过 Speechless，您可以轻松导入音频并即时获取准确的转录。通过实时翻译打破语言障碍，轻松分享您的转录内容，实现无与伦比的连接和沟通。Speechless 支持 WhatsApp、语音备忘录等应用，让您轻松转录或翻译音频。

翻译音频转录语言沟通

生产力访问

WisprNote

WisprNote

WisprNote 是一款智能语音转文字工具，支持将语音备忘录、音频和视频文件转录为纯文本。它拥有极高的准确性和转录速度，同时保证了隐私安全。适用于会议记录、访谈转录、学习笔记等场景。

语音识别语音转文字文本转录

生产力访问

Live Transcribe: Voice to text

Live Transcribe: Voice to text

实时转写是一款能够实时将语音转为文本的应用程序，通过 iPhone 即可轻松进行语音记录。

效率助手 Ai办公助手语音转文本 +1

生产力访问

Call Recorder & Transcriber

Call Recorder & Transcriber

这是一个可在苹果和安卓手机上录制电话通话的应用程序。它使用IVR技术以最佳质量录制通话,还能使用机器学习和人工智能技术将录音转录成可阅读的文本文档,包括语音分离、时间码等。主要功能有:高质量录制通话;可转录通话生成文本文件;可通过邮件分享录音和文本文件;购买额外时长;没有广告,不需要订阅。

效率助手通话记录通话录音 +1

生产力访问

Free AI Voice: Best Text to Speech Tool

Free AI Voice: Best Text to Speech Tool

免费AI语音是一款Chrome浏览器插件，利用文本转语音（TTS）技术将网页文章转换成语音，并支持40多种语言。适用于各种网站，包括新闻网站、博客、粉丝作品、出版物、教材、学校和课堂网站，以及在线大学课程材料。免费AI语音可以选择多种TTS声音，包括浏览器提供的声音。一些云端声音可能需要额外的应用内购买才能激活。免费AI语音适用于那些喜欢听内容而不是阅读的人，患有阅读障碍或其他学习障碍的人，以及正在学习阅读的儿童。

效率助手学习文字转语音 +2

生产力访问

NaturalReader - AI Text to Speech

NaturalReader - AI Text to Speech

NaturalReader - AI Text to Speech 是一款Chrome插件，能够将在线文本转换成自然流畅的音频。只需点击播放，就可以让您的电子邮件、网页、PDF文件、Google文档和Kindle图书朗读给您听！通过使用我们的语音阅读器，用户可以节省时间，以比阅读更快的速度听取文本，并在无法阅读的时间提高工作效率，例如通勤、遛狗或做饭！免费版本功能丰富，还有两个付费高级套餐可供选择，适合各种预算。

AI 在线阅读语音阅读

生产力访问

Speech to Text

Speech to Text

Speech to Text是一个Chrome插件，可以通过说话或复制粘贴生成笔记。您可以选择背景图片、选择字体并打印。该插件可以用于多种场景，如感恩节、节日、其他场合或只是为了说话或书写的乐趣。

插件笔记语音转文字

生产力访问

SpeechFlow - Advanced Speech-to-Text API

SpeechFlow - Advanced Speech-to-Text API

SpeechFlow是一款强大的语音转文字API，可在13种语言中以极高的准确率进行转录。它是将声音转为文字、语音转为文字和音频转为文字的强大工具。SpeechFlow支持云端和本地部署，提供可靠且易于部署和扩展的解决方案。它还具有快速处理速度，可以在短短几分钟内处理长达1小时的音频文件。

语音转文字自动语音识别声音转文字 +1

生产力访问

Free Subtitles AI

Free Subtitles AI

FreeSubtitles.AI是一个免费的在线工具，可以自动将音频和视频转录为文本。它可以帮助用户将会议录音、访谈、演讲等各种类型的音频和视频文件快速转换成可编辑和搜索的文本。该工具提供免费的自动翻译功能，可以将转录的文本自动翻译成多种语言。用户可以直接在网页上上传音频或视频文件，或者将文件拖放到页面上进行转录。FreeSubtitles.AI还提供了付费版本，该版本可以保存用户的转录历史，并提供更多高级功能。

语音识别音频转文本自动翻译 +2

生产力访问

相关子分类

探索生产力分类下的其他子分类

开发与工具

1361 个工具

效率工具

904 个工具

个人助理

767 个工具

AI模型

619 个工具

写作助手

607 个工具

知识管理

431 个工具

聊天机器人

406 个工具

AI设计工具

398 个工具

💼

探索更多生产力工具

AI语音转文本是生产力分类下的热门子分类，包含 49 个优质AI工具

浏览生产力分类分类