-->
共找到 49 个AI工具
点击任意工具查看详细信息
FunASR是一款语音离线文件转写服务软件包,集成了语音端点检测、语音识别、标点等模型,能够将长音频与视频转换成带标点的文字,并支持多路请求同时转写。它支持ITN与用户自定义热词,服务端集成有ffmpeg,支持多种音视频格式输入,并提供多种编程语言客户端,适用于需要高效、准确语音转写服务的企业和开发者。
AsrTools是一款基于人工智能技术的语音转文字工具,它通过调用大厂的ASR服务接口,实现了无需GPU和复杂配置的高效语音识别功能。该工具支持批量处理和多线程并发,能够快速将音频文件转换成SRT或TXT格式的字幕文件。AsrTools的用户界面基于PyQt5和qfluentwidgets,提供高颜值且易于操作的交互体验。它的主要优点包括调用大厂接口的稳定性、无需复杂配置的便捷性、以及多格式输出的灵活性。AsrTools适合需要快速将语音内容转换成文字的用户,特别是在视频制作、音频编辑和字幕生成等领域。目前,AsrTools提供免费使用大厂ASR服务的模式,对于个人和小团队来说,可以显著降低成本并提高工作效率。
NotesGPT是一款利用人工智能技术将用户的语音笔记转换成有组织的摘要和清晰的行动项的在线服务。它通过先进的语音识别和自然语言处理技术,帮助用户更高效地记录和管理笔记,特别适合需要快速记录信息并整理成结构化内容的用户。产品背景信息显示,NotesGPT由Together.ai和Convex提供技术支持,这表明其背后有着强大的AI技术支撑。目前,该产品似乎处于推广阶段,具体价格和定位信息未在页面中明确展示。
Echo是一款结合了人工智能技术的语音和文本笔记应用,它通过AI技术帮助用户组织和提炼思考。Echo利用GPT-4o大型语言模型进行转录、回忆和洞察力生成,能够准确转录用户的语音输入,并根据用户过去的想法提供有意义的答案,使日记体验更具互动性和吸引力。该产品注重隐私和安全性,笔记加密,不查看用户数据,也不使用数据训练AI,遵循行业最佳实践进行数据保护。目前Echo处于免费测试阶段,未来计划引入高级功能。
园丁提词器是一款专为直播、演讲、教学等场景设计的桌面提词器应用。它通过智能语音识别技术,实时感知用户语速,智能调节文本滚动速度,确保提词与表达同步。产品融合尖端AI技术,提供文案优化、全渠道提取文案、无水印视频下载、违禁词检测、文案配音等功能,显著提升文本创作效率。园丁提词器支持多窗口同步播放,满足多样展示需求,所有窗口均可置顶,避免遮挡,实现真正的隐形提词。产品背景信息显示,园丁提词器历经万场直播考验,稳定耐用,团队持续创新,稳定迭代,提供卓越服务。
FineVoice是一个多功能的AI配音平台,它使用先进的人工智能技术,为用户提供逼真的个性化语音服务。这个平台不仅可以将文本转换为自然逼真的声音,还能进行语音转文本、语音变声等操作,极大地丰富了内容创作的可能性。FineVoice的主要优点包括高效率、低成本、多语言支持和易用性,特别适合需要快速生成大量配音内容的个人和企业用户。
Rev AI提供高精度的语音转录服务,支持58种以上语言,能够将视频和语音应用中的语音转换为文本。它通过使用世界上最多样化的声音集合进行训练,为视频和语音应用设定了准确性标准。Rev AI还提供实时流媒体转录、人类转录、语言识别、情感分析、主题提取、总结和翻译等服务。Rev AI的技术优势在于低词错误率、对性别和种族口音的最小偏见、支持更多语言以及提供最易读的转录文本。此外,它还符合世界顶级的安全标准,包括SOC II、HIPAA、GDPR和PCI合规性。
Youtube-Whisper是一个基于Gradio的应用程序,它通过提取YouTube视频的音频并使用OpenAI的Whisper模型来转录成文本。这个工具对于需要将视频内容转化为文本以进行分析、存档或翻译的用户来说非常有用。它利用了最新的人工智能技术,提高了视频内容的可访问性和可用性。
Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。
OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。
CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。与原始Whisper模型相比,CrisperWhisper旨在逐字转录每一个说出的单词,包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集(如TED、AMI)中排名第一,并在INTERSPEECH 2024上被接受。
babelfish.ai 是一个基于浏览器的实时语音转文字和翻译应用。它利用 Huggingface Transformer.js 和 Supabase Realtime 技术,实现了本地化的实时语音识别和多语言翻译功能。该应用支持将语音实时转换为文本,并能将文本翻译成200种语言,极大地提高了跨语言沟通的效率和便捷性。
汉王语音王App是汉王科技基于自研多模态天地大模型,自主研发的智能语音旗舰应用。它集AI语音记录、智能翻译与同声传译于一体,支持AI精准转写、拍录同步、话稿整理、智能总结及不间断实时翻译等功能。依托全栈AI技术,汉王语音王致力于帮助用户跨越语言障碍,提高办公、学习、会议、旅游等场景的效率和便捷性。
Real-time-translation-typing 是一款集成了实时打字翻译、语音实时打字和翻译、LOL 语音打字功能的软件。它通过AutoHotkey技术实现,支持多种翻译API,如搜狗、百度、有道等,为用户提供了高效、便捷的翻译体验。软件适用于需要快速翻译文本和语音的商务人士、学生和游戏玩家。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
aTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型,无需上传任何数据即可自动转录语音录音。aTrain在《行为与实验金融学杂志》上发表的论文中被介绍,如果用于研究,请引用该论文。它支持Windows 10和11系统,用户可以通过Microsoft应用商店或BANDAS中心网站下载安装。对于Linux系统,提供了Wiki上的安装指南。aTrain的主要优点包括无需上传数据的隐私保护、高质量的转录质量、以及在本地计算机上的快速处理速度。
AIbase视频提取文字工具是一个利用人工智能和机器学习技术,为用户提供快速、准确的视频文字转录服务。它优化了文字排版,使得转录内容易于理解且忠实于原视频。作为一项基础服务,该工具完全免费,无需安装、下载或付费订阅,极大地方便了创意人员的视频内容处理工作。
AIbase音频提取文字工具利用人工智能技术,通过机器学习模型快速生成高质量的音频文本描述,优化文本排版,提升可读性,同时完全免费使用,无需安装、下载或付款,为创意人员提供便捷的基础服务。
Voice Pen是一款利用人工智能技术将语音转换为文字的应用程序,它支持超过50种语言,使用OpenAI的Whisper技术提供完美的转录和标点。用户可以使用Voice Pen记录语音,生成笔记、摘要、电子邮件、消息、博客帖子等。此外,它还具备AI重写功能,帮助用户清晰地组织文本、总结、制作列表、创建博客/帖子/推文、Instagram标题和电子邮件。Voice Pen注重用户隐私,不收集任何录音或文本数据。
RTranslator 是全球首款开源的实时翻译应用,专为 Android 设计,支持多种语言的实时对话翻译。它利用 Meta 的 NLLB 和 OpenAI 的 Whisper 模型,实现高质量的翻译和语音识别,保护用户隐私,且支持离线使用。
StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略,有效识别流式语音输入中的翻译时机,实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能,并能提供低延迟的中间结果,如ASR或翻译结果。
Seed-TTS是由字节跳动推出的一系列大规模自回归文本到语音(TTS)模型,能够生成与人类语音难以区分的语音。它在语音上下文学习、说话人相似度和自然度方面表现出色,通过微调可进一步提升主观评分。Seed-TTS还提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音。此外,提出了一种自蒸馏方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。还展示了Seed-TTS模型的非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。
subtitle是一个开源的字幕生成工具,利用先进的机器学习技术,为用户提供准确且自然的声音字幕。它支持多种语言,易于集成到现有的工作流程中,并允许用户在自己的服务器上自托管,增强控制权和隐私保护。
Transkriptor是一款将音频转换为文本的浏览器插件。它使用先进的人工智能技术,可以自动记录和转录会议、访谈和讲座等不同类型的语音内容。Transkriptor具有简单直观的界面,支持多种文件格式,提供安全的转录服务,并具备生成字幕、支持多语言转录和远程协作编辑等功能。
探索 AssemblyAI 当前的研究、新闻和有关语音 AI 技术的更新。AssemblyAI 的 Universal-1 在多语言环境下实现了行业领先的性能,准确、强大且鲁棒,帮助全球客户和开发人员构建各种语音 AI 应用。Universal-1 在英语、西班牙语和德语语音转文本准确度方面均实现了 10% 或更高的改进,减少了关于语音数据和环境噪声的幻觉率,客户对 Universal-1 的输出更为偏好,具有代码转换能力等。
Fathom是一款能够记录、转录和总结Zoom、Google Meet或Microsoft Teams会议的AI助手。它能够自动转录会议内容并生成摘要,提供即时访问和可搜索的完整记录。同时,Fathom还能与Salesforce和Hubspot等CRM系统集成,自动更新会议信息。Fathom完全免费使用,可以帮助用户节省时间和精力。
腾讯云语音识别(ASR)为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。技术先进,性价比高,多语种支持,适用于客服、会议、法庭等多场景。
Summify - Summarize speech是一款移动应用程序,可以让您轻松记录和总结任何演讲,从大学讲座或学校课堂到人工智能商务会议!它利用 OpenAI 的 Whisper AI 模型和 ChatGPT 的强大功能,以尽可能高的准确性转录文本并进行总结,捕捉每一个重要细节。Summify可以帮助您提高生产力,集中注意力,在家修改演讲内容,并保护您的隐私。
33字幕是一款桌面端精准识别音视频转文字或SRT字幕的软件,支持50多种语言识别和翻译,翻译支持DeepL和ChatGPT,可搜索和编辑字幕,支持批量处理,还可以一键剪切口播和播客。
使用先进的人工智能技术,将语音备忘录转录为文字。该应用能够轻松处理大型音频录音并生成准确的转录。支持离线转录,所有数据在设备上进行处理。免费功能包括:轻松录制和转录音频文件、无需互联网进行转录、所有数据在设备上处理、即时获取转录结果、自动检测语言、支持 5 个转录结果,界面简单易用,支持后台录制和分享转录结果至邮件和其他应用。Pro 功能包括无限次转录结果生成。立即下载!
VoiceRec 是一款集语音录制、转文字识别与共享于一体的人工智能语音应用。支持语音转文字、精准识别、支持多国语言、支持导出多种格式。
智能翻译是一款功能强大的翻译工具,能够快速准确地将文本、语音进行翻译。具有实时翻译、离线翻译、语音转文本等功能。同时支持多种语言互译,为用户提供便捷的国际交流工具。定价灵活,提供免费和付费套餐供选择。定位于个人用户、学生、商务人士等。
Transcribe ~ Speech to Text是一个语音转文字的iOS应用程序。它利用OpenAI的Whisper技术和Apple的神经引擎,实现语音文件的高精度识别,可将音频和视频文件直接转录成可阅读的文本。支持离线识别和云端识别两种模式。适用于各类语音转文字的需求,使用简单方便。
Whisper Notes 是一款准确的语音转文字工具,使用 OpenAI 的 Whisper 模型。无需网络连接,用户数据不会上传,支持 80 多种语言。可以用于记笔记、快速发送消息等。
Fathom可以记录、转录和突出显示Google Meet中的关键时刻,让您专注于对话而不是记笔记。免费使用。支持全文转录、自动生成会议总结、与Salesforce和Hubspot集成、轻松分享关键摘录、搜索跨会议和转录等功能。
TextScan AI是一款免费的移动应用程序,可以从图像中轻松转换文本并与AI聊天,让您告别手动输入,享受更快速、更准确的聊天体验。它提供了智能的消息功能,让您与AI聊天更加便捷。TextScan AI是一款智能、高效的聊天工具,让您的聊天更加智能、高效。
Hanami Live Translator是一个实时翻译器,可以捕捉来自WINDOWS扬声器和麦克风的任何音频。它使用轻量级多进程和分块处理音频,每个块处理时间约为3-5秒。该应用程序通过低级访问创建硬件回环,即使扬声器静音,也可以监听内容。它使用soundcard库捕获音频信号,SpeechRecognition库将二进制音频转换为文本,selenium库模拟deepl服务器的网络调用进行免费翻译。该应用程序需要与互联网连接才能运行,并通过Traces.log文件记录所有操作。
Freed的AI医学记录员可以帮助医生减少文档时间,提高工作效率。它使用人工智能技术,能够自动识别医生的口述内容并将其转化为文本记录,大大减轻了医生的负担。Freed还具有高度准确的识别率,能够准确地理解和记录医生的语音输入。该产品定价灵活,可以根据医疗机构的需求进行定制。Freed定位为一款提升医生工作效率的专业工具。
「彩云小译」是一款提供同声传译、双语对照、文档翻译等功能的在线翻译工具。它可以实现中日韩英四种语言的互译,并支持文档翻译、视频字幕翻译等功能。彩云小译通过人工智能和深度学习技术,为用户提供高质量的翻译服务。用户可以在网页上直接输入需要翻译的文字,也可以将文档、视频等文件上传进行翻译。
VNSplit是一款AI语音笔记摘要工具,可以在几秒钟内为您提供强大而详细的语音笔记摘要。通过AI发送语音笔记摘要,摆脱在iMessage和Whatsapp上听语音笔记的一切繁琐。只需订阅任何计划并提供您的iMessage或Whatsapp号码给Stripe,您将收到AI机器人的消息。将来的消息转发到该号码即可。
Speechless 是一款基于 OpenAI 的 Whisper API 的终极应用,提供无缝的音频转录和翻译功能。通过 Speechless,您可以轻松导入音频并即时获取准确的转录。通过实时翻译打破语言障碍,轻松分享您的转录内容,实现无与伦比的连接和沟通。Speechless 支持 WhatsApp、语音备忘录等应用,让您轻松转录或翻译音频。
WisprNote 是一款智能语音转文字工具,支持将语音备忘录、音频和视频文件转录为纯文本。它拥有极高的准确性和转录速度,同时保证了隐私安全。适用于会议记录、访谈转录、学习笔记等场景。
实时转写是一款能够实时将语音转为文本的应用程序,通过 iPhone 即可轻松进行语音记录。
这是一个可在苹果和安卓手机上录制电话通话的应用程序。它使用IVR技术以最佳质量录制通话,还能使用机器学习和人工智能技术将录音转录成可阅读的文本文档,包括语音分离、时间码等。主要功能有:高质量录制通话;可转录通话生成文本文件;可通过邮件分享录音和文本文件;购买额外时长;没有广告,不需要订阅。
免费AI语音是一款Chrome浏览器插件,利用文本转语音(TTS)技术将网页文章转换成语音,并支持40多种语言。适用于各种网站,包括新闻网站、博客、粉丝作品、出版物、教材、学校和课堂网站,以及在线大学课程材料。免费AI语音可以选择多种TTS声音,包括浏览器提供的声音。一些云端声音可能需要额外的应用内购买才能激活。免费AI语音适用于那些喜欢听内容而不是阅读的人,患有阅读障碍或其他学习障碍的人,以及正在学习阅读的儿童。
NaturalReader - AI Text to Speech 是一款Chrome插件,能够将在线文本转换成自然流畅的音频。只需点击播放,就可以让您的电子邮件、网页、PDF文件、Google文档和Kindle图书朗读给您听!通过使用我们的语音阅读器,用户可以节省时间,以比阅读更快的速度听取文本,并在无法阅读的时间提高工作效率,例如通勤、遛狗或做饭!免费版本功能丰富,还有两个付费高级套餐可供选择,适合各种预算。
Speech to Text是一个Chrome插件,可以通过说话或复制粘贴生成笔记。您可以选择背景图片、选择字体并打印。该插件可以用于多种场景,如感恩节、节日、其他场合或只是为了说话或书写的乐趣。
SpeechFlow是一款强大的语音转文字API,可在13种语言中以极高的准确率进行转录。它是将声音转为文字、语音转为文字和音频转为文字的强大工具。SpeechFlow支持云端和本地部署,提供可靠且易于部署和扩展的解决方案。它还具有快速处理速度,可以在短短几分钟内处理长达1小时的音频文件。
FreeSubtitles.AI是一个免费的在线工具,可以自动将音频和视频转录为文本。它可以帮助用户将会议录音、访谈、演讲等各种类型的音频和视频文件快速转换成可编辑和搜索的文本。该工具提供免费的自动翻译功能,可以将转录的文本自动翻译成多种语言。用户可以直接在网页上上传音频或视频文件,或者将文件拖放到页面上进行转录。FreeSubtitles.AI还提供了付费版本,该版本可以保存用户的转录历史,并提供更多高级功能。
探索 生产力 分类下的其他子分类
1361 个工具
904 个工具
767 个工具
619 个工具
607 个工具
431 个工具
406 个工具
398 个工具
AI语音转文本 是 生产力 分类下的热门子分类,包含 49 个优质AI工具