💼 生产力

VoiceRec

VoiceRec 是一款集语音录制、转文字识别与共享于一体的人工智能语音应用。支持语音转文字、精准识别、支持多国语言、支持导出多种格式。

#会议记录
#语音转文字
#音频编辑
定价: 免费试用
VoiceRec

产品详情

语音录音与转文字工具

主要功能

1
语音录制
2
语音转文字
3
支持多语言
4
支持导出

适用人群

录制会议

听写笔记

收集灵感

使用示例

录制课堂笔记,转成文字方便整理

开会时开启录音,结束后转文字分享给与会人员

采访时同时录音,转换文字后编辑成文章发布

快速访问

访问官网 →

所属分类

💼 生产力
› AI语音识别
› AI语音转文本

相关推荐

发现更多类似的优质AI工具

Whisper large-v3-turbo

Whisper large-v3-turbo

Whisper large-v3-turbo是OpenAI提出的一种先进的自动语音识别(ASR)和语音翻译模型。它在超过500万小时的标记数据上进行训练,能够在零样本设置中泛化到许多数据集和领域。该模型是Whisper large-v3的微调版本,解码层从32减少到4,以提高速度,但可能会略微降低质量。

多语言支持 语音翻译
💼 生产力
OmniSenseVoice

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型,专为快速推理和精确时间戳设计,提供更智能、更快速的音频转录方式。

开源 多语言支持
💼 生产力
CrisperWhisper

CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。与原始Whisper模型相比,CrisperWhisper旨在逐字转录每一个说出的单词,包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集(如TED、AMI)中排名第一,并在INTERSPEECH 2024上被接受。

时间戳 自动语音识别
💼 生产力
SenseVoiceSmall

SenseVoiceSmall

SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。该模型经过超过40万小时的数据训练,支持超过50种语言,识别性能超越Whisper模型。其小型模型SenseVoice-Small采用非自回归端到端框架,推理延迟极低,处理10秒音频仅需70毫秒,比Whisper-Large快15倍。此外,SenseVoice还提供便捷的微调脚本和策略,支持多并发请求的服务部署管道,客户端语言包括Python、C++、HTML、Java和C#等。

多语言支持 语音识别
💼 生产力
Voice Isolator

Voice Isolator

Voice Isolator 是 ElevenLabs 开发的一项 AI 音频解决方案,它能够从各种音频中提取出清晰的人声,去除街道噪音、麦克风反馈等不需要的背景噪音,适用于电影、播客和采访后期制作。这项技术对于提升音频质量、提高后期制作效率具有重要意义。

音频编辑 AI音频
💼 生产力
Universal-1

Universal-1

探索 AssemblyAI 当前的研究、新闻和有关语音 AI 技术的更新。AssemblyAI 的 Universal-1 在多语言环境下实现了行业领先的性能,准确、强大且鲁棒,帮助全球客户和开发人员构建各种语音 AI 应用。Universal-1 在英语、西班牙语和德语语音转文本准确度方面均实现了 10% 或更高的改进,减少了关于语音数据和环境噪声的幻觉率,客户对 Universal-1 的输出更为偏好,具有代码转换能力等。

多语言 研究
💼 生产力
Azure AI Studio - 语音服务

Azure AI Studio - 语音服务

Azure AI Studio是微软Azure提供的一套人工智能服务,其中包括语音服务。这些服务可能包括语音识别、语音合成、语音翻译等功能,帮助开发者在他们的应用程序中集成语音相关的智能功能。

人工智能 开发者工具
💼 生产力
Voice Engine

Voice Engine

Voice Engine是一种先进的语音合成模型,它仅需15秒的语音样本,便能生成与原始说话人极为相似的自然语音。该模型广泛应用于教育、娱乐、医疗等领域,可为非读写人群提供朗读辅助、为视频和播客内容翻译语音、为非语言人群赋予独特语音等。其显著优势在于所需语音样本少、生成语音质量高、支持多语种。Voice Engine目前处于小规模预览阶段,OpenAI正在与各界人士探讨其潜在应用和伦理挑战。

人工智能 语音合成
💼 生产力
腾讯云语音识别ASR

腾讯云语音识别ASR

腾讯云语音识别(ASR)为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。技术先进,性价比高,多语种支持,适用于客服、会议、法庭等多场景。

语音识别 语音转文字
💼 生产力
Live Transcribe: Voice to text

Live Transcribe: Voice to text

实时转写是一款能够实时将语音转为文本的应用程序,通过 iPhone 即可轻松进行语音记录。

效率助手 Ai办公助手
💼 生产力
AI Meeting Summaries: Zoom, Meet & MS Teams

AI Meeting Summaries: Zoom, Meet & MS Teams

Sembly可以轻松回顾和分享会议要点、会议记录和转录,可以从Sembly账户中查看。Sembly支持英文,在Web、iOS和Android移动应用上使用。主要功能包括日历集成、语音识别、会议记录、AI生成会议纪要等。适用于各种类型的会议。

会议记录 会议纪要
💼 生产力
Cogneed AI Assistant

Cogneed AI Assistant

Cogneed AI助手通过实时语音识别和关键词匹配,为代理人提供上下文相关信息,提高对话质量。功能包括关键词检测历史、卡片固定、收藏卡片、关联卡片、个人笔记等。适用于业务呼叫中心、销售活动、客户服务等场景。定价请咨询官方网站。

AI助手 客服
💼 生产力
SeamlessM4T

SeamlessM4T

SeamlessM4T是一款基于多模态模型的语音翻译产品,支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。该产品采用了全新的多任务UnitY模型架构,能够直接生成翻译文本和语音。SeamlessM4T的自我监督语音编码器w2v-BERT 2.0通过分析数百万小时的多语言语音,学习如何在语音中找到结构和意义。该产品还提供了SONAR、SpeechLASER等多语言语音和文本数据集,以及fairseq2等序列建模工具包。SeamlessM4T的发布,标志着AI技术在实现语音翻译方面取得了重大突破。

多语言 多模态
💼 生产力
SamurAI.ai

SamurAI.ai

智能语音助手是一款功能强大的语音辅助工具,具有语音识别、语音合成、智能对话等功能。它可以帮助用户进行语音输入、语音搜索、语音翻译等操作,提升用户的工作效率。同时,智能语音助手还支持与其他应用的集成,方便用户在各种场景下进行语音交互。该产品提供多种定价方案,满足不同用户的需求。定位于提供便捷的语音辅助服务,提高用户的生产力。

生产力工具 智能对话
💼 生产力