Deepgram 是什么?
Deepgram 是 2015 年成立于美国旧金山的 VoiceAI 基础设施平台,由前粒子物理学博士 Scott Stephenson(CEO)和 Noah Shutty 联合创立。Scott Stephenson 毕业于密歇根大学,曾在中国地下两英里深的实验室从事暗物质探测研究,2015 年研究期间产生了创建 Deepgram 的想法。公司 2026 年 1 月完成$1.3 亿 C 轮融资,由 AVP 领投,估值达$13 亿成为独角兽,累计融资$2.29 亿。主要投资者包括 Andreessen Horowitz (a16z)、Madrona Venture Group、Tiger Global、Wing VC、Y Combinator、In-Q-Tel、BlackRock 等 32 位投资者。2024 年 6 月收购 AI 沟通教练服务 Poised,整合其技术和工程团队。
Deepgram 提供 Speech-to-Text (STT)、Text-to-Speech (TTS)、Voice Agent API 三大核心服务。Nova-3 是最新一代语音转文字模型(2026 年),通用英语词错误率(WER)仅 5.26%,比 Whisper 最强模型准确率高 20% 以上。Flux 是专为语音智能体设计的轮转流式 STP 模型(2025 年 10 月)。Aura-2 是高度自然、表现力强的 TTS 模型。平台支持说话人分离(Speaker Diarization),训练数据覆盖 10 万 + 声音、80+ 语言,支持 16+ 说话人精准识别(竞品通常仅支持 4 人),全语言通用无需单独模型。
核心功能
Deepgram 提供实体识别、智能格式化、填充词识别、段落划分、粗话过滤、敏感信息编辑、自定义词汇表、多通道处理等高级功能。支持 36+ 语言,包括西班牙语、法语、德语、葡萄牙语、意大利语、荷兰语、印地语、日语、韩语、中文、希伯来语、波斯语、乌尔都语等。相比 AssemblyAI、Gladia、Whisper 等竞品,Deepgram 的优势在于准确性更高(Nova-3 WER 5.26%)、说话人分离更强(16+ vs 4 人)、部署灵活(云端/私有 VPC/本地)、企业合规(自托管满足金融/医疗/政府数据隐私要求),以及统一 API 简化开发。
产品信息
适用场景
音频音乐的其他工具