正如我最近提到的,虽然Whisper是我们印象中最好的语音转录模型之一,但OpenAI已经远离了它。不过,苹果新推出的声音API比Whisper更快的消息是个好消息。但是它的准确度如何呢?我们进行了测试。
全 disclosure:本文的想法来源于开发者Prakash Pax,他本人也做了测试。正如他解释的:
我录了15个英文音频样本,随机从15秒到2分钟不等。并测试了这三种语音转录工具。
- 苹果的新语音转录API
- OpenAI Whisper Large v3 Turbo
- Eleven Lab’s scribe v1
我不会将他的结果贴出来,否则你不会有动力去查看他有趣的博客文章。
不过他补充了关于方法论的注意事项。“我不是非英语国家的人。所以其他人可能会有不同的结果。”他的测试让我对苹果和OpenAI与NVIDIA的Parakeet(目前最快的语音转录模型)进行对比充满了好奇。
我做了什么
由于我不是非英语国家的人,我决定使用最近一集
我们 Daily
,
这集长度为7分31秒。
我用了MacWhisper来运行OpenAI的Whisper Large V3 Turbo和NVIDIA的Parakeet v2。对于苹果的声音API,我使用了Finn Vorhees的优秀Yap项目。我在16GB RAM的M2 Pro MacBook Pro上运行它们。
对于实际的字符错误率(CER)和单词错误率(WER)分析,由于计算字符和单词错误率的方法多种多样(例如:是否归一化间距?是否忽略大小写?是否忽略标点符号?),我转向了这两个 Hugging Face 的项目:Metric: cer 和 Metric: wer。
这两个指标在其各自的页面上概述了它们的计算方法,因此在这里我不打算深入讨论。关键在于所有模型都是使用相同的方法进行评估,这有助于确保基准一致且总体趋势可靠,即使在稍有不同的方法下,数字可能会有所不同。
他们是如何做到的
模型 |
语音转录时间 |
字符错误率 |
单词错误率 |
Parakeet v2 | 2秒 | 5.8% | 12.3% |
Whisper Large V3 Turbo | 40秒 | 0.2% | 1.5% |
Apple | 9秒 | 1.9% | 10.3% |
进一步深入探讨,我决定让 ChatGPT、Claude 和 Gemini 也计算 CER 和 WER。以下是他们的结果,并附有他们报告的方法说明:
ChatGPT (o4-mini-high)
作为基准和每个假设(Apple、Parakeet、Whisper)的第一个步骤,它们都经过了标准化的文本处理:
- 将所有文本转换为小写
- 删除所有标点符号(句号、逗号、引号等)
- 压缩任何连字符 whitespace 到单个空格
- 这样我们就可以仅比较字词本身,而不考虑格式或大写。
模型 |
语音转录时间 |
字符错误率 |
单词错误率 |
Parakeet v2 | 2秒 | 6.0% | 12.3% |
Whisper Large V3 Turbo | 40秒 | 0.4% | 1.4% |
Apple | 9秒 | 2.1% | 10.2% |
Claude (Sonnet 4)
文本标准化协议:
在计算错误率之前,所有文本都经过标准化处理以确保公平比较:
案例规范化
:转换为小写
标点符号规范
:
- 曲线引号(‘ ‘)转换为直引号(‘)
- 曲线引号(” “)转换为直引号(“)
- 横连字符(–)转换为连字符 (-)
空白规范化
:替换多个空白字符为单个空格
去除前导和末尾空白
: 删除开头和结尾的空白字符
注意:
我尝试使用Anthropic的Claude 4 Opus,但由于Anthropic端的服务器容量限制,出现了错误信息。
模型 |
转录时间 |
字符错误率 |
词错误率 |
Parakeet v2 | 2秒 | 8.4% | 11.0% |
Whisper Large V3 Turbo | 40秒 | 0.1% | 1.0% |
Apple | 9秒 | 3.5% | 8.2% |
Gemini (2.5 Pro)
所有文本(包括 baseline和假设文件)都进行了标准化处理,以确保公平比较。标准化过程包括:
- 将所有文本转换为小写。
- 删除所有标点符号(例如:,,.,?,‘,“)。
- 将连字符替换为空格(例如:“end-to-end”变为“end to end”)。
模型 |
转录时间 |
字符错误率 |
词错误率 |
Parakeet v2 | 2秒 | 7.6% | 12.3% |
Whisper Large V3 Turbo | 40秒 | 0.3% | 0.4% |
Apple | 9秒 | 3.4% | 5.3% |
所以,哪个更好?
这里没有大家最喜欢的答案:这取决于。
Whisper显然是最精确的三个模型之一,但如果你在处理一个时间紧迫的项目,并且正在转录一段较长的内容,那么处理时间可能会成为一个问题。
另一方面,如果你更注重速度而不是准确性,Parakeet绝对是你的最佳选择。假设你有一个两个小时讲座的录音,只需要快速找到某个特定段落。在这种情况下,放弃一些精度以换取速度可能是明智的选择。
如果说苹果模型在两者之间找到了一个平衡点,但不是太糟糕的位置。它在速度上接近Parakeet,在准确性方面已经超越了后者。这在尝试它的时候表现得相当不错。
然而,这与Whisper相比仍相去甚远,尤其在需要极小甚至无调整的高质量转录工作中。但就其完全本地运行、无需依赖第三方API或外部安装这一点而言,这是一个重大突破,尤其是在开发者采用率不断上升以及Apple持续迭代的过程中。
Mac软件下载:https://www.macapp.so/app/