苹果的新语音转录AI有多准确？我们与Whisper和Parakeet进行了对比测试

正如我最近提到的，虽然Whisper是我们印象中最好的语音转录模型之一，但OpenAI已经远离了它。不过，苹果新推出的声音API比Whisper更快的消息是个好消息。但是它的准确度如何呢？我们进行了测试。

全 disclosure：本文的想法来源于开发者Prakash Pax，他本人也做了测试。正如他解释的：

我录了15个英文音频样本，随机从15秒到2分钟不等。并测试了这三种语音转录工具。

苹果的新语音转录API

OpenAI Whisper Large v3 Turbo

Eleven Lab’s scribe v1

我不会将他的结果贴出来，否则你不会有动力去查看他有趣的博客文章。

不过他补充了关于方法论的注意事项。“我不是非英语国家的人。所以其他人可能会有不同的结果。”他的测试让我对苹果和OpenAI与NVIDIA的Parakeet（目前最快的语音转录模型）进行对比充满了好奇。

我做了什么

由于我不是非英语国家的人，我决定使用最近一集

我们 Daily
，
这集长度为7分31秒。

我用了MacWhisper来运行OpenAI的Whisper Large V3 Turbo和NVIDIA的Parakeet v2。对于苹果的声音API，我使用了Finn Vorhees的优秀Yap项目。我在16GB RAM的M2 Pro MacBook Pro上运行它们。

对于实际的字符错误率（CER）和单词错误率（WER）分析，由于计算字符和单词错误率的方法多种多样（例如：是否归一化间距？是否忽略大小写？是否忽略标点符号？），我转向了这两个 Hugging Face 的项目：Metric: cer 和 Metric: wer。

这两个指标在其各自的页面上概述了它们的计算方法，因此在这里我不打算深入讨论。关键在于所有模型都是使用相同的方法进行评估，这有助于确保基准一致且总体趋势可靠，即使在稍有不同的方法下，数字可能会有所不同。

他们是如何做到的

模型	语音转录时间	字符错误率	单词错误率
Parakeet v2	2秒	5.8%	12.3%
Whisper Large V3 Turbo	40秒	0.2%	1.5%
Apple	9秒	1.9%	10.3%

进一步深入探讨，我决定让 ChatGPT、Claude 和 Gemini 也计算 CER 和 WER。以下是他们的结果，并附有他们报告的方法说明：

ChatGPT (o4-mini-high)

作为基准和每个假设（Apple、Parakeet、Whisper）的第一个步骤，它们都经过了标准化的文本处理：

将所有文本转换为小写

删除所有标点符号（句号、逗号、引号等）

压缩任何连字符 whitespace 到单个空格

这样我们就可以仅比较字词本身，而不考虑格式或大写。

模型	语音转录时间	字符错误率	单词错误率
Parakeet v2	2秒	6.0%	12.3%
Whisper Large V3 Turbo	40秒	0.4%	1.4%
Apple	9秒	2.1%	10.2%

Claude (Sonnet 4)

文本标准化协议：

在计算错误率之前，所有文本都经过标准化处理以确保公平比较：

案例规范化

：转换为小写

标点符号规范

:

曲线引号（‘ ‘）转换为直引号（‘）

曲线引号（” “）转换为直引号（“）

横连字符（–）转换为连字符 (-)

空白规范化

：替换多个空白字符为单个空格

去除前导和末尾空白

: 删除开头和结尾的空白字符