作为其匪夷所思Apple 刚刚发布了一项新的研究,该研究采用一种非常以人为本的方法来解决一个棘手的机器学习问题:不仅识别所说的内容,而且识别如何说。可访问性的影响是巨大的。
在这篇论文中,研究人员引入了一个框架,用于使用他们所谓的内容来分析语音语音质量维度 (VQD),这些特征是可解释的特征,如可理解性、刺耳度、呼吸性、音调单调等。
这些与语言病理学家在评估受神经系统疾病影响的声音时关注的属性相同。现在,Apple 正在开发也可以检测到它们的模型。
教 AI 听和听
如今,大多数语音模型主要使用健康、典型的语音进行训练。这意味着当用户听起来不同时,它们往往会中断或表现不佳。这显然是一个巨大的可访问性差距。
Apple 的研究人员在一个大型公共数据集上训练了轻量级探针(位于现有语音系统之上的简单诊断模型),该数据集包含带注释的非典型语音,包括帕金森氏症、ALS 和脑瘫患者的声音。
但问题是:他们没有使用这些模型来转录所说的内容,而是使用七个核心维度来测量声音的声音。
- 可懂度:语音的难懂程度。
- 不精确的辅音:辅音的发音清晰度(例如,含糊不清或糊状的辅音)。
- 刺耳的声音:粗糙、紧张或沙砾般的声音质量。
- 自然:语音对听众来说听起来有多典型或更流畅。
- 单响度:响度缺乏变化(即,以一个固定的音量说话)。
- 单音:缺乏音高变化,导致平调或机械音调。
- 呼吸:声音质量轻快或耳语,通常是由于声带闭合不完全。
简而言之,他们教会机器“像临床医生一样倾听”,而不仅仅是记录所说的内容。
稍微复杂一点的说法是:Apple 使用五个模型(CLAP、HuBERT、HuBERT ASR、Raw-Net3、SpICE)来提取音频特征,然后训练轻量级探针从这些特征中预测语音质量维度。
最后,这些探针在大多数维度上都表现强劲,尽管性能因性状和任务而异。
这项研究的一个突出方面是该模型的输出是可解释的。这在 AI 中仍然很少见。该系统不是提供神秘的“置信度分数”或黑盒判断,而是可以指向导致特定分类的特定声音特征。反过来,这可能会在临床评估和诊断方面带来有意义的收益。
超越辅助功能
有趣的是,Apple 并没有止步于临床语言。该团队还在一个名为 RAVDESS 的数据集中的情绪语音上测试了他们的模型,尽管从未接受过情绪音频训练,但 VQD 模型也产生了直观的预测。
例如,愤怒的声音具有较低的 “单响度”,平静的声音被评为不那么刺耳,而悲伤的声音则显得更加单调。
这可能为更具相关性的 Siri 铺平道路,Siri 可以根据它如何解释用户的情绪或心理状态来调节它的语气和说话方式,而不仅仅是他们的实际话语。
完整的研究报告可在arXiv.