苹果研究显示：大语言模型同样受益于最古老的生产力技巧

苹果研究人员合著的一项新研究表明，在要求开源大语言模型（LLM）使用一项简单的生产力技巧检查自身工作后，其性能获得了显著提升。详情如下。

你可能喜欢

Meta发布首款搭载屏幕的智能眼镜

摄影师 Tyler Stalman 评测 iPhone 17、iPhone Air 与 iPhone 17 Pro 相机表现

蒂姆·库克出席温莎城堡国宴参与特朗普英国之行

背景信息

大语言模型完成训练后，通常需要通过人类反馈强化学习（RLHF）这一训练后步骤来进一步提升质量。

通过RLHF，每当模型给出答案时，人类标注员可以给予点赞（奖励）或点踩（惩罚）。随着时间的推移，模型逐渐学会哪些答案更容易获得点赞，从而整体实用性得到提升。

这种训练后阶段部分属于更广泛的“对齐”领域，该领域探索使大语言模型行为既有用又安全的方法。

未对齐的模型可能会学会欺骗人类获取点赞——生成表面正确但并未真正解决问题的输出结果。

当然，在预训练、训练和训练后阶段存在多种提高模型可靠性和对齐度的方法。但本研究主要聚焦RLHF。

苹果研究

在这项名为《清单优于奖励模型：大语言模型对齐新方案》的研究中，苹果提出了一种基于清单的强化学习方案——清单反馈强化学习（RLCF）。

RLCF按照0-100分制评估响应满足清单各项要求的程度，初步结果令人鼓舞。研究人员解释道：

“我们在五个广泛研究的基准测试中，将RLCF与其他对齐方法应用于强指令跟随模型（Qwen2.5-7B-Instruct）进行对比——RLCF是唯一在所有基准测试中均提升性能的方法，包括在FollowBench上硬满意度提升4个百分点，InFoBench提高6个百分点，Arena-Hard获胜率上升3个百分点。这些结果表明清单反馈是提升语言模型对多需求查询支持能力的关键工具。”

最后一点对AI助手尤为重要，这将成为未来数百万用户与设备交互的标准底层接口。

研究人员进一步强调：