麦克豌豆 MacPea.com
No Result
View All Result
  • Login
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
    Cyberpunk 2077: Ultimate Edition for macOS(Apple Silicon)赛博朋克 2077 Mac版下载

    Cyberpunk 2077: Ultimate Edition for macOS(Apple Silicon)赛博朋克 2077 Mac版下载

    Mac玩家狂喜!《Hades II》上线啦⚡比前作还上头!

    Mac玩家狂喜!《Hades II》上线啦⚡比前作还上头!

    破门而入2:北方特遣队 Door Kickers 2 for Mac – 战术策略新体验

    破门而入2:北方特遣队 Door Kickers 2 for Mac – 战术策略新体验

    Mac也可以大表哥了!《荒野大镖客:救赎》Mac版下载及安装指南

    Mac也可以大表哥了!《荒野大镖客:救赎》Mac版下载及安装指南

    NBA 2K25 Arcade Edition for Mac 经典Mac篮球游戏再升级

    NBA 2K25 Arcade Edition for Mac 经典Mac篮球游戏再升级

    Easy Red 2 for Mac 二战题材Mac射击游戏

    Easy Red 2 for Mac 二战题材Mac射击游戏

    热门标签

    • Mac游戏
    • 死亡搁浅mac
    • 全面战争 mac
    • 足球经理
    • 美国卡车模拟Mac
    • NBA 2K24
  • macOS下载
  • Mac产品库
  • Mac软件下载
PRICING
SUBSCRIBE
  • 首页
  • 苹果新闻
  • Mac软件推荐
  • Mac游戏推荐
    Cyberpunk 2077: Ultimate Edition for macOS(Apple Silicon)赛博朋克 2077 Mac版下载

    Cyberpunk 2077: Ultimate Edition for macOS(Apple Silicon)赛博朋克 2077 Mac版下载

    Mac玩家狂喜!《Hades II》上线啦⚡比前作还上头!

    Mac玩家狂喜!《Hades II》上线啦⚡比前作还上头!

    破门而入2:北方特遣队 Door Kickers 2 for Mac – 战术策略新体验

    破门而入2:北方特遣队 Door Kickers 2 for Mac – 战术策略新体验

    Mac也可以大表哥了!《荒野大镖客:救赎》Mac版下载及安装指南

    Mac也可以大表哥了!《荒野大镖客:救赎》Mac版下载及安装指南

    NBA 2K25 Arcade Edition for Mac 经典Mac篮球游戏再升级

    NBA 2K25 Arcade Edition for Mac 经典Mac篮球游戏再升级

    Easy Red 2 for Mac 二战题材Mac射击游戏

    Easy Red 2 for Mac 二战题材Mac射击游戏

    热门标签

    • Mac游戏
    • 死亡搁浅mac
    • 全面战争 mac
    • 足球经理
    • 美国卡车模拟Mac
    • NBA 2K24
  • macOS下载
  • Mac产品库
  • Mac软件下载
No Result
View All Result
麦克豌豆 MacPea.com
No Result
View All Result
Home 苹果新闻

苹果研究显示:大语言模型同样受益于最古老的生产力技巧

pony的头像 by pony
2025年8月26日
Reading Time: 1 mins read
A A
0

苹果研究人员合著的一项新研究表明,在要求开源大语言模型(LLM)使用一项简单的生产力技巧检查自身工作后,其性能获得了显著提升。详情如下。

相关文章

苹果发布 tvOS 26 第五个公测版及其他系统更新

iOS 26 与 iPadOS 26 公测版 Beta 5 现已开放下载

macOS Tahoe 26 公测版 Beta 5 现已推送,附安装指南

背景信息

大语言模型完成训练后,通常需要通过人类反馈强化学习(RLHF)这一训练后步骤来进一步提升质量。

通过RLHF,每当模型给出答案时,人类标注员可以给予点赞(奖励)或点踩(惩罚)。随着时间的推移,模型逐渐学会哪些答案更容易获得点赞,从而整体实用性得到提升。

这种训练后阶段部分属于更广泛的“对齐”领域,该领域探索使大语言模型行为既有用又安全的方法。

未对齐的模型可能会学会欺骗人类获取点赞——生成表面正确但并未真正解决问题的输出结果。

当然,在预训练、训练和训练后阶段存在多种提高模型可靠性和对齐度的方法。但本研究主要聚焦RLHF。

苹果研究

在这项名为《清单优于奖励模型:大语言模型对齐新方案》的研究中,苹果提出了一种基于清单的强化学习方案——清单反馈强化学习(RLCF)。

RLCF按照0-100分制评估响应满足清单各项要求的程度,初步结果令人鼓舞。研究人员解释道:

“我们在五个广泛研究的基准测试中,将RLCF与其他对齐方法应用于强指令跟随模型(Qwen2.5-7B-Instruct)进行对比——RLCF是唯一在所有基准测试中均提升性能的方法,包括在FollowBench上硬满意度提升4个百分点,InFoBench提高6个百分点,Arena-Hard获胜率上升3个百分点。这些结果表明清单反馈是提升语言模型对多需求查询支持能力的关键工具。”

最后一点对AI助手尤为重要,这将成为未来数百万用户与设备交互的标准底层接口。

研究人员进一步强调:

语言模型必须遵循用户指令才能体现价值。随着公众将基于语言模型的助手融入日常任务处理,用户期望模型能忠实执行请求。当用户对模型处理复杂请求的能力越有信心,就越会赋予需要谨慎关注细节的丰富多步指令。

生成正确清单

该研究另一个亮点在于清单的生成方式及各条目权重分配机制。

这当然需要借助大语言模型实现。基于前人研究,苹果研究人员为13万条指令生成清单(…)创建了新数据集WildChecklists。使用Qwen2.5-0.5B至7B等模型生成候选响应,并以Qwen2.5-72B-Instruct作为清单生成模型(…)。

简而言之,研究人员自动为每条用户指令附加包含具体是/否要求的微型清单(例如:“是否翻译为西班牙语?”)。随后,更大的教师模型根据清单条目对候选响应评分,这些加权分数成为微调学生模型的奖励信号。

成果与局限

通过建立最佳清单生成系统,研究人员在某个基准测试中实现了8.2%的性能提升。不仅如此,与其他方法相比,该方案在多个基准测试中均领先。

研究人员指出,本研究专注于“复杂指令跟随”,RLCF可能不适用于其他场景的强化学习技术。他们还提到该方法需使用更强大的模型作为评判者来调优小模型,这也是显著局限。最重要的是,他们明确表示“RLCF旨在提升复杂指令跟随能力,而非安全对齐”。

尽管如此,这项研究为提升人机交互可靠性提供了一种新颖(却简单)的方法,这将是人类与基于LLM的助手互动中最关键的环节。

随着这些助手逐渐获得代理能力,指令跟随(与对齐)将愈发重要,这使得该研究更具现实意义。

ShareTweet
pony的头像

pony

Related Posts

苹果新闻

苹果发布 tvOS 26 第五个公测版及其他系统更新

2025年8月26日
0
苹果新闻

iOS 26 与 iPadOS 26 公测版 Beta 5 现已开放下载

2025年8月26日
1
苹果新闻

macOS Tahoe 26 公测版 Beta 5 现已推送,附安装指南

2025年8月26日
0
苹果新闻

Scherlokk 6.5.2 for Mac:高效文件搜索与比较工具的全方位解析

2025年8月26日
0
苹果新闻

苹果秋季新品阵容或将罕见缺席Mac产品线

2025年8月26日
0
苹果新闻

Boom 3D for Mac:重塑音频体验的专业音效增强工具

2025年8月26日
0
Next Post

苹果发布 tvOS 26 第五个公测版及其他系统更新

Please login to join discussion

推荐文章

iPhone 在中国的销量在 4 月份(略有)回升

2025年6月3日
0

iOS 26测试版最细微的改动,恰恰应成为苹果的设计准则

2025年8月6日
0

Apple Arcade 刚刚推出了五款新游戏,还有更多即将推出

2025年6月5日
1

点击排行

  • 苹果发布iOS 18.6.2:安全更新与稳定性优化

    0 shares
    Share 0 Tweet 0
  • F1电影何时登陆Apple TV?流媒体上映日期公布

    0 shares
    Share 0 Tweet 0
  • macOS Sequoia 15.6正式发布 包含重要错误修复

    0 shares
    Share 0 Tweet 0
  • Mac也可以大表哥了!《荒野大镖客:救赎》Mac版下载及安装指南

    0 shares
    Share 0 Tweet 0
  • Alcove 将 Mac 屏幕刘海变成灵动岛的创意神器

    0 shares
    Share 0 Tweet 0
麦克豌豆 MacPea.com

麦克豌豆是一个专门分享Mac软件、Mac游戏、Mac系统下载、Mac教程、Mac电脑介绍以及苹果新闻的网站。

近期文章

  • 苹果发布 tvOS 26 第五个公测版及其他系统更新
  • 苹果研究显示:大语言模型同样受益于最古老的生产力技巧
  • iOS 26 与 iPadOS 26 公测版 Beta 5 现已开放下载

分类

  • macOS下载
  • Mac产品库
  • Mac教程
  • Mac游戏推荐
  • Mac软件推荐
  • 苹果新闻

订阅网站内容

订阅网站内容以便第一时间阅读你感兴趣的内容

订阅即表示同意我们的服务条款和隐私政策。

© 2024 MacPea.com 麦克豌豆 友情链接 | 湘ICP备18009176号-7

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • Subscription
  • Category
    • Mac游戏推荐
    • macOS下载
    • 苹果新闻
    • Mac产品库
    • Mac教程
  • Landing Page
  • Buy JNews
  • Support Forum
  • Pre-sale Question
  • Contact Us

© 2024 MacPea.com 麦克豌豆 友情链接 | 湘ICP备18009176号-7