与…同时苹果在以下方面落后于曲线人工智能该公司实际推出的功能,其研究人员继续在现有技术的前沿工作。
在一篇新论文中,他们对一些最新的人工智能模型的说法提出了异议,即它们实际上能够逐步推理。苹果公司表示,其测试表明这根本不是真的…
虽然人们承认传统的生成式人工智能模型,即大型语言模型(LLM),没有推理能力,但一些人工智能公司声称新一代模型可以。这些被称为大型推理模型(LRM)。
这些源于让法学硕士“展示他们的工作”的尝试,即列出为得出结论而采取的各个步骤。这个想法是,如果一个人工智能可以被迫发展一条思维链,一步一个脚印地做事,这将阻止他们要么完全编造,要么在他们的主张中的某个时候偏离轨道。
人们对这种方法提出了一些重大主张,但苹果公司的一篇新研究论文称之为“思维错觉”。他们认为,测试一系列LRM表明,即使面对相对简单的逻辑挑战,它们的“推理”也会很快崩溃,这些挑战很容易通过算法解决,比如河内塔拼图。
河内塔是一个拼图,由三个木桩和n个不同大小的圆盘组成,按大小顺序堆叠在第一个木桩上(底部最大)。目标是将所有磁盘从第一个钉转移到第三个钉。有效的移动包括一次只移动一个磁盘,只从挂钩中取出最上面的磁盘,以及
永远不要把大磁盘放在小磁盘上。
您可以通过改变磁盘数量来创建更简单或更复杂的游戏版本。
他们发现,LRM实际上是更糟的与最简单版本的LLM相比,当添加更多磁盘时,LLM的性能略有改善,但并不明显——当添加超过八个磁盘时,它会完全失效。
简单问题(N=1-3)的早期准确性随着时间的推移而下降(过度思考),中等问题(N=4-7)的准确性随着持续推理而略有提高,复杂问题(N≥8)的准确性始终接近零,表明完全推理失败,这意味着模型无法在思维中生成任何正确的解。
事实上,他们证明了LRM即使在以下情况下也会失败你给他们解决这个问题所需的算法!他们说,这些发现对有关最新人工智能模型的说法提出了质疑。
这些见解挑战了关于LRM能力的普遍假设[…]我们的研究结果揭示了当前模型的根本局限性:尽管有复杂的自我反思机制,但这些模型无法在某些复杂性阈值之外发展出可推广的推理能力。
纽约大学心理学和神经科学荣誉退休教授盖瑞·马库斯长期以来,他一直认为LRM无法推理,他说,这表明我们需要超越制造越来越有能力的LLM最终会带来情报的希望。
任何认为法学硕士是通往能够从根本上改变社会的AGI的直接途径的人都是在自欺欺人。这并不意味着神经网络领域已经死亡,也不意味着深度学习已经死亡。LLM只是深度学习的一种形式,也许其他形式——尤其是那些更善于使用符号的形式——最终会蓬勃发展。时间会证明一切。但这种特殊方法的局限性日益明显。
照片由玻利维亚在…上Unsplash