苹果展示M5芯片运行本地大模型相比M4速度提升显著

苹果机器学习研究博客上的一篇新文章展示了，在运行本地大语言模型时，M5苹果芯片相比M4有了多大提升。详情如下。

你可能喜欢

watchOS 26 新增一项让我爱不释手的 Apple Watch 技巧

传闻回顾：Mac Pro 未来走向、iPhone Fold 电池容量及其他消息

Liberty Media CEO透露：苹果与F1正探讨深化合作可能性

背景信息

几年前，苹果发布了MLX，该公司将其描述为“一个用于在苹果芯片上进行高效灵活机器学习的数组框架”。

实际上，MLX是一个开源框架，借助AI领域熟悉的API和接口，帮助开发者在他们的苹果芯片Mac上原生构建和运行机器学习模型。

以下是苹果对MLX的进一步说明：

MLX是一个开源数组框架，高效、灵活，并针对苹果芯片进行了深度优化。您可以将MLX用于从数值模拟、科学计算到机器学习的各种应用。MLX内置了对神经网络训练和推理的支持，包括文本和图像生成。MLX使得在苹果芯片设备上使用大语言模型生成文本或进行微调变得容易。

MLX利用了苹果芯片的统一内存架构。MLX中的操作可以在CPU或GPU上运行，而无需移动内存。其API紧密遵循NumPy，既熟悉又灵活。MLX还提供了更高级别的神经网络和优化器包，以及用于自动微分和图优化的函数变换。

目前可用的MLX包之一是MLX LM，旨在用于在苹果芯片Mac上生成文本和微调语言模型。

通过MLX LM，开发者和用户可以下载Hugging Face上的大多数模型，并在本地运行它们。

该框架甚至支持量化，这是一种压缩方法，可以使大模型在占用更少内存的情况下运行。这带来了更快的推理速度，推理基本上是指模型对输入或提示生成答案的步骤。

M5 对比 M4

在其博客文章中，苹果展示了新款M5芯片在推理性能上的提升，这得益于芯片全新的GPU神经引擎，苹果称其“提供了专用的矩阵乘法运算，这对许多机器学习工作负载至关重要。”

为了说明性能提升，苹果比较了在搭载M4和M5的MacBook Pro上，使用MLX LM，多个开源模型在接收到提示后生成第一个词元所需的时间。

或者，正如苹果所述：

我们评估了原生BF16精度的Qwen 1.7B和8B模型，以及4位量化的Qwen 8B和Qwen 14B模型。此外，我们还对两个专家混合模型进行了基准测试：Qwen 30B和GPT OSS 20B。评估使用mlx_lm.generate进行，并报告首次词元生成时间和生成速度。在所有基准测试中，提示大小为4096。生成速度是在生成128个额外词元时测量的。

结果如下：