本周早些时候,彭博社报道称,谷歌和苹果即将达成一项价值每年10亿美元的协议,谷歌将提供Gemini模型的一个版本,用于在明年为升级版的Siri提供支持。
但比价格标签更有趣的,是一个将实际影响每个人体验的因素:其架构。以下来看看它可能会如何运作。
1.2万亿参数算多吗?
根据彭博社的报道,谷歌将向苹果提供一个拥有1.2万亿参数的模型,该模型将运行在苹果的私有云计算服务器上,这有效防止了谷歌访问其中的任何数据。从隐私角度看,这非常棒。
就规模而言,1.2万亿参数的模型不容小觑。然而,要直接与最新、最强大的竞争模型进行比较是相当具有挑战性的。
这是因为近年来,像OpenAI、Anthropic和谷歌这样的封闭前沿人工智能实验室已经停止披露其最新旗舰模型的参数数量。这导致对于诸如GPT-5、Gemini 2.5 Pro和Claude Sonnet 4.5等产品的真实参数数量,出现了各种各样的猜测。有些估计低于一万亿参数,而另一些则暗示达到数万亿。实际上,没有人真正清楚。
另一方面,这些庞大的最新模型大多有一个共同点,即它们都采用了一种名为专家混合模型的基础架构。事实上,苹果在其当前的云端模型上已经使用了某种形式的MoE,据传该模型拥有1500亿参数。
Gemini驱动的Siri模型很可能采用专家混合架构
简而言之,MoE是一种使用多个称为“专家”的专用子网络来构建模型的技术。对于每个输入,只有少数相关的专家被激活,这使得模型运行更快、计算效率更高。
换句话说,这使得MoE模型可以拥有非常高的参数数量,同时将推理成本保持在远低于每个输入都需要激活100%参数的水平。
关于采用MoE方法的模型还有一点:它们通常对每个输入有最大活跃专家数量和最大活跃参数数量的限制,结果类似这样:
一个拥有1.2万亿总参数的模型可能包含32个专家,每个标记仅激活2到4个专家。这意味着在任何给定时刻,实际进行计算的大约只有750亿到1500亿个参数,从而在保持计算成本类似于运行一个更小模型的同时,提供了庞大模型的能力。
以下是IBM制作的一个精彩视频,更详细地解释了MoE的工作原理:
需要明确的是,如果谷歌和苹果就其报道的合作关系达成协议,关于谷歌可能提供给苹果的模型的架构,目前尚无报道。但考虑到当今可用的替代方案,一个1.2万亿参数的模型很可能需要采用MoE方法才能高效运行。
至于这个规模是否足以让Gemini驱动的Siri在明年发布时与可用的模型保持竞争力,那就是另一回事了。


















