(来源:麻省理工科技评论)
这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。
写这篇文章的起因很有趣。听闻我的一位编辑同事在半夜醒来,在笔记本上潦草地写下了一句话:“什么是参数?”凌晨四点产生的想法通常不太靠谱,但这却是一个非常好的问题——它直击了大语言模型运作原理的核心。
大语言模型的参数通常被比作控制模型行为的刻度盘和操纵杆。你可以试着想象一台行星般大小的弹球机,几十亿个挡板和缓冲器经过精确设置,将球从一端弹射到另一端。而只需要微调这些设置,球的运动轨迹就会发生变化。
OpenAI 于 2020 年发布的 GPT-3 拥有 1750 亿个参数。Google DeepMind 最新的大语言模型 Gemini 3 可能至少拥有一万亿个参数,有人甚至估计这个数字可能高达 7 万亿,但该公司并未透露具体数据。(鉴于目前激烈的竞争环境,AI 公司不再分享关于其模型构建方式的信息。)
尽管模型各异,但参数的基本定义,以及参数如何赋予大语言模型惊人能力的原理是通用的。如果你想知道大语言模型真正运转的机制,想了解那个多彩的弹球机比喻背后到底如何运作,让我们一起来深入探讨。
什么是参数?回想一下中学代数,比如 2a + b。这些字母就是参数:给它们赋值,你就能得到一个结果。在数学或编程中,参数用于设定界限或决定输出。大语言模型内部参数的运作方式与之类似,只是规模大得惊人。
它们的数值是如何确定的?一言以蔽之:算法。当模型开始训练时,每个参数都被设定为一个随机值。随后的训练过程包含一系列迭代计算(称为训练步数),用于更新这些数值。
在训练初期,模型会犯错。训练算法会检查每一个错误,并在模型中进行回溯,微调众多参数的数值。这样一来,下一次出现同样情况时,误差就会减小。这个过程会不断重复,直到模型的行为符合设计者的预期。此时训练停止,模型参数的数值也就此固定下来。
尽管理论上来说很简单,但在实践中,由于大语言模型使用海量数据进行训练,且包含海量参数,训练过程需要极其庞大的步骤和令人咋舌的计算量。
在训练期间,像 GPT-3 这种中等规模的大语言模型,其内部的 1750 亿个参数每一个都会被更新数万次。总计下来,这涉及千万亿次(1 后跟 15 个 0)的独立计算。这也是训练大语言模型消耗如此多能源的原因。这需要数千台专用的高速计算机连续运行数月。
这些参数到底有什么用?大语言模型内部主要有三种类型的参数,它们的数值通过训练来确定:嵌入(Embeddings)、权重(Weights)和偏置(Biases)。让我们逐一了解。
什么是嵌入?
嵌入是单词(或单词的一部分,称为 Token)在大语言模型词表中的数学表示。大语言模型的词表可能包含多达几十万个独立的 Token,这些是由设计者在训练开始前设定的。但此时这些单词没有任何含义。含义是在训练过程中赋予的。
模型训练时,词表中的每个单词都会被分配一个数值。这个数值基于单词在海量训练数据中的出现方式,捕捉该单词相对于所有其他单词的含义。
是的。但情况还要复杂一些。代表每个单词的数值实际上是一串数字列表。列表中的每个数字代表了模型从训练数据中提取出的不同含义侧面。这个数字列表的长度是设计者在训练前指定的另一个参数,其中的每一个数字都在训练过程中经过了微调。一个常见的长度是 4,096。如果一个大语言模型的嵌入长度为 4,096 个数字,我们就说该模型拥有 4,096 个维度。
这个数字看起来可能很奇怪。但大语言模型(像任何在计算机芯片上运行的东西一样)处理 2 的幂次方效率最高——比如 2、4、8、16、32、64 等等。工程师们发现,4,096 这个 2 的幂次方在能力和效率之间达到了最佳平衡点。维度更少的模型能力较弱;维度更多的模型则训练和运行成本过高或速度过慢。
使用更多的数字,大语言模型就能捕捉到非常精细的信息,包括一个单词在不同语境下的用法、它可能包含的微妙含义,以及它与其他单词的关联等等。
今年二月,OpenAI 发布了其迄今为止最大的模型 GPT-4.5(有估算称其参数量超过 10 万亿)。曾参与该模型研发的 OpenAI 研究科学家 Nick Ryder 当时告诉我,更大的模型能够处理额外的信息,比如情绪线索。例如,当说话者的言辞表现出敌意时,他解释道:“人类对话中所有这些微妙的模式,正是这些越来越大的模型能够捕捉到的信息点。”
结果就是,大语言模型内部的所有单词都被编码进了一个高维空间。想象一下,成千上万个单词漂浮在你周围的空中。距离较近的单词具有相似的含义。例如,“桌子”和“椅子”之间的距离,会比它们与“宇航员”的距离更近;而“宇航员”则靠近“月球”和“马斯克”。在遥远的另一端,你可能会看到“变戏法(prestidigitation)”这个词。这与模型内部的情形有点类似,只不过这些单词不是在三维空间中相互关联,而是在 4,096 个维度上相互关联。
这确实让人头晕目眩。实际上,大语言模型将整个互联网压缩成了一个巨大的数学结构,其中编码了海量且互相关联的信息。这也解释了为什么大语言模型能做到惊人的事情,同时也解释了为什么我们无法完全理解它们。
什么是权重?
权重这一参数代表了模型不同部分之间连接的强度。它是调整模型行为最常见的旋钮之一。当大语言模型处理文本时,就会用到权重。
当大语言模型读取一个句子(或一章书)时,它首先会查找所有单词的嵌入,然后将这些嵌入输入到一系列被称为 Transformer 的神经网络中。Transformer 专为一次性处理序列数据(如文本)而设计。句子中的每个单词都会结合其他所有单词的关系进行处理。
这就是权重发挥作用的地方。嵌入代表了一个单词在没有上下文情况下的含义。当一个单词出现在特定句子中时,Transformer 使用权重来处理该单词在这个新语境下的含义。(在实际操作中,这涉及到将每个嵌入与所有其他单词的权重相乘。)
什么是权重?
偏置是另一种类型的调节旋钮,它用于补充权重的作用。权重设定了模型不同部分被激活(从而将数据传递给下一部分)的阈值。偏置则用于调整这些阈值,使得一个嵌入即便数值较低也能触发活动。(偏置是加在嵌入上的数值,而不是与之相乘。)
通过移动模型各部分激活的阈值,偏置让模型能够捕捉到那些原本可能被错过的样信息。想象一下,你试图在嘈杂的房间里听清某人说话。权重会最大程度地放大最大的声音;而偏置则像监听设备上的一个旋钮,可以提高混合音效中那些微弱声音的音量。
简单总结一下:权重和偏置是大语言模型从给定文本中尽可能提取信息的两种不同方式。这两种类型的参数在训练过程中都会被反复调整,以确保它们能够有效地完成这项任务。
神经元也是一种参数吗?
不,神经元更多是组织这些数学运算的方式。它们是承载权重和偏置的容器,通过网络路径相互连接。这一切的灵感非常宽泛地来源于动物大脑中的生物神经元,即一个神经元的信号会触发下一个神经元产生新信号,依此类推。
模型中的每个神经元包含一个偏置,以及针对模型每个维度的权重。换句话说,如果一个模型有 4,096 个维度——因此其嵌入是包含 4,096 个数字的列表——那么该模型中的每个神经元将包含一个偏置和 4,096 个权重。
神经元按层排列。在大多数大语言模型中,一层的每个神经元都与上一层的所有神经元相连。像 GPT-3 这样拥有 1750 亿参数的模型大约有 100 层,每层包含数万个神经元。并且,每个神经元同时运行着数万次计算。
这一切是如何运作的?
当大语言模型处理一段文本时,该文本的数值表示会穿过模型的多个层级。在每一层中,嵌入的数值(那串 4,096 个数字)会通过一系列涉及模型权重和偏置(附着在神经元上)的计算进行多次更新,直到到达最后一层。
其核心理念是,输入文本的所有含义、细微差别和上下文,在经历这一系列令人难以置信的计算后,都会被嵌入的最终数值所捕获。随后,该数值被用来计算大语言模型应该输出的下一个单词。
这比听起来要复杂得多,这不足为奇:实际上,模型会针对其词表中的每一个单词,计算它作为下一个词出现的可能性,并对结果进行排序。然后,它会选择排名第一的词。
这个选出的单词会被追加到之前的文本块中,整个过程不断重复,直到大语言模型计算出最可能的下一个词是标志输出结束的信号为止。
大语言模型的设计者还可以指定其他几个参数,称为“超参数”。其中主要包括温度(Temperature)、Top-p 和 Top-k。
温度是一个充当创造力旋钮的参数。它影响模型对下一个单词的选择。我刚才说模型会对词表中的单词进行排序并选择排名第一的那个。但是,利用温度参数可以推动模型去选择概率最高的那个词,使其输出更加符合事实且相关;或者去选择一个概率较低的词,使输出更具惊喜感,减少机械感。
Top-p 和 Top-k 也是控制模型选择下一个单词的旋钮。这两个设置强制模型从一组概率最高的备选词中随机选择一个,而不是直接选择排名第一的词。这些参数影响着模型的表现风格——是古怪且富有创造力,还是可靠但枯燥。
小模型是如何用更少的参数做到这一点的?
这是目前 AI 领域最热门的问题之一。实现这一点的途径有很多。研究人员发现,训练数据的数量起着巨大的作用。首先,你需要确保模型见过了足够多的数据:如果一个大语言模型训练所用的文本太少,它就无法充分利用其所有参数,而一个使用相同数据量训练的小模型可能会超越它。
研究人员发现的另一个技巧是过度训练(指使用远超常规的数据量进行训练)。给模型展示比原先认为必要的更多的数据,似乎能提升其性能。结果是,使用大量数据训练的小模型可以超越使用较少数据训练的大模型。以 Meta 的 Llama 系列模型为例。拥有 700 亿参数的 Llama 2 使用了约 2 万亿个单词的文本进行训练;而拥有 80 亿参数的 Llama 3 则使用了约 15 万亿个单词。体量小得多的 Llama 3 却是更好的模型。
第三种技术被称为蒸馏,即利用一个大模型来训练一个小模型。小模型不仅使用原始训练数据,还利用大模型内部计算的输出进行训练。其思路是,将大模型参数中编码的来之不易的经验“渗透”到小模型的参数中,从而提升小模型的能力。
事实上,单一巨型模型的时代可能已经结束。即便是市场上最大的模型,如 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 3,也可以被看作是“穿在一件风衣里的几个小模型”。通过一种称为“混合专家”(MoE)的技术,大模型可以仅激活处理特定文本所需的那部分(即“专家”)。这种方式结合了大模型的能力与小模型的速度及低功耗优势。
但这还不是全部。研究人员仍在探索如何充分利用模型参数。随着单纯扩大规模带来的收益逐渐递减,增加参数数量似乎不再像以前那样具有决定性作用。参数的数量不再是唯一的决定因素,如何利用这些参数才是关键。
https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/