#AI

01-LLM能力和原理


01-LLM能力和原理说明

GPT本质上是在做一件事:根据已有内容,预测下一个最可能出现的符号(token)

GPT 的核心结构

GPT = 概率模型 + 向量空间 + 注意力机制 + 巨量数据训练

拆开成最原始数学思想:

1. 把文字变成数字向量(embedding)

例如:

“猫” → [0.21, -1.3, 0.77, ...]
“狗” → [0.19, -1.1, 0.80, ...]

相似词 → 向量距离近

2. 通过矩阵运算混合信息

大量操作本质是:

新向量 = W × 输入向量 + b

(线性变换)然后加非线性函数(ReLU、Softmax等)

3. 用注意力机制做“加权关注”

核心公式极简版本:

Attention = softmax(QKᵀ / √d) × V

它说明了:哪些词对当前预测更重要?给更大权重。

4. 输出“下一个词”的概率分布

比如:

P(“是”) = 0.42
P(“不是”) = 0.31
P(“可能”) = 0.18
...

然后选一个。

模型1:最小概率语言模型(无需深度学习)

训练文本:

今天天气好 今天天气热 今天天气冷

统计:

前缀下一个字概率
今天天 (100%)
天气好 33% 热 33% 冷 33%

马尔可夫链语言模型

模型2:最小神经网络预测器

设:

输入 = 上一个词的向量 输出 = 下一个词概率

数学:

y = softmax(Wx + b)

模型3:加入注意力

输入多个词向量:

x1, x2, x3 ...

计算谁更重要:

权重 = 相似度(x当前, x过去)

加权求和 → 再预测

核心能力

LLM的核心能力仍然是根据上下文预测下一个Token输出,通过大量数据训练输出长文本后,便是现代GPT。

× Preview