01-LLM能力和原理
01-LLM能力和原理说明
GPT本质上是在做一件事:根据已有内容,预测下一个最可能出现的符号(token)
GPT 的核心结构
GPT = 概率模型 + 向量空间 + 注意力机制 + 巨量数据训练
拆开成最原始数学思想:
1. 把文字变成数字向量(embedding)
例如:
“猫” → [0.21, -1.3, 0.77, ...]
“狗” → [0.19, -1.1, 0.80, ...]
相似词 → 向量距离近
2. 通过矩阵运算混合信息
大量操作本质是:
新向量 = W × 输入向量 + b
(线性变换)然后加非线性函数(ReLU、Softmax等)
3. 用注意力机制做“加权关注”
核心公式极简版本:
Attention = softmax(QKᵀ / √d) × V
它说明了:哪些词对当前预测更重要?给更大权重。
4. 输出“下一个词”的概率分布
比如:
P(“是”) = 0.42
P(“不是”) = 0.31
P(“可能”) = 0.18
...
然后选一个。
模型1:最小概率语言模型(无需深度学习)
训练文本:
今天天气好 今天天气热 今天天气冷
统计:
| 前缀 | 下一个字概率 |
|---|---|
| 今天 | 天 (100%) |
| 天气 | 好 33% 热 33% 冷 33% |
马尔可夫链语言模型
模型2:最小神经网络预测器
设:
输入 = 上一个词的向量 输出 = 下一个词概率
数学:
y = softmax(Wx + b)
模型3:加入注意力
输入多个词向量:
x1, x2, x3 ...
计算谁更重要:
权重 = 相似度(x当前, x过去)
加权求和 → 再预测
核心能力
LLM的核心能力仍然是根据上下文预测下一个Token输出,通过大量数据训练输出长文本后,便是现代GPT。