01-LLM能力和原理

01-LLM能力和原理说明

GPT本质上是在做一件事：根据已有内容，预测下一个最可能出现的符号（token）

GPT = 概率模型 + 向量空间 + 注意力机制 + 巨量数据训练

拆开成最原始数学思想：

例如：

“猫” → [0.21, -1.3, 0.77, ...]
“狗” → [0.19, -1.1, 0.80, ...]

相似词 → 向量距离近

大量操作本质是：

新向量 = W × 输入向量 + b

（线性变换）然后加非线性函数（ReLU、Softmax等）

核心公式极简版本：

Attention = softmax(QKᵀ / √d) × V

它说明了：哪些词对当前预测更重要？给更大权重。

比如：

P(“是”) = 0.42
P(“不是”) = 0.31
P(“可能”) = 0.18
...

然后选一个。

训练文本：

今天天气好今天天气热今天天气冷

统计：

前缀	下一个字概率
今天	天 (100%)
天气	好 33% 热 33% 冷 33%

马尔可夫链语言模型

设：

输入 = 上一个词的向量输出 = 下一个词概率

数学：

y = softmax(Wx + b)

输入多个词向量：

x1, x2, x3 ...

计算谁更重要：

权重 = 相似度(x当前, x过去)

加权求和 → 再预测

LLM的核心能力仍然是根据上下文预测下一个Token输出，通过大量数据训练输出长文本后，便是现代GPT。