GPT 是怎么学会数学的
GPT 只是预测下一个词, 那它怎么会做数学?
我们分五层讲清楚,从直觉到原理。
# 一、第一层:它“看过”大量数学文本
像 GPT-3、GPT-4(来自 OpenAI)在训练时读了:
- 数学教材
- 论文
- 题解
- 论坛讨论
- StackOverflow
- 代码库
- 教辅资料
它看过无数这样的模式:
问题:2 + 3 =
步骤:
2 + 3 = 5
答案:5
2
3
4
若 x + 2 = 5
则 x = 3
2
所以第一步:
它学会了“数学表达的语言结构”。
但这还不够。
# 二、第二层:数学也是“符号模式”
很多初级数学,本质是模式匹配。
例如:
a + b = b + a
交换律。
模型在训练中会反复看到:
2 + 3 = 5
3 + 2 = 5
2
久而久之,它学到:
加法是可交换的模式。
注意:
它不是背答案。
它是在学:
符号之间的统计关系。
# 三、第三层:Transformer 能建模“步骤结构”
关键来了。
GPT 基于 Transformer(论文:Attention Is All You Need)。
Attention 机制允许:
- 当前 token 关注前面所有 token
- 建立多步逻辑关系
例如:
若 x + 2 = 5
两边减 2
x = 3
2
3
模型会学到:
- “两边减 2”通常接在“+2”的方程后
- 变形后等号两边要一致
这是一种“步骤结构学习”。
# 四、第四层:它学会了“推理格式”
非常重要的一点是:
模型不只是学数学结果,
它还学会了:
解题的语言套路。
比如:
- “首先……”
- “因此……”
- “由此可得……”
- “代入可得……”
当你问:
解方程 3x + 6 = 12
如果模型直接输出答案,容易错。
但如果它输出:
3x + 6 = 12
两边减 6
3x = 6
x = 2
2
3
4
准确率会大幅提高。
这叫:
Chain-of-Thought(思维链)
研究发现:
当模型规模足够大时,
只要提示“请一步步思考”,
数学能力会显著提升。
这是一种“涌现能力”。
# 五、第五层:它在内部形成了“抽象表示”
Transformer 会把数字、运算符、变量编码成高维向量。
这些向量不是简单数字。
它们包含:
- 运算关系
- 语法角色
- 逻辑结构
比如在向量空间里:
2 + 3 ≈ 3 + 2
会很接近。
等式两边在向量空间中“对齐”。
这意味着:
模型在内部形成了代数结构的表示。
# 六、但它真的“会算”吗?
这里要讲清楚。
GPT 并不是传统计算器。
它没有:
- 精确的算术单元
- 符号推理引擎
- 数学证明系统
它做的是:
基于概率预测最合理的下一个符号。
所以:
- 小数运算容易错
- 很大整数乘法容易错
- 超复杂证明会崩
这说明:
它不是用算法算。
它是用“统计结构”近似计算。
# 七、为什么规模越大数学越好?
这涉及一个重要现象:
Scaling Law(规模定律)
当参数数量从百万 → 十亿 → 百亿 → 千亿时:
模型突然开始:
- 具备多步推理能力
- 理解抽象变量
- 进行简单证明
这叫:
Emergent Ability(涌现能力)
不是人为加进去的。
而是当模型足够大时自然出现的。
# 八、真正提升数学能力的方法
现在的高级模型(例如 GPT-4)通常会结合:
- 预训练
- 思维链提示
- 强化学习
- 工具调用(如计算器)
当模型调用计算器时:
它就不再是“猜答案”,
而是:
推理 + 精确计算
这也是为什么现代 Agent 架构会结合工具。
# 九、一个直观类比
想象一个学生:
- 看过几百万道题
- 看过所有解题步骤
- 熟悉所有表达方式
当你给他新题:
他会在脑海中匹配相似题型,
然后模仿步骤。
这就是 GPT 做数学的方式。
# 十、最终总结
GPT 学会数学靠五件事:
- 海量数学文本训练
- 学习符号模式
- Attention 建模步骤依赖
- 学会“推理表达格式”
- 大规模带来的涌现能力
但它不是传统符号计算系统。
它更像:
一个极度熟练的“模式推理机器”。