Glittering's blog Glittering's blog
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)

Glitz Ma

前端开发工程师
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)
  • 技术文档

  • 算法

  • 工作总结

    • 时区校正
    • 上传下载文件方式总结
    • web异常监控和分析
    • 前端优化指南
    • http缓存机制
    • 静态资源灰度发布
    • 浏览器原理及渲染机制
    • Chrome DevTools 渲染分析实战
    • Layout Thrashing(布局抖动)
    • Composite Layer(合成层)
    • 全局设置滚动条样式好吗?
    • 虚拟列表如何避免Layout和Paint
    • 前端安全知识
    • 安全(同源策略 / CSP / CORS)
    • 浏览器安全模型
    • 从chrome v8 讲安全
    • WebAssembly(Wasm)
    • XSS → JIT → 沙箱逃逸
    • 微前端总结
    • websocket聊天
    • Uni-app基础知识
    • react16高级特性
    • react16基础知识总结
    • vue2常见原理总结
    • vue2基础知识总结
    • webpack优化实践
    • webpack基础应用知识总结
    • Agent Skills是什么?跟MCP Workflow Command Prompt的关系。
    • 从cnn到transformer全解大模型
    • 什么是 Encoder 和 Decoder 结构
    • GPT 为什么能“看懂”问题
    • GPT 是怎么学会数学的
      • 一、第一层:它“看过”大量数学文本
      • 二、第二层:数学也是“符号模式”
      • 三、第三层:Transformer 能建模“步骤结构”
      • 四、第四层:它学会了“推理格式”
      • 五、第五层:它在内部形成了“抽象表示”
      • 六、但它真的“会算”吗?
      • 七、为什么规模越大数学越好?
      • 八、真正提升数学能力的方法
      • 九、一个直观类比
      • 十、最终总结
    • 容器领域必学的黄金组合
    • 小程序笔记
    • 小程序工程模板设计
    • 地图标绘--射线法来计算点在多边形内
  • 实用技巧

  • 收藏夹

  • 技术
  • 工作总结
mamingjuan
2026-02-22
目录

GPT 是怎么学会数学的

GPT 只是预测下一个词, 那它怎么会做数学?

我们分五层讲清楚,从直觉到原理。


# 一、第一层:它“看过”大量数学文本

像 GPT-3、GPT-4(来自 OpenAI)在训练时读了:

  • 数学教材
  • 论文
  • 题解
  • 论坛讨论
  • StackOverflow
  • 代码库
  • 教辅资料

它看过无数这样的模式:

问题:2 + 3 =
步骤:
2 + 3 = 5
答案:5
1
2
3
4
若 x + 2 = 5
则 x = 3
1
2

所以第一步:

它学会了“数学表达的语言结构”。

但这还不够。


# 二、第二层:数学也是“符号模式”

很多初级数学,本质是模式匹配。

例如:

a + b = b + a
1

交换律。

模型在训练中会反复看到:

2 + 3 = 5
3 + 2 = 5
1
2

久而久之,它学到:

加法是可交换的模式。

注意:

它不是背答案。

它是在学:

符号之间的统计关系。


# 三、第三层:Transformer 能建模“步骤结构”

关键来了。

GPT 基于 Transformer(论文:Attention Is All You Need)。

Attention 机制允许:

  • 当前 token 关注前面所有 token
  • 建立多步逻辑关系

例如:

若 x + 2 = 5
两边减 2
x = 3
1
2
3

模型会学到:

  • “两边减 2”通常接在“+2”的方程后
  • 变形后等号两边要一致

这是一种“步骤结构学习”。


# 四、第四层:它学会了“推理格式”

非常重要的一点是:

模型不只是学数学结果,

它还学会了:

解题的语言套路。

比如:

  • “首先……”
  • “因此……”
  • “由此可得……”
  • “代入可得……”

当你问:

解方程 3x + 6 = 12

如果模型直接输出答案,容易错。

但如果它输出:

3x + 6 = 12
两边减 6
3x = 6
x = 2
1
2
3
4

准确率会大幅提高。

这叫:

Chain-of-Thought(思维链)

研究发现:

当模型规模足够大时,

只要提示“请一步步思考”,

数学能力会显著提升。

这是一种“涌现能力”。


# 五、第五层:它在内部形成了“抽象表示”

Transformer 会把数字、运算符、变量编码成高维向量。

这些向量不是简单数字。

它们包含:

  • 运算关系
  • 语法角色
  • 逻辑结构

比如在向量空间里:

2 + 3 ≈ 3 + 2
1

会很接近。

等式两边在向量空间中“对齐”。

这意味着:

模型在内部形成了代数结构的表示。


# 六、但它真的“会算”吗?

这里要讲清楚。

GPT 并不是传统计算器。

它没有:

  • 精确的算术单元
  • 符号推理引擎
  • 数学证明系统

它做的是:

基于概率预测最合理的下一个符号。

所以:

  • 小数运算容易错
  • 很大整数乘法容易错
  • 超复杂证明会崩

这说明:

它不是用算法算。

它是用“统计结构”近似计算。


# 七、为什么规模越大数学越好?

这涉及一个重要现象:

Scaling Law(规模定律)

当参数数量从百万 → 十亿 → 百亿 → 千亿时:

模型突然开始:

  • 具备多步推理能力
  • 理解抽象变量
  • 进行简单证明

这叫:

Emergent Ability(涌现能力)

不是人为加进去的。

而是当模型足够大时自然出现的。


# 八、真正提升数学能力的方法

现在的高级模型(例如 GPT-4)通常会结合:

  1. 预训练
  2. 思维链提示
  3. 强化学习
  4. 工具调用(如计算器)

当模型调用计算器时:

它就不再是“猜答案”,

而是:

推理 + 精确计算

这也是为什么现代 Agent 架构会结合工具。


# 九、一个直观类比

想象一个学生:

  • 看过几百万道题
  • 看过所有解题步骤
  • 熟悉所有表达方式

当你给他新题:

他会在脑海中匹配相似题型,

然后模仿步骤。

这就是 GPT 做数学的方式。


# 十、最终总结

GPT 学会数学靠五件事:

  1. 海量数学文本训练
  2. 学习符号模式
  3. Attention 建模步骤依赖
  4. 学会“推理表达格式”
  5. 大规模带来的涌现能力

但它不是传统符号计算系统。

它更像:

一个极度熟练的“模式推理机器”。

上次更新: 2026/02/22, 10:45:16
GPT 为什么能“看懂”问题
容器领域必学的黄金组合

← GPT 为什么能“看懂”问题 容器领域必学的黄金组合→

Copyright © 2015-2026 Glitz Ma
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式