Glittering's blog Glittering's blog
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)

Glitz Ma

前端开发工程师
Home
  • 学习手册

    • 《TypeScript教程》
    • 《Git》
    • 《Vite》
    • 《Vue3》
    • 《React18》
    • 《CSS》
    • 《Tailwind CSS》
    • 《JavaScript教程》
    • 《ES6 教程》
    • 《TypeScript 从零实现 axios》
  • 技术文档
  • 算法
  • 工作总结
  • 实用技巧
  • collect
About
  • Classification
  • Label
GitHub (opens new window)
  • 技术文档

  • 算法

  • 工作总结

    • 时区校正
    • 上传下载文件方式总结
    • web异常监控和分析
    • 前端优化指南
    • http缓存机制
    • 静态资源灰度发布
    • 浏览器原理及渲染机制
    • Chrome DevTools 渲染分析实战
    • Layout Thrashing(布局抖动)
    • Composite Layer(合成层)
    • 全局设置滚动条样式好吗?
    • 虚拟列表如何避免Layout和Paint
    • 前端安全知识
    • 安全(同源策略 / CSP / CORS)
    • 浏览器安全模型
    • 从chrome v8 讲安全
    • WebAssembly(Wasm)
    • XSS → JIT → 沙箱逃逸
    • 微前端总结
    • websocket聊天
    • Uni-app基础知识
    • react16高级特性
    • react16基础知识总结
    • vue2常见原理总结
    • vue2基础知识总结
    • webpack优化实践
    • webpack基础应用知识总结
    • Agent Skills是什么?跟MCP Workflow Command Prompt的关系。
    • 从cnn到transformer全解大模型
    • 什么是 Encoder 和 Decoder 结构
    • GPT 为什么能“看懂”问题
      • 一、先讲核心结论
      • 二、GPT 的训练方式决定了一切
      • 三、GPT 为什么“看起来懂问题”?
      • ① Transformer 的 Attention 机制
      • ② 大规模预训练带来的模式学习
      • ③ 表征学习(Representation Learning)
      • 四、举一个具体例子
      • 五、为什么 GPT 不用 Encoder 也能理解?
      • 六、那 GPT 真的“理解”吗?
      • 七、用一个简单类比
      • 八、总结一句话
    • GPT 是怎么学会数学的
    • 容器领域必学的黄金组合
    • 小程序笔记
    • 小程序工程模板设计
    • 地图标绘--射线法来计算点在多边形内
  • 实用技巧

  • 收藏夹

  • 技术
  • 工作总结
mamingjuan
2026-02-22
目录

GPT 为什么能“看懂”问题

很多人都会困惑:

GPT 不是“只会预测下一个词”吗? 那它为什么能“看懂问题”?


# 一、先讲核心结论

GPT 并不是“真的理解”问题。

它做的是:

在大量训练数据中学会了 ——当看到某种问题结构时, ——应该生成什么样的回答结构。

换句话说:

它学会了“问题 → 合理回答”的统计映射。

但这背后有非常深的机制。


# 二、GPT 的训练方式决定了一切

以 GPT-3、GPT-4 为例(来自 OpenAI)。

它们训练时做的事情只有一个:

" line-numbers-mode">
预测下一个词
1

比如给它:

地球绕着太阳____

它要预测:

运行

训练数据规模是:

    • 数千亿词
    • 来自书籍、网页、论文、对话

在这个过程中,它学会了:

    • 什么是问题
    • 什么是答案
    • 什么是解释
    • 什么是逻辑推理
    • 什么是数学步骤

# 三、GPT 为什么“看起来懂问题”?

因为三件事。


# ① Transformer 的 Attention 机制

GPT 基于 Transformer(论文:Attention Is All You Need)。

Attention 的核心能力是:

每个词都能关注前面所有词。

当你问:

为什么天空是蓝色的?

模型在生成回答时:

    • 会重点关注“为什么”
    • 关注“天空”
    • 关注“蓝色”

它通过注意力权重,捕捉:

    • 这是一个因果型问题
    • 需要解释原理
    • 不能只给定义

所以它不是乱猜。

它在建模“问题结构”。


# ② 大规模预训练带来的模式学习

在训练中,它看过无数这样的文本:

" line-numbers-mode">
问:为什么天空是蓝色?
答:因为光的瑞利散射……
1
2

久而久之,它学会:

    • “为什么”后面通常接因果解释
    • “是什么”后面通常接定义
    • “怎么做”后面通常接步骤

这不是记住某个答案。

而是学会:

语言中的结构规律。


# ③ 表征学习(Representation Learning)

这是最关键的一点。

在 Transformer 里,每个词都会变成一个高维向量。

这个向量不是简单的“词编号”。

它会编码:

    • 词义
    • 语法角色
    • 上下文关系
    • 情绪
    • 逻辑关系

当你问问题时:

模型内部会形成一个“语义空间状态”。

这个状态已经包含:

    • 你在问什么类型的问题
    • 需要什么类型的回答
    • 应该使用什么语气

它不是逐字匹配。

而是进入一种“语义状态”。


# 四、举一个具体例子

你问:

牛顿第二定律是什么?

模型内部发生:

    1. 识别“是什么” → 定义型问题
    1. 识别“牛顿第二定律” → 物理概念
    1. 激活相关知识表示
    1. 生成定义句式

所以输出:

牛顿第二定律表明,物体的加速度与合外力成正比,与质量成反比……

它看起来像“理解”。

但本质是:

在语义空间里预测“最合理的下一个词”。


# 五、为什么 GPT 不用 Encoder 也能理解?

因为 GPT 是 Decoder-only 模型。

但它的 Self-Attention 允许:

" line-numbers-mode">
当前词可以看到前面所有词
1

当输入是:

问题:为什么海水是咸的?

生成答案时:

每一步都能看到完整问题。

所以虽然它是“生成模型”,

但在生成前已经“读取并编码了问题”。

这相当于:

在生成过程中动态完成理解。


# 六、那 GPT 真的“理解”吗?

这是哲学问题。

从工程角度看:

它并没有意识。

但从功能角度看:

它已经学会:

    • 因果结构
    • 数学规则
    • 程序逻辑
    • 语言推理

而这些能力是“预测下一个词”自然涌现的。

这叫:

Emergent Ability(涌现能力)


# 七、用一个简单类比

想象一个人:

    • 读过全世界所有书
    • 看过所有问答
    • 记住所有表达模式
    • 学会所有推理结构

当你问他问题,

他不一定真的“理解宇宙”,

但他知道:

在这种语境下,最合理的回答是什么。

这就是 GPT。


# 八、总结一句话

GPT 之所以“看懂问题”,是因为:

    1. Attention 机制让它建模上下文关系
    1. 海量训练让它学会问题-回答结构
    1. 高维语义向量让它形成抽象表示

本质上:

它不是在“理解问题”, 它是在“预测一个合理回答”。

但当规模足够大时,

这种预测能力会表现得像理解。

上次更新: 2026/02/22, 10:45:16
什么是 Encoder 和 Decoder 结构
GPT 是怎么学会数学的

← 什么是 Encoder 和 Decoder 结构 GPT 是怎么学会数学的→

Copyright © 2015-2026 Glitz Ma
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式