AI 为什么时而神准时而乱说？大模型的六个底层机制

2026年4月18日

你知道 AI 是怎么回答你的吗？

不是查数据库，不是在”脑子里”思考。大模型做的事情只有一件：猜下一个词。每次猜一个，猜完再猜，直到回答结束。

就这样。

正是这一件事，解释了 AI 所有奇怪的行为。为什么写代码很准，引用偏门论文会编造；为什么长会话之后开始”降智”；为什么同一个问题今天和明天答案不一样。

背后是六个机制串成的链：先把文字变成坐标（Token、Embedding），在桌上打分扫描（Attention、Context Window），按概率抽下一个词（Temperature、幻觉）。下面一段一段拆。

文字先变成坐标

AI 看不懂文字。

你输入的每一个字，在进入模型之前，要先翻译成数字。这些数字叫 Token。“你好，世界”翻译成 5 个数字，“Hello, world”翻译成 3 个。中文比英文用 Token 更”贵”：100 字中文大概消耗 150-200 个 Token，比同等内容的英文多出 50%。你用 AI 服务被按 Token 计费，原因就在这里。

但数字只是编号，“1234”和”1235”没有任何关系，AI 没法从编号里知道”快”和”迅速”是一回事。所以每个 Token 还要再做一步：变成坐标（Embedding）。

想象一张超大的语义地图，每个词都有自己的位置。“快”和”迅速”是邻居，“苹果水果”和”苹果公司”住在同一片区域但不在同一栋楼。AI 理解词义，靠的是看它住在地图哪里，不是靠背规则。

这个地图还能做方向计算：把”国王”的坐标减去”男人”再加上”女人”，结果落在”女王”旁边。向量算术。

上下文窗口的盲区

拿到坐标序列之后，AI 用**注意力（Attention）处理上下文关系：读每个词的时候，顺带扫一眼整个序列，给其他词打分：谁和我最相关？

“银行”和”取钱”放在一起，注意力集中在金融含义；和”路边”放在一起，注意力转向地理含义。每个词的意思由周围决定，不是孤立计算的。

但注意力能覆盖的范围有上限，叫上下文窗口（Context Window）。可以理解成 AI 的工作桌：桌子有多大，它能同时看多少东西。Claude Opus 4.7 的桌子是 1M Token，听起来很大，但官方建议过半就开始压缩上下文。超出桌子范围的内容，不是”记不清了”，是物理上不存在于视野里。

桌子看起来很大，但消耗比你想的快。系统设置、工具定义、历史对话、每轮输入输出，全部占桌面。写代码写了三小时，桌子上堆满了中间过程，最开始定好的架构约定，早就被推到了角落甚至掉下去了。

还有一个问题更隐蔽：桌子中间的东西，AI 最容易忽视。放在开头和结尾的内容，注意力权重更高。你在会话第 50 轮说的某个约定，远不如你在第 1 轮说的同一件事更被”听进去”。

**AI 越聊越降智，不是模型变差了，是桌子被杂物填满。有用的东西，被推到了边缘。

AI 的幻觉从哪来

每次生成下一个词时，AI 算出所有候选词的概率分布，然后按概率抽签。这里有个叫 Temperature 的参数，控制签桶里的签有多均匀。

调低，高概率的签变多，输出稳定可复现，写代码和数学推理适合这里。调高，签的分布变均匀，低概率的词也有机会被选中，头脑风暴和创意文案更合适。大多数产品默认值在 0.7 左右。

同一问题今天和明天答案略有不同，就是 Temperature 大于零的结果，不是故障。随机性是功能，不是 bug。

还有一件事。AI 没有任何模块在检查”我说的是真的吗”。

它只会猜词。猜得流畅，就继续猜，不管内容对不对。训练数据里反复出现的知识（代码语法、基础常识、主流概念），猜得很准。但遇到太具体的引用、太冷门的知识、训练截止日期之后的事，数据稀疏，它不会说”我不知道”，而是用听起来对的语言把空白填上。语气和说准确内容时一模一样。

这就是幻觉（Hallucination）。“爱因斯坦 1987 年在北京大学发表了一场著名演讲……”措辞严谨，语气确定，但爱因斯坦 1955 年就已经去世了。它不是在骗你。它压根没有”真假”这个概念，只有”流畅”。

大模型的六个底层机制：文字变成坐标 → 桌上打分扫描 → 按概率抽签

六个机制就是这些。

把文字变成坐标，在有限的桌子上打分扫描，按概率抽一个词，继续。没有魔法。

**AI 的错和 AI 的准，来自同一个机制。知道它怎么工作，什么时候该信、什么时候得查，心里就有数了。

阶段二讲怎么在这套机制上把 AI 用好：Prompt 设计、RAG、Agent。关注 YannTalk，下一篇继续。