AI 能力边界:同事 3 秒破案,AI 查了半小时还猜错

AI 能力边界:同事 3 秒破案,AI 查了半小时还猜错

上周让 AI 查一个线上工单。日志权限开着,数据库也通着,闭环该给的都给了。它自己翻日志、跑 SQL,分析像模像样,结论就是不对。我看着它忙活半小时,还想着再补点上下文喂一轮。这事我后来一直在想:AI 的能力边界到底在哪。

团队里干了五年的同事路过,瞄一眼工单描述,三秒钟:用户操作不当。

不查日志,不跑数据。就是知道。

AI 只能预测,不会判断

那一刻我反应过来,AI 不是被信息卡住的。它看得到所有数据,只是不会做那个判断。

LLM 本质是预测机器。给它日志,它能预测日志里接下来的模式;给它代码,它能预测下一行怎么写。预测这件事它很擅长。

但「用户操作不当」不是预测出来的。那是一个判断——看到这种描述就知道问题不在系统侧,压根不用查日志。预测和判断是两件性质不同的事。

AI 能接手的是预测那一半,判断那一半得你自己下。

那位同事凭什么三秒就下得了这个判断?

AI 直觉判断从哪来

答案藏在一个不舒服的事实里:他那个判断,从来没被写下来过。

不在文档里,不在工单系统里,甚至不在他自己嘴里——真让他解释「你怎么一眼看出来的」,多半只能说「就是感觉」。

这种东西有个名字,叫隐性知识。哲学家 Polanyi 有句话被引了六十年:「我们能知道的,比我们能说出来的多。」专家直觉就是这种——靠经历磨出来,说不清楚,所以也没被写进任何文档、博客、Stack Overflow 回答,也就没进过 AI 的训练数据。

AI 学不到那个判断,不是因为模型不够大,是那部分知识根本不存在于文本里。

AI 的边界不是任务难度,是那部分知识有没有被写下来过。

有些领域 AI 能逼近人类直觉,靠的是结构化反馈。放射科读片,每张片子有标注、每个诊断有后续验证,判断就沉淀在有标签的数据里。大部分行业不是这样,排查问题靠经验、做产品靠手感、带团队靠悟性,本来就没被系统记录过。短期补不上。

所以 AI 更像一个放大器。你有判断力,它把执行放大十倍——你定方向,它替你翻日志、跑 SQL、改代码。你没有判断力,它还会拖着你在错误方向上狂奔半小时。

李想今年二月在朋友圈写过:顶级专家用 Agent 的杠杆远高于普通人,AI 时代专业差距不是缩小而是放大。

以前以为 AI 会抹平经验差距,现在反过来了。判断力只能自己长,靠一个一个工单、一次一次踩坑磨出来的。急不得,也省不了。

你有没有类似的时刻?AI 分析头头是道,结论就是不对。评论区说说,看看大家的盲区都长什么样。觉得这个角度说到点上,转给也在用 AI 的朋友。后面会接着写 AI 边界系列,想追的关注一下。