AI 说它'懂'你,其实只是在算距离

费曼讲AI

上一讲说过:AI 不读字,读的是数字(Token)。但问题来了——数字本身没有意思。12345 比 67890 更像”猫”吗?这就是 Embedding 要解决的事:把冷冰冰的编号,变成有意义的坐标。每个词在 AI 眼里都有几百个维度的特征画像,意思相近的词坐标也相近——猫和狗是邻居,猫和火箭是陌生人。

最惊喜的一点:这些坐标可以做数学。国王 − 男人 + 女人 ≈ 女王。AI 的”类比推理”,其实就是坐标计算。而且不只是词,图片也可以 Embedding,“猫的照片”和”猫咪这个词”在向量空间里住得很近,这就是 AI 能做图文搜索的原因。