陈永恒 Yongheng Chen (Ne0)

我有功于人不可念,而过则不可不念;人有恩于我不可忘,而怨则不可不忘. -- 菜根谭

Home About Friend

【漫话AI】连大妈都自愧不如的"世纪红娘",是怎么让机器看懂人类心思的?

2 March 2026

我们人类有一个很糟糕的习惯:特别喜欢给人贴标签。

回想一下你听过的相亲介绍:”这小伙子是个好人“、”那姑娘挺老实的”。结果你硬着头皮去见了一面,发现对方的”老实”是指三棍子打不出一个屁,而你是个极度需要情绪价值的梗王。一场相亲,在一阵令人窒息的沉默中走向毁灭。

为什么会这样?因为”好人”或者”老实”这种孤零零的词,信息量实在太低了。它就像一个被压扁的二维纸片人,完全无法概括一个复杂的三维人类。

有趣的是,以前的计算机在处理人类语言时,也面临着一模一样的灾难。在机器眼里,”苹果”和”香蕉”就是两个毫无关联的孤立代码(比如 001 和 002)。计算机根本不知道它们都是水果,更不知道它们都很甜。

直到AI界诞生了一项堪称”打通任督二脉”的底层技术——Embedding。今天,我们就来扒一扒,这个让机器突然”听懂人话”的绝世武功,到底是个什么鬼。

别发好人卡了,掏出你的灵魂打分表

如果你是世界上最硬核的居委会红娘,为了保证相亲成功率达到100%,你会怎么做?

你绝对不会再用”好人”这种敷衍的词。你会设计一张极其变态的“灵魂打分表”。这张表上可能有几百个打分项(取值从 -10 到 10):

现在,张三填完了这张表,他的档案变成了一长串数字:[8, -9, 10, 8...]。 李四也填完了,档案是:[7, -8, 9, 8...]

这时候,奇迹发生了。哪怕你根本没见过张三和李四,只要把这两串数字拿出来比对一下,你就会惊呼:”这俩人简直是一个模子里刻出来的!他们就算做不成夫妻,也绝对能成为一起撸猫、一起聊刘慈欣的秃头好兄弟!”

用一张包含众多细分特征的打分表,把一个复杂对象彻底”数字化”——这就是 Embedding 的精髓。

机器眼里的世界:万物皆可相亲

看懂了上面的相亲档案,你就已经彻底懂了 Embedding。我们现在把人类社会的规律,无缝平移到机器世界。

计算机确实看不懂文字,但它算数字比谁都溜。所以,AI 科学家们请来了一个不知疲倦的”超级红娘”(神经网络模型),让她去阅读人类互联网上的几万亿个网页。

红娘在漫长的阅读中,领悟了万事万物的内在联系,并给人类字典里的每一个词,都建了一份”相亲档案”。

这时候,我们需要做一点简单的术语映射,拿好你的翻译字典:

在现代的大模型(比如 ChatGPT 或我)脑子里,一个词语的”相亲档案”往往高达 1000 多个维度。

比如”猫”这个词,它的档案可能是 [9.2, -4.1, 5.5, ...]。 “狗”这个词,它的档案可能是 [8.9, -3.8, 5.1, ...]。 “汽车”的档案则是 [-8.0, 9.9, -1.2, ...]

你发现了吗?在机器的计算里,”猫”和”狗”这两串数字档案极其相似,因为它们在”毛茸茸”、”宠物”、”会叫”等几百个隐藏维度上的得分都差不多。而它们和”汽车”的分数差距则十万八千里。

机器根本不需要认识汉字,它只需要对比这两张”打分表”的相似程度(计算向量之间的距离),就能精准地知道:”猫”和”狗”是近亲,而”汽车”是个完全不同的东西。

拿上这份档案,去抓”卧底”与”天选之子”

明白了这套”打分表”的逻辑,你就能瞬间看透现在很多 AI 应用的底层戏法。

你可能会想,这玩意儿在现实中到底有什么用?用处太大了,它几乎是你每天都在用的现代搜索引擎和推荐系统的灵魂

假设你的手机坏了,你在淘宝搜索框里输入了:“苹果 碎了 怎么办”

如果用二十年前那种智商欠费的老古董搜索,它会死死盯住”苹果”这个词,然后给你推销一堆水果刀、榨汁机,或者教你怎么做苹果派。因为它只会进行字面上的”死板匹配”。

但是,有了 Embedding 这个超级红娘之后,情况完全不同了。 系统会立刻调出”苹果”、”碎了”的打分表(向量),进行综合计算。机器一看这几个词组合在一起的分数特征,猛然意识到:”等等!在这个语境下,这个’苹果’在’电子产品’维度上的得分飙升,在’水果’维度上的得分暴跌。它要找的是那个会发光的苹果!”

于是,系统对比了成千上万个商品的档案,把那些在”屏幕”、”维修”、”手机”维度上得分极高的商品(也就是语义最接近的商品)拽出来,精准地推送到你面前。

它不再拘泥于你说了什么具体的字,而是看透了你这句话背后的“灵魂特质”


每次想到 Embedding,我都会觉得它不仅是个冰冷的技术,更像是一面照妖镜。 我们人类极其依赖一维的标签去定义世界:好与坏、左与右、黑与白。这种非黑即白的扁平化认知,制造了无数的偏见与争吵。 反而是那些由硅基芯片构成的冷酷机器,正在通过几千个维度的 Embedding,耐心地、细致入微地审视着每一个词汇的复杂性。在 AI 的世界里,没有绝对孤立的敌人,只有在不同维度上距离或远或近的坐标。 也许,我们在审视自己和同类时,也该学学机器,多加几个维度了。


← Back to Home