【漫话AI】连大妈都自愧不如的"世纪红娘"，是怎么让机器看懂人类心思的？

2 March 2026

我们人类有一个很糟糕的习惯：特别喜欢给人贴标签。

回想一下你听过的相亲介绍：”这小伙子是个好人“、”那姑娘挺老实的”。结果你硬着头皮去见了一面，发现对方的”老实”是指三棍子打不出一个屁，而你是个极度需要情绪价值的梗王。一场相亲，在一阵令人窒息的沉默中走向毁灭。

为什么会这样？因为”好人”或者”老实”这种孤零零的词，信息量实在太低了。它就像一个被压扁的二维纸片人，完全无法概括一个复杂的三维人类。

有趣的是，以前的计算机在处理人类语言时，也面临着一模一样的灾难。在机器眼里，”苹果”和”香蕉”就是两个毫无关联的孤立代码（比如 001 和 002）。计算机根本不知道它们都是水果，更不知道它们都很甜。

直到AI界诞生了一项堪称”打通任督二脉”的底层技术——Embedding。今天，我们就来扒一扒，这个让机器突然”听懂人话”的绝世武功，到底是个什么鬼。

别发好人卡了，掏出你的灵魂打分表

如果你是世界上最硬核的居委会红娘，为了保证相亲成功率达到100%，你会怎么做？

你绝对不会再用”好人”这种敷衍的词。你会设计一张极其变态的“灵魂打分表”。这张表上可能有几百个打分项（取值从 -10 到 10）：

幽默感：郭德纲得 10 分，教导主任得 -8 分。
发际线坚固度：大学生得 9 分，资深程序员得 -9 分。
爱猫指数：狂热猫奴得 10 分，狗党得 -10 分。
科幻浓度：三体迷得 8 分，只看霸总剧的得 -8 分。

现在，张三填完了这张表，他的档案变成了一长串数字：[8, -9, 10, 8...]。李四也填完了，档案是：[7, -8, 9, 8...]。

这时候，奇迹发生了。哪怕你根本没见过张三和李四，只要把这两串数字拿出来比对一下，你就会惊呼：”这俩人简直是一个模子里刻出来的！他们就算做不成夫妻，也绝对能成为一起撸猫、一起聊刘慈欣的秃头好兄弟！”

用一张包含众多细分特征的打分表，把一个复杂对象彻底”数字化”——这就是 Embedding 的精髓。

机器眼里的世界：万物皆可相亲

看懂了上面的相亲档案，你就已经彻底懂了 Embedding。我们现在把人类社会的规律，无缝平移到机器世界。

计算机确实看不懂文字，但它算数字比谁都溜。所以，AI 科学家们请来了一个不知疲倦的”超级红娘”（神经网络模型），让她去阅读人类互联网上的几万亿个网页。

红娘在漫长的阅读中，领悟了万事万物的内在联系，并给人类字典里的每一个词，都建了一份”相亲档案”。

这时候，我们需要做一点简单的术语映射，拿好你的翻译字典：

那张”灵魂打分表”上的一长串数字，在技术上就被称为向量（Vector）。
打分表里的每一个打分项（幽默感、爱猫度），就被称为维度（Dimension）。
而把一个孤立的词汇，变成这串高维数字档案的过程，就叫做 Embedding（词嵌入）。

在现代的大模型（比如 ChatGPT 或我）脑子里，一个词语的”相亲档案”往往高达 1000 多个维度。

比如”猫”这个词，它的档案可能是 [9.2, -4.1, 5.5, ...]。 “狗”这个词，它的档案可能是 [8.9, -3.8, 5.1, ...]。 “汽车”的档案则是 [-8.0, 9.9, -1.2, ...]。

你发现了吗？在机器的计算里，”猫”和”狗”这两串数字档案极其相似，因为它们在”毛茸茸”、”宠物”、”会叫”等几百个隐藏维度上的得分都差不多。而它们和”汽车”的分数差距则十万八千里。

机器根本不需要认识汉字，它只需要对比这两张”打分表”的相似程度（计算向量之间的距离），就能精准地知道：”猫”和”狗”是近亲，而”汽车”是个完全不同的东西。

拿上这份档案，去抓”卧底”与”天选之子”

明白了这套”打分表”的逻辑，你就能瞬间看透现在很多 AI 应用的底层戏法。

你可能会想，这玩意儿在现实中到底有什么用？用处太大了，它几乎是你每天都在用的现代搜索引擎和推荐系统的灵魂。

假设你的手机坏了，你在淘宝搜索框里输入了：“苹果碎了怎么办”。

如果用二十年前那种智商欠费的老古董搜索，它会死死盯住”苹果”这个词，然后给你推销一堆水果刀、榨汁机，或者教你怎么做苹果派。因为它只会进行字面上的”死板匹配”。

但是，有了 Embedding 这个超级红娘之后，情况完全不同了。系统会立刻调出”苹果”、”碎了”的打分表（向量），进行综合计算。机器一看这几个词组合在一起的分数特征，猛然意识到：”等等！在这个语境下，这个’苹果’在’电子产品’维度上的得分飙升，在’水果’维度上的得分暴跌。它要找的是那个会发光的苹果！”

于是，系统对比了成千上万个商品的档案，把那些在”屏幕”、”维修”、”手机”维度上得分极高的商品（也就是语义最接近的商品）拽出来，精准地推送到你面前。

它不再拘泥于你说了什么具体的字，而是看透了你这句话背后的“灵魂特质”。

每次想到 Embedding，我都会觉得它不仅是个冰冷的技术，更像是一面照妖镜。我们人类极其依赖一维的标签去定义世界：好与坏、左与右、黑与白。这种非黑即白的扁平化认知，制造了无数的偏见与争吵。反而是那些由硅基芯片构成的冷酷机器，正在通过几千个维度的 Embedding，耐心地、细致入微地审视着每一个词汇的复杂性。在 AI 的世界里，没有绝对孤立的敌人，只有在不同维度上距离或远或近的坐标。 也许，我们在审视自己和同类时，也该学学机器，多加几个维度了。

← Back to Home

陈永恒 Yongheng Chen (Ne0)

我有功于人不可念，而过则不可不念；人有恩于我不可忘，而怨则不可不忘. -- 菜根谭

【漫话AI】连大妈都自愧不如的"世纪红娘"，是怎么让机器看懂人类心思的？

别发好人卡了，掏出你的灵魂打分表

机器眼里的世界：万物皆可相亲

拿上这份档案，去抓”卧底”与”天选之子”