文本,图像,视频,音频等等所有模态,只有这些单个是一个系统,我们就可以用一个统一的方式来模拟万物,而向量就是一个很不错的方式。
一个单词没有什么意义,但当多个单词组成一句话时就有了意义。
一个像素没有任何意义,但当多个像素组成一张图片时就呈现出了意义。
一张图片也可以没有意义,但当多个图片组成一部电影时就呈现出了意义。
一个人没有意义,但当多个人组成一个社会时就呈现出了意义。
等等……
我们把单个个人,设置一个多维的向量,例如100维度来表示一个单词,一个像素,一个图片,一个人,一个你能想到的任何一个东西。
然后这100维可以表示各种关系,例如人与人的关系,第一维度表示身高,第二个维度表示体重,第三个维度表示年龄,第N个维度表示社会地位,第100个维度表示情绪。
此时,我们通过通过计算这些一个个向量的相似度来进行认识等,在空间上就表现相似的人里的距离比较近,不相似的人则更远。











网友评论