4.7 基于SimHash算法的指纹码
SimHash是一种局部敏感的哈希算法,其可以使得相似的文本信息具有相似的哈希值。通过计算海明距离,即计算两个合法代码对应位上编码不同的位数(即码距),表达两个文本的相似程度,这是SimHash最重要的特征。
4.7.1 SimHash引入
4.7.2 SimHash的计算流程
(1)分词与权重计算。
(2)哈希二进制计算。
(3)词语加权。
(4)合并累计。
(5)降维输出。
4.7.3 计算重复信息
对于文本A、B而言,用SimHash进行相似度计算的步骤如下:
(1)计算文本之间的SimHash值。
(2)计算SimHash的海明距离。海明距离越小表明二者之间相似度越高。













网友评论