美文网首页
第四章 相似度分析算法——基于SimHash算法的指纹码

第四章 相似度分析算法——基于SimHash算法的指纹码

作者: 文颜 | 来源:发表于2019-10-23 11:06 被阅读0次

4.7 基于SimHash算法的指纹码

SimHash是一种局部敏感的哈希算法,其可以使得相似的文本信息具有相似的哈希值。通过计算海明距离,即计算两个合法代码对应位上编码不同的位数(即码距),表达两个文本的相似程度,这是SimHash最重要的特征。

4.7.1 SimHash引入

4.7.2 SimHash的计算流程

(1)分词与权重计算。

(2)哈希二进制计算。

(3)词语加权。

(4)合并累计。

(5)降维输出。

4.7.3 计算重复信息

对于文本A、B而言,用SimHash进行相似度计算的步骤如下:

(1)计算文本之间的SimHash值。

(2)计算SimHash的海明距离。海明距离越小表明二者之间相似度越高。

相关文章

网友评论

      本文标题:第四章 相似度分析算法——基于SimHash算法的指纹码

      本文链接:https://www.haomeiwen.com/subject/ebihvctx.html