美文网首页
SimHash和MinHash

SimHash和MinHash

作者: 吹洞箫饮酒杏花下 | 来源:发表于2017-12-20 15:03 被阅读0次

在搜索中,文本滤重可以节省存储空间,并使得排序效果更优。在推荐中,如果应用协同过滤算法,可以节省计算时间。不管在哪种应用场景下,面临的问题都是,需要滤重的对象的数量非常大,且其特征的表示维度非常高,如果进行两两的比较,那么时间复杂度和空间复杂度都很高。因此,1要对特征进行降维,但是降维后的特征仍可计算相似度,根据降维的算法不同,计算相似度的算法不同。(局部敏感哈希LSH可以将相似的字符串hash得到相似的hash值。)2 不能两两进行比较,需要根据降维后的特征,选出候选的最可能相似的两两进行比较即可,把完全不可能相似的排除在外。

在google的论文里,再论文本身的滤重中用到了SIMHash。在论文的推荐中用到了MinHash。两者都是局部敏感哈希。

SimHash

1. 首先基于传统的IR方法,将文章转换为一组加权的特征向量

2. 初始化一个f维的向量V,其中每一个元素初始值为0。

3. 对于文章的特征向量集中的每一个特征,做如下计算:

a) 利用传统的hash算法映射到一个f-bit(一般设成32位或者64位)的签名。对于这个f- bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值

b) 整个特征向量的集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。

汉明距离来衡量相似度。

Simhash算法比较高效,比较适用于对于长文本。

MinHash:集合A、B是docA、docB的one-hot词向量。

1. 使用一组随机的hash函数h(x)对集合A和B中的每个元素进行hash

2. hmin(A)、hmin(B)分别表示分别hash后集合A和集合B的最小值的向量。

3. jarcarrd距离来衡量相似度。

候选的选择:对于一个32位的指纹来说,将该指纹划分成4段(band),每个区间8位,如果两个指纹至多存在3(设k=3)位差异,那么至少有一段的8位是完全相同的,因此可以考虑利用分段来建立索引,来减少需要匹配的候选指纹数量。

SIMHash后的汉明距离为何可以衡量相似度:衡量两个文本的相似度可以看做衡量高维空间向量的夹角。

区别

SIMHash 不适合短文本?

场景特征: 数据量1亿+ ,线下做数据滤重。

但是没有每天新增n多数据。因此在对候选相似集合进行比较时,对性能要求不是特别高。

文本长度算是短文本。短文本测试如下,图为盗图。相似度在0.8左右的Hamming距离为7,只有相似度高到0.9412,Hamming距离才近到4,此时,反观Google对此算法的应用场景:网页近重复。

MinHash 适合稀疏的数据?

MinHash: 100维,10*10band 。0.7 and (0.7 or 0.7)   122行

50维,10*5band 。0.7 and (0.7 or 0.7)   82行

50维,5*10band 。0.7 and (0.7 or 0.7)  866行  1个半小时 

50维,2*25band 。0.7 and (0.7 or 0.7)  5%的reduce失败,未找到原因。但是1个半小时, 1w+ 行

相关文章

  • SimHash和MinHash

    在搜索中,文本滤重可以节省存储空间,并使得排序效果更优。在推荐中,如果应用协同过滤算法,可以节省计算时间。不管在哪...

  • 文本去重之MinHash算法

    1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由...

  • python查看simhash,minhash转换后的值

    看了下simhash, minhash算法原理。查到的大多是直接用它们做计算,但想了解下hash后的值长什么样子。...

  • 文本去重

    simhash 分词,hash,加权,降维,拿到simhash;计算simhash的海明距离试用长文本去重,效率高...

  • MinHash

  • 短文本相似度计算-simHash从原理到实现

    1、simHash简介 simHash算法是GoogleMoses Charikear于2007年发布的一篇论文《...

  • 2021-11-30 hive udf similarity

    MinHash and DIMSUM[https://hivemall.incubator.apache.org/...

  • LSH(局部敏感哈希)算法

    参考/摘自:minHash(最小哈希)和LSH(局部敏感哈希)[https://blog.csdn.net/liu...

  • Minhash原理

    minhash是一种基于jaccard index 相似度的算法。属于LSH(Location Sensitive...

  • SimHash

    1.采用Hanlp分词,再计算SimHash值,及Hamming距离。2.SimHash适用于较长文本(大于三五百...

网友评论

      本文标题:SimHash和MinHash

      本文链接:https://www.haomeiwen.com/subject/qffiixtx.html