美文网首页
文本去重

文本去重

作者: 斐小洛 | 来源:发表于2019-03-05 17:32 被阅读0次

simhash

分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
试用长文本去重,效率高,顺序无关

编辑距离

a变成b的最小操作次数
精确的文字比较,效率低

Jaccard系数

交集大小比并集大小
适用元素类文字比较,顺序无关

最长公共子序列

精确对比,效率低

相关文章

网友评论

      本文标题:文本去重

      本文链接:https://www.haomeiwen.com/subject/numouqtx.html