美文网首页
文本相似

文本相似

作者: Ary_zz | 来源:发表于2020-01-11 11:16 被阅读0次

2020-01-10

杰卡德系数

image.png

1 - J(A,B)则被称为杰卡德距离,越大表明两个集合的相似度越小。

TF-IDF + 余弦相似性

  • 计算TF(两种参考算法):
  • 词频TF = 某个词在文章中出现的次数/文章的总词数
  • 词频TF = 某个词在文章中出现的次数/文章中出现的最多的词出现的次数
  • 计算IDF:
    首先需要有一个语料库,来模拟语言的使用环境。
  • IDF = log(语料库的文档总数/包含该词的文档数+1)

词袋模型和LSI模型

词袋
根据语料集,把所有的词都提取出来,编上序号,假设我们的语料集里有100个词,那么每个文章就是一个100维的向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。

LSI
每篇文本中有多个概率分布不同的主题,每个主题中都包含所有已知词,但是这些词在不同主题中的概率分布不同,LSI通过奇异值分解的方法,计算文本中的各个主题的概率分布。这样做的好处是,我们的向量从词的维度下降到文本的主题的维度,维度更少,计算更快。

相关文章

  • 2018-08-18

    文本细读,相似,寻找同类文本的相似点

  • 相似文本合并

    NLP文本相似度(TF-IDF)

  • 文本相似

    2020-01-10 杰卡德系数 1 - J(A,B)则被称为杰卡德距离,越大表明两个集合的相似度越小。 TF-I...

  • 余弦相似度理解及shengxin中应用

    cosin similarity(余弦相似度) 1,它最常见的应用是计算文本相似度。将文本转换为向量 2,余弦相似...

  • 文本计算

    2.2 中文分词 2.3 文本的表示 2.4 文本的相似度计算

  • 文本相似算法

    公司有很多场景需求,都需要用到了文本相似比对的算法。文本相似度算法比较常用的有余弦相似度,simHash算法,对文...

  • 2018-01-02 选择格式相似的文本

    开始→选择→选择格式相似的文本

  • es基本检索

    More_like_this 文本相似检索 属性介绍

  • senLDA实践—长短文本相似度

    背景:计算短文本与长文本的相似度,如在搜索场景中,计算query和doc的相似度,用于排序。 经过调研,找到百度的...

  • 1.TF-IDF

    [toc] 1. 为什么要引入TF-IDF 通过计算文本之间的余弦相似度来衡量文本之间的相似程度有以下几个问题: ...

网友评论

      本文标题:文本相似

      本文链接:https://www.haomeiwen.com/subject/obvpactx.html