美文网首页NLP
gensim公司技术文档

gensim公司技术文档

作者: 偷了月光的猫 | 来源:发表于2019-11-21 09:37 被阅读0次

1,文本的数据清洗:

过滤文章中包含无用词的语句

去除文章中特定词性的词

提取全部文本

将空文本去除

2.生成词典并向量转化

3.主题向量的转化

1)首先将模型对象的始化。通Gensim模型接受一段训练集(注意在Gensim中,语料对应着一个稀疏向量的迭代器)作为初始化的参数。

(2)利用初始化的模型将语料转化为对象的向量

1)TFIDF(词频逆文档频率)

2)LSI(潜在语义索引)

 将词袋模型或TFIDF空间映射到低维度的潜在空间,推荐200-500为金标准,在达观数据的长文本分类中,尝试350的维度分数得分优于其他维度。LSI可以进行增量训练,只要有新文档可以一直输入模型当中,通过add_document方法。如果python报memoryerror,那就是内存不够了,需要降低维度。

3)LDA(隐含狄利克雷分配)

       LDA是LSA的概率扩展,也是向低纬度转化的方式

4)RP(随即映射)

 目的在于减小空维度,通过随机性,近似的到文档之间的TFIDF距离,但对于大数据量很慢

4.相似度匹配

  在得到文章对应的主题向量以后,就可以进行相似性匹配,将多个文档遍历进行匹配,然后排序选择相似度最大的文章,取其在训练集中对应的分类编号,作为测试文档的类别。在单纯使用LSI向量,不加入TFIDF的情况下,准确率不高。

   如果单纯将corpus转化为LSI向量,需要将测试文章用LSI模型转化一次:

相关文章

  • gensim公司技术文档

    1,文本的数据清洗: 过滤文章中包含无用词的语句 去除文章中特定词性的词 提取全部文本 将空文本去除 2.生成词典...

  • 文本相似度的计算

    Gensim学习笔记-1.Corpora模块和向量空间表示 docsim学习--比较文档之间的相似度 Gensim...

  • gensim简介

    介绍 Gensim是一个用于从文档中自动提取语义主题的Python库,足够智能,堪比无痛人流。Gensim可以处理...

  • 【Gensim训练Word2Vec】参数详解

    用gensim函数库训练Word2Vec模型有很多配置参数。 这里对gensim文档的Word2Vec函数的参数说...

  • gensim计算文档相似度

    gensim是一个基于Python语言的开源工具集,用于处理向量空间模型(vector space modelin...

  • Similarity Queries for Security

    Introduction of Gensim Gensim is a free Python library de...

  • 基于gensim计算文档相似性

    gensim 官网: https://radimrehurek.com/gensim/tutorial.html ...

  • gensim训练word2vec语料库初探

    NLP技术已经非常成熟,各行各业都需要有专门的NLP技术。网上介绍gensim的材料很多,有几种类型: 翻译,摘录...

  • 2020-04-23

    这两天在帮公司赶一个招标文档,狂查了一堆新的概念,论文,国外技术文档。总体感觉成立一家公司真的好难,小公司的技术主...

  • 西柚买手app编写的技术文档

    前言 上家公司已经倒闭重组在当时技术会议上时负责编写的技术文档,技术文档所涉及的东西都是当时接手项目以后修改的架构...

网友评论

    本文标题:gensim公司技术文档

    本文链接:https://www.haomeiwen.com/subject/uluruqtx.html