美文网首页
文本向量处理

文本向量处理

作者: VChao | 来源:发表于2020-04-04 17:43 被阅读0次

2020/04/04
文章[1]中对文本处理中的核心进行了说明:

  1. 怎么表示单词、句子
  2. 怎么表示单词或者句子中的语义信息
  3. 怎么衡量单词之间、句子之间的相似度。
    (上面这几点真的跟我现在研究的这个东西,我所要追求的东西,非常相似)
    文中提到了两种模型,词袋模型,也就是我之前在webshell检测中所使用的方式,但是他的使用方式更像是one-hot方式,就是只有是否出现,并没有具体的频率。可能是因为使用的范例问题。词袋模型的缺点包括1)不能计算词之间的相似度,他举出的范例是one-hot编码方式,感觉如果是词频的话,句子的相似度应该会高,跟我之前看的那本《海量数据挖掘》中提到的信息有关。
    2)利用词袋模型中会产生非常巨大的向量,但是这种向量的内容是非常稀疏的。
    词向量模型,这种模型把每个词都化为一个向量,这样就可以进行相似度的比较。同时维度可控。
    总结:文章[1]中说的是词袋模型,具体实现是one-hot形式;然后包括了词向量。

文章[2]中对这个定义就更具体,他的语言中说法是,对于文本向量化有三种方式,包括one-hot、词袋模型、TF-IDF。所以他的定义方式跟[1]中的不一样。
文章[3]中的说法更准确, 就是说词袋模型就是你把句子拆开,然后可以利用one-hot,或者词频,甚至是tf-idf来表示,而不是[2]中的将one-hot和词袋模型分开。
文章[4]中的说法验证我的的想法,one-hot只是词袋模型的一种说法。
关于具体的词向量内容,他们都没有具体说明,但是从[1]中的书说法,他就是将词转化为了一个向量。关于具体的实现,后面再来学习。


sklearn自带了相关的文本处理api[5],这里主要设计了使用词袋模型,还有tf-idf模型。这里的词袋模型会把这个词弄成频率的样子。
关于tf-idf的实现方式有两种,一种是词袋模型CountVectorizer之后,在利用TfidfTransformer 。或者,直接TfidfVectorizer。得到的结果是一样的。
[6]是对api的详解。

参考文献

[1]从词袋模型到词向量
[2]机器学习实践:中文文本预处理(one-hot/词袋模型/TF-IDF)
[3]词袋模型和词向量模型的区别,词向量模型算不算的上文本表示模型?
[4]如何系统学习文本分类
[5]文本数据预处理:sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
[6]sklearn——CountVectorizer详解

相关文章

  • 文本向量处理

    2020/04/04文章[1]中对文本处理中的核心进行了说明: 怎么表示单词、句子 怎么表示单词或者句子中的语义信...

  • 第四章 相似度分析算法——向量空间模型

    4.4 向量空间模型 向量空间模型是将文本转换为向量的代数模型,主要用于自然语言处理、文本分析等领域。目前,空间向...

  • 预训练文本表示学习资料

    文本表示,简单来说,就是把字符串变为数学上易于处理的向量,而怎么把字符串变成向量,这就是文本表示的核心问题,也是自...

  • word2vec概述

    文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种...

  • 词向量 - 实际动手使用word2vec

    在自然语言处理的任务中,无论哪种算法都需要将文本形态的词转换成为向量形式的词向量(word embedding)。...

  • python文本相似度计算

    步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 ...

  • 基于keras的文本分类

    1. 文本预处理 Step1 Tokenizer 文本标记实用类该类允许使用两种方法向量化一个文本语料库: 将每个...

  • 自然语言处理---文本表示

    1. 引言 所谓文本表示既是通过某种形式将文本字符串表示成计算机所能处理的数值向量。那么为什么要进行文本表示,根本...

  • 17、朴素贝叶斯文本向量化的不同方式

    一、短信分类(多种方法) 一、不同的文本向量化处理的方式 (一)CountVectorizer (二)TF-LDE...

  • 使用kears分析中文酒店评论(肯定和否定),基于CNN和RNN

    下载清华大学的宾馆评论数据集 处理数据文本文件 查看分词过的数据 将数据转成向量 查看向量数据 创建模型(使用CN...

网友评论

      本文标题:文本向量处理

      本文链接:https://www.haomeiwen.com/subject/eggjphtx.html