美文网首页
2021-04-10 ch7 文本表示

2021-04-10 ch7 文本表示

作者: 柠樂helen | 来源:发表于2021-05-08 20:39 被阅读0次

文本表示基础

单词和句子的表示

迭代1:one-hot表示
词库:[今天 天气 很好]
句子1:[今天 天气 很好] = [1,1,1]
缺点:没有顺序和权重;稀疏;无法比较语义相似度

迭代2:出现次数
句子1:[今天 天气 很好 很好 啊] = [1,1,2]
缺点:所以,如果只记录单词的个数也是不够的,我们还需要考虑单词的权重,也可以认为是质量。这有点类似于,一个人有很多朋友不代表这个人有多厉害,还需要社交的质量,其实是同一个道理。 那如何把这种所谓的“质量”引入到表示中呢?答案是tf-idf

迭代3:TF-IDF
首先,单词在该篇文档中的频率要高,同时,单词不能出现在过多的文档中。例如,“的”会100%出现在任何一篇文档中,因此 idf("的") = log(100/100) = 0
向量长度为词库的长度
对每一个词库的单词进行计算tfidf(w)

image.png

计算向量相似度
欧氏距离,没有考虑方向;通常使用 余弦相似度

import numpy as np
def cos_sim(a, b):
    """给定两个向量,a和b,计算它俩之间的余弦相似度
    """
    dot_product = np.dot(a,b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

词向量基础

image.png
image.png

词向量到句向量

mean_pooling

相关文章

  • 2021-04-10 ch7 文本表示

    文本表示基础 单词和句子的表示 迭代1:one-hot表示词库:[今天 天气 很好]句子1:[今天 天气 很好] ...

  • 文本表示

    Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist...

  • 一、文本表示

    1、为什么需要文本表示 文字是人类认知过程中产生的高层认知抽象实体,我们需要将其转换为神经网络可以处理的数据类型。...

  • 5 文本表示

    离散表示 One-hot One-hot表示很容易理解。在一个语料库中,给每个字/词编码一个索引,根据索引进行on...

  • 1112-The Willpower Instinct-Ch7:

    阅读内容: Ch7: Putting the future on sale: the economics of i...

  • 文本表示|独热编码|整数编码|词嵌入

    文本表示(Representation) 作用:将非结构化的信息(文本)转化为结构化的信息(向量) 文本表示的方法...

  • word2vec概述

    文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种...

  • (22)文本表示模型

    (1)TF-IDF模型 属于词袋模型,TF-IDF(t,d)= TF(t,d)*IDF(t) TF(t,d)表示...

  • Steve Jobs-04-伟大的艺术家窃取灵感

    阅读章节: Ch7 - Chrisann and Lisa: He who is abandoned… Ch8 -...

  • NLP入门实战——基于机器学习的文本分类

    一、文本表示方法 词嵌入(Word Embedding):通过将不定长的文本转换到定长的空间内,从而使得文本表示成...

网友评论

      本文标题:2021-04-10 ch7 文本表示

      本文链接:https://www.haomeiwen.com/subject/yahokltx.html