美文网首页
NLP之数据预处理(二)

NLP之数据预处理(二)

作者: 种花家的码农 | 来源:发表于2024-04-08 15:51 被阅读0次

NLP中数据预处理主要是为文本数据的处理过程。文本处理的一般步骤:分词、构建词汇表、向量化。

  1. 单词分割(分词):Tokenization(Text to Words)
    分词是NLP的基础任务,按照特定需求能把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token 或叫词语)方便后续的处理分析工作。
    分词的目的是将复杂问题转化为数字问题,即指将文本的非结构化数据转化为【结构化的数据】,这样就可以将数据转化为数学问题。因为机器学习中绝大多数模型是不支持字符串的(除了决策树模型),想要模型能够进行顺利有效地学习,必须对字符串数据先数值化。
    Tokenization按切分的粒度分成了三大类,一是按词粒度来分,二是按字符粒度来分,三是按subword(子词粒度来分)。

  2. 统计频率构建词汇表(vocabulary)

  3. 词向量(word embedding)化

词向量,也称词嵌入技术,是通过将单词、句子甚至图像转化为计算机可认识的向量数据,它不仅仅改善了文本的表示方式,更重要的是,它捕捉到了语言的本质和丰富的语义。今天,词嵌入技术也是LLM的核心技术之一,也是Transformer的初始输入形式(Input Embedding)

相关文章

网友评论

      本文标题:NLP之数据预处理(二)

      本文链接:https://www.haomeiwen.com/subject/hakitjtx.html