NLP之数据预处理（二）

NLP之数据预处理（二）

作者: 种花家的码农 | 来源:发表于2024-04-08 15:51 被阅读0次

Note - Pytorch + AllenNLP
NLP in TensorFlow:数据预处理
NLP入门：文本预处理（二）数据清洗
自然语言处理N天-AllenNLP学习（How-to 01）
自然语言处理N天-AllenNLP学习（Laziness in
使用CNN+ Auto-Encoder 实现无监督Sentenc
NLP预处理
论文研读一 A Joint Model of Intent D
算法笔记（13）数据预处理及Python代码实现
kaggle竞赛：Jigsaw Unintended Bias

NLP中数据预处理主要是为文本数据的处理过程。文本处理的一般步骤：分词、构建词汇表、向量化。

单词分割（分词）：Tokenization（Text to Words）
分词是NLP的基础任务，按照特定需求能把文本中的句子、段落切分成一个字符串序列（其中的元素通常称为token 或叫词语）方便后续的处理分析工作。
分词的目的是将复杂问题转化为数字问题，即指将文本的非结构化数据转化为【结构化的数据】，这样就可以将数据转化为数学问题。因为机器学习中绝大多数模型是不支持字符串的（除了决策树模型），想要模型能够进行顺利有效地学习，必须对字符串数据先数值化。
Tokenization按切分的粒度分成了三大类，一是按词粒度来分，二是按字符粒度来分，三是按subword(子词粒度来分)。
统计频率构建词汇表（vocabulary）
词向量（word embedding）化

词向量，也称词嵌入技术，是通过将单词、句子甚至图像转化为计算机可认识的向量数据，它不仅仅改善了文本的表示方式，更重要的是，它捕捉到了语言的本质和丰富的语义。今天，词嵌入技术也是LLM的核心技术之一，也是Transformer的初始输入形式（Input Embedding）。

相关文章

Note - Pytorch + AllenNLP
AllenNLP是基于pytorch 的NLP研究库，提供一些训练好的模型，对NLP过程中的数据预处理（读写数据集...
NLP in TensorFlow:数据预处理
Explore the BBC news archive。主要知识点为tokenizer和pad_sequence...
NLP入门：文本预处理（二）数据清洗
自然语言处理N天-AllenNLP学习（How-to 01）
有一篇帖子总结了学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。去除停用词，建立词典，加载各种预...
自然语言处理N天-AllenNLP学习（Laziness in
有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。去除停用词，建立词典，加载各...
使用CNN+ Auto-Encoder 实现无监督Sentenc
前言这篇文章会利用到上一篇：基于Spark /Tensorflow使用CNN处理NLP的尝试的数据预处理部分，...
NLP预处理
英语: 1.去杂乱: 1.1 转化为小写字母 1.2 数字转化为words 或者移除数字 1.3 移除标点符号其他...
论文研读一 A Joint Model of Intent D
由于个人习惯，系统设计、nlp任务，会从 `五个步骤、四个组件`来分析：系统设计五个步骤： 1. 数据预处理 2...
算法笔记（13）数据预处理及Python代码实现
常用数据预处理工具:使用StandardScaler进行数据预处理、使用MinMaxScaler进行数据预处理、使...
kaggle竞赛：Jigsaw Unintended Bias
1 数据预处理上面的句子用来预处理数据。

网友评论

本文标题：NLP之数据预处理（二）

本文链接：https://www.haomeiwen.com/subject/hakitjtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|NLP之数据预处理（二）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！