美文网首页
NLP 分词

NLP 分词

作者: myxz | 来源:发表于2020-03-01 12:00 被阅读0次

资源

mantch的博客
NLP-LOVE/Introduction-NLP

stopwords

英文停用词
中文停用词

NLTK词性tag含义

NLTK词性tag含义

NLTK modules Introduction

image.png

切分

  • 将文章切分成句子
import nltk
from nltk.tokenize import sent_tokenize
sent_tokenize(text)
# 适用于大批量的句子切分
tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(text)
# 其它语言
french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
french_tokenizer.tokenize(text)
BlanklineTokenizer() # 将文章以空行划分,空行是指不包含任何字符的行,空格 space 和制表符 tab 除外,相应的正则表达式为:'\s\n\s\n\s*'
  • 句子切分为单词
nltk.word_tokenize(text), # 其中"isn't"被分割为"is"和"n't"
TreebankWordTokenizer # 同上等价
WordPunctTokenizer()# 单词标点分割,其中"isn't"被分割为"isn","'"  和“t"
WhitespaceTokenizer(), # 空格符号分割,"isn't"是一个整体。
PunktWordTokenizer() # 已弃用
WordPunctTokenizer() # 用正则表达式 “`\w+|[\w\s]+” 将字符串切分成字母和非字母字符
wordpunct_tokenize() # 同上
RegexpTokenizer("[\w]+") # 正则切分
SpaceTokenizer().tokenize(text) # 类似于split(' ')
WhitespaceTokenizer().span_tokenize(text) # 返回每个元素的起始位置和偏移量.空格包括space, tab, newline

word_tokenize,WordPunctTokenizer,TreebankWordTokenizer,WhitespaceTokenizer等CSDN博客
英文分词及词性标注_Python_journeyend的专栏-CSDN博客

标准化

主要涉及消除标点符号、将整个文本转换为大写或小写、数字转换成单词、扩展缩略词、文本的规范化等操作

替换和校正标识符

数据清洗的过程 例如, doesn’t 可以被替换为 does not

Zipf定律

出现频率越高,重要性越低
Zipf分布
Zipf分布2

image.png

这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率.(单词频率分布中 C约等于0.1, a约等于1)
后人将这个分布称为齐夫分布(长尾分布),这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入,互联网的网站数量和访问比例,互联网内容和访问比例(其他分布两个常数有所不同,a越大,分布越密集,对于VOD来说某些时候符合双zipf分布)。

相似性度量

两个文本字符串要比较相似性,显然不太适合用欧式距离,因为文本不是具体可计算的数字。但还是有些比较相似度的方法。

相关文章

  • NLP—博客推荐

    NLP词法、句法、语义、语篇综合系列:NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较NLP+词...

  • NLP 分词

    资源 mantch的博客NLP-LOVE/Introduction-NLP stopwords 英文停用词中文停用...

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

  • NLP-分词器设计

    1. 简介 主要介绍NLP中分词器实现原理,常用分词方法,创建自己的基于词典的分词器。 To be continued!

  • NLP基础

    NLP基础 NLP涉及知识 NLTK库 分词 TF-IDF 手动操作安装NLTK库 代码小练 什么是NLP 词处理...

  • 中文分词

    用过的中文分词有jieba,hanlp,word,grid,standford.nlp。 从分词原理的直接到间接说...

  • NLP 学习 - 3分类问题命名实体识别

    ? NLP中的分类问题 ? 2020年9月4日 一、分词算法 Jieba分词 http://github.co...

  • 一文让你了解中文分词

    分词,是NLP-自然语言处理(还不了解NLP的小伙伴点这里跳转)的重要步骤。 顾名思义,分词就是将句子、段落、文章...

  • FastAI08-NLP的分词化和数字化

    在NLP中,第一步基本上都是分词化(Tokenization)和数字化(Numericalization).分词化...

  • NLP—分词发展

    1基本信息 背景 存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在: 1.以英文为代表的拉丁语系语言...

网友评论

      本文标题:NLP 分词

      本文链接:https://www.haomeiwen.com/subject/qmiphhtx.html