美文网首页
Python学习笔记-3群18组-杜杜狼-2017.8.2

Python学习笔记-3群18组-杜杜狼-2017.8.2

作者: 渡笃狼 | 来源:发表于2017-08-03 09:41 被阅读8次

Lesson 6 词频统计 - 中文分词

中文分词(Chinese Word Segmentation):将一个汉子序列切分成一个一个单独的词
停用词(Stop Words):数据处理时,需要过滤调某些词或字

  • 泛滥的词,如web, 网站
  • 语气助词,副词,介词,连接词
#分词方法
jieba.cut(content)
#优化分词效果: 增加自定义分词
jieba.add(word)
#优化分词效果: 导入自定义词典
jieba.load_userdict(filePath)

如何找相关领域的词库?

Lesson 7 词频统计-实现

Term frequency 某个词在该文档中出现的次数

分组统计函数
DataFrame.groupby(
by=列名数组
)[统计列名数组].agg({
'统计项名称':统计函数
})

列表包含
DataFrame.Column_name.isin(数组)

取反
df[~df.列名.isin(数组)]

相关文章

网友评论

      本文标题:Python学习笔记-3群18组-杜杜狼-2017.8.2

      本文链接:https://www.haomeiwen.com/subject/warelxtx.html