美文网首页
Python笔记_3_jieba分词

Python笔记_3_jieba分词

作者: 商三郎 | 来源:发表于2017-11-15 11:14 被阅读0次

功能 1):分词

jieba.cut() 方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式

jieba.cut_for_search() 方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut() 以及jieba.cut_for_search() 返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list

代码示例( 分词 )

# -*- coding: utf-8 -*-

import jieba

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)

print "Full Mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我来到北京清华大学",cut_all=False)

print "Default Mode:", "/ ".join(seg_list) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式

print ", ".join(seg_list)

运行结果:

全模式:我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

精确模式:我/ 来到/ 北京/ 清华大学

默认模式(即精确模式):他, 来到, 了, 网易, 杭研, 大厦

搜索模式:小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

相关文章

  • Python笔记_3_jieba分词

    功能1):分词 jieba.cut() 方法接受两个输入参数:1)第一个参数为需要分词的字符串2)cut_all参...

  • 金伟的python学习笔记--分词与词云

    python金伟的学习笔记 分词技术(jieba分词) 安装:pip install jieba 算法介绍: 结巴...

  • Python_ jieba、snownlp中文分词、Pinyin

    一、安装 分词: jieba分词 snownlp 分词,Python3的环境下可以正常分词 Python2 环境下...

  • Python下的中文分词

    Python下常见的中文分词有盘古分词、Yaha分词、Jieba分词等。http://www.matrix67.c...

  • 分词练习

    一、jieba分词1.在cmd中安装结巴分词 python setup.py install 并在python环境...

  • 结巴中文分词介绍

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • jieba 分词学习 2018-10-26

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • jieba分词介绍

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同...

  • 常用Python中文分词工具

    1. jieba 分词 “结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件...

  • 分词 jieba - python笔记

    默认 词性过滤 自定义词典 词性过滤 自定义词典 词典:UTF-8 编码,一词一条,空格间隔,每条 3 个特征,w...

网友评论

      本文标题:Python笔记_3_jieba分词

      本文链接:https://www.haomeiwen.com/subject/cxctextx.html