美文网首页
jieba分词小知识

jieba分词小知识

作者: _Haimei | 来源:发表于2018-07-11 11:01 被阅读15次

统计出现频率最高的前几位

In [6]: test = open('./Desktop/ciyun/subjects.txt').read()
In [7]: len(test)
In [9]: from collections import Counter
In [10]: c = Counter(test).most_common(10)#前10位
In [11]: c

并行模式

# 开启并行分词模式,参数为并发执行的进程数
jieba.enable_parallel(10)

#中间为获取的规则

# 关闭并行分词模式
jieba.disable_parallel()

三种模式
jieba.cut的默认参数只有三个,jieba源码如下
cut(self, sentence, cut_all=False, HMM=True)
分别为:输入文本 是否为全模式分词 与是否开启HMM进行中文分词

        jieba.cut():第一个参数为字符串,第二个参数cut_all控制是否为全模式(cut_all = True 全模式/cut_all = False 默认精确模式)。
        jieba.cut_for_search():仅一个参数为分词的字符串,该方法为搜索引擎模式.

载入自定义词典
user_dict.txt中的内容为:
创新办 3 i
云计算 5
凱特琳 nz
台中

In [54]: from __future__ import print_function,unicode_literals

In [55]: import sys

In [57]: import jieba

In [58]: jieba.load_userdict("./Desktop/user_dict.txt")

In [59]: import jieba.posseg as pseg

In [60]: jieba.add_word("石墨烯")

In [61]: jieba.add_word("凯特琳")

In [62]: jieba.add_word("自定义词```")
In [63]: test_send = ("李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
    ...: 
    ...: "例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类\n"
    ...: "「台中」正確應該不會被切開。mac上可分出「石墨烯」;此時又可以分出來凱
    ...: 特琳了。"
    ...: 
    ...: )

In [64]: words = jieba.cut(test_send)

In [65]: '/'.join(words)

 #显示分词和词性标注
In [67]: result = pseg.cut(test_send)

In [68]: for w in result:
    ...:     print(w.word,'/',w.flag,', ',end = ' ')


关键词提取


In [87]: import jieba.analyse

In [88]: content = u"中国特色社会主义是我们党领导的伟大事业,全面推进党的建设新
    ...: 的伟大工程,是这一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺
    ...: 发达,国家才能繁荣稳定,人民才能幸福安康。党的十八大以来,我们党坚持党
    ...: 要管党、从严治党,凝心聚力、直击积弊、扶正祛邪,党的建设开创新局面,党
    ...: 风政风呈现新气象。习近平总书记围绕从严管党治党提出一系列新的重要思想,
    ...: 为全面推进党的建设新的伟大工程进一步指明了方向。"

# 第一个参数:待提取关键词的文本
# 第二个参数:返回关键词的数量,重要性从高到低排序
# 第三个参数:是否同时返回每个关键词的权重
# 第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词
# allowPOS默认为('ns', 'n', 'vn', 'v'),如果设置仅需要的词性,可设置allowPOS=('ns', 'n', 'vn')
In [89]: keywords = jieba.analyse.extract_tags(content,topK=20,withWeight=True,a
    ...: llowPOS=())

In [90]: for item in keywords:
    ...:     print(item[0],item[1],item)
    ...:     
党的建设 0.47331204260459014 ('党的建设', 0.47331204260459014)
管党 0.3919595902590164 ('管党', 0.3919595902590164)
伟大工程 0.3771404058754098 ('伟大工程', 0.3771404058754098)
伟大事业 0.3669713918327869 ('伟大事业', 0.3669713918327869)
才能 0.26339384065180327 ('才能', 0.26339384065180327)
治党 0.22787996150819673 ('治党', 0.22787996150819673)
党要 0.1959797951295082 ('党要', 0.1959797951295082)
从严治党 0.1959797951295082 ('从严治党', 0.1959797951295082)
凝心 0.1959797951295082 ('凝心', 0.1959797951295082)
聚力 0.1959797951295082 ('聚力', 0.1959797951295082)
直击 0.1959797951295082 ('直击', 0.1959797951295082)
坚强有力 0.19013266490163933 ('坚强有力', 0.19013266490163933)
扶正祛邪 0.19013266490163933 ('扶正祛邪', 0.19013266490163933)
推进 0.18810840444327867 ('推进', 0.18810840444327867)
政风 0.18583161138524593 ('政风', 0.18583161138524593)
全面 0.18439437791967214 ('全面', 0.18439437791967214)
党风 0.17961047004590164 ('党风', 0.17961047004590164)
新气象 0.17267839052459016 ('新气象', 0.17267839052459016)
兴旺发达 0.16782157386557378 ('兴旺发达', 0.16782157386557378)
习近平 0.1624867804165574 ('习近平', 0.1624867804165574)

词性标注

In [93]: import jieba.posseg as pseg

In [94]: words = pseg.cut("我爱北京天安门")

In [95]: for word ,flag in words:
    ...:     print(word,flag)
    ...:     
我 r
爱 v
北京 ns
天安门 ns

日常练习,参照文章:https://blog.csdn.net/u012052268/article/details/77825981

相关文章

网友评论

      本文标题:jieba分词小知识

      本文链接:https://www.haomeiwen.com/subject/swzcpftx.html