美文网首页
条件概率分布

条件概率分布

作者: 青椒rose炒饭 | 来源:发表于2019-06-27 11:05 被阅读0次

条件和事件

在计算各种时间(单词出现频率等)。条件频率分布都需要给它们关联上一个条件,所以处理的就是一个配对的序列,对应的形式(条件,事件) 条件频率分布(统计每个语料中单词的个数).png

按照文本计数词汇

使用nltk包下的ConditionalFreqDist(条件频率分布)统计词汇数就很方便

import nltk
from nltk.corpus import brown
#使用产生式初见一个由文体和单词组成的元组列表
genre_word =[
    (genre,word)
    for genre in ['news','romance']
    for word in brown.words(categories=genre)
]
#使用条件频率分布构建文本的频率分布
cfd = nltk.ConditionalFreqDist(genre_word)
print(cfd)
print(cfd.conditions())
#news 和 romance都是一个频率分布
print("news分类下的单词数",cfd['news'])
#输出单词
print(list(cfd['romance']))

#统计其中的单词数
sum = cfd['romance']['love']
print("浪漫主题下的love这个单词出现;",sum)

绘制分布图和直方图

ConditionalFreqDist为绘制表和绘制
import nltk
from nltk.corpus import brown

cfd = nltk.ConditionalFreqDist(
        #以文件表示符的前4个以及'america'或者'citizen'为元组创建条件频率分布
        (target,fileid[:4])
        for fileid in brown.fileids() #文件标识
        for word in brown.words(fileid) #通过文件标识获取文件中的所有单词
        for target in ['america','citizen'] #目标单词
        if word.lower().startswith(target)  #是否以目标单词开头
)
print(brown.fileids()) #输出所有的标识符
print(cfd.conditions()) #条件
print(cfd['citizen'])
for fileid in brown.fileids():
    print(cfd['citizen'][fileid]) #逐文件输出其中citizen开头的单词数目

经过上面的两段代码,ConditionalFreqDist基本上已经是明白了怎么使用了,使用可迭代的元组作为参数,第一个是条件(分类),第二个是想要统计的值。
cfd.tabulate用于绘制表格,用法如下:

import nltk
from nltk.corpus import udhr #世界人权宣言 预料
#预料的各种翻译
languages = ['Chickasaw', 'English', 'German_Deutsch',
        'Greenlandic_Inuktikut', 'Hungarian_Magyar', 'Ibibio_Efik']
#该翻一下,每个单词的长度
cfd = nltk.ConditionalFreqDist(
        (lang,len(word))
        for lang in languages
        for word in udhr.words(lang + '-Latin1')
)
#以表格的形式输出
cfd.tabulate(conditons=languages,samples=range(10),cumulative=True)
运行结果输出

相关文章

  • 条件概率分布与机器学习

    基本上很多机器学习的算法的目标函数都是条件概率分布。所以这里会重点的谈谈我对条件概率分布的理解。 条件概率分布到底...

  • 条件概率分布

    条件和事件 按照文本计数词汇 使用nltk包下的ConditionalFreqDist(条件频率分布)统计词汇数就...

  • 《统计学习方法》极简笔记P4:朴素贝叶斯公式推导

    朴素贝叶斯基本方法 通过训练数据集学习联合概率分布P(X,Y),即学习先验概率分布条件概率分布假设条件独立然后根据...

  • 木东居士学习计划:第三周 数据分布(详实版)

    基本概念古典概率条件概率离散分布连续变量期望值 离散变量的概率分布二项分布伯努利分布泊松分布 连续变量的概率分布均...

  • 统计学习方法1.1-1.3 笔记

    1.1 统计学习方法分类 按模型分类: 概率模型:条件概率分布表达的模型。x为条件,y的概率分布。决策树、朴素贝叶...

  • 概率分布,熵,指数,相关性分析,loss等

    前提:二维随机变量(x,y),所有可能的取值为,其中,,且, 。 概率分布 类型表达式联合概率分布, 条件概率分布...

  • 统计学习方法5.2 - 5.5 笔记

    5.2 决策树 -- 条件概率分布 如果有10个条件概率分布,对应特征空间的10个划分,相当于构建了10棵决策树。...

  • 朴素贝叶斯估计

    朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y),具体做法是学习先验概率分布P(Y)与条件概率分布P(X|Y...

  • 2.3.2 边缘高斯分布

    由上一章知道如果联合分布为高斯分布,则条件概率分布也是高斯分布,现在讨论边缘概率分布和上一章一样,我们从联合分布的...

  • 机器学习模型比较

    判别模型与生成模型 生成模型学习联合概率分布,求出条件概率分布P(Y|X)=P(X,Y)/P(X)。朴素贝叶斯法、...

网友评论

      本文标题:条件概率分布

      本文链接:https://www.haomeiwen.com/subject/cexlcctx.html