美文网首页
词性标注

词性标注

作者: writ | 来源:发表于2019-07-06 11:19 被阅读0次

关于词性标注歧义问题,对Brown语料库进行统计,按歧义程度排列的词型数目(The number of word types in Brown corpus by degree of ambiguity)DeRose(1988)给出了如下的标记歧义表:
  无歧义(Unambiguous)只有1个标记: 35,340
    歧义(Ambiguous) 有2-7个标记: 4,100
                2个标记:3,764
                3个标记:264
                4个标记:61
                5个标记:12
                6个标记:2
                7个标记:1
可见英语中的大多数单词都是没有歧义的,也就是这些单词只有一个单独的标记。但是,英语中的最常用单词很多都是有歧义的,因此,任何一个词性标注算法的关键归根结底还是如何解决词性标注中的歧义消解问题。
大多数的标注算法可以归纳为三类:一类是基于规则的标注算法(rule-based tagger),一类是随机标注算法(stochastic tagger),最后一类是混合型的标注算法。基于规则的标注算法一般都包括一个手工制作的歧义消解规则库;随机标注算法一般会使用一个训练语料库来计算在给定的上下文中某一给定单词具有某一给定标记的概率,如基于HMM的标注算法;而混合型标注算法具有上述两种算法的特点,如TBL标注算法。
隐马尔科夫模型(HMM)的三大基本问题与解决方案包括:
  1. 对于一个观察序列匹配最可能的系统——评估,使用前向算法(forward algorithm)解决;
  2. 对于已生成的一个观察序列,确定最可能的隐藏状态序列——解码,使用维特比算法(Viterbi algorithm)解决;
  3. 对于已生成的观察序列,决定最可能的模型参数——学习,使用前向-后向算法(forward-backward algorithm)解决。
词性标注数学建模流程:
1、对词性标注问题进行提炼:词性标注本质上是一个分类问题,对于句子中的每一个单词W,找到一个合适的词类类别T,也就是词性标记,不过词性标注考虑的是整体标记的好坏,既整个句子的序列标记问题;
  2、抽象为数学模型:对于分类问题,有很多现成的数学模型和框架可以套用,譬如HMM、最大熵模型、条件随机场、SVM等等;
  3、求出模型的解:上述模型和框架一旦可以套用,如何求解就基本确定好了,就像HMM中不仅描述了三大基本问题,并相应的给出了求解方案一样;
  4、验证模型的合理性:就是词性标注的准确率等评测指标了,在自然语言处理中属于必不可少的评测环节;
  5、解释现实问题:如果词性标注的各项指标够好,就可以利用该数学模型构造一个词性标注器来解决某种语言的标注问题了!

相关文章

  • 自然语言处理——7.8 词性标注方法

    · 基于规则的词性标注方法· 基于统计模型的词性标注方法· 规则和统计方法相结合的词性标注方法· 基于有限状态变换...

  • 词性标注

    词性标注,用jieba.possege做带有词性分类的分词,并用pandas做数据结构化展示 导入库 import...

  • 词性标注

    关于词性标注歧义问题,对Brown语料库进行统计,按歧义程度排列的词型数目(The number of word ...

  • 词性标注

    三个标注器:默认标注器、正则表达式标注器和查询标注器。前面先进行简单介绍,后面再贴代码吧。 默认标注器 通过已经标...

  • NLTK之词性(POS)标注

    词性(POS),目前最先进的词性标注算法在预测给定单词的词性上已经有了较高的精确度(约97%),但词性标注领域中仍...

  • NLP 的词性标注技术 Jieba

    本文主要来介绍 NLP 中的词性标注。词性是词汇基本的语法属性,通常也称为词类。词性标注是在给定句子中,判定每个词...

  • 自然语言处理之词性标注

    什么是词性标注 在介绍词性标注前,首先需要先了解一下什么是词性。 我们知道,词类的划分其实是具有层次性的。如在汉语...

  • 词性标注调研

    原文引用 http://heshenghuan.github.io/2016/03/23/词性标注调研/ 定义 词...

  • nltk词性标注中的词性

    nltk是一个高效的python构建的平台,用来处理人类自然语言数据。它提供了易于使用的接口,通过这些接口可以访问...

  • 使用词性标注器

    一个词性标注器处理一个词序列,为每个词增加一个词性标注(part-of-speech tagger 或者 POS ...

网友评论

      本文标题:词性标注

      本文链接:https://www.haomeiwen.com/subject/rcqphctx.html