美文网首页
NLP | ZCQ | 7.1 汉语自动分词中的基本问题

NLP | ZCQ | 7.1 汉语自动分词中的基本问题

作者: 码农学禅 | 来源:发表于2018-09-19 14:16 被阅读0次

7.1.1 汉语分词规范问题

原因:

1. 单字词与词素之间的划界

2. 词与短语(词组)之间的划界

7.1.2 歧义切分问题

【定义7-1】 (交集型切分歧义)汉字串AJB称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J称作交集串。

【例】结合成、大学生、研究生物、从小学起、为人民工作、中国产品质量、部分居民生活水平

【定义7-2】(链长)一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数成为链长。

【定义7-3】(组合型切分歧义)汉字串AB称作多义组合型切分歧义,如果满足A、B、AB同时为词。

【例】起身、将来、现在、才能、学生会

有时,交集型切分歧义和组合型切分歧义也分别称为偶发歧义和固有歧义。

【混合型】交集型内包含组合型,即交集字段的长度大于组合型字段的长度。

【例】这篇文章写得太平淡了。 太平淡是交集型,平淡是组合型。

7.1.3 未登陆词问题

又称为生词(unknown word)。

两种解释:

1. 已有的词表中没有收录的词。

2. 已有的训练语料中未曾出现的词,成为集外词 (out of vocabulary, OOV)

通常,将OOV和未登录词看作一回事。

类型:

1. 新出现的普通词汇,如博客、超女、恶搞、房奴、给力、奥特等

2. 专有名词(proper names)。

   早期指实体名称:人名、地名、组织机构名

   1996年扩展成命名实体:增加了时间和数字表达、地名被细分为城市名、州(省)名和国家名。

3. 专业名词和研究领域名词

4. 其他专用名词,如新出现的产品名、电影、书籍等文艺作品的名称

比例:90%是专有名词,10%是新词。

未登录词对分词精度的影响远远超过了歧义切分

相关文章

  • NLP | ZCQ | 7.1 汉语自动分词中的基本问题

    7.1.1 汉语分词规范问题 原因: 1. 单字词与词素之间的划界 2. 词与短语(词组)之间的划界 7.1.2 ...

  • NLP | ZCQ | 7.2 汉语分词方法

    重点:基于统计模型 7.2.1 N-最短路径方法 两个阶段 1. 用切分算法对句子词语进行初步切分,得到一个相对最...

  • 自然语言处理——7.3 汉语自动分词概要

    汉语自动分词的重要性 自动分词是汉语句子分析的基础 词语的分析具有广泛的应用(词频统计,词典编纂,文章风格研究等)...

  • NLP 学习 - 3分类问题命名实体识别

    ? NLP中的分类问题 ? 2020年9月4日 一、分词算法 Jieba分词 http://github.co...

  • 地址分词

    地址分词和传统的NLP有很大区别。 基于地址分词和词性标注,可用在仓储物流系统,实现AI自动化,也可用在标准地址库...

  • FastAI08-NLP的分词化和数字化

    在NLP中,第一步基本上都是分词化(Tokenization)和数字化(Numericalization).分词化...

  • PW06常见PYTHON中文分词工具

    中文分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,...

  • NLP—博客推荐

    NLP词法、句法、语义、语篇综合系列:NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较NLP+词...

  • NLP | ZCQ | 简介和目录

    从今天开始,学习宗成庆所著《统计自然语言处理》(第2版)。

  • 汉语分词

    什么是汉语分词 所谓分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 在英文的行文中,单词之间是以空格...

网友评论

      本文标题:NLP | ZCQ | 7.1 汉语自动分词中的基本问题

      本文链接:https://www.haomeiwen.com/subject/tckinftx.html