7.1.1 汉语分词规范问题
原因:
1. 单字词与词素之间的划界
2. 词与短语(词组)之间的划界
7.1.2 歧义切分问题
【定义7-1】 (交集型切分歧义)汉字串AJB称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J称作交集串。
【例】结合成、大学生、研究生物、从小学起、为人民工作、中国产品质量、部分居民生活水平
【定义7-2】(链长)一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数成为链长。
【定义7-3】(组合型切分歧义)汉字串AB称作多义组合型切分歧义,如果满足A、B、AB同时为词。
【例】起身、将来、现在、才能、学生会
有时,交集型切分歧义和组合型切分歧义也分别称为偶发歧义和固有歧义。
【混合型】交集型内包含组合型,即交集字段的长度大于组合型字段的长度。
【例】这篇文章写得太平淡了。 太平淡是交集型,平淡是组合型。
7.1.3 未登陆词问题
又称为生词(unknown word)。
两种解释:
1. 已有的词表中没有收录的词。
2. 已有的训练语料中未曾出现的词,成为集外词 (out of vocabulary, OOV)
通常,将OOV和未登录词看作一回事。
类型:
1. 新出现的普通词汇,如博客、超女、恶搞、房奴、给力、奥特等
2. 专有名词(proper names)。
早期指实体名称:人名、地名、组织机构名
1996年扩展成命名实体:增加了时间和数字表达、地名被细分为城市名、州(省)名和国家名。
3. 专业名词和研究领域名词
4. 其他专用名词,如新出现的产品名、电影、书籍等文艺作品的名称
比例:90%是专有名词,10%是新词。
未登录词对分词精度的影响远远超过了歧义切分。








网友评论