这篇论文在前人研究的基础上结合语言学规则建立状中搭配知识体系,设计并实现了从大数据中获取状中搭配知识的模型,最后对抽取结果及其数据规模进行了评估和统计分析。研究通过形式手段获取高质量的状中搭配,同时也为自然语言处理和语言学基础及应用研究提供数据支持。如各位对此研究感兴趣,可届时亲临会场与作者现场交流。
01
♪
论文动机
语言知识驱动计算机正确地处理自然语言,介于词和短语之间的词搭配知识无疑是这种语言知识中最重要的组成部分。搭配知识库的建设可以大幅提高计算机处理语言的能力,同时也可以为语言本体、教学及应用研究提供搭配案例。
02
♪
研究方法
针对这种需求本文基于大规模语料库构建了高质量的状中搭配库。本文的研究方法是基于规则的方法,首先在前人研究的基础上构建状中搭配体系,其次在语言学规律指导下构建规则,最后对获取的知识进行统计评估。
03
♪
研究结果
本文主要通过观察检索式结果改进检索式,机器校验和人工筛选相结合的方法进行知识获取。总共抽取了8673148条状中搭配,首先通过改进精简检索式获得高质量的搭配,其次对获取的语料按比例进行二八分获取高频的搭配条目,最后经过人工筛选后,我们最终选定了2595108条状中搭配。
04
♪
研究过程
首先,在前人研究的基础上构建了状中搭配知识体系。本文中的状中搭配主要以谓词性中心语为中心,从形式上分为三类:状语+动词,状语+形容词,状语+谓词性代词。暂不包括复杂状语和复杂中心语的状中结构。如下表所示:
图1 状中搭配分类表
其次,设计并实现了从大数据中获取状中搭配知识的规则,构建状中搭配检索式。状中搭配的检索式主要是通过四种手段构造的。一、通过有无“地”、“着”等形式标记;二、建立词类搭配表、排他表;三、运用韵律结构进行长度限制;四、通过标点W限制等形式手段构造检索式。
表2 基于大数据的知识抽取平台抽取结果
最后对抽取的搭配知识进行了效果评估与统计分析。效果评估如表4所示,5指%90以上的正确率、4指%70的正确率、3指%50的正确率、2指%30的正确率、1指%10的正确率。本次结果评估是机校和人校合力估值,机器校验主要通过频次及占比排除低频无效的检索式及检索结果;人校主要分两方面:其一是观察检索结果,将效果差的检索式利用形式标记、词长信息或总结规律建立搭配表、排他表等手段改进、删减检索式,其二是人工筛选检索结果。
表3 部分改进后副词性修饰成分修饰动词的状中搭配检索式及效果评估
表4 状中搭配检索结果统计表
在入口(中心语)数占比中,副词、动词、形容词、介词结构修饰动词的比例相差不大。副词性状语修饰动词、形容词的中心语个数占比虽然较少,但是搭配条目比重却较高,这说明副词作状语典型的语法功能。介词结构作状语修饰动词、形容词性状语修饰动词、副词性状语修饰动词比重都较高。这说明以动词为中心语的状中搭配,副词、动词、形容词、介词结构修饰动词的动词中心语数目相对稳定,也符合副词修饰动词、形容词的语法规律。
05
♪
问题
首先,由于现存的词类划分、词性标注体系不完善,分词、词性标注不准确等问题,检索出的部分语料会有错误,多见于低频部分。其次,现有的语言学规律研究不彻底,或者说现有的语言学研究规律不足以满足自然语言处理的需要,从大数据中进行检索时,抽取的部分搭配噪声较大,不能保证大多数语料的正确性,如单音节动词状语修饰单音节动词的状中搭配噪声较大。最后,缺乏上下文,对搭配的认定有局限,不同搭配间会有重叠等。
06
♪
展望
对于存在的问题,未来工作展望如下:针对词性标注体系不完善的部分,我们正在尝试对BCC语料库的动词表进行人工筛选、标注,期望提高后期搭配获取的质量和便于句法语义分析器的部分应用。针对语言学研究规律不彻底的现状,我们可以根据大数据抽取出的结果总结规律建立搭配表或排他表,再次进行检索。
07
♪
总结
本文主要通过构建状中搭配知识体系,构建检索式,观察检索式结果改进检索式,机器校验和人工筛选相结合的方法进行知识获取。共总结了652条检索式规则,共抽取了8673148条状中搭配。首先通过改进精简检索式获得高质量的搭配,其次对获取的语料按比例进行二八分获取高频的搭配条目,最后经过人工筛选后,我们最终选定了2595108条状中搭配。语言学规律可以帮助我们抽取数据,数据支撑可以帮助我们进行语言研究。












网友评论