文本挖掘应用
1、文本结构分析
通过建立文本结构树即文本的逻辑结构,帮助人们了解某篇文章的主题思想,弄清楚某篇文章想传达的内容。
2、文本分类
为了更好的查阅文档,缩小其搜索范围,根据主题类别,利用文本分类为文档集合中的每个子文档注明类别。Yahoo将其运用在了搜索引擎的索引上,以人工的方式,分类标注Web上的文档,以此提高文档自动分类的效率。文本分类常被用于NLP领域即自然语言处理领域,在现实生活中的应用有舆情监测、新闻分类等。
3、文本聚类与主题分析
指在未定义类别的前提条件下,自动进行文本分类的过程。它们的作用主要有相互之间比较多个文本集、确定文档的重要程度、将文档间的关系进行排列、抽取最能代表文档的特征等,应用广泛。如Newsblaster多文档文摘系统,该系统可以将每日收到的新闻文本自动生成一篇摘要文档。此外,还可用于信息过滤、信息主动推荐、热点话题或事件的发现。
4、关联分析
发现文档集内部词语间的关联程度,以描述一个事物中某些属性的规律为目的。常被应用于推荐系统、影视行业等,前者能计算商品之间的相关性,后者则探索导演、演员、编剧在同一部电影中的出现规律。
5、分布分析与趋势预测
对相关领域文档进行挖掘,以此来了解过去的情况或预测未来的趋势。Feldman等人借助多种分布模型,大量分析了某杂志社的新闻,预测了股票交易的未来趋势。 Wuthrich等人深度挖掘了有关经济类的权威文章,以此来预测股票市场指数趋势。
网友评论