TFIDF
主要思想:
如果某个词或短语 在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
计算
TFIDF= TF * IDF
TF:词频,某一个给定的词语在该文件中出现的概率
IDF:逆向文件频率,描述词语普遍重要性,可以由总文件数目除以包含该词语之文件的数(+1),再将得到的商取 以 10 为底的对数得到。
意义
倾向于过滤掉常见的词语,保留重要的词语。
缺点:
单词以“词频”衡量,不够全面,有时重要的词可能出现次数并不多
PageRank
用来衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。
主要思想
一个页面的“得票数”由所有链向它的页面的重要性决定。
同时,设定一个可能性 a 表示:
在任意时刻,用户达到某页面后并继续向后浏览的概率为 a, 则用户停止浏览的概率为 (1-a),此时用户停止浏览后, 可能会直接输入浏览器地址进行浏览网页,此时跳转到任意网址的概率都一样,于是Pagerank算法的公式如下
计算
PageRank(pi) = (1-d)/N + d sum( PageRank(pj) / L(pj))
p1,p2,...,pN是被研究的页面,
M(pi)是链入pi页面的集合,
L(pj) 是pj链出页面的数量,
而N是所有的页面数量。
迭代结束的标记:
- 比如上次迭代结果与本次迭代结果小于某个误差
- 比如设置最大循环次数
优点
与查询无关的静态算法,离线计算获得
有效减小在线查询时的计算量,极大降低了查询响应的时间
缺点
- 没有区分站内导航链接
- 没有过滤广告链接和功能链接
- 对新网页不友好













网友评论