TF-IDF

TF-IDF

作者: 程序媛啊 | 来源:发表于2020-10-30 12:45 被阅读0次

SEO算法之TF-IDF算法
NLP基本方法：TF-IDF原理及应用
TF-IDF原理介绍和使用
sklearn-TfidfVectorizer
关键词提取
TF-IDF算法之文本分析
TF-IDF基本概念和原理
第六章（1.1）自然语言处理实战——TF-IDF算法原理
使用scikit-learn计算文本TF-IDF值
TaskThree-20190307

一，前言
在信息检索与文本挖掘中经常遇见单词的 tf-idf (term frequency - inverse document frequency)，这个值的大小能够体现它在文本集合中的某一个文档里的重要性。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

二，什么是TF-IDF
举个例子来说，有一篇100字的短文，其中「猫」这个词出现了3 次。那么这篇短文中「猫」的词频

如果这里有 10000000 篇文章，其中有「猫」这个词的却文章只有 1000个，那么「猫」对应所有文本，也就是整个语料库的逆向文件频率

这里 l o g loglog取 10为底。这样就可以计算得到「猫」在这篇文章中的

现在假设在同一篇文章中，「是」这个词出现了20次，因此「是」这个字的词频为0.2。如果只计算词频的话，在这篇文章中明显「是」是比「猫」重要的。

但我们还有逆向文件频率，了解到「是」这个字在全部的 10000000 篇文章都出现过了（这样假设可以吗？），那么「是」的逆向文件頻率就是

这样综合下来，「是」这个字的 tf-idf 就只有 0了，远不及「猫」重要。

这样在计算 tf-idf 就可以知道，对于这篇文章，「猫」这个词远比出现更多次的「是」重要。诸如此类出现很多次，但实际上并不包含文章特征信息的词还有很多，比如「这」，「也」，「就」，「是」，「的」，「了」。

那么关于 tf-idf 的解释，这也就是的了。

转载自：https://blog.csdn.net/keeppractice/article/details/107843690

相关文章

SEO算法之TF-IDF算法
SEO算法之TF-IDF算法 1、TF-IDF算法概念： TF-IDF(term frequency–invers...
NLP基本方法：TF-IDF原理及应用
一、TF-IDF原理 1. 什么是TF-IDF TF-IDF(Term Frequency-Inverse Doc...
TF-IDF原理介绍和使用
TF-IDF介绍 TF-IDF（Term Frequency–Inverse Document Frequency...
sklearn-TfidfVectorizer
TF-IDF概述 TF-IDF是Term Frequency - Inverse Document Freque...
关键词提取
TF-IDF 参考github本github中的tf-idf算法，最主要的处理方式就是计算tf-idf，对于tf较...
TF-IDF算法之文本分析
一：TF-IDF是什么？ TF-IDF（term frequency–inverse document frequ...
TF-IDF基本概念和原理
1、TF-IDF基本概念 TF-IDF是Term Frequency - Inverse Document...
第六章（1.1）自然语言处理实战——TF-IDF算法原理
一、什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Freque...
使用scikit-learn计算文本TF-IDF值
一、TF-IDF介绍（一）术语介绍 TF-IDF（Term Frequency-InversDocument F...
TaskThree-20190307
特征选择 1、TF-IDF原理TF-IDF(Term Frequency-Inverse Document Fre...

网友评论

本文标题：TF-IDF

本文链接：https://www.haomeiwen.com/subject/sdzrvktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|TF-IDF|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！