查看: 2401|回复: 0

黑帽seo培训中的"TF-IDF词频"如何计算?

[复制链接]

2万

主题

141

回帖

7万

积分

管理员

高级管理员

积分
70467
发表于 3-19 12:28 | 显示全部楼层 |阅读模式
黑帽seo中的TF-IDF词频如何计算?TF-IDF算法是一种词频统计方法,用于评估关键词在文章中出现的频率。字词的重要性随着它在文章中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,比如从一篇文章中找到它的关键词。
一、TF-IDF算法的计算步骤
1.TF计算公式
01dbe3815de8e672cb040809516ebb91.jpg
TFw=在某一类中词条w出现的次数/该类中所有的词条数目
逆向文件频率IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
2.IDF计算公式
IDF=log(语料库的文档总数/包含词条w的文档数+1),分母之所以要加1,是为了避免分母为0
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
3.TF-IDF算法计算公式
TF−IDF=TF∗IDF
TF-IDF值越大,则这个词成为一个关键词的概率就越大。
900feeb08ea170aae2049e72ec654d6c.jpg
二、TF-IDF算法实例
以亚洲的网络技术关键词为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索百度发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:
什么叫TF-IDF TF-IDF算法和公式的解读
从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条