谷歌长期以来一直使用 tf-idf 作为排名因素,因为搜索引擎似乎更关注词频,而不是计算关键词。虽然算法的视觉复杂性可能会让很多人失望,但重要的是要认识到,理解 tf-idf 并不像了解它的工作原理那么重要。
搜索引擎使用 tf-idf 来更好地理解被低估的内容。例如,如果您想在Google上搜索“可口可乐”一词,
Google就可以确定标题为“COKE”的页面是关于:
a)可口可乐。
b)可卡因
c)源自中国原油进行蒸馏的固体富碳残余物
D)德克萨斯州的一个县
本文的目的是指导所有内容作者和SEO专家通过TF-IDF的未知主题。通过更好地理解谷歌如何使用这种算法,内容编写者可以对 tf-idf 进行逆向工程,优化网站内容,以便用户和搜索引擎更好地使用。并且SEO可以通过将其用作搜索技术具有一个更高搜索量和相对成本较低竞争的关键字的工具。
TF-IDF是什么?
TF-IDF是一种信息检索技术,它可以对术语的频率(TF)和逆文档频率(IDF)进行加权。每个单词或术语方面都有其各自的TF和IDF分数。术语的TF和IDF得分的乘积称为该术语的TF-IDF权重。
简而言之,TF-IDF的得分(重量)越高,该关键词越罕见,反之亦然。
TF-IDF算法用于对任意内容中的关键词进行加权,根据关键词在文档中出现的次数来指定其重要性。更重要的是,它会检查关键词在全网的相关性,也就是所谓的语料库。
对于文件d中的吨t,重量%,d,术语dt由以下公式表示:
Wt,d=TFt,dlog(N/DFt)
解释:
TFt,d是文档d中t的出现次数。
DFT是包含术语t的文档的数量。
N为语料库中的文档总数。
好吧。 如果你头痛,请不要惊慌。
让我们更具体地定义它。
TF-IDF定义
单词的TF(术语频率)是该单词在文档中的频率(即,它发生的次数)。当你知道的时候,你就能知道你用的术语是太多还是太少了。
例如,当一个100字的文档包含12次“cat”这个词时,“cat”这个词的TF就是
TFcat = 12/100即0.12
该词的IDF(逆文档频率)是该词在整个语料库中的重要性的度量。
例如,假设术语“cat”在10,000,000,000文档大小的语料库(即web)中出现x次。假设有30万个文档包含术语“cat”,那么IDF(即log {DF})由文档总数(10,000,000)除以包含术语“cat”的文档数量(300,000) )。
IDF(cat)= log(10,000,000 / 300,000)= 1.52
∴Wcat=(TF * IDF)cat = 0.12 * 1.52 = 0.182
自从你想出这个(对不对?),让我们看看它对你有什么作用。
如何使用TF-IDF获益
收集话语。写下你的内容,为您的单词进行运行TF-IDF报告并获取其作为权重。数值进行权重值越高,该项工作越少。重量越来越小,该术语越常见。所有TF-IDF权重高的术语与他们在网络上的搜索进行比较。选择搜索量较大和竞争较慢的用户。
一个很好的经验法则是,你的内容对用户“意味着”越多,搜索引擎分配的权重就越大。对于内容中TF-IDF较高的单词,您的内容将始终在搜索结果中,因此您可以:
不要担心使用停止词,并成功搜索具有较高搜索量和较低竞争力的词。
确保你使用的词语能使你的内容相关,等等。