【搜索引擎算法的基础知识】-全球旧事资料库

搜索引擎算法的基础知识

得多，这使得分析更困难。当然是HTML5在不久的将来，谷歌支持微格式，但它仍然有它的局限性。例如，如果你知道，谷歌分配更多的重量内的co
te
t标记和内容在footer标签的内容，你将永远不会使用footer标签。r
r
要确定的页面的情况下，谷歌将不得不分割成块的网页。通过这种方式，谷歌可以判断哪些数据块在页面上是重要的，哪些不是。可以使用的方法，其中一个是文本代码的比率。大概一个页面，其中包含更多的文本，HTML代码块中包含的主要内容在页面上。块，其中包含许多链接HTML代码和内容很少，可能是菜单。这就是为什么选择正确的所见即所得的编辑器是非常重要的。某些编辑器使用AA很多不必要的HTML代码。r
r
文本代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。比尔Slawski谈到今年早些时候确定块。r
r
区域指标方法的优点是，你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。r
r
短期频率，r
当我问你想对页的因素，你会用它来确定一个文件的相关性，你可能会想到的频率查询条件的。这是一个合乎逻辑的步骤，以增加重量，每个文档更经常使用的搜索条件。r
r
一些SEO机构坚持的一定比例在文本中使用的关键字的故事。我们都知道这是不是真实的，但让我告诉你为什么。我会尽力解释的基础上，下面的例子。这里有一些公式出现，但正如我所说的故事，事情的轮廓。r
r
在下面的表中的数字是一个字在文件中的出现的数目（也被称为长期频率或TF）。因此，这文件有更好的得分查询：croquets和bitterballe
的吗？r
r
croquetst和t咖啡厅tbitterballe
t阿姆斯特丹tr
DOC1t8t10t3t2t0tr
DOC2t1t20t3t9t2tr
DocNttttttr
询问t1t1t0t1t0tr
这两个文件的得分如下：r
得分（的“croquets和bitterballe
”，DOC1）810220r
分（的“croquets和bitterballe
”，DOC2）120930r
r
文献2是在这种情况下，接近相关的查询。“和”获得了最重的，但在这个例子中，这公平吗？这是一个一站式的话，我们想给它只有一点点的价值。我们可以实现通过使用倒排文档频率（TFIDF），这是相反的文档频率（自由度）。文档文件的一个术语出现频率是多少。逆文档频率，以及，则相反。作为一个长期增长的文件，其中的数量，以色列国防军将缩小。r
r
你可以计算出以色列国防军的文件，你必须在你的语料库文件包含该术语的数量，然后取对数，商总数除以假设我们的查询条件，以色列国防军如下：IDF（croquets）5IDF（和）001IDF（bitterballe
）的2，那么你获得以下成绩：得分（的“croquets和bir