大部分的搜索引擎目前分别维护了两个索引,通常叫做主索引和补充索引。在2006年早些时候,补充索引中的网页数目开始显著增长。人们了解到补充索引一直处于演变当中,而且无论是官方还是非官方,搜索引擎对于其工作原理的解释始终是遮遮掩掩。然而,有一些特性是可以确定的,你需要注意一下:
触发了spam过滤器的页面更可能从索引中移除,而不是进入补充索引中;补充索引并不是一种惩罚形式,你也不能重新申请被收录到主索引。
补充索引中的页面在用户查询时不太可能返回给用户,也不太可能在搜索结果中获得好排名。
如果页面在同一站点上存在内容极其相近(也叫做重复内容)的页面的话,很可能会进入补充索引中。
如果在其他站点上存在和你的站点内容及其相近的页面,而且被引用得比你的多的话,你的页面很可能进入补充索引中(看起来是你在聚合别人的内容,甚至在剽窃)。
巨型站点上PageRank不足的页面很可能会进入补充索引。
抓取困难的页面(比如在URL中使用太多参数,或者页面大于10lk)可能会就进入补充索引。
根据Google非官方发言人Matt Cutts的说法,进入补充索引中的页面会进行不同的解析,采用的是一种叫做“压缩摘要”的形式,这意味着“不是每个页面上的词”都会被完全索引。
尽管Google试图安抚站长们,坚持说进入补充材料并不是大难临头,但是一些站长们却发现这种改变已经酿成大祸,数百页面不明不白地消失掉了。这可能也是为什么Google移除在搜索结果页面中的补充标记,开始隐藏哪些页面进入了补充索引的原因。
你可能会想知道为什么在补充索引如此有争议的情况下,Google还会不厌其烦地维护它。有两个简单的原因:质量和成本效率。五年以前,搜索引擎市场还在争谁有最大的索引量(因此叫做索引量之战)。今天,当页面数量已经扩展为数十亿的时候,挑战就从数量变为了质量。实际上,少即是多。Google意识到了这一点,并开始尝试去找到更精益更高质量的结果集合。
在补充索引中不索引全部词从长期来看也帮助Google节省了费用,这样就不需要购置更多的服务器或建立数据中心。这样也能减少温室气体的排放量,进而保护环境。而后者与我们的生活息息相关。
如何防止页面进入补充索引:
确保站点的导航是平衡的。如果站点结构是一棵树的话,目录就是分支而页面就是叶子。如果你希望PageRank犹如生命之泉传到每个页面上的话,这颗树就应该是对称的,而不是倾斜的。
尽量确保反链中至少10%~15%的反链是“深度链接”,以增加内容页面和目录页面的重要性。
减少页面相似度
确保URL中不含有太多的参数,而且每个页面的大小要小于lOOk。 |