行业资讯

了解最新的行业资讯和网络营销知识

中文搜索引擎技术揭密--网络蜘蛛

对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

本文主要讨论了网络蜘蛛相关的技术要点,如果要设计好的网络蜘蛛, 需要了解更多的技术细节,可以参考文献

网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指向的网页已经不存在)的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同的网页等都是网络蜘蛛需要进一步改进的问题。

  这几天因为服务器被和谐了,导致博客不能访问,但在搜索引擎的表现基本上没有什么大的变化,百度掉了两位。不过最惨的是娱乐站因此被百度拨毛了,原本一天从百度来几十IP现在倒省心了许多。

  显示在搜索结果中部分网站下面的链接被称为网站链接,它们可帮助用户浏览您的网站。我们的系统会分析您网站的链接结构,以便找到可让用户节省时间的快捷方式并让用户快速找到要查找的信息。

  只有我们认为结果中的网站链接对用户有用时,才会显示。如果您的网站结构不允许我们的算法查找正常的网站链接,或者我们认为此网站的网站链接与用户查询没有关联,则不会显示该网站链接。

  目前,网站链接完全是自动产生的。我们一直在不断地努力改进我们的网站链接算法,将来可能会采纳网站管理员提供的信息。

引述Google帮助文档说明:http://www.google.com/support/webmasters/bin/answer.py?answer=47334&topic=13509

  前段时间Google查询可可狗发现被加上了Sitelink,不过只有六个链接,Google小气了点,少了两个广告位。

以前也有许多关于sitelink如何产生的文章,但各有各的说法,不过有一些东西还是可以肯定的。

1.时间性,产生SiteLink的网站并没有一个固定的时间参数(一年或半年以上),当符合的条件都存在的时候Google的周期更新就会产生,时间长不是个必要的条件,但应该最少三个月以上。

2.原创性,个人娱乐性的站点产生Sitelink与原创性观点有出入,但原创性高的站相对其它来说更能得到搜索引擎喜欢。

3.外链,有些人说外链多的站很重要更加容易产生,但阿羡不这么认为,外链的作用是很小很小的,上面的案例外链仅有166个,也许能说明个问题。

1.内部结构,产生Sitelink一个重要的因素是内部结构清晰,能让用户更容易得到自己需要的东西。

2.站点表现良好,主要表现为长尾关键词效果很好,因为娱乐站大流量关键词一个都没有,这恰恰是内部结构良好的作用。

3.知名度,这里指的知名度与用户的行为有关系,如,用户的收藏行为、搜索引擎查询网站名称、回访率等。

4.网站关键词占据Google搜索结果第一位置时间比较长,用户经常通过此关键词搜索网站地址。

  从根本上讲SiteLink产生的原因是为了找到更多对用户有用的东西,做SEO的目的应该也是这样,把自己网站的重要信息展示给用户,而不是单单为了排名堆得整个页面像坨屎。