一直以来,我很少去网上搜什么东西,因为我至今还有这样的观点:我是做内容产品的,我一直坚持自己的原创给搜索引擎供货的定位。如果我都去搜,还不如网友自己去搜,我们这些人就等于废了,我再去搜什么,不但我对不起网友,害的搜索引擎也对不起网友。
可是从去年8月3日,我不得不上网搜我自己8月2号传火炬的照片(现场不让带照相机),突然发现,我在谷歌和百度网搜索出的数字结果不同,有时同一词竟然差了3倍!这是怎么回事?我该相信谁?直到这个月我才有空想起来我还是没弄懂这个问题,加上搜索结果重复太多,造成了数据垃圾,这些问题是由于什么引起的?能不能解决呢?于是这几天我就做起搜索试验来。
上周2、3、4、5,我找了13个词作为搜索样词,连搜四天,发现结果并不一样(见文章结尾),而且这些结果都没有零头。这些结果不但在变化,而且排序也在变化,中、英文两个搜网,还有明显差异……于是,我拨通了谷歌和百度公关主管的电话,并请他们替我找了各自网站的技术大拿,他们对我的问题回答如下:
谷歌公司
问:为什么同一词你们网站搜出来的结果比其他网站多?是不是说明你们的结果没有合并同类项的功能?
答:搜出来的数量多少,一定会误导网友,但是我们追求是答案的多样性。
问:为什么你们和其他搜索网站都是一样,结果不显示千位以下的零头?
答:因为千位以下的结果没有意义,除非结果本身就低于千个,当然这样的结果会给出零头。
问:为什么同一单词如Core I7用英文搜出的结果比用中文“酷睿”多很多?是不是说明你们的中文搜索不行?
答:搜索英文我们是全球网站上搜,当然多,我们中文搜出结果也会越来越多。
问:为什么搜同一词,结果总是在变?而且排序也在变?
答:因为搜出结果的计算公式,是考虑了上百、甚至上千条变量在进入公式实时计算,至于排序是根据加入了实时点击率等变量,得出排序不同。
问:那也就是说,如果一个不活跃的词就会一直不变,例如IBM这个词,我坚持了4天,基本两个网站没变,都在1.74—1.71亿之间?
答:是的
百度公司
问:我在你们公司的网站上和谷歌网站搜出同一词的结果总是少的多,甚至是差几十倍,拿“快女”来说,6月3日周三,谷歌是1.07亿,百度则是177万,为什么?是不是你们将同类项合并了呢?
答:是的,我们将相似的结果合并掉,我们认为,如果能给出一个结果,对网友来说是最好的结果。
问:为什么搜出结果都不显示千位以下的零头?
答:千位以下的零头,没有什么意义
问:为什么英文同一单词比谷歌少?
答:我已答过,我们已将相似结果合并。
问:为什么搜出结果每时每刻总在变化,而且排序也不断变化?
答:除了是实时计算变量在变之外,我们每天还有换库时间,在换库时间点上显示出来的结果也会不同。
结论
既然各搜索网站对搜索目标的算法、分词、合并、商业模型等等都不一样,各有所长,是不是会导致到目前为止,搜索引擎个性化的发展,还会各有各的生存空间。
文章已经结束了,写文章的开头是因为查我的火炬照片开始,我的事情还是要用我自己来结尾。我还是不明白,为什么在搜我自己名字的时候,百度竟比谷歌竞然多了3倍!既然百度是合并同类项,为什么还会有这么多,难道是百度对我有优惠?谢谢百度!谷歌是全球的页面同时搜索,为什么还会比百度合并同类项后少?我也挺尊敬谷歌的啊。
搜索我真的不知道该相信谁! |