随着360搜索的上线以及3B大战的展开,网络爱好者们对搜索引擎技术及市场的讨论成为近期的互联网小热点。笔者也向多位搜索技术专家进行了求教,并与身边朋友进行了探讨,结果发现,人们对于搜素引擎普遍存在严重的认识误区。
误区一:搜索结果越多越好
描述:“搜索一个关键词,哪个搜索引擎给出的结果多,哪个搜索引擎就比较好。”这是最普遍存在,但也是最不科学的一种认识误区。不仅很多普通用户这样认为,就是很多大众媒体,在报道搜索市场大战时,也会采用这种简单的评判方式来对比搜索引擎的性能。
分析:大量专业研究资料显示(笔者自查),在搜索结果中,首页首条的关注度是100%,前3条的关注度超过90%,前10条的关注度约为80%-85%,其后各条结果的关注度和点击率便直线下降,翻看第二页的用户只有20%左右,而翻看第三页的用户通常不超过1%。所以说,2页(最多3页)以后的搜索结果,对于99%以上的用户来说是毫无意义的。
另外,搜索结果多也不一定代表搜索的信息量更大。比如,我们搜索某条热点话题,搜索引擎往往会将不同网站转载的同一篇文章依次罗列,甚至会将同一篇文章的各页回复也罗列出来。有时,同一个网页也会多次出现在一次搜索的结果当中。通常来说,在10万条搜索结果中,真正有价值的差异化信息往往不足1000条。
结论:搜索结果有1万条还是100万条,其实没有本质差别,因为几乎没有人会查看100条以后的搜索结果。比较搜索引擎好坏的关键是要看谁能在前三页,特别是首页前几条,向用户提供最可靠和最有价值的信息。
技术展望:搜索结果的“聚合”与“排序”方式的创新会成为未来几年重要的发展方向:首先,大量同质化的信息会被聚合成一条或两条搜索结果,而具体网页的罗列则会展现在二级页面或扩展窗口中,从而大大提高搜索首页显示的信息量;其次,搜索引擎还会像微博那样,标示相似信息最初的发布源头。在未来的竞争中,谁能提供更好的聚合与排序,谁就能吸引更多的用户使用。
误区二:搜索引擎之间的技术差距很大
描述:Google技术最好,百度次之,其他搜索引擎的技术都很拦,而且不是一天两天能够杆上的。这是很多JY人士的共同观点。
分析:这是典型的不懂技术的人的技术观点。Google问世已经有14年了,但从应用的角度看,搜索技术仍然停留于文字检索或符号检索。虽然图像检索和视频检索的研究已经持续了近10年之久(笔者是这个领域的专家),但由于应用成本太高,因此至今尚未实现大规模的民用化。
也就是说,目前在搜索领域占绝对主导地位的文字检索,实际上已经经历了10余年的广泛应用,其主要的或核心的技术方法不仅早为业界熟知,而且在各类学术期刊上也都可以查到,实在谈不上还有什么像样的技术秘密了。
结论:文字搜索是一种非常成熟的搜索技术,虽然不同引擎的具体技术实现会有一定的差别,但核心的技术方法都是大同小异。造成搜索结果存在差异的主要原因,其实是搜索结果更新周期的不同,以及信息的排序方法和整合方法的不同。
技术展望:未来搜素引擎的竞争,将不再是核心技术方法的竞争,而是内容整合,结果聚合以及信息排序等外围技术和展现方式的竞争。当然,更新速度的比拼在一定时间内还会持续,不过不会持续很久。
误区三:网页优化(SEO)可以提高搜索排名
描述:SEO(Search Engine Optimization),意为搜索引擎优化。主要目的是增加特定关键字的曝光率以增加网站的能见度。具体方法是通过研究各类搜索引擎的抓取规则和排序规则,对网页进行相关的优化,从而提高网页在搜索结果中的排名。SEO是比较专业的技术方法,目前已经形成产业,很多规规矩矩的网站都希望能通过SEO来增加访问量。
分析:自从某些主流搜索引擎推出竞价排名之后,SEO就沦为一种垃圾技术。这是因为,如果不能在热搜词中排名靠前,那么做SEO的价值就不大;但是,一旦某个词汇成为热搜词,那么这个词汇就会被竞价拍卖。到头来,做再多的网页优化,也会被竞价系统挤出前3页。如前所述,上不了前3页,所有的劳动就都是无用功,纯属瞎掰。
结论:竞价排名没啥技术含量,但却足以谋杀任何专业的SEO技术。在中国,钱永远是TMD老子,技术永远是TMD孙子。
技术展望:竞价排名不死,还瞎展望个啥!
误区四:搜索结果由搜索引擎自动生成
描述:搜索引擎的信誉就是搜索结果的公正性。因此,每一家搜索引擎都会宣称其搜索结果是搜索引擎自然生成的。不过,这一点很少会有用户相信。
分析:在竞价排名体系中,含热搜词的网页搜索结果的前3页基本都是人工干预出来的。竞价上去的自然是人工干预的,那些看起来不像竞价上去的,其实也是人工干预出来的,是用来给搜索结果的公正性作伪装的。
结论:进行热搜词搜索时,99%的用户看到的都是人工干预的结果,但翻过前几页之后,我们还是可以看到自动生成的排序结果。
技术展望:如果没有激烈的市场竞争,竞价排名下的人工干预还将是中国搜索的主流。搜索技术的研究实际上已经没有什么意义了,反正都是钱说了算。
误区五:新闻搜索是网络热点的聚合
描述:主流搜索引擎大多声称其新闻首页是网络新闻和热点的聚合。从内容和结果来看,似乎也是八九不离十。
分析:中国最大的新闻网站莫过于四大门户(搜狐、新浪、网易、腾讯)、凤凰网和新华网等。不过,我们点开百度新闻首页的链接,进入的基本都是一些不知名的小网站,很难看到上述大站的身影,甚至连知名报刊杂志的网页版内容也很难上百度的新闻首页。
Google新闻首页的情况好得多,至少一半的新闻链接来自门户及大站。而让笔者最为惊讶的是,在搜狗的新闻首页中,东家搜狐的连接竟然与另外三大门户网站差不太多,而四大门户及凤凰网和新华网等的连接总量占比超过,70%。
上述情况大家可以亲自验证一下。
结论:即便是相同的新闻内容,某些搜索引擎也会根据自身的利益需求来选择新闻源。所谓的热点聚合,其实只是利益驱使的外部伪装而已。当然,也可能有人会认为,上述情况表明,百度的搜索范围最广,能力最强。
技术展望:如何在可靠性,时效性以及盈利能力上进行平衡,考验的是搜索公司的社会良知。