搜索研究院

 

论搜索引擎的评测方法

搜索引擎9238 2000.11

  很久很久以前,搜索引擎还不象今天的百花齐放,人们对它的要求较低,只要它能把互连网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一点就能满足。所以那时候,人们评测搜索引擎的方法是用几个关键词,测试对比它们的搜索速度、搜索数量和无关网站的多少。简单说就是全快准。而那时的搜索引擎技术大家差别不大,所以这样的评测方法是可行的。

  此后,独特的搜索引擎技术此起彼伏,层出不穷,到现在明显处于战国时代。但是,人们的评测方法却没多大变化,现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。

  远的不说,就在2001年第一季度升级后的askjeeves,你既可以象打普通电话一样在任何地方用手中的任何电话拨通askjeeves的电话号码,也可以在线惦记页面上的标记进入在线语音状态,用你电脑上的话筒和音箱交流。 然后你随便口头向它提一个要求,它会把你的语音转换成文字,然后分析你的要求,到它的700万标准问题答案、200万多媒体和其他储备库以及internet上去寻找答案,找到后再转换成语音回答你。

  想象一下,如果你问它:“最近美国大选悬而未决,美国人怎么想?”过了一会儿,电脑或电话回答你:“根据最新的调查,假如最后是布什当选,80%的美国人会接受他为合法总统,假如最后是戈尔当选,79%的美国人会接受他为合法总统。”如果你问它:“上届世界杯决赛的球都是谁进的?“ 它在回答你姓名的同时还调出决赛进球的音视频片段让你欣赏(当然音视频片段的前提是你用的不是电话而是电脑)。

  虽然,askjeeves认为它们的语音转换功能和搜索速度已经到了可以商业化的程度,但它还是会有很多不成熟之处的,如果拿几个关键词来测试它的搜索速度和查准率、查全率,和众多的普通搜索引擎相比,该把它排在哪里呢?如果排在很后边,难道它就是很差劲的搜索引擎吗?

  单是评测internet搜索引擎已是件很难的事,而很多评测结果是给普通网民看的,势必要把Yahoo,新浪等门户包括进去,对于它们而言,internet搜索只是一部分,其它各种搜索功能怎么办?你要是不算,偏偏网民用得多;要是算吧,更是一团乱麻,何从比起?

来,我们先分析一下几个重要评测要素的能力缺陷:

一:查全率

  既然是搜索引擎,首先比搜索范围是天经地义的事,如果这条不及格,后边的评测好象也不用参加了。由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。
  但以这个为准还是有很多毛病,多数象样一点的搜索引擎我都可以找出一批关键词来证明它的搜索结果是最全的。因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。

  有的搜索引擎支持“的,about,了,of,啊,么”等虚词助词搜索,有的不支持,这又如何来比?哪次评测提到过?
关键词除了内容难选择,在长短上也不好定。有的搜索引擎完全不支持单个汉字搜索,怎么算它?一般都只比较单关键词搜索,而多关键词的搜索呢?长句的搜索呢?甚至有搜索引擎能支持任意文章或片段作为关键词,这样比较出来的结果跟单关键词搜索出来的可是不一样的,更别提没法比的功能了。象excite这样语义搜索的引擎,还有支持模糊搜索的引擎,别的搜索引擎搜索结果极少甚至为零的关键词它们可以搜出一大堆结果,这又如何比较?

  最后一点,搜索引擎是可以针对特定的关键词进行结果优化的,评测的公正性谁来保证?如果其中某个被评测搜索引擎事先知道所用的关键词,那么只要轻松优化一下,冠军就非它莫属了。

二:搜索速度

  比完了查全率,就该比搜索速度了,如果有搜索引擎索引的网页虽多,但是搜索一次要五、六秒或更长,直接请它出局吧,没有比下去的意义了。

  速度的问题首先还是在关键词,单关键词搜索快的不一定多关键词搜索快。
  然后是访问量的问题,对一个日访问量一亿以上的搜索引擎和一个日访问量几万的搜索引擎作同样的测试本身已是不公平。
  还有网页索引数量的问题,一个搜索引擎索引了10亿的网页,另一个搜索引擎索引了一千万的网页,让它们对同一个关键词在各自的数据库里搜索比搜索速度,这样的结果如何让人信服?

  除了事先优化的问题外,有的搜索引擎本就具有记忆搜索结果加速调用的能力,一个关键词哪怕第一词搜索花了10秒,第二次搜索也许就2秒了,第三次,第四次,到你去测试的时候已经永远是0.0001秒了。这样,如果你选常见词测试,它快得惊人,如果来个偏僻词,也许老半天出不来,到底该选什么关键词?常用和偏僻各占多少?这真是一笔糊涂帐。

  搜索引擎不是放在实验室的本地机上测试用的,而是给普通网友用的,所以这搜索时间应该还包括搜索界面和搜索结果的传输过程在内。一个搜索引擎搜索时间花了0.0001秒,但是传输结果网页花了3秒,另一个搜索花了0.5秒,但是传输网页结果花了一秒,你说哪个搜索引擎算快?真正用的时候,你选那个3.0001秒以后看到搜索结果的还是1.5秒以后看到搜索结果的?

三:查准率

  这个相当重要,搜到的东西即使又多又快,但你想要的那条结果不知道要翻多少页才能找到,那这搜索结果要来何用?这样的搜索引擎只有在查稀罕东西时才有用,但是要查稀罕东西应该去元搜索引擎呀,干吗要用它?查准率的评价标准很难定,得看你查什么,你要查一个特定的网站和找一群相似网站根本就是两回事。查准率的关键还是在于要搜什么和选择什么关键词,评测人可以随意定夺的,然后影响到评测结果的可靠性。

四:死链接

  普通搜索引擎总有些搜索结果是点不进去的,少到百分之一二,多到百分之八九,这个也常被用作评测条件之一。但是象google使用了网页快照功能,几乎不存在死链接问题,就算搜索结果中的那个网站已关闭,你还是可以看到google自己储存的网页。这种死链接怎么计算?

五:用户负担

  还没见过国内搜索引擎评测有谁用过这一项,但它是评价搜索引擎优劣的重要因素,包括很多方面。搜索引擎是给人用的,一定要让人用得舒服方便快捷,任何妨碍和延迟用户到达最终搜索结果的都算用户负担。

  首先是搜索界面,一个只有搜索框的纯粹搜索引擎界面跟一个带有广告和大量网页内容的门户相比,它们带给用户的搜索负担是高下立判的。

  其次是搜索结果描述,搜索结果网页的文字描述是长还是短,网页文字描述采用索引带关键词的部分还是索引网页的开始几行还是索引网页的主要内容,关键词是否高亮显示又采用什么颜色,是否显示网页地址,还有搜索结果页面的布局,这些对于用户的搜索负担区别大大的有。

  再者就是对用户操作步骤的影响,是否可以用鼠标启动搜索,搜索结果每页显示数量是否只有10条,翻页的便捷与否,搜索框是两个还是一个,放在上边还是下边,一次搜索后关键词是否还在搜索框中显示,这些每一条都会影响搜索效率。

六:其它还有

是否支持本目录下搜索,
internet索引数据库更新时间长短,
搜索引擎的稳定性,
对高级搜索的支持能力强弱等也应该加以评测。

  一个人想得不一定周到,可能还有其它重要评测要素没被我提及,网友若想到,望告知。看到这里,大家对目前常用搜索引擎评测方法的局限性一定有所了解了,当然最可笑的是,不知是无知还是猫腻还是选择标准比较特别,有的中文搜索引擎评测今年才做竟然没有包括google ,就好象排一长串小提琴名人却漏了帕格尼尼,呵呵。

评测搜索引擎实在是件很难的事。


“我们若能更妥善地搜寻资料,实在已经改变世界。”

返回首页