搜索引擎9238 2001.6
==================
门户网站的搜索引擎之所以在用户数量上占据优势,基本上源于两点:一是由于品牌带来的市场效应,二是其功能基本能满足初级互联网用户的需要。但是,互联网用户正在迅速成长,面向初级用户的搜索引擎与能满足各级用户需要的搜索引擎相比,明显对用户的粘度不够。随着时间的增长,初级用户成长起来后,将会逐步流向真正有实力的搜索引擎,并成为忠实度较高的用户。
==================
不要吓着人家,谁的用户数量也不会下降,只会增加。
初级用户成长的速度远远赶不上初级用户产生的速度。
==================
因此,一个卓越的搜索引擎是门户网站必须的。无论是搜索引擎管理,还是它的市场运做,要做成一个卓越的搜索引擎,归根到底,还是技术起到关键作用。
==================
技术不行是万万做不出卓越搜索引擎的。
但单是技术好也是不够做出卓越搜索引擎的,
搜索引擎制作大有学问,跟核心技术不是一回事。
==================
随着网民使用互联网的熟练程度的不断增加,目前的搜索引擎越来越不能满足挑剔的网民们的各种信息需求:检索结果中存在大量垃圾信息;对自然语言提问没有理解能力;不支持个性化请求;对多媒体内容的检索尚不成熟等等。针对这些问题,未来的搜索引擎走向如何呢?
==================
这个话太虚了,再说个好几年都可能没错,但是并不说明什么问题。
虽然,我也向往更好的搜索引擎,
但是,如果网民使用互联网真的熟练,
就会发现目前的搜索引擎实在已经很好,
网络信息予取予夺,亦是小菜一碟。
呵呵,“挑剔的网民”。。。
问神洲,几个会搜?
==================
未 来 动 向
1、 专业化
综合性的搜索引擎收录各方面、各学科、各行业的信息,而专题性的搜索引擎则是为了专门收录某一行业、某一主题和某一地区的信息而建立,非常实用,如有商务查询、企业查询、人名查询、电子邮件地址查询和专业信息查询等等。这种专业化的搜索引擎是将来的方向。目前已经有了由Razorfish
Elsevier科学机构所推出的、专门针对网上科学内容的搜索引掣问世。网易作为门户网站,拥有综合性的搜索引擎。如何体现专业化趋势呢?我认为可以整合不同的行业搜索引擎(或叫垂直搜索引擎),将他们的搜索功能“移植”过来。这样不仅可以吸引初级网民,又能留住高级网民。
综合性的搜索引擎可以在原有的基础上建立具有专业特色的个性化引擎,如求职招聘搜索系统、个人网站搜索系统、新闻搜索系统、BBS搜索系统、商品价格搜索系统及城市交通搜索等,真正实现One-To-One的个性化技术服务的商业模式。
==================
这个想法未来的不够,
建议试用一下northernlight的高级搜索和profusion。
那是两种不同的方式,但都已体现你的综合性兼专业化的要求。
==================
2、个性化
搜索引擎个性化的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这种搜索行为分析技术是一种正在发展中的很有前途的搜索引擎人机界面技术。
通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析” (比如“热门关键词”就是这种分析的运用结果)和“个性化搜索”。而后者是搜索行为分析技术最有前途的方向。通过积累用户的搜索个性化数据,将使用户的搜索更加精确。
3、智能化
传统的搜索引擎使用方法是被动搜索,将来也可利用智能代理技术进行主动信息检索。研究智能检索系统已为形势所迫而成为众所关注的焦点。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测并为用户提供有效的答案是这种系统的支柱技术。它使用自动获得的的知识进行信息搜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其它方式,提交给用户。
==================
想法不错,
不过,“群体行为分析”用于“热门关键词”太初级了一点,不够未来。
“个性化搜索”如果要通过用户积累自己的搜索个性化数据,也太费事了。
“群体行为分析”和“个性化搜索”根本就是一体的,
应该是这样:
你第一次用搜索引擎,它会给出一份动态测试,
你只要用选择自己的年龄、性别、地区、喜欢什么、不喜欢什么、专长、经常上的网站,不想上的网站,
也许还有你的家庭、交际、工作、生活的经历等等等等,
搜索引擎根据前边的数据不断调整后边给出的测试题,直到你不愿再测。
好了,它会根据过去积累的千千万万人的数据为你设计出一个度身定做的搜索引擎,
世界上只有这么一个搜索引擎,它是完完全全属于你的。
如果你愿意,以后你所输入的所有搜索关键字,所有搜索结果的选择,
所有网站上呆的时间,点击的每一个链接,都将用于统计为所有人服务。
哦,对了,你每做一次搜索,它都会绞尽脑汁理解你,
给出最满意的答案,还会计算你下一次要搜什么。
经常会发生这样的事——
它比你更早的知道你要搜什么,在你搜索之前就给出了答案。。
是不是有点可怕?
这样的搜索引擎遥远吗,不遥远吗,遥远吗?
偶看很小case的,只不过是未来搜索引擎的一小个组成而已,到时候自然水到渠成。
很久以前我就已用过要求输入国籍、性别、年龄的搜索引擎,算是雏形吧,不知道现在怎么样了。
==================
自然语言搜索能力也是智能化的一个体现,是目前相对易于开发的技术。结合实际情况,网易可以开发自己得智能切词技术,这会给搜索引擎增加竞争的砝码。
另外,由于汉语里同义词很多的特性(比如电脑和计算机就是一个同义词。),网页检索时要注意这个问题 。因为网易搜索的精确性原则,同义词的搜索结果是不相同的。因此,建立一个同义词词库并应用在关键字搜索中很必要。这也是搜索引擎智能化的一点小小的体现吧。
==================
自然语言搜索能力是目前相对易于开发的技术???
别把网易给害了,智能切词技术离自然语言搜索还有十万八千里。
搜索引擎是一个技术含量非常高的产品,其研制开发需要耗费大量的人力和物力,
虽然目前的搜索引擎还算好用,但上升空间很大,新技术不断涌现,市场竞争非常激烈。
竞争者众多,而最后微笑的可能只有一两家,
门户网站耗得起吗,能冒这种风险吗?
搜索,用的是query,取回的是page。
自然语言搜索,既要理解query,也要理解page。
智能切词处理的是query,正确的取词是有用的,但是远远不够的,必须理解,超越文字理解含义。
page也一样,必须超越文字,搜索文字背后的意义。
同义词词库,唉,
建议去看一下oingo、lexiquest和Clairvoyance等公司是怎么建库的,
Clairvoyance那星空一样优美的结构图,令人想起康德。
自然语言搜索,要超越用文字搜索文字,
要用文字背后的概念搜索文字背后的概念才算。
那个产生了yahoo、excite、google的什么大学,stanford来着,
听说就在鼓捣一个理解page的搜索引擎,
看在它3位前任的份上,也许可以尽快鼓捣出来。
超越文字的搜索是一大进步,
但只有超越键盘,跟口语结合,自然语言才真正的长上翅膀。
当声音处理被普遍应用到internet时,特别是无线互联网,
搜索引擎使用自然语言就会成为一种自然而然。
这一天到来的时候,也许是所有搜索引擎普天同庆的日子,
教会每个用户用电脑、教会每个用户打字、教会每个用户用搜索引擎,
这个成本太大了,谁也不可能承受的,
所以,当这个障碍冰消雪融,
当使用搜索引擎跟打电话一样简单,
当中文搜索用户直接从3000万网民变成13亿,
哦,不需要我继续描述了吧。
这一天遥远吗,不遥远吗,遥远吗?
网上随便一找,这种语音搜索论文倒也有几篇,
语音识别的产品早就有了,虽然准确率可能还不高,
去年ask就说今年一季度要推出这种服务,
可是现在也没消息,看来受到互联网起伏的影响了。
还听说过微软、google在搞类似实验,
应该还有不少别的类似项目的。
==================
4、多媒体搜索引擎
随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图象、声音、图片和电影的搜索引擎是一个新的方向。目前瑞典一家公司已经研制推出被称做“第五代搜索引擎”的动态的和有声的多媒体搜索引擎。
图像、视频将很快取代文本成为互联网上主要的信息,目前网上的图像搜索引擎只有英文版。因此,如果能够在国内抢先推出这种技术,并将检索结果集成到普通搜索结果中,则为将来占领更大的市场打下了坚实的基础。它的出现引起的轰动效果将不亚于互联网早期第一家中文网站的出现。
==================
瑞典一家“第五代搜索引擎”,是Allt.com
嘿,1999年就报道的,到现在也没什么消息,
以那时的技术,只怕是最简单的文字索引而已,算不上真正的多媒体搜索。
未来搜索引擎的本事,
应该包括搜索静态html外的现在搜不了或搜不好的所有格式的网络文件,倒不必局限于多媒体。
图象搜索,图象搜索引擎应用了内容搜索的倒也不少,
但不算成熟,前两天我还见到diggit,觉得挺有趣的,你可以一看。
声音搜索,compaq的搜索引擎能够搜索电台节目录音,
它是能把声音文件中的人类语言转换成可搜索的文字。
findsounds能搜风声锤声蚊子叫。
视频文件搜索,没听说过实用的,
但不少公司都在实验,听说微软中国研究院做得不错。
==================
5.人性化服务
提供电子邮件来函查询信息服务,用户可通过向搜索引擎发送电子邮件的方式,查找所需的信息。这种方式可以增加网民跟网站的亲和力,是粘住网民的一种手段。这一点上已经有263、天网等先行一步了。
6、搜索结果排序
对搜索结果进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍。长久以来,这是困扰搜索引擎技术的一大难题。由于网页检索用的Google的技术,检索结果排序是按照Google自身的标准进行。但是对于网站检索,却可以做到根据搜索结果的点击情况排序顺序,或者利用管理员的主观能动性,通过他们对所属网站的考察进行打分,再按分值高低排序。
==================
“根据搜索结果的点击情况排序”,
我向祖国人民保证,这种做法没什么用。
“或者利用管理员打分排序”,
你准备用多少管理员花多少工作日为2、30万网站打分?
==================
7、搜索向导技术
通过合理优化地设计网站,使得用户可以方便地进行各种搜索,并且给予一定的指导帮助。搜索向导技术对方便用户使用搜索引擎是很有用的,是一种很实用的技术,现在的各个搜索引擎站点都很重视,技术上各有千秋。
网易不仅使用Google 的网页检索功能使搜索引擎的查全率大大提高,而且自行开发的分类检索也很有特色。它的搜索向导技术可以充分利用这两点,对检索结果重新组合。把搜索请求发给google,然后把所有返回的搜索结果用超目录层层分类。
如果搜索“china”这样有11,500,000条搜索结果的词,它就要分析这11,500,000条搜索结果互相之间的共性,然后把相似的网页归在一个类里,再把相似的类归在一个组里。
检索结果显示为左右两栏,右栏是搜索结果,左栏是当前搜索结果的分类。您在左栏里每点击一次右栏就刷新一次,显示您点的那个分类的搜索结果。
这种搜索向导技术的好处是:帮助用户更精确的描述他们想要的信息,它尤其适于没有搜索常识的菜鸟用户,而他们占了网民的绝大多数,这种情况永远不会改变;用超目录把所有搜索结果归类,以减少巨量无序信息带来的搜索负担。
==================
自动内容分类是好东西,
northernlight、vivisimo、oingo、guidebeam各有巧妙,你准备用哪一种?
这事不是网易做得起或值得做的。
“我们若能更妥善地搜寻资料,实在已经改变世界。”