donquix 2002.8
搜索引擎是互联网的第二大服务,使用频率仅次于电子邮件。然而有调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。
究竟是搜索引擎不好用,还是用户不会用?
如果要你查找刘德华的胸围,是不是只需输入“刘德华 胸围”这么简单?
关于搜索引擎,你究竟知道多少?
你去便利店买冷饮,对老板说:“我要买冷饮。”老板问:“什么冷饮?”你说:“冰棍儿。”老板又问:“哪种类型?”你说:“五丰滚雪球。”老板从冰柜里拿出一个冰激凌给你,说:“1块5毛。”
这个例子平淡无奇,但却可以很形象地与网络搜索引擎(Searchengine)作个类比。在便利店里,你要买冷饮;在网上,你要利用搜索引擎查找信息。在便利店里,你为了购物,需要向老板描述商品的特点;在网上,你要查找信息,你需要向搜索引擎提交描述信息的关键词句。在便利店里,商品的特征是储存在老板的脑子里或者记在他的日记本上;在网上,信息则被搜索引擎做了索引并储存在海量数据库中。在便利店里,你无法买到大型家电;在网上,你也不可能用搜索引擎找到所有你想了解的信息。
当然,搜索引擎的运作原理比到商店买东西要复杂多了。那么,究竟什么是搜索引擎呢?要用文字全面的描述一种复杂事物,是件困难的事情。因此,我且抛开陈词滥调,直接带你去见一个真正典型的搜索引擎——Google。
我们假定你现在正在网上,在浏览器URL栏中输入“http://www.google.com”并回车,就出现了如图界面。你现在想知道些什么?哦,上网太多是否会影响健康?查查看。在文本框里输入“上网
时间 太长 健康”。结果出来了。
点开第二项FM365_健康。 这篇文章说,专家指出每周上网5小时会引起轻度偏执狂。
这就是搜索引擎。你想了解一种信息,于是把这个信息的关键词句提交给搜索引擎,它就会给你一个交待。
那么,这个奇妙的东西是怎么做到这一点的呢?
搜索引擎大致由三部分组成。第一部分是搜索器,学名叫Spider,就是蜘蛛的意思。这个搜索器是一个自动程序,它定期的自动爬到各个网站上,把网页抓下来,并顺着上面的链接,象蜘蛛一样爬开去,持续不断的抓取网页。第二部分是索引器,它把蜘蛛程序抓来网页进行分析,按照关键词句进行索引,并存入服务器的数据库中。第三部分是面向用户的检索器,它接收用户提交的查询字串,在索引数据库中查询,并将结果反馈给用户。就说上面的例子吧,Google的蜘蛛程序爬到FM365.com上,抓了“travel.fm365.com/jiankang/xlbt/zhuanti/rdht000407g.htm”这个网页,并从中抽取了一系列的关键字,包括“上网”、“时间”、“太”、“长”、“健康”等,并把网页网址与这些关键字关联。当你向Google提交了这些关键字,Google就向你返回了这个页面,还顺带给出了出现这些关键字的网页文字段落。那么,Google的“蜘蛛”是如何知道有这个网页呢?一种可能是,FM365在Google的网站目录中有注册,“蜘蛛”顺着注册的地址找到FM365,并顺着首页找到这个特定页面;另外一种可能是,“蜘蛛”顺着其他网站上FM365的链接爬到了FM365首页上,并顺藤摸瓜,抓到了这个页面。
我们通常谈到的,就是指拥有Spider和索引数据库的网页搜索引擎;除了Google之外,比较著名的还有Altavista、Hotbot、Baidu、Openfind等。需要说明的是,这些搜索引擎都是不同的。它们的不同点在于:索引数据库不同;收集的信息量不同;蜘蛛对信息的提炼度不同;给出信息的相关度也不同。
雅虎、新浪、搜狐、网易等大型门户网站的搜索引擎则有所不同。它们的含义更广。以新浪为例,新浪首页“新浪搜索”文本框的右边,有一个下拉框,里边有综合、网站、网页、新闻等不同选项。其中的第三个“网页搜索”,原理与上面所说的一样,只不过,那个蜘蛛以及网页索引数据库不是由新浪控制的,而是由第三方的专业搜索引擎公司——百度(www.baidu.com)提供的。新浪只是向百度提交用户的查询字串,然后由百度完成后面的事情。
作为门户网站,新浪搜索引擎很关键的部分就是“网站搜索”了,也就是一般所说的“目录检索”。注意,这部分严格说来,不能算是“搜索引擎”。它通常由人工收录各类网站,提取描述性信息,并将网站按照特定的分类方式分别放在不同目录中。比如,www.ibm.com是存放在“计算机与互联网”大类里的,www.tsinghua.edu.cn是放在“教育就业”大类里的。搜索网站的时候,搜索引擎将用户提交的关键字和数据库中收录的这些网站的描述信息相比较,以找出匹配的站点。从网站目录中检索到的信息,比用搜索引擎搜搜到的要通常精炼得多,但信息量也要小得多。至于新浪搜索的其它功能,如新闻检索之类,则是对站内新闻网页内容的全文检索,并不涉及其它网站。
除此之外,还有一种搜索引擎,叫做“元搜索引擎”(Meta Searchengine)。它的工作原理是这样的,用户将查询关键字提交给它,它就把这些关键字解析成如Google那样的搜索引擎能接受的格式,分别向它们发送请求,然后把反馈回馈给用户。所以,元搜索引擎通常能提交更为庞大的数据信息。著名的元搜索引擎如http://www.search.com。你可以打开www.search.com,在首页的搜索栏内填入“Britney
spears”(小甜甜布兰妮的英文名字,因为search.com不支持中文),回车搜索,你可以看到每个结果后面都有注明该条是由谁提供的。比如“Britneyspears.com”的链接,三个搜索引擎“direct
Hit”、“AltaVista”和“Ask Jeeves”都有提供。
我们这里小结一下,常说的搜索引擎通常有三种类型,一种是最常见的网页搜索,一种是目录搜索,还有一种是元搜索引擎。在不同的场合,我们往往要用不同的搜索方式。后文对此将有详述。
事实上,对搜索引擎进行评价是件困难的事情。每个搜索引擎都有其自身特色,笼统的用诸如“索引网页数量”、“查询速度”、“查询精确度”等指标来衡量搜索引擎好坏,往往会失之偏颇。
中文搜索引擎
1. www.baidu.com
百度目前只有网页搜索功能,没有目录服务。新浪、搜狐、Tom、263、上海在线等大型门户网站后端均使用百度。
对一般的搜索用户而言,百度有几个非常有特色的地方。
一、 分类主题搜索(http://www.baidu.com/search/catalog.html,或者点击主页上的“主题搜索”链接)。这个功能相当于一个关键词导引,很适合那些不知道该用什么关键词搜索,而喜欢用鼠标点击的用户。
二、 相关关键字功能。比方搜索天文相关的网页,百度在搜索结果页面上面会罗列一系列的范围更小的关键字,如“天文学”、“天文奇观”、“天文图象”等,以使得搜索更加精确。
三、 FLASH搜索功能(flash.baidu.com)。专门设置flash搜索功能的搜索引擎,百度好像还是第一个。
四、 百度快照。所谓“快照”,就是百度把索引的网页缓存在服务器中,这样即便链接死了,用户也可以从搜索服务器中取出这个被存储的“快照”页面。
Openfind目前在B测试阶段,只有网页搜索,没有目录服务。中文页面是http://www.openfind.com/cn.web.php?u=cn。它的界面设计和Google非常相似。
Openfind号称是最大的中文搜索引擎,索引的中文网页最多。用百度,Google,和Openfind搜索“金庸”,结果分别是385000,272000,620860项。此外,Openfind声称他们的OpenScale技术,可以用更少的硬件成本,达到更佳的搜索效果,这样也有利于他们构建规模更为庞大的网页索引数据库。数据量巨大,大概是Opendfind最大的特色了。
Opendfind另外值得重视的功能是“新鲜网页”,以及可以对搜索结果按照更新日期进行排序,通过这些功能,用户可以获得搜索引擎最近更新的网页内容。Openfind还可以用电子邮件订阅特定的搜索结果。
Opendfind还有很多允诺但尚未发布的新功能(见http://www.openfind.com/aboutus/cn/)。总之,尽管Openfind还处于测试阶段,但却表现出巨大的潜力。当你在其他搜索引擎上找不到所需资料时,也许可以到Openfind上查一查。
3.www.google.com(中文)
这几乎就不用介绍了。最近一段时间来,网络上关于Google的推介文章汗牛充栋。Google有网页搜索、图象搜索、新闻组搜索以及目录服务等功能。Google的中文搜索有以下几个突出特点:
一、 自动繁简转换。不必介意你输入的关键字的繁简,Google会自动转换,并能同时给出繁体和简体的搜索结果,而且,它会自动把页面上的繁体字转换成简体字显示出来。
二、 PageRank的高相关度结果排序。用户总是希望第一个结果就是自己所要的,而Google的智能化PageRank专利就是使得搜索结果朝着这一方向努力的,实际效果非常不错。
三、 网页快照。功能同百度的一样。
四、 特殊文件检索。如Office文档检索,PDF文档检索,SWF文档检索等。
五、 图片、新闻组搜索。对中文用户而言,尤其值得一提的就是Google的图片搜索。因为它是目前唯一的支持中文的图片搜索引擎。不妨在搜索栏内输入“毛泽东”,看看效果如何?
4.e.pku.edu.cn
北大计算机系网络与分布式系统实验室开发的天网搜索引擎在教育科研网的用户中享有盛誉。它的出色处在于其FTP搜索功能。它整合了教育网以及非教育网的很多FTP服务器上的共享文档,如果你仔细留意一下的话,会大吃一惊。其网页搜索尽管索引网页数量没有商业商业搜索引擎那么多,但是匹配度相当高。
这三个都是门户网站。新浪和搜狐后端用的是百度的网页搜索引擎,而网易是用Google的。因此,如果你要搜索网页的话,大可不必上门户网站查询。门户网站的搜索引擎价值在于其分类目录检索。新浪和搜狐都是由专人负责,而网易则是开放式的,由网友义务维护目录服务。新浪的站内新闻检索最强大,而目录服务则是新浪和搜狐不相上下,网易就相对要弱一些了。 中文搜索引擎就介绍这些,下面简单谈谈英文搜索引擎。最近两年来,随着网络泡沫的破灭,一些老牌的搜索引擎不是关门大吉,就是趋于苟延残喘。著名的infoseek,excite都已经死亡,Inktomi在丢掉雅虎这个大客户后也元气大伤,而老牌的Altavista也似乎振兴乏力,在搜索引擎新贵Google的逼迫下,节节败退。
英文搜索引擎
1.www.Google.com(英文)
目前被公认的“最好”的搜索引擎。集中了高精度的网页搜索、庞大完善的目录服务、独特的新闻组搜索和图象搜索等出色功能。一般用户没有理由不去研究并掌握Google搜索。
2.www.yahoo.com和http://dmoz.org
雅虎的网页搜索放弃Inktomi后,改用了Google。但如果要搜索普通网页,效果明显没Google.com自身好。不过,雅虎搜索的强大处在于它由一百多名专职编辑维护的网站目录服务。
而dmoz.org就是著名的ODP(Open Directory Project),它本身是一个庞大的开放式目录服务系统,由50,834名志愿者编辑负责着50860个门类。Google的目录搜索也是基于ODP的。目前ODP大有挑战雅虎目录服务的态势。
3.www.AltaVista.com
尽管AltaVista日渐衰微,但是瘦死的骆驼比马大,如果你是要搜索英文信息,AV是绝对不能忽略的。AV索引的英文网页,在众多英文搜索引擎中是最多的;AV具有最完善的搜索布尔函数语法,可以对网页进行非常精确的查询;AV可以根据用户提交的关键词,智能的推介相关关键词;AV具有多媒体信息检索的能力,包括图片、音像等。事实上,AV的图片搜索引擎比Google更为强大。不过,很遗憾,AltaVista目前被中国电信屏蔽了。
4.www.search.com
非常出色的元搜索引擎,隶属于CNET。它收集了800多种专业搜索引擎和数据库,分为商业、音乐、下载、寻人、娱乐、购物、健康、旅游等8个大类,每个大类下又分频道小类。功能十分强大。
5.www.ask.com
这是个非常特殊的搜索引擎。与其它搜索引擎不同的是,它可以接受自然提问。比如,“谁是美国第一任总统”等。据称,它存储了超过1000万个问题的答案,完全是一本超级大百科全书。当然,如果它无法回答用户所提的问题,就会按照一般的网页搜索方式提交结果,在这种情况下,www.ask.com又充当了一个元搜索引擎的角色。
怎么才能在网上查到刘德华同志的胸围呢?
依照我们的思维定式,我们一般会在搜索引擎的窗口输入:"刘德华 胸围"。但事实上,这么搜索出来的结果,尽是一些诸如"刘德华取笑莫文蔚胸围太小"之类的八卦新闻,无法快速得到所需要的资料。
可以想到的是,需要的资料应该包含在刘德华的全面介绍性文字中,除了胸围,应该还包括他的身高,体重,生日等一系列相关信息。这样就可以进一步的增加其他约束性关键词以缩小搜索范围。现在让我们搜索:"刘德华
胸围 身高"。没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿?改编自刘德华《忘情水》的变态歪歌"、"用身高体重三围和生日来加以编号"。
怎么把这部小说去掉?好办,"刘德华 胸围 身高 -阿泰"。OK,结果出来了,华仔胸围84cm。
那么为什么用"阿泰"而不用"第一次亲密接触"呢?这是因为,小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。
要声明的是,我们对刘德华同志没有任何其他意思。这个例子只是说明搜索攻略的重要性。掌握了攻略,将会使你的搜索更有效率。
初级攻略
我们假定基本搜索是你生与俱来的技能。比如对前面提到的上网是否有害健康的问题,你不会向Google输入"上网太多会对身体健康有什么样的危害??"来难为它,而是输入关键词"上网
身体 时间"。让我们就从这里开始。
我们知道,关键词"上网 身体 时间"之间的空格" "是表示空格两边的词语都要出现在所要搜索的信息内,这就是第一个操作符"AND"。
点击右边的按钮"google搜索",结果很快就出来了:"共约有52,800项查询结果。"这么多!!!再看第一条结果:"天津:中小学生上网率已达64%
[文化新闻]",不符合要求。再往下看,有三条接近要求。一条是说"网瘾"的,两条谈到了"上网病"。结果虽多,符合要求的还是太少了。
让我们缩小范围。"上网 身体 时间 长 OR 健康 OR 危害 OR 不利","OR"是第二个操作符,表示搜索结果中可能含有某词汇。注意,"OR"是大写,而不是小写。上面的搜索串表示,要查找的信息中,必须含有"上网""时间""身体",可能含有"长""健康""危害""不利"中的一个或者多个。结果出来了:"共约有41,100项查询结果。"少了很多。再看实际结果,嗯,前10条里有7条符合要求。
这时再增加可能的关键词已经没什么用了,这只会增加搜索结果(因为是逻辑"或")。在结果中,"老小孩" "e时代父母"两个条目是不符合要求的,可以去除之。此外,凡是涉及上网时间对身体影响的,基本都是不利的,因此"危害"和"不利"与前面的关键字作用重复,可以去掉。"上网
身体 时间-父母 -老小孩 长 OR 健康"。"-"是第三个操作符,表示符号后面要去除的信息。上述检索串表示"搜索必须包含'上网'、'身体'和'时间',必须包含'长'、'健康'中的一个或者两个,但是不包含'老小孩'、'父母'的所有简体中文信息"。
这时查看结果,已经非常令人满意。当然如果你愿意的话,还可以继续用"-"减少看不惯的信息,直到前几页全是符合要求的信息为止。
上面所说的,是一个典型的初级搜索过程。它包括以下几个步骤:
1、 找出关键字。
2、 缩小搜索范围。
3、 去除冗余信息。
高级攻略
通常而言,上面这些简单的搜索语法已经能解决日常基本问题了。不过,如果想更迅速、更贴切地找到需要的信息,你还需要了解更多的东西。高手和常人的差别通常就在这里。
问题:在第二次世界大战中,有多少犹太人被纳粹屠杀?(要求,搜索英文信息)
攻略:按照《搜索初阶》中介绍的搜索步骤,我们可以确定,"第二次世界大战"、"犹太人"和"纳粹""屠杀"应该是四个必有的关键字。但在进一步深入之前,我们需要做一些先期步骤,那就是,第二次世界大战、犹太人、纳粹三个术语用英文如何表述?
方法一,查字典;方法二,问他人;方法三,借助搜索引擎。为了练习,我们用第三种方法。
思路1:有专门的中英在线翻译网站吗?思路2:会有同时出现中英文术语的网页吗?
先尝试第一种思路。"在线 翻译 OR 字典"。非常好,前10个条目似乎全符合要求。打开第一个条目世界通www.netat.net,一个很好的在线翻译网站。如此迅速完美的就达到了目的。
再尝试第二种思路。不知道第二次世界大战的专门写法,但世界和战争总归会拼写吧。"第二次世界大战 world war""犹太人
english""纳粹 germany"。尽管不是很顺利,但略微的翻几页,目的也都达到了,分别是"World War
II"、"Jew"和"Nazi"。
上述这个小小的先期搜索,其实表述了一个非常非常重要的搜索思路:首先到专门网站上寻找你需要的信息。比如你要找某个中文词汇的英文译文,那么第一直觉就应该找一个在线翻译网站,而不是头脑发热的用搜索引擎狂搜一气。
现在,我们要开始正式的搜索了。按照上述思路,我们最好能找到一个专门全面介绍二战中被纳粹屠杀的犹太人状况的网站。因为我们所要寻求的答案,肯定在这样的网站上。
思路1:到雅虎或者Google的分类目录中查找介绍相关信息的网站;思路2:用Google的网页搜索寻找相关网站或者网页。
先看第一种思路。到雅虎的首页,二战属于历史,于是点进"Social Science",再点入"历史",在搜索栏内输入"world
war ii jew",选中"just this category",搜索。我们来看第五项结果:"Holocaust
Survivors - educational resource about the Nazi Holocaust of Jews in World War
II includes interviews, photographs, and audio recordings of survivors.
http://www.holocaustsurvivors.org/ More sites about: The Holocaust > Personal
Accounts"
这个网站是专门介绍二战中被纳粹屠杀的犹太人幸存者的回忆。注意最底下一行的链接"更多相关网站:大屠杀>人数",这意味着可以找到更多类似站点。点击一下,哦,所有的问题都完美的解决了。
现在再尝试第二种思路。首先可以想到的是,类似网站肯定是某个专门组织搞的,非盈利性的。那么,这样的网站域名通常是ORG,而不是COM,NET等。至于带国家域名后缀的,就不用考虑了,因为很可能语言不通。搜索:""world
war +II" jew nazi holocaust site:org",结果:"已向英特网搜索"world
war +II" jew nazi site:org. 共约有4,600项查询结果,这是第1-10项 。 搜索用时0.05秒。 "
这里需要解释三点:
1、"world war ii"为什么用英文引号引起来?这是因为,world war ii是个专有名次短语,加引号就表示这是一个整体。如果没有引号的话,搜索引擎会把"world
war ii"当成三个关键字做搜索,这样会出现很多不相关结果。
2、ii前为什么要加个加号?这是因为,ii有可能是个"stop word",也就是说,这样的词太常见了,搜索引擎对此不做索引。这样的词主要包括一些代词、副词、介词等,如I,
why, at等,还包括各种标点符号。如果要强行对这些词(标点符号加强制也无效)做搜索,则需要在词前加强制符号"+"。当然,事实是在google看来,ii不属于"stop
word",我们多虑了:-)
3、"site"语法。"site"表示搜索结果局限于某个具体网站或者网站频道,如"www.sina.com.cn"、"edu.sina.com.cn",或者是某个域名,如"com.cn"、"com"等等。如果是要排除某网站或者域名范围内的页面,只需用"-网站/域名"。在上例中,表示只对顶级域名为"org"的网站进行搜索。
现在让我们回到原来这个案例。4600项结果太多了,我们要再加一些限定词减少,同时把搜索范围放大,对研究机构或大学也做搜索。""world
war +II" jew nazi Holocaust account OR amount site:org OR site:edu"。结果:"共约有2,390项查询结果。"很好,随便点几个网页,就可以找到需要的信息了。
不过,除了上述思路,还有其他方法吗?
偏方思路1:到www.ask.com直接问问题!!!输入:"how many Jew were slaughtered by nazi during
world war II",效果不错,很省力。
偏方思路2:类似课题肯定有专家研究而且成文,这样的文件通常会被做成PDF格式的文档放在互联网上。找这些论文即可:""world war
+II" jew nazi holocaust filetype:pdf"。效果也不错。
需要说明的是,"filetype:"是Google搜索引擎非常有用的语法。它可以用来搜索Office文档,如DOC,XLS,PPT等,也可以用来搜索Flash文件,扩展名是SWF。最重要的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前GOOGLE检索的PDF文档大约有2500万左右。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。
在这个例子中,我们展示了一种非常重要的搜索策略,那就是:目录优先。在搜索普通网页之前,先考虑一下,你要搜索的信息会不会在某些专门网站上,而这些网站,是否能在门户网站的网站目录中查找到。此外,如果要搜索的信息会有很多专家研究,并有很多相关论文,那么可以考虑搜索特殊文件,如PDF文档,或者DOC文档。
我们还通过这个例子介绍了一个缩小搜索范围的语法"site:"。其实缩小搜索范围的语法还有很重要的两个,"inurl"和"intitle",这里顺便介绍一下。
"inurl"语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如"MP3"、"GALLARY"等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。例如,查找微软网站上关于windowsXP的安全课题资料。语法:"inurl:security
windowsXP site:microsoft.com"注意:"inurl:"后面不能有空格,GOOGLE不对URL符号如"/"进行搜索。例如,GOOGLE会把"cgi-bin/phf"中的"/"当成空格处理。
"allinurl"语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。例如,查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是"域名/cgi-bin/phf"。语法:"allinurl:'cgi-bin'
phf com"
"intitle"和"allintitle"的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。例如,查找日本明星藤原纪香的照片集。语法:"intitle:藤原纪香
写真"
"磨刀不误砍柴功",做搜索也一样。
在搜索之前,花一点时间,认真深入的分析自己的需求,再确定一个搜索方案,比什么都不想,闷头在Google上狂搜一气要有效率得多。
这就是说,搜索是要讲战术的。
请在搜索前思考以下问题:
问题一:你是要找信息,还是要找网站?
战术:如果是前者,可以优先考虑Google等网页搜索引擎。如果是后者,应该优先考虑如新浪、搜狐等网站目录服务。当然,即便是查网站,也没必要鼠标一层一层的点开,而是应该直接使用门户网站提供的目录搜索功能。
问题二:你是要找某个特定信息,还是要找大量的相关信息?
战术:如果是特定的信息,则用相关关键词,直接在Google内搜索;如果是要找大量的相关信息,最好能找到集中该相关信息的网站。若是后者,注意多使用"intitle"或者"allintitle"语法。很多专题名称,都会在首页标题中标识出来。用"intitle"语法可以迅速的命中目标。
战例:对于BLIZZARD新出的游戏魔兽争霸3,你想了解一下国内代理奥美的发布时间。这属于查找特定信息,用Google可以轻松搞定,"魔兽争霸
奥美 正式 上市 日期"。如果你想了解这个游戏的最新特色和玩法,这属于很多集成的相关信息,那么高效率的方式应该是找一个魔兽争霸3的专题网站或者频道,"魔兽争霸
intitle:专题",或者"魔兽争霸 intitle:专区",而不是用Google零零碎碎的去搜。
问题三:你要找的信息会有专门的网站收集并发布吗?
战术:如果你知道,要找的东西集中于某个服务器上,那么就不要用Google漫无边际的查询,而可以直接跑该服务器上用站内搜索,或者使用Google的域名限定语法。
战例:你想读金庸的《越女剑》。网络上有很多网站收罗了金庸小说,比如shuku.net就是一个高质量的书籍收藏站。最方便的方式应该是直接到shuku.net,点开"武侠小说",进入金庸专题。如果你对该站结构不熟悉,但知道该站有某信息,那么可以利用Google的"site"限定语法。还是上面的例子。你可以用"越女剑
site:shuku.net"快速搜到所需要的信息。
与书籍类似的,还有MP3,共享软件等。在专门网站上查找信息,比用Google漫天撒网效率高得多。
请在搜索时思考以下问题:
问题一:你选择的关键字合适吗?
战术:这是一个很难回答的问题,选择好的搜索关键字,很大程度上要依赖经验。但是,在搜索之前问自己这么一个问题,有助于避免浪费时间。在选择关键字的时候,你必须发动想象,想象你所需要的信息,会存在于一个什么样的环境中,周围会有什么标志性的关键字(不一定与你要的信息直接相关)。
战例:假定你要查"黄花闺女"一词中"黄花"是什么意思。 "黄花闺女"是一个约定的俗语,如果只用"黄花闺女
黄花"做关键词,搜索结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜索结果。现在,你应该冷静下来思考一下所需要的信息会在什么样的环境中出现,周围会有什么样的标志性关键词。那么选择什么关键词好呢?备选的有"意思"、"含义"、"来历"、"由来"、"典故"、"出典"、"渊源"等,可以猜到的是,类似的资料,应该包含在一些民俗介绍性的文字里,所以用诸如"来历"、"由来"、"出典"等词汇的概率更高一些。
搜索:"黄花闺女 黄花 由来",查到"黄花"原来出典于《太平御览》,与南朝的寿阳公主相关。如果想获得第一手资料,那就可以用"太平御览
寿阳公主"做搜索了。
问题二:能否减少非相关信息?
战术:减少冗余信息的方法有三种,一种是增加目标信息的关键字,第二种是缩小搜索范围(用site语法),第三种是去掉包含特定字串的冗余信息。
战例:现在要查阅天龙八部具体是哪八部。如果很直接的用"天龙八部"做关键字,搜索结果数量巨大,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。于是可以设法减少冗余信息。第一种情况,如果你知道八部中的某一部,比如阿修罗,就增??"阿修罗"关键字。"天龙八部
阿修罗",搜索结果大为减少,很快找到需要的信息。第二种情况,如果你不知道八部中的任何一部,但知道这与佛教相关,可以考虑排除与金庸小说相关的记录。"天龙八部
佛教 -金庸",结果也为减少,可以迅速找到需要的资料。
如果搜索失败,请思考以下问题:
问题一:你能否找到相关信息领域的资源综述文章?
战术:搜索高手有句名言:"想了解一个不熟悉领域,最好的搜索方法,既不是去网页搜索引擎查排名最前的网站,也不是去门户网站点击某分类子目录,而是搜索一篇综述文章,一篇介绍评价该领域优秀资源的文章。"
战例:你想下载某某游戏,但找不到链接,上常规的几个游戏下载站作站内搜索也没有,怎么办?那就试着去找找诸如《游戏下载网站大全》之类的资源介绍性文章吧。
问题二:你能否搜索到知道这个信息的人?
战术:尝试着搜索一下与信息相关的企业和个人。比如说,你想了解一下某某显卡芯片的具体参数规格,但搜索不到,那么,搜索一下显卡制造商或者代理商,找到他们的电话,打电话过去,直接向那些公司的技术支持或者销售工程师询问甚至索要技术资料!!!
问题三:你周围的同事朋友(或者网友)中有谁会对这方面比较了解?
战术:直接找他。
为什么最简单的方法要最后才去试呢?
想了解一个不熟悉的领域,最好的搜索方法既不是去网页搜索引擎查排名最前的网站,也不是去门户网站点击某分类子目录,而是搜索一篇综述文章,一篇介绍评价该领域优秀资源的文章。比方说,如果某人写了一篇文章,是专门评述和比较各个在线书库的,那么,查到这篇文章,比你查到一个特定的在线书库要有用得多。所以说,真正的搜索高手,往往并不是简单的熟悉各个搜索引擎的特点和语法,更主要的是,他们有一大堆长期积累而得的实战经验。这样,当别人还在一页一页的翻查搜索结果的时候,他已经直接的去了目的网站,取得所需要的信息了。
找人
方案:一个人在网上揭示的资料通常有:姓名、网名、性别、年龄、毕业学校、工作单位、外号、住址、电话、信箱、BP机号码、手机号码、ICQ号、OICQ号等等。所以,如果你要了解一下你多年没见过的同学,那不妨用上述信息做关键字进行查询,也许会有大的收获。
找共享软件
方案一:到专门的软件下载网站,如www.newhua.com,www.download.com.cn,dl.163.com,soft.269.com等网站做站内搜索,并下载。
方案二:到天网e.pku.edu.cn做FTP检索(Cernet用户建议用)。
方案三:用Google搜索"winzip 下载 OR download",如果有必要的话,可以加"site"语法控制搜索范围。
找书和MP3
方案:搜索语法同找共享软件类似。快速搜索这类信息的一个关键在于平时的积累。比如你要是知道www.sogua.com上有非常齐全的MP3下载链接,你就不会到其它地方费力气查找了。书也一样,了解几个大型的书库网站,如www.shuku.net,查找书籍有时比精通搜索引擎的效率还高。
找图片
方案一:用Google或者AltaVista的图象搜索功能。输入与图片相关的关键字,如图片文件名,或者图片周围可能出现的字串。比如,找布兰妮的照片,简单的用"britney"即可。
方案二:用Google的普通搜索功能找图片。专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如"gallary"、"album"、"photo"、"image"等。这样就可以使用INURL语法迅速找到这类目录,如搜索:""britney
spears" inurl:photo"。提供图片集合的网页,在标题栏内通常会注明,这是某某的图片集合。于是就可以用INTITLE语法找到这类网页,如搜索:"intitle:"britney
spears" picture"。明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站点,是个迅速找到图片的好办法,如搜索:""britney
spears" site:geocities.com"。
方案三:检索新闻组。自己去检索新闻组里的图片并不是件容易的事情,往往是检索第三方把图片归档的网站。但很不幸,这类网站通常是收费的。
images.google.com对于很多报纸杂志的编辑,绝对是一个雪中送炭式的工具。比如要在某个版面上插一张专题图片,用google的图片搜索功能几秒钟就可以搞定了。
images.google.com作为专门的图片搜索引擎,实际上有其特殊的用途。举个例子,互联网上本拉登的照片成千上万。但是,它们都是分散的,往往随机的分布于各种新闻报道中。用搜索图片库的方式(最容易想到的如"Ben
Ladin photo"),来搜索本拉登的照片,显然是不恰当的。在这个时候,images.google.com就派上用场了。
但是,如果查找的图片在网上有很多主题"gallary",如诸多电影电视明星的照片,或者是设计用的艺术图库,则明显就不适合用images.google.com来查找了。
综上,可以有这样的结论:如果要搜索的图片是分散的,则用google图片搜索;如果要搜索的图片通常是处于某个图片集合中的,则不适合用google图片搜索。
找论文或者商业计划书等文件
方案一:用Google的普通搜索语法。如"土木结构 设计 毕业 论文"。
方案二:由于作者通常把这些成文文件做成DOC或者PDF,因此可以用Google的filetype语法检索。搜索:"共产党 建设 filetype:doc"。这个方法命中率极高。
某英文单词或者汉字不会写
方案:对于英文单词,可以尽量的拼写接近原单词,让Google搜索。Google有自动纠错功能,并把正确单词提示出来。
对中国汉字,可以把该汉字放到一个比较固定的短语中,然后把该字空出来,由搜索引擎自行查找。例如,输入法中没有朱总理名字的第二个字,现在要找到这个汉字。可以这样查找"朱
基总理"。
快速找到某本书的某个章节
方案:要迅速找到《共产党宣言》的第一章。在网上找到这本书并翻阅也无不可,但如果了解该章节的某些特定内容,就可以用更迅速的方式达到目的。比如上例,搜??"共产主义
幽灵 宣言"。
这一思路可以推而广之。有的时候,检索字串并不一定是典型的"关键字",只要这几个字串联合起来可以把这段信息与其它的区别开就行。再举个例子,要查找《镜花缘》一书中淑士国酒保的酸话原文,那段话之乎者也横飞,可以搜索:"酒
贵 贱 之"。
“我们若能更妥善地搜寻资料,实在已经改变世界。”