• 搜索引擎发展史
1990 年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是 1990 年由 Montreal 的 McGill University
学生 Alan Emtage 、 Peter Deutsch 、 Bill Wheelan 发明的 Archie(Archie
FAQ) 。当时 World Wide Web 还未出现。 Archie 是第一个自动索引互联网上匿名 FTP
网站文件的程序,但它还不是真正的搜索引擎。 Archie 是一个可搜索的 FTP 文件名列表,用户必须输入精确的文件名搜索,然后
Archie 会告诉用户哪一个 FTP 地址可以下载该文件。
由于 Archie 深受欢迎,受其启发, Nevada System Computing
Services 大学于 1993 年开发了一个 Gopher ( Gopher FAQ )搜索工具 Veronica
( Veronica FAQ )。 Jughead 是后来另一个 Gopher 搜索工具。
由于专门用于检索信息的 Robot 程序像蜘蛛 (spider) 一样在网络间爬来爬去,因此,搜索引擎的
Robot 程序被称为 spider(Spider FAQ) 程序。世界上第一个 Spider 程序,是 MIT Matthew
Gray 的 World wide Web Wanderer ,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(
URL )。
与 Wanderer 相对应, 1993 年 10 月 Martijn Koster 创建了
ALIWEB ( Martijn Koster Annouces the Availability of Aliweb
),它相当于 Archie 的 HTTP 版本。 ALIWEB 不使用网络搜寻 Robot ,如果网站主管们希望自己的网页被
ALIWEB 收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的 Yahoo 。
1993 年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是: Scotland
的 JumpStation 、 Colorado 大学 Oliver McBryan 的 The World Wide
Web Worm ( First Mention of McBryan ' s World Wide Web Worm
)、 NASA 的 Repository-Based Software Engineering (RBSE) spider
。
1993 年 2 月, 6 个 Stanford (斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是
Excite 。后来以概念搜索闻名 .
1994 年 1 月,第一个既可搜索又可浏览的分类目录 EINet Galaxy ( Tradewave
Galaxy )上线。除了网站搜索,它还支持 Gopher 和 Telnet 搜索。
1994 年 4 月, Stanford 两名博士生,美籍华人 Jerry Yang (杨致远)和
David Filo 共同创办了 Yahoo 。随着访问量和收录链接数的增长, Yahoo 目录开始支持简单的数据库搜索。因为
Yahoo! 的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。( Yahoo
以后陆续使用 AltaVista 、 Inktomi 、 Google 提供搜索引擎服务)
1994 年初, Washington 大学 CS 学生 Brian Pinkerton
开始了他的小项目 WebCrawler ( Brian Pinkerton Announces the Availability
of Webcrawler )。 1994 年 4 月 20 日, WebCrawler 正式亮相时仅包含来自
6000 个服务器的内容。 WebCrawler 是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过
URL 和摘要搜索,摘要一般来自人工评论或程序自动取正文的前 100 个字。(后来 webcrawler 陆续被
AOL 和 Excite 收购,现在和 excite 一样改用元搜索引擎 Dogpile )
Lycos ( Carnegie Mellon University Center for
Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。 Carnegie
Mellon University 的 Michael Mauldin 将 John Leavitt 的 spider
程序接入到其索引程序中,创建了 Lycos 。 1994 年 7 月 20 日,数据量为 54,000 的 Lycos
正式发布。除了相关性排序外, Lycos 还提供了前缀匹配和字符相近限制, Lycos 第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:
1994 年 8 月- 394,000 documents ; 1995 年 1 月- 1.5 million
documents ; 1996 年 11 月- over 60 million documents 。
Infoseek ( Steve Kirsch Announces Free Demos
Of the Infoseek Search Engine )是另一个重要的搜索引擎,虽然公司声称 1994 年
1 月已创立,但直到年底它的搜索引擎才与公众见面。起初, Infoseek 只是一个不起眼的搜索引擎,它沿袭 Yahoo!
和 Lycos 的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。
Infoseek 友善的用户界面、大量附加服务( such as UPS tracking, News, a directory,
and the like ) 使它声望日隆。而 1995 年 12 月与 Netscape 的战略性协议,使它成为一个强势搜索引擎:当用户点击
Netscape 浏览器上的搜索按钮时,弹出 Infoseek 的搜索服务,而此前由 Yahoo! 提供该服务。
1995 年,一种新的搜索引擎形式出现了——元搜索引擎( A Meta Search Engine
Roundup )。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是
Washington 大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler
。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
DEC 的 AltaVista(2001 年夏季起部分网友需通过 p-roxy 访问,无 p-roxy
可用 qbseach 单选 AltaVista 搜索,只能显示第一页搜索结果 ) 是一个迟到者, 1995 年 12
月才登场亮相( AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。
AltaVista 最突出的优势是它的速度(搜索引擎 9238 :比较搞笑,设计 AltaVista 的目的,据说只是为了展示
DEC Alpha 芯片的强大运算能力)。而 AltaVista 的另一些新功能,则永远改变了搜索引擎的定义。 AltaVista
是第一个支持自然语言搜索的搜索引擎, AltaVista 是第一个实现高级搜索语法的搜索引擎(如 AND, OR,
NOT 等)。用户可以用 AltaVista 搜索 Newsgroups (新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索
Titles 、搜索 Java applets 、搜索 ActiveX objects 。 AltaVista 也声称是第一个支持用户自己向网页索引库提交或删除
URL 的搜索引擎,并能在 24 小时内上线。 AltaVista 最有趣的新功能之一,是搜索有链接指向某个 URL
的所有网站。在面向用户的界面上, AltaVista 也作了大量革新。 1997 年, AltaVista 发布了一个图形演示系统
LiveTopics ,帮助用户从成千上万的搜索结果中找到想要的。
然后到来的是 HotBot 。 1995 年 9 月 26 日,加州伯克利分校 CS 助教
Eric Brewer 、博士生 Paul Gauthier 创立了 Inktomi ( UC Berkeley
Announces Inktomi ), 1996 年 5 月 20 日, Inktomi 公司成立,强大的 HotBot
出现在世人面前。声称每天能抓取索引 1 千万页以上,所以有远超过其它搜索引擎的新内容。 HotBot 也大量运用
cookie 储存用户的个人搜索喜好设置。
Northernlight 公司于 1995 年 9 月成立于马萨诸塞州剑桥, 1997
年 8 月, Northernlight 搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有 Stop
Words ,它有出色的 Current News 、 7,100 多出版物组成的 Special Collection
、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998 年 10 月之前, Google 只是 Stanford 大学的一个小项目 BackRub
。 1995 年博士生 Larry Page 开始学习搜索引擎设计,于 1997 年 9 月 15 日注册了 google.com
的域名, 1997 年底,在 Sergey Brin 和 Scott Hassan 、 Alan Steremberg
的共同参与下, BachRub 开始提供 Demo 。 1999 年 2 月, Google 完成了从 Alpha
版到 Beta 版的蜕变。 Google 公司则把 1998 年 9 月 27 日认作自己的生日。
Google 在 Pagerank 、动态摘要、网页快照、 DailyRefresh 、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象
AltaVista 一样,再一次永远改变了搜索引擎的定义。
在 2000 年中以前, Google 虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到
2000 年中数据库升级后,又借被 Yahoo 选作搜索引擎的东风,才一飞冲天。
Fast ( Alltheweb )公司创立于 1997 年,是挪威科技大学 (NTNU)
学术研究的副产品。 1999 年 5 月,发布了自己的搜索引擎 AllTheWeb 。 Fast 创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。
Fast ( Alltheweb )的网页搜索可利用 ODP 自动分类,支持 Flash 和 pdf 搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、
MP3 、和 FTP 搜索,拥有极其强大的高级搜索功能。
Teoma 起源于 1998 年 Rutgers 大学的一个项目。 Apostolos
Gerasoulis 教授带领华裔 Tao Yang 教授等人创立 Teoma 于新泽西 Piscataway
, 2001 年春初次登场,有两个出彩的功能:支持类似自动分类的 Refine ;同时提供专业链接目录的 Resources
。
Wisenut 由韩裔 Yeogirl Yun 创立。 2001 年春季发布 Beta
版, 2001 年 9 月 5 日发布正式版, 2002 年 4 月被分类目录提供商 looksmart 收购。
wisenut 也有两个出彩的功能:包含类似自动分类和相关检索词的 WiseGuide ;预览搜索结果的 Sneak-a-Peek
。
Gigablast 由前 Infoseek 工程师 Matt Wells 创立, 2002
年 3 月展示 pre-beta 版, 2002 年 7 月 21 日发布 Beta 版。 Gigablast
的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索
Openfind 创立于 1998 年 1 月,其技术源自台湾中正大学吴升教授所领导的
GAIS 实验室。 Openfind 起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但
2000 年后市场逐渐被 Baidu 和 Google 瓜分。 2002 年 6 月, Openfind 重新发布基于
GAIS30 Project 的 Openfind 搜索引擎 Beta 版,推出多元排序 (PolyRankTM)
,宣布累计抓取网页 35 亿,开始进入英文搜索领域,此后技术升级明显加快。
Baidu 2000 年 1 月,超链分析专利发明人、前 Infoseek 资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(
Baidu )公司。 2001 年 8 月发布 Baidu.com 搜索引擎 Beta 版(此前 Baidu 只为其它门户网站搜狐新浪
Tom 等提供搜索引擎), 2001 年 10 月 22 日正式发布 Baidu 搜索引擎。 Baidu 虽然只提供中文搜索,但目前收录中文网页超过
9000 万,可能是最大的中文数据库。 Baidu 搜索引擎的其它特色包括:网页快照、网页预览 / 预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、
Flash 搜索、信息快递搜索。 2002 年 3 月闪电计划( Blitzen Project )开始后,技术升级明显加快。
|