以上就是国际的搜索引擎发展历史。下面来看看中文搜索引擎发展历史。
1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术。
北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。2003年7月,北京天网时代科技有限公司完全收购了北大天网,开展搜索相关业务。
百度中文搜索由前Infoseek工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。
二、搜索引擎的技术现状
前面说了搜索引擎的历史,这里来说一下搜索引擎的技术。
很多人对搜索引擎的技术的了解,大多从所谓的SEO而来,什么链接了、PR了等等,更多的是隔靴搔痒。没有真正明白搜索引擎是什么。那么这里让我们来从技术架构上看看搜索引擎到底是什么眼的东西。
先来看一张徽剑绘制的图:
这个图里面就详细说明了搜索引擎的架构。让徽剑来一一解释。
首先,搜索引擎的工作原理是由一个网络蜘蛛程序进行抓取互联网上的信息,然后建立索引数据库,等用户查询时由检索器按照用户的关键词进行检索,将检索结果返回给用户。任何搜索引擎都有三大部分,即数据来源搜索系统、查询显示系统、搜索引擎管理系统。
数据来源搜索系统顾名思义就是不断寻找数据,它的核心部分是网络蜘蛛程序,下面的图是一个其结构的说明:
蜘蛛机器人系统的工作原理是,最初根据人工干预系统在检索索引数据库里面存放的的种子链接,开始抓取网页,简而言之就是蜘蛛机器人会把你网站上的网页数据全部下载过去,交给抓处信息处理系统处理,这里有一个关键就是它是按照检索索引数据库里面提供的链接来寻找网页的,在下载这些网页的同时,会识别在网页中的超链接,也就是从被抓取网页上链接到新的网页的地址,蜘蛛机器人会把这个超链接提交给检索索引数据库,由人工干预系统制定规则,决定哪些链接可以成为新的被抓取的网页地址。


