中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 
一、搜索引擎的历史
二、搜索引擎的技术现状
三、站内搜索和公网搜索
四、中文分词和检索
五、搜索的未来

 

今天来讨论搜索引擎,很有意思的是徽剑作为技术背景的从业人士,曾经也参与了搜索引擎的开发,开发过一套基于互联网的情报系统,就是当年百度李彦宏也曾经干过的事。后来一直也在关注搜索技术。现在徽剑手上还有两套搜索引擎系统的方案。
需要指出的是,由于考虑到读者群体,徽剑在这篇文章中基本上以原理为主,对于一些涉及细节的东西,除了关键的地方以外,一般都会略去不说。希望讨论搜索引擎这个话题的可以联系徽剑,或者加入QQ群21423628 搜索技术研究与实践,这里主要讨论搜索技术、分词、数据检索挖掘、技术开发等系列问题,特别是前沿问题,刚建立的,人不多。不过这个群不欢迎所谓的SEO人士。在徽剑看来,所谓中国的SEO基本都是糊弄人的,这个群里面发现一个清理一个。
徽剑在这里推荐英文好的朋友可以去阅读一篇文章《The Anatomy of a Large-Scale Hypertextual Web Search Engine》,是讲谷歌雏形的东西.一些主要的技术都提到了。不妨可以把徽剑的本文和那篇文章对照起来阅读,相信你对搜索引擎会有更深的认识。


一、国内搜索引擎的历史

首先让我们来看看搜索引擎的历史:

最早的计算机是用于计算弹道轨迹的,但随后人们就把它用于信息检索,其实搜索引擎就是一种信息检索。而计算机检索系统也就是搜索引擎,我们可以这么说,计算机出现后不久,就出现了搜索引擎。

按照IT历史研究人员的说法,计算机信息检索可以分为三个阶段:

首先是早期的脱机检索:其特点是不对一个检索提问立即作出回答,而是集中大批提问后进行处理,且进行处理的时间较长,人机不能对话,

1954年,美国海军首先采用IBM-701型计算机建立了世界上第一个科技文献检索系统,实现了单元词组配检索,检索逻辑只采用“逻辑与”,检索结果只是文献号。
1958年,美国通用电器公司将其加以改进,输出结果增加了题名、作者和文献摘要等项目。1964年,美国化学文摘服务社建立了文献处理自动化系统,使编制文摘的大部分工作实现了计算机检索。
同年,美国国立医学图书馆建立了计算机数据库,即医学文献分析与检索系统,不仅可以进行逻辑“或”、“与”、“非”等种运算,而且还可以从多种途径检索文献。

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
作者简介
Google 广告