中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 


徽剑在这里指出一个很多人的误区,很多人以为这个数据保存在数据库里面了,然后网民在搜索时是到这个里面去检索里面的压缩数据。其实这是大错特错,早期和一些小的搜索引擎确是是这样,但是搜索引擎的核心技术不是在查询上面,而是在分析部分,也就是刚说的预处理部分上面,网民查询时,查询系统检索的是预处理系统分析的结果,用个比喻,这个预处理就是图书馆将书分类放置的过程,这个网页就像一本书,图书馆的查询系统只是帮我们将这本书找到,它知道书名和大致内容,但是不知道具体内容。当我们在搜索引擎里面打开快照时,就是把这本书“网页“给找出来了。

搜索引擎建立了大量的目录,然后帮你按目录。

如果不这样,试想下,面对海量的数据,什么遍历查询算法有这能力?一秒钟检索1000G的数据,而且还是几百万人、几千万人同时来的,这要什么样的硬件?不可能。

事实是那些已经检索好了,只是调用下而已。比如说搜索引擎数据库是10000G,而索引是1G的话,当搜索时,查询的是这个1G的索引而已。而且这个索引一开始就是按照“最小语境含义表达单位(语境根)”来排序的,所以找起来很简单。很多人总以为搜索引擎对查询要求很高,徽剑告诉那些一知半解的人,相对于其他部分而言,搜索引擎里面其实最没技术含量的就是查询。懂点数据源里的人都会,不要什么高水平,因为一切都是现成的。“最小语境含义表达单位(语境根)”越是完善,越是符合网民的查找习惯,查询就越是简单。

至于这个数据库如何开发,这属于技术细节问题,在这里就不讨论。下面来看网民的查询部分。

搜索过程是这样的,首先网民在搜索引擎的web页面上输入查询的关键词,web网页接口会将查询关键词,提交给查询分析系统,这个查询分析系统根据“语义学习分析系统“生成的“最小语境含义表达单位(语境根)”,来分析网民查询的关键词。这里有两种情况,一是网民查询的关键词正好在“最小语境含义表达单位(语境根)”库中就有,那么问题非常简单,分析系统就按照“最小语境含义表达单位(语境根)”的排序直接从缓存数据库中调出结果,交给查询处理系统,处理系统则按照前面的预处理系统分析的权重加以排列,最后生成网页发送给网民。

假如一旦“最小语境含义表达单位(语境根)”库中没有对应的,怎么办,一般而言这种情况出现在网民查询了一个很长的句子。这种情况也不复杂,查询分析系统一旦发现“最小语境含义表达单位(语境根)”库中没有,那么分析出查询关键词里面包含有那些词是“最小语境含义表达单位(语境根)”库中有的,按照“文字上尽可能多符合”的原则,找出在数据库中的那个“最小语境含义表达单位(语境根)”的结果。

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告