中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 

更多关于“最小语境含义表达单位(语境根)”和“相关词”的制定,请看本第四节“中文分词和检索”里面详细说明,这里回到话题,这个“关键词“其实是从网页内部来判断网页与“关键词”符合的程度,徽剑把这叫“内部投票”,其实还有一个大家都知道的外部投票,那就是外部链接。

事实上,判断“相关”不仅有网页的“相关词”,还有网站的“相关词”,一个电脑网站里面的的电脑相关“关键词“页面,肯定会比体育网站页面的权重更大。这也是内部投票。

很多人都喜欢做大量友情链接,特别是跟PR值较高的网页链接,之所以有PR值,有关文章指出“直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。”

这就有点像逻辑上的传递律,跟一个重要的相联系,肯定也有点重要。事实上,预处理系统首先判断的是蜘蛛机器人抓过来的这个链接文字,然后才是对网页进行判断分析,这是因为链接描述文字是一个“对外宣传关键词”,是吸引访问者点击过来的关键点,通常链接描述文字比网页本身更精确地描述该网页,所以搜索引擎会对这个相当关注。这也就是所谓的“外部投票”。

结合了“外部投票”和“内部投票”,抓取信息处理系统会按照一定公式针对不同“关键词”得出一个数值,这个数值就是未来查询时,,这个页面用来与其他“关键词“符合的页面比较的权重。数值越大就说明越符合,排名就越靠前。


下面再看,经过预处理后的网页,会将其内容打包压缩保存在缓存数据库系统里面,这个保存是按照前面预处理系统分析的结果保存的。下面说一下缓存数据库系统。

这个数据库系统很大,大到需要几万、几十万台服务器来存储的。它不是使用我们常见的各种数据库,而是按照一定编码记录在硬盘上,其实也就是一个自己开发的数据库系统。它的最大特点是索引系统极其发达,它是根据“最小语境含义表达单位(语境根)”来进行排序的,

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告