中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 

这里很多人有一个误区,以为网络蜘蛛机器人会不断按照网页上的超链接自己延伸过去,其实不然,每个蜘蛛机器人都是按照人工指定的规则抓取一定页面,一般而言这个是按照URL来的。超出部分的链接会提交给检索索引数据库,让下一批搜索的网络蜘蛛机器人去查找。否则一个蜘蛛机器人按照所有链接抓过去,那还不抓遍全互联网啊。

在网络蜘蛛机器人系统里面,真正起指挥作用的是人工管理系统制定的规则和检索索引数据库。它可以决定什么样的网站抓的勤一点,或者干脆不抓。

抓取信息处理系统也叫预处理系统,它是负责对网络蜘蛛抓取过来的网页数据进行处理,它负责分析抓取来的网页,它要判断这个网页几项要素:
一是这个网页的核心内容是什么,也就是这个网页的“关键词“什么?
二是这个网页的重要性权重如何,也就是说在同样“关键词“的网页比较,谁更符合这个“关键词”。

在第一个要素里面,预处理系统需要通过对网页上的内容进行分析,而这里的“关键词”不是我们日常理解的词语,它是由语义分析学习系统按照一定规律制定的“最小语境含义表达单位(语境根)”,它可以是一个字,一个词,甚至一个短语,就是说它是表示某个含义的最小单位。通过根据“最小语境含义表达单位(语境根)”和网页文字进行比较,判断出这个网页的“关键词“。

这里有两点是很关键的,“最小语境含义表达单位(语境根)”和网页文字进行比较时,是按照一定层次来进行比较的,首先会比较网页代码头部里面的关键词,其次是网页标题,然后会比较明显的标记的文字。这也是为什么SEO说标题和某些“关键词”突出显示很重要的缘故。

还有一个是网页文字相关性,其实也就是“相关词”,举例来说一个“关键词”是“电脑”页面上,同时出现内存、硬盘等相关内容的页面,肯定比一个同时只出现萝卜白菜的页面更符合这个“关键词”。所以徽剑提醒那些所谓的SEO人士,注意这个“相关词”。这个“相关词”通常是判断网页有没有所谓的SEO作弊的关键一点。如果“相关词”提取得好的话,对于识别作弊者来说是很容易的,举例来说,很多SEO作弊者都喜欢在页面上堆砌一堆词,这堆词没有连续表达的意思,比如“北京机票上海机票天津机票”这样堆砌,这样的一句话甚至一段话都没什么常见的意义的话,而“相关词”有判断连续表达的一些用语,比如“订北京机票”的“订”,这种常见的“相关词”,那很容易把这个作弊识别出来。

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告