中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 

假如网民搜索了几个关键词,,那更好办,查询系统进行一次“交”或者“并”的运算就可以了。

有人会说,会不会出现“最小语境含义表达单位(语境根)”库中间完全没有相关的情况,徽剑的回答是只要你不是在某种语言搜索引擎中搜索外语关键词的话,就可能不会出现,至于为什么,见后面第四节。

至于人工干预系统一听都明白,就是利用人的智能修正某些目前程序无法处理的地方,或者提高程序的效率。


三、站内搜索和公网搜索

前面我们说明目前搜索技术的体系,下面我们来看一下商业应用,在是商业应用上面,其实有两块,一是公网搜索,二是站内搜索。公网搜索就是像百度、谷歌这样的搜索引擎。而站内搜索就是网站自己的搜索。

我们先来看公网搜索,目前在中国,百度在举了绝对优势,尽管徽剑无法了解谷歌和百度内部对搜索技术细节的安排,但是对比中文搜索结果,徽剑发现了一些端倪。

首先谷歌在收录速度方面比百度要快,徽剑以为这是谷歌比较有钱,买的服务器多,蜘蛛机器人多的缘故。

其次是谷歌在网民搜索习惯上明显不如百度,百度很多时候有明显的人工修正迹象。比如相关搜索安排等很多地方。这种修正某些方面方面(比如为了赢利修改搜索结果)让更多的人有批评百度,但是抛开涉及为了盈利部分不算,百度很多人工干预还是符合了中国网民的习惯。

特别指出的是,根据徽剑的观察,百度和谷歌在“关键词”的部分基本不相上下,毕竟这块目前更多靠统计学的做事。而“相关词”方面的百度的成绩远远超过谷歌,因为徽剑发现,谷歌对于外部投票看重部分超过百度,百度更多在内部投票部分做了文章,

很多人都在比较谷歌和百度的技术,其实就目前而言,谷歌和百度搜索技术上看不出来有太大差别,所不同的是两者如何运用技术,谷歌更多想依赖纯技术,而百度则对技术做了更多人工干预。要知道目前而言,计算机的智能还很低,根本就无法对汉语这种高度灵活的文字加以很好的理解。一个是一台机器在作战,一个是一台机器加一个人,谁更厉害?所以谷歌的下风也是肯定了的。

至于搜狗,尽管张朝阳说他看不起百度的技术人员,但是徽剑以为搜狗还是给自己多加点服务器,把数据量和时效性加上来再说。


近年来公网搜索还出现了一种所谓的垂直搜索,就是行业搜索,只搜索一个行业。就徽剑看来,这种模式基本都会玩完,道理很简单,搜索引擎本来就是在海量信息中找数据,像百度、谷歌这种,肯定是什么结果都会有,所有的垂直搜索能搜到的,它们都会有。至于有人以为垂直搜索会更准确一点,在徽剑看来这是胡扯,因为假如你是像百度、谷歌那样通过蜘蛛机器人抓特定网站的网页的话,那你在来源上没有任何优势,你抓特定网站,谷歌、百度不光抓你抓的,还抓了你暂时没来得及抓的,资料肯定比你全面,除非你能掌握他们无法搜索的来源,而且还要这个来源是不错的,你才有机会。通过WEB方式抓数据的垂直搜索肯定会关门。

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告