中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 

“最小语境含义表达单位(语境根)”和“相关词”的制定问题,受不同分词方法影响,这个方式有很多种,

原始的分词大多采用的是建立词库,然后进行遍历对比,这种是效率低,如果词典里词很多的时候,运算就比较慢。词如果很少呢,分词效果又不行。二是很多时候容易出错,比如徽剑曾经碰到一次,在一个服务器上发表帖子,内有一句“四口交换机”,结果服务器提示里面有“口交”不当用语。

我们来看一段叙述,讲的是不使用分词的搜索引擎中文识别技术:

“如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎'字。搜索过程中,也是先找'雅'字的所有文档,再找'虎'字的所有文档,然后做交叉'与'运算,即包含这两个字,而且位置连续的文档才会做为符合要求的结果。这种方式是最基本的索引方式,对于大数据量搜索引擎来说这样无疑是对硬件和算法的极大挑战。还有另外一种选择:n元组合索引方式。拿“中国人”来说,先索引'中国', 再索引'国人'。搜索过程中,也是先找包含'中国'的所有文档,再找'国人'的所有文档,然后做交叉'与'运算,即包含这两个单元,而且位置连续的文档才会做为符合要求的结果。这样以两个字做为索引单元。以上两种方式,都可以不需要分词,也能实现搜索引擎的索引和搜索。但是这里存在一个不可忽视的问题:准确度。一个很常见的例子:和服,如果按照上面两种方式,都会查到包含'主板 和“服 务器”'的文档; “北大” 也会得到'东 北大 学'。对于大数据量的搜索引擎来说,每个搜索次都会有成千上万个结果,这里还要增加许多错误,估计用户体验会极差。”

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。

分词结合搜索引擎,表现在:

一是找出语言的“最小语境含义表达单位(语境根)”,按照检索习惯进行分词,建立对应的数据库。这个的好坏决定了查询的响应速度。因为如果直接对上号的更多,那么查询时就不需要进行过多处理。对于大型搜索引擎来说,每天几亿次以上的查询,这可是节省不少时间。

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告