中国互联网向何处去之三:中国搜索引擎的出路在哪里

作者:徽剑 | 原创 | 2008-02-28 08:21 | 投票
标签: 搜索引擎 

还有一种垂直搜索网站,他们采用合作方式,通过特定接口直接查询特定网站的数据库,这种机会会比前一种大一点,但是也好不到哪里去,道理很简单,这些合作的网站为什么要单独跟你合作,而不同时也与百度、谷歌合作?

所以徽剑以为,除非某些特殊情况下,比如迅雷的视频和下载搜索,确实有很大机会,道理很简单,因为这些资源的检索需要特殊的模式,比如迅雷下载,及时原下载点失效,只要迅雷保存了这个下载点的资源资料,就可以从网上多个点下载,而这个下载数据的资料需要特定的数据检索系统(也就是对比下载资源的二进制数据),这样一来,迅雷的下载才能超过百度。百度要是想介入,就得重新开发一套系统,而那些没有核心技术其他所谓垂直搜索网站,基本没戏。

下面来看一下,站内搜索,对于这块,徽剑是非常看好的,因为这块其实就是站内数据挖掘,将站内资源进行二次整合,但是就目前而言,这些站内搜索技术都很差,连腾讯都不例外,大多只是简单的利用SQL语句进行数据库检索,技术上的低就造成了实际价值被掩埋。

这种情况的解决一来需要管理层有足够认识,二来需要有更多精通搜索技术的技术人员(不是那种会写SQL语句的)才会有新的天地。

 

四、中文分词和检索

下面来看中文分词和检索,也是前面说的“语义学习分析系统“,它是整个搜索引擎的核心。道理很简单,常见搜索引擎其实就是对语言的检索,能否理解和明白搜索内容,就成了关键的因素。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文这种特殊性表现在两方面,一是无法准确将句子中的词提拆分出来,二是中文没有太严格的语法,很多时候可以倒过来顺过去说。

什么是“语义学习分析系统“,狭义讲就是分词系统,其实就是找出大量网民最常用的“词”,然后建立一个“词典”。徽剑这里之所以不用“词典”,是因为拆分技术发展的趋势已经不是“词”,“字”、“词”、“短语”都有可能,所以这里说的“最小语境含义表达单位(语境根)”就是指在特定语境中最小的语言运用单位。

 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 
个人简介
Baidu 广告
Google 广告