二是找出语言的“最小语境含义表达单位(语境根)”相互间的关系,也就是前面说的“相关词”。这个的决定了准确率。要知道,站内投票的意义远大于站外投票。能否准确判断“相关词”,是识别“关键词”真实与否、重要与否的关键,
徽剑自己在闲暇无事的时候也搞了个分词系统方案。基本上是以HNC理论为出发点,结合吸取了语境思想,利用数学中的筛法建立起来的一种“实用主义“分词方案。方案有这么几个特点:
一是搜索引擎不需要太精确的分词,因为查询时本身就是模糊的。太精确化的分词在搜索引擎这块没有必要。
二是统计规律如果跟语境结合,加入更多的约束条件,统计规律也是非常有效的。
三是汉语不应该拆分成最小的单位,语言的运用在不同语境是有一个最大的“不可拆分块“,,比如换句话说就是我们讲话是以词组为单位,而不是词为单位,比如“实用主义”在单独运用时是一个“不可拆分块“,不能拆分为“实用”、“主义”。这跟HNC理论的“字义基元化,词义组合化”的“语境根”概念是差不多的。所以徽剑管这叫“最小语境含义表达单位(语境根)”,它可以是字、词、短语、甚至句子,关键是看上下文的语境。
四是既然目前的人工智能有限,干嘛不用人的智能?这是典型的实用主义,但是确实很有效的做法。
五、搜索的未来
未来的网络,信息越来越多,搜索引擎作为一个有效的整合工具,将如何发展?目前中文搜索引擎面临的问题有这么几点:
如百度、谷歌等大型搜索引擎如何解决汉语分词问题?谷歌现在提出了所谓的统计学分词,基本上是笑话百出。谷歌在中文分词技术方面一直很差,否则也不至于抄搜狗输入法的字典了。网民对于搜索结果准确程度要求越来越高,谷歌百度如何应对?百度靠人力而不是技术比谷歌“更懂一点中文”,假如谷歌也来个大力发展编辑的潜力,百度又有多少胜算?
还有大量的钻空子的所谓垂直搜索,整个表单提交到搜房就成了房地产搜索引擎,整个表单提交到IT168就是数码搜索引擎?你当VC是傻子啊。百度、谷歌也开始做了你们将来怎么活?麦田写过一篇文章《垂直搜索不靠谱,说说搜评网等等》,其中大部分观点徽剑是非常赞成的。有一段话“垂直搜索网站认为自己先行一步,百度船大难掉头的想法,非常之幼稚――其实主要是目前垂直网站压根没有明确的、大的收入模式而已;但凡要是某类垂直搜索真的有大的收入之可能,比如卖火车票的吧,百度分分钟钟在首页搞一个“火车票搜索”,别的垂直搜索100%靠边站。百度做个“火车票搜索”,有难度吗?”

