“共现”词频分析及其运用——以“华人”观念起源为例

  一、“华人”观念的起源和共现词频分析法

  “华人”观念是如何起源的?几年前吴通福博士在标点《清季外交史料》时告诉作者,该文献中长时间地频频提到华工问题,我们意识到这对解决该问题的重要性。于是对《清季外交史料》全部文献中“华人”和“华工”这两个关键词进行检索,发现包含“华人”关键词的文献早期几乎全部被蕴含在包含“华工”关键词的文献之中,如图1所示。

  图1《清季外交史料》1875-1908年“华人”与“华工”历年分布频度表

  从图1可以明显看出,从1882年开始,《清季外交史料》中“华人”关键词频度才开始凌驾“华工”之上。再从1882年前两个关键词的文章分布图来看,“华人” 一词在早期1882年之前是隐含于“华工”文本之中出现的,如表1所示。

  表1 “华人”一词于1875-1882年间与华工文献重出对照表

  我们立即用一亿两千万字的“中国近现代思想史专业数据库”对这一想法进行检验,在1882年前,“华人”关键词出现的23篇文章51次使用中,共有12篇文章34次“华人”之用例出现于“华工”议题讨论中,比例高达66.666%,故包含“华人”关键词的文献早期几乎大多数被蕴含在以讨论“华工”议题为主的文献中,证明该观点成立。这样,可以用《清季外交史料》中提及”华工”议题的文献,作为研究”华人”观念起源的基础文本。其方法是分析“华人”这个词是如何与“华工” 一词“共现”的,因为“共现”过程的意义结构中一定包含了”华人”观念的起源。

  所谓共现(co-occurrence)是指:”特征项描述的资讯共同出现的现象。通过对共现现象的定量分析,可以揭示资讯的内容关联和特征项所隐含的知识。”(杨立英,2006),它用于本文研究就是分析共现词汇集。该方法曾被用于研究教育评鉴发展趋势(曾元显、林瑜一,2011)、探勘资讯传播学领域的研究主题与关系(林颂坚,2010)、中文医学概念空间(李军莲、李丹亚、黄利辉、孙海霞、冀玉静、王钤,2010)、中国大陆信息作战领域发展(陈良驹、傅振华、杨志玮,2010)等。方法学研究则包括对于词共现的文本相似度计算(曹恬、周丽、张国煊,2007)、提出新的共现辞汇演算法——FDC(陈钟、彭波,2005)、基于辞汇吸引与排斥模型的共现词提取(郭锋、李绍滋、周昌乐、林颖、李胜睿,2004)、共现分析的文本知识挖掘方法研究(王曰芬、宋爽、熊铭辉,2007)等等。

  目前该方法已被运用到人文历史研究中。如曾元显提到日本学者村田忠禧(2002):

  以1949年到2002年人民日报每年的元旦社论为材料,先自订待观测的关键词汇,然后统计这些词汇出现的篇数与年代。依此资料分析每年焦点词汇的变化,并观看某年焦点词汇在其他年份出现的状况,以了解该年份与其他年份的连动关系。村田忠禧认为这些词汇的变化可以宏观地观察历史变动,且此种分析结果不是在推翻过去对历史的解释,而是做进一步地补充(亦即让资料自己说话),他认为这正是其词汇频率统计分析有效性之所在。(曾元显、林瑜一,2011)

  但这种方法碰到最大困难是不知选择哪些关键词进行共现分析才是适当的。正如这方面研究者所说:“其最重要的起始步骤,需自订‘待观测的关键词汇’,是此方法最耗费专业知识、人力与时间的地方。”(曾元显、林瑜一, 2011)

  换言之,要用”关键词的共现”来探讨某一观念的起源,原有基于数据库中一个和数个关键词检索的统计方法就不够用了。除了众多关键词之分析研究非人力所能及之外,最大的困难在于我们完全不知道分析过程中还需要涉及哪些关键词。例如本文欲研究“华人”观念如何从“华工”议题中转化出来,必须找到两者发生关系的事件和论述,它们涉及哪些关键词呢?要在四百多万字的《清季外交史料》中将其找出绝不容易,为此必须寻找新的数位方法。

  我们发现,可以运用对齐夫定律的最大偏离即是该文本最重要的关键词丛的预设,从有关文本中找出最重要的关键词丛(金观涛、姚育松、刘昭麟,2011)。然后再去建立研究两个不同关键词“共现”现象的分析方法。

  目前有关于词“共现”判定演算法有如下三种:“1.以整篇文档作为视窗单元,计算在每个给定文档中每对辞汇同时出现的次数;2.计算辞汇对在同一个句子、同一段文章或章节中出现的次数;3.计算辞汇对在文档中与在文档集中共现的相对频率。”(李军莲、李丹亚、黄利辉、孙海霞、冀玉静、王钤,2010)而本文则是采取不超过三十个汉字之距离作为视窗单元,来讨论两个关键词是否共现。我们认为,这个距离虽然可任意选择,但若能根据研究者就文本之书写风格属性阅读下,以确定最适合之视窗单元,将更能添加人文研究者之专业判断,亦将比任意选择更能贴近历史文本语境。[1]

  二、齐夫定律与关键词丛

  1949年哈佛大学的语言学家George Kinsley Zipf提出”齐夫定律”。它通常表达成公式(1):

  公式(1):f * n = c

  其中f为某词总次数,n为该词在次数递减排列中的序号,c为常数。[2]

  作者金观涛等曾提出根据齐夫定律选择特定文本重要关键词的想法,即齐夫定律作为语言学法则和用语言表达特定内容无关。这样对齐夫定律的偏离可以分为“大偏离”和“一般(线性)偏离”,”大偏离”即为该文本要表达的最主要的意义。它规定代表该文本意义结构的关键词丛(金观涛、姚育松、刘昭麟,2010)。

  图2《清季外交史料》华工资料准词汇对数值

  目前在一亿两千万字的“中国近现代思想史专业数据库”中,《清季外交史料》共导入了1875-1909年之档案资料,包含5,758份档案;不包含档案标题、作者等基本资讯,仅文件内容合计2,900,938个汉字。然本文由于需对整部《清季外交史料》进行历时性观察,故另采用了吴通福博士的繁体标点版来作为“华工”议题史料的基础文本较“中国近现代思想史专业数据库”中《清季外交史料》多了1909- 1911年的档案,包含档案标题总字数为4,025,966字。本文即从1875-1911年《清季外交史料》中,撷取出曾出现过“华工”此一关键词之文献共有109篇,总字数为118,899字。我们使用数位技术对《清季外交史料》中“华工”109篇史料进行断词,以出现5次以上之组合称为”准词汇”。其数目共有1,515个。照公式(1)可绘出准词汇在该文本中的齐夫曲线(图2)。显而易见其中水平段为常数,即c等于8000。从8000至6874为近似斜线,即“一般偏离”,共有587个准词汇;而小于6874者为“大偏离”,有543个准词汇。这样它规定了与《清季外交史料》华工议题关系最为密切的关键词丛,经过分析筛选共有168个具有研究意义的词汇,可列为表2。

  表2《清季外交史料》华工议题具研究意义词丛表

  表2给出文本的关键词丛,它对于人文研究者深具价值。这张关键词频表,可使研究者了解在“华工”事件发展史中,有哪些关键词与“华工”事件并生。我们透过数位方法协助,能够找到与“华工”相关之重要关键词,而不致于受限于研究者主观想像中的几个观念。例如若以传统方式来处理“华工”事件,可能会思考到的是“古巴”、“美国”、“墨西哥”等等曾出现“华工受虐”问题的地点,或者如“保护华工”观念;但从词表中,却可看到与“华工”共现的如“华人”、“华民”、“华商”、“华侨”等一组词丛,这时即可刺激人文研究者去思考“华工”事件与“华人”意识之间的关系为何,又与“华民”、“华商”、“华侨”之间有何种互动关系。

  当研究者从词表中看到了“华工”事件与“华人”意识之间可能的关系时,以往人文学者会开始找寻曾经一起讨论“华工”与“华人”的相关文献加以阅读,进而分析并连缀成文,形成一条从“华工”事件引起“华人”意识兴起的论述脉络。这样的传统论述虽然可行,然而却未能够举出有利的证据去证明“华工”事件确实引起“华人”意识兴起。而今处理这个问题,因数位人文学的出现而有新的进路。关键词共现现象的数位人文研究表明,“华工”事件因“华人”意识的觉醒被赋予新的意义,甚至”华工”事件之所以被清廷所重视,从原本的“天朝弃民”转而成为清廷所极力保护的对象,是由于“华人”意识之兴起。

  三、共现词频分析

  首先,我们可以透过“词汇比例”的计算,来确定“华工”史料中,“华人” 关键词的历年重要性。先计算《清季外交史料》中从1875-1911年论及“华工”议题的史料总字数,并各自除以每一年的史料字数,得出每一年“华工”文本的重要性比例;接着以《清季外交史料》中从1875-1911年“华工”议题史料中“华人”一词出现的总词频254次,各自除以每一年“华人”一词出现词频数,得出每一年“华人”一词出现于“华工”文本中的重要性比例,再将两者搭配来看,若是“华人”关键词重要性比例,超过该年“华工”的文本重要性比例,则可推断出该年“华人” 一词于“华工”文本中具有重要性,为“关键词高比例年份”,也可判断那是“华人”意识重要的年份,如表3。

  表3《清季外交史料》华工文献中“华人”意识重要年份分布表(1.1倍)

  从图表中可以看见粗体字为以超过比例为1.1倍作为依据,可以初步看出几个重点时间。若再以2倍作为依据,则可更明确看出在《清季外交史料》“华工”史料中“华人意识”被讨论的几个关键年代,如表4所示。

  表4《清季外交史料》华工文献中”华人”意识重要年份分布表(2倍)

  研究者从表4即可快速且明确的判断出在“华工”论述语境下“华人”意识的重点共现年份,而研究者即可就这些年份加以判断与分析,为何这些年代“华人”意识会与“华工”论述呈现高度相关。

  而我们还可以再以“华工”与“华人”这两个关键词的共现现象来进行二度观察,确认在“华工”论述语境下“华人”意识的重点共现年份。首先我们使用“共现词频分析法”,同样以《清季外交史料》中109篇“华工”史料为底本,切出自然关键词,经过研究者筛选,去除非词汇后余下有意义词汇,形成词表,再由词表进行两两配对,并统计配对共现词组的词频,以“历年共现词组总组数“除以”该年共现词组总组数”,得出“每一年共现词组重要性比例”。再以所欲研究的”共现词组”出发,以该共现词组(例如“华工与华人”这一组)的”历年共现词组总次数”,除以“该年共现词组总次数” ,得出“每一年该共现词组(如“华工与华人”)的共现重要性比例”。透过两者比较,即可了解“共现词组”在历时性上的重要分布年代,而且透过数位方法的两两排列,可以得出超越研究者可设想范围之共现词组现象,这是数位人文学之长处所在。以“华工”为观察对象的共现词组分布,见表5;以“华人”为主要观察对象的共现词组分布,见表6;其余还有“华民”、“华商”共现词组分布见表7。

  上述这些自然配组的词丛,可以向研究者展示关键词间彼此交流的过程,并可提供给研究者新的思考方向。而本文主要处理的是华工事件与华人意识之间的问题,故将焦点锁定回两个关键词共现的历年分布状况如表8。

  表5《清季外交史料》华工文献中1875-1911年“华工”共现词组表

  表6《清季外交史料》华工文献中1875-1911年“华人”共现词组表

  表7《清季外交史料》华工文献中1875-1911年“华民”、“华商”共现词组表

  表8《清季外交史料》华工文献中1875-1911年“华人”与“华工”共现词频年度分布表

  由上可知,“华工事件”与“华人意识”之间密切相关之年代为1885年、1886 年、1888年,这三年可以看见这三年乃是“华工”事件与”华人”意识结合的关键年代,而从“共现词频分析法”中,透过数位人文方法的便捷,我们可以快速罗列出历年“共现词组”的分布篇章,如表9、表10、表11所示可以看见,“华工”事件真正与“华人”意识明显共现,是从美国对华工之虐待事件中所产生。而1885 年的华人与华工高峰,正呼应《近代中国史事日志》1885年9月2日所载美国窝民(Wyoming)州惨杀华工,焚烧房屋,死19人(一说28人),被逐出洛士丙冷(Rock Springs)者约六百人之洛士丙冷惨案(郭廷以编著,1987 : 785)。

  图3《清季外交史料》华工文献中1875-1911年“华人”与“华工”词频年度比例分布图

  表9《清季外交史料》华工文献中1885年“华人”与“华工”共现词组重要篇章分布表

  表10《清季外交史料》华工文献中1886年 “华人”与“华工”共现词组重要篇章分布表

  表11《清季外交史料》华工文献中1888年 “华人”与“华工”共现词组重要篇章分布表

  而1888年的高峰,正呼应1888年3月13日出使美国大臣张荫桓与美国订立限禁华工赴美条约六款。1888年10月1日美国总统批准限禁华工入境案。1888年12月6日李鸿章再电总署,美国完全不准华工入境,自粤到美轮船,均被迫将华人载回。(郭廷以编著,1987 : 818-824)这里可以明显看出清人已将华工事件与华人意识结合,以往是分开的,而如今美国除了禁止华工之外,更扩大禁止华人入境,禁止华商去经商,中国内部开始重视海外华人所带来的外汇经济,所以至此保护重点已不再是传统记忆中的天朝弃民,而是保护华人和华商。从华工与华人共现词频高峰的1888年可知,华工事件成为华人意识抬头的导火线,因为美国借着华工问题而限禁华人,这也导致中国为了维护华人权益,自然应当从保护华工入手,因此华工事件从1888年以后,已经不单纯是华工问题,而成了中国在国际上地位升降的比武场,故而为了维护中国的形象,清廷自然得保护华人,保护华人自然以保护华工为主,故而与以往保护华工出于自认为自己是天朝上国心态不同,188年之后的保护华工,是为自己的颜面留最后一丝尊严,故华工事件虽一,但由于加入华人意识,故而展现了不同的华工内涵,从这里也可看出事件对于观念之影响所在。

  由上述诸表格可以看出“共现词频分析”的长处,可以减少人文学者对于资料撷取的时间,可透过数位协助,快速的进入文本之中进行阅读与分析。

  注释

  [1] 作者邱伟云(2011 : 173)曾指出以研究者关注之核心关键词前后10字,作为视窗单元最接近一个话语句子长度,故将前后10字作为核心关键词的指涉范围较为适切,也符合《清季外交史料》奏折文本的“段落语意长度”。我们根据不同研究方法观察文本较为适切的视窗单元字数,若以某一核心关键词出发,则其前后10字的20字文本,最接近该核心关键词,也最能作为该核心关键词的“定义语境”。透过核心关键词前后10字文本,共20字的视窗单元,较适合提取“关键词汇”与进行“语境式定义”。而本文则不同前者从“某一核心关键词”出发,而是以“两词共现”角度出发,故两个词汇皆同样为研究者观察重点,视窗单元便需增加以扩大语境,方能呈现出较为整全之“共现语境”。然这样的视窗单元仍非绝对值而应具有开放性,如作者刘昭麟等(2011 : 155)曾指出以30个汉字作为共现视窗,是一个任意选择,研究者可自行订定数量大小,若采用较少汉字,则两词汇便不容易被认定为共同出现,因此将是比较保守的选择。而综合人文学者与数位学者对于“视窗单元”之看法,基本上对于“视窗单元”的多寡应可于进行视窗单元文本量设定前,关注不同文本属性而加以变化,例如奏折类文本属性语意段落较短,而一般文集则语意段落较长,故设定视窗单元可搭配研究文本的属性来观察与判断较为适切,因此并未具有一个绝对标准,应依人文研究者对文献阅读之语戚作视窗单元之判断,呈现出一种开放性。

  [2] 《维基百科·齐夫定律》:“在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distribution有关的事物的参考。比如,在Brown语料库中,“the”是最常见的单词,它在这个语料库中出现了大约7% (100万单词中出现69,971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5% (36,411次),之后的是“and”(28,852次)。仅仅135个字汇就占了Brown语料库的一半。”(《维基百科·齐夫定律》,上网日期:100年9月30日。网址:http://zh.wikipedia.org/wiki/齊夫定律)。另可参考蔡明月,1999,“齐夫(Zipf)定律”,《教育资料与图书馆学》,37(2),页 165-183。

 

    金观涛、邱伟云、刘昭麟:〈“共现”词频分析及其运用-以“华人”观念起源为例〉,收入项洁等主编:《数位人文要义:寻找类型与轨迹》(台北:台湾大学出版中心,2012),页141-170。ISBN:978-986-03-4236-9

    本文所使用之共现词频分年分析法,请参见论文:刘昭麟、金观涛、刘青峰、邱伟云、姚育松,《自然语言处理技术于中文史学文献分析之初步应用》, “2011第三届数位典藏与数位人文国际研讨会” 发表之论文,国立台湾大学。

  作者简介

  金观涛,国立政治大学讲座教授

  邱伟云,国立政治大学中国文学系博士研究生

  刘昭麟,国立政治大学资讯科学系教授

个人简介
张洵君,清华大学华商研究中心研究员,贵州省金融研究院(贵州财经大学贵州省金融研究院)常务副院长,兼任贵州财经大学特聘教授,全国金融系统青联委员。曾于北京大学攻读科学技术史博士学位,清华大学人文社会科学学院经济学…
每日关注 更多
张洵君 的日志归档
[查看更多]
赞助商广告