不确定条件下的决断:归纳法与偏差

郑磊 转载自 令狐大葱 | 2012-01-28 10:52 | 收藏 | 投票


  Judgment under Uncertainty: Heuristics and Biases
  
  决断中的偏差揭示了在不确定条件下思考问题的某些归纳法。
  
  阿莫斯.特沃斯基
  丹尼尔.卡尼曼

令狐大葱 译
  
  
  许多决策的制订是基于对不确定事件(例如某次大选的结果、被告是否有罪,或者美元未来的价值)发生的可能性的信念。这些信念通常用“我认为……”、“有可能……”、“……是不可能的”等等陈述语句表示。对不确定事件的信念偶尔也用几率或主观概率等数字形式表示。是什么决定了上述信念?人们如何估测某一不确定事件的概率,或某一不确定数值的价值?本篇文章表明,人们依靠有限的几种归纳法的法则,把估测概率与预测价值这样的复杂工作简化为比较简单的决断工作。总的来说,这些归纳法非常实用,但是它们有时也会导致严重的系统误差。
  
  对概率的主观估测类似于对距离或尺寸这样的物理量的主观估测。这些决断均是基于准确性有限的数据,而这些数据是按照归纳法的法则进行处理的。例如,某一物体直接观察到的距离部分地是由其清晰度所决定的。物体的轮廓越清晰,它就显得越近。这项法则具有一定的准确性,因为在任何给定的情景中,距离较远的物体没有距离较近的物体的轮廓清晰。然而,对这项法则的依赖会导致了在估测距离时产生系统误差。尤其是当清晰度较差时,距离通常被高估,这是因为物体的轮廓变得模糊。反过来,当清晰度较好时,距离通常被低估,这是因为物体的轮廓分明。因此,依赖清晰度做为距离的指示器会导致常见的偏差。这类偏差也可以在对概率做出直观决断时看到。本文将描述三种应用于估测概率和预测价值的归纳法。我们将列举这些归纳法所导致的偏差,并将讨论观察结果在实用上和理论上的意义。
  
  注:本文系统地阐述了不确定条件下进行决策时三种基本的归纳法,即代表性(Representativeness)、有效性(Availability)、锚定(Anchoring)及其造成的偏差。本文发表于1974年,两位作者当时均供职于以色列耶路撒冷的希伯莱大学心理学系。其中,丹尼尔.卡尼曼获得2002年度诺贝尔经济学奖。

代表性(Representativeness)
  
  许多为人们所关心的概率问题属于以下类型中的一种:对象A隶属于群体B的概率是多少?事件A源自于过程B的概率是多少?过程B将导致事件A的概率是多少?在回答这些问题时,人们普遍地依赖代表性归纳法。在代表性归纳法中,人们根据A对B的代表性的程度(即A与B相似的程度)来评估概率。例如,当A高度代表B时,A源自于B的概率就判定为高。反过来,如果A与B不相似,A源自于B的概率就判定为低。
  
  为了说明通过代表性所做的决断,我们来考虑一个人。一位先前的邻居这样描述道:“Steve非常害羞、非常孤僻,他总是乐于助人,但是他对人类或现实世界没有多少兴趣。他性格温顺、有条不紊,凡事要求井井有条,并且非常注重细枝末节。”在所列出的各种可能性(比如:农民、销售员、飞机驾驶员、图书管理员或医生)中,人们如何估测Steve从事某一特定职业的概率?人们如何对这些可能性的大小进行排序?在代表性归纳法中,比如说Steve是图书管理员的概率,是根据他所代表的,或与人们心目中的图书管理员相似的程度来进行估测的。实际上,对这类问题的研究表明,人们遵从同一种方式根据概率或相似性(similarity)对职业进行排序。用这种方法判定概率会导致严重的错误,因为相似性(或者叫代表性)不受一些会影响到概率判定的因素的影响。
  
  1、对结果的先验概率的不敏感性(Insensitivity to prior probability of outcome)。
  
  对代表性没有影响但会对概率有着主要影响的因素之一,就是结果的先验概率,或者称为基率的频率(base-rate frequency)。例如,在Steve的案例中,事实上在总人口中农民要比图书管理员多得多。在对Steve是图书管理员而不是农民的概率进行合理的估测时都应对此加以考虑。然而,对基率的频率的考虑,不会影响到Steve与人们心目中的图书管理员或农民的相似性。如果人们根据代表性来评估概率,那么,先验概率就会被忽视。在某次先验概率受到控制的实验中这一现象得到了验证。受试者得到有关几个人的简要的个性描述,据称这几位是从由100位专业人士(工程师和律师)组成的样本群中随机抽取的。要求受试者估测出每一种描述属于工程师而不是律师的概率。在一种实验条件下,受试者被告知,对描述的样本进行抽样的样本群由70位工程师和30位律师组成。在另一种条件下,受试者被告知,样本群由30位工程师和70位律师组成。任一特定的描述属于工程师而不是律师的机会,在第一种条件下(工程师占多数)应比第二种条件下(律师占多数)要大。尤其,应用贝叶斯法则(Bayes’ rule)可以显示:对于每一种描述,这些机会的比率应为 或者5.44。受试者严重违背了贝叶斯法则,他们在两种条件下得出了基本相同的概率判定。很显然,受试者评估某一特定描述是属于工程师而不是律师的可能性,依据的是这一描述对两类职业的代表程度,而极少或根本不考虑各个类别的先验概率。
  
  在没有任何别的信息时,受试者会正确地使用先验概率。在没有个性概述的情况下,受试者判定某一未知个体为工程师的概率在上述两种基率条件下分别为0.7和0.3。然而,在引入某种描述后,即使这种描述毫无用处,先验概率实际上也被忽视了。对以下描述的反应说明了这一现象:
  
  Dick30岁,已婚,无子女。他是一位具有很高才能并有着强烈动机的人,发誓要在自己的领域中取得巨大成就。他很受同僚的喜爱。
  
  这段描述无意传递与Dick是工程师还是律师这个问题有关的任何信息。因此,Dick是工程师的概率就如同没有给出任何描述的情况一样,应该等于工程师在样本群中的比例。然而,受试者不管两个样本群中给出的工程师的比例是0.7还是0.3,而判定Dick是工程师的概率为0.5。很显然,在不给出任何依据与给出无价值依据时,人们的反应是不同的。在不给出任何特定的依据时,人们会正确地使用先验概率;在给出无价值的依据时,人们就会忽视先验概率。

2、对样本空间的不敏感性(Insensitivity to sample size)。
  
  为了评估从某特定人口中抽样得到某一特定结果的概率,人们一般应用代表性归纳法。也就是说,人们估测某一抽样结果的可能性(例如,随机抽取10个男人的平均身高为6英尺,即180公分),依据的是这种结果对相应参数的相似性(即,总人口中男人的平均身高)。某个样本统计量对某一人口参数的相似性并不依赖于样本空间的大小。因此,如果根据代表性估测概率,那么所判定的某个样本统计量的概率实质上就独立于样本空间的大小。实际上,在受试者估测不同大小的样本的平均身高的分布时,他们得到相同的分布。例如,得到某一样本的平均身高大于6英尺的概率,对于1000个、100个或10个人组成的样本具有同样的价值。而且,即使将问题公式化加以强调时,受试者也不能正确评价样本空间的作用。考虑下面的问题:
  
  某个城镇有两家医院提供医疗服务。较大的那家医院每天大约有45名婴儿降生,而较小的那家每天大约有15名婴儿降生。如你所了解的,所有婴儿中大约有50%是男婴。不过,确切的百分比每天都不尽相同。有时会高于50%,有时会低于50%。
  
  在1年期间,每家医院记录了新生婴儿中男婴的比例高于60%的天数。你认为哪家医院记录的天数比较多?
  
  *较大的那家医院(21)
  *较小的那家医院(21)
  *两家医院大致相等(即,两家相差5%以内)(53)
  
  圆括号中的数值是选择该答案的大学生的人数。
  
  多数受试者判定,对于大医院和小医院得到高于60%的男婴的概率是相同的,这大概是因为这些事件是用同样的统计数字描述的,因此,对总人口具有同样的代表性。与此相对,抽样理论认为,男婴的比例高于60%的天数的期望数字,对于小医院比大医院要大得多。这是因为一个大样本较少会偏离50%。这项统计学的基本概念显然不是人的直觉的一个组成部分。
  
  另一种与此类似的对于样本空间的不敏感性,在对后验概率(posterior probability,从一个人群中抽样而不是从另一个人群中抽样的概率)的判定中已经得到报道。考虑下面的例子:
  
  假设一只茶壶中装满了小球。其中,2/3为一种颜色,1/3为另一种颜色。某人从茶壶中抽取了5只小球,发现有4只红色的,1只白色的。另一个人抽取了20只小球,发现有12只红色的,8只白色的。这两个人谁应该更加确信茶壶装了2/3的红球和1/3的白球,而不是相反的情况?每个人应该得出怎样的可能性?
  
  在这个问题中,正确的后验可能性(posterior odds)对于4:1的样本为8-1,对于12:8的样本为16-1,假定后验概率是相等的。然而,多数人感到第一个样本为茶壶中红球占多数的假设提供了更为有力的证据。因为第一个样本中红球的比例大于第二个样本中红球的比例。在这里,直觉判定又一次受到样本比例的支配,而且基本上不受样本空间大小的影响,而样本空间在确定实际的后验可能性中起了决定性的作用。此外,对后验可能性的直觉估测远远不如正确的数值更为激进。在这类问题中不断观察到对证据的影响的低估,这种现象已被称为“保守主义(conservatism)”。

 3、对随机事件的错觉(Misconceptions of chance)。
  
  人们期望随机过程产生的事件的一个序列会反映随机过程的本质特征,即使该序列只是简短的片段。例如,在抛掷一枚硬币猜正反面时,人们认为序列“正-反-正-反-反-正”比序列“正-正-正-反-反-反”更具有可能性,后者看上去不象是随机掷出的;也比结果“正-正-正-正-反-正”更具有可能性,后者不象是一枚完好的硬币掷出的结果。因此,人们期望过程的本质特征能够在序列中得到反映,不仅是反映整个序列的整体特征,而且还反映序列的每个部分的局部特征。然而,某个具有局部代表性的序列会系统地偏离机会期望:它包括了太多的交替出现及太少的趋势。局部代表性信念造成的另一个结果便是著名的赌徒谬误(gambler’s fallacy)。例如,在观察轮盘赌中出现一长串红球以后,多数人会错误地相信黑球现在就要出现了,这可能是因为出现一个黑球比出现另一个红球会产生一个更具有代表性的序列。随机事件经常被认为是一个自我修正(self-corrected)的过程,在一个方向上的偏离会导致在另一个方向的偏离,以恢复均衡。事实上,正如一个随机过程所展示的,偏离并未得到“修正(corrected)”,而只是得到缓和。
  
  对随机事件的错觉不只局限于天真的受试者。一项有关实验心理学家的统计直觉的研究揭示出一个历史悠久的可称为“小数字法则(law of small numbers)”的信念。根据这项法则,即使是小样本也高度代表着其所抽样的人群。这些调查者的反应表达了对某种有充分依据的假说的期望:某个具有显著统计结果的样本(很少考虑样本空间的大小)对某个人群具有代表性。由此推断出,研究人员对小样本的结果太过于自信,而且大大高估了结果的可重复性。在实际的研究工作中,这种偏差会导致挑选不够大的样本,并且对实验的结果滥加解释。

4、对可预测性的不敏感性(Insensitivity to predictability)。
  
  有时,人们需要对一支股票未来的价值、对某种商品的需求,或者一场足球赛的结果等等,做出定量的预测。做出这样的预测通常要根据代表性。例如,假定某人得到某家公司的情况描述,并要求对该公司未来的赢利状况做出预测。如果对该公司的描述十分有利,那么非常好的赢利前景就显得最具有上述描述的代表性;如果描述的情况一般,那么业绩平平就显得最具有代表性。描述的有利程度既不受对描述的信赖度的影响,也不受所允许的预测的精确度的影响。因此,如果人们仅仅根据描述的有利与否做出预测,他们所做的预测就会对证据的信赖度不敏感,还会对期望的预测精确度不敏感。
  
  这种决断模式违背了常规的统计学理论----预测结果的极限值与变动范围受制于可预测性因素。当可预测性为零时,针对任何情况下均应做出同样的预测。例如,如果对公司的描述没有提供任何与赢利状况有关的信息,那么,同样的数字(比如平均利润)就应针对所有的公司做出预测。当然,如果具备完全的可预测性,预测的数字就会与实际数值相符合,而预测结果的变动范围也会等于实际结果的变动范围。一般来说,可预测性越高,预测数字的变动范围就越宽。
  
  几项针对定量预测的研究显示,直觉预测违背了该项原则,而且受试者很少甚至根本不考虑可预测性因素。在其中一项研究中,提供给受试者几段文字,每段文字都描述了一位实习教师在某次特别的实习课上的表现。要求一部分受试者用百分数评价文字所描述的课程的质量,要求其他的受试者也用百分数对每一位实习教师在实习课5年后的状况做出预测。在这两种条件下做出的判断是完全相同的。也就是说,根据遥远的标准所做的预测(一位教师5年后的成功),与根据预测的基础信息(实习课的质量)所做的评价是完全相同的。做出这些预测的学生无疑知道,仅仅根据5年前的一堂实习课对一位教师的教学能力做出预测,其可预测性是有限的;然而,他们所做的预测与他们所做的评价一样极端。
  
5、对有效性的错觉(The illusion of validity)。
  
  如我们所看到的,人们通常通过选择对“输入(input)”(比如对某人的描述)最具有代表性的结果(比如某种职业)来做出预测。他们在预测中所拥有的自信主要依赖于代表性的程度(即,依赖于所选择的结果与输入之间相符合的质量),而很少或根本不考虑预测精确度的限制因素。因此,在给出某个人与人们心目中的图书管理员形象相符合的个性描述时,甚至描述是不充分的、不可靠的或者过时的,人们表现出很强的自信,预测该人是图书管理员。因预测结果与输入信息之间较好的符合所产生的无根据的自信,可称为对有效性的错觉(the illusion of validity)。甚至在预测者了解预测精度的限制因素时,这种错觉仍然存在。我们经常观察到,甚至在知道大量的文献表明选拔面谈极易出错时,主持选拔面谈的心理学家在预测中也常常表现得极为自信。尽管不断有事实证实其不适当,对选拔中临床面谈的继续信赖足以证明这种效应的强大。
  
  一种输入模式的内在一致性,是人以输入信息为基础的预测中拥有自信的一项主要的决定因素。例如,预测某个第一学年成绩全部为B的学生的期末平均分数时,比预测一个第一学年成绩中有很多A和C的学生的平均分数时,人们表现出更多的自信。当输入变量大量过剩或者相互关联时,常常可以观察到高度一致的模式。因此,人们容易在以过剩的输入变量为基础的预测中表现得极为自信。然而,相关性统计学中一项基本的研究成果断言,给定既定有效性的输入变量,当几项这样的输入变量彼此相互独立,而不是过剩或相关时,以这几项变量为基础的预测可以取得更高的精确度。因此,即使能够增强信心,输入变量的过剩也会降低预测的精确度,而经常存在于预测中的自信更容易导致人们偏离正确的目标。
  
6、对回归的错觉(Misconception of regression)
  
  假设有一大群孩子参加了针对某种能力两份相当的试卷的测试。如果从两份试卷中的一份表现最好的孩子中挑选出10个孩子,你通常会发现这些孩子在另一份试卷中的表现会有些令人失望。反过来,如果从一份试卷表现最差的孩子中挑选出10个孩子,你会发现他们在另一份试卷中的表现平均要好一些。更一般地,考虑具有相同分布的变量X和Y。如果你挑选出平均分数为X、对均值X偏离k个单位的个人,那么,他们的平均分数Y对均值Y的偏离通常会少于k个单位。这些观察结果说明了一个被称作向均值回归(regression toward the mean)的普遍现象。这一现象是100多年前首先由Gallon记录下来的。
  
  在日常生活中,我们会遇到许多向均值回归的事例,比如,对父子的身高、对夫妻的智力,或者对个人一连串考试成绩的比较。然而,人们并没有培养出对这种现象的正确的直觉力。首先,人们没有预料到很多场合中确定要发生的回归现象。其次,当人们认识到回归现象的发生时,他们常常会臆造出不合逻辑的因果关系来解释这种现象。我们认为,回归现象之所以难以理解,是因为回归现象不符合预测结果应最大程度地对输入变量具有代表性,以及输出参数(译注:即predicted outcome,预测的结果)的值应该与输入参数的值具有同样的偏离度这一信念。
  
  正如下面的观察结果所说明的,认识不到回归的重要性会带来危害性的结果。在一次有关飞行训练的讨论中,经验丰富的教练们注意到,对受训者某次异常平稳的着陆动作进行表扬,接着在下一次试飞时受训者的着陆动作一般会较差;而对受训者某次拙劣的着陆动作进行激烈的批评,接着在下一次试飞中受训者的着陆动作通常会得到改进。教练们得出结论,口头表扬不利于学习,而口头惩罚则是有益的。这一结论恰恰与公认的心理学学说相反。由于向均值回归的存在,这一结论是没有根据的。如同别的重复考试的情况一样,即使教练没有对受训者第一次尝试的成绩做出反应,受训者一次进步后通常会是糟糕的表现,而一次退步后通常会是出色的表现。因为教练已经表扬了受训者好的着陆动作并批评了差的着陆动作,于是,他们便得出惩罚比奖励更有效这一错误而有潜在危害性的结论。
  
  因此,不理解回归效应会导致人们高估惩罚的效果,低估奖励的效果。在社交以及训练中典型的情况是,在表现好时进行奖励,在表现差时进行惩罚。因此,仅仅就回归因素来说,最可能的行为是:在惩罚后进步,而在奖励后退步。因而,仅仅就偶然因素来说,人类的行为就是:人常常因惩罚别人而受到奖励,并且常常因奖励别人而受到惩罚。人们一般不知道这种偶然性。事实上,回归在决定奖励和惩罚的明显的结果中所起的难以理解的作用,似乎没有引起该领域学者的注意。
  
  注1:据美国学者彼德.伯恩斯坦《与天为敌—风险探索传奇》一书记载,“向均值回归”系由英国学者弗兰西斯.高尔顿(Francis Galton,1822-1911)最先发现的,本文中Gallon一词应为Galton的错拼。
  
  注2:extreme,本意是“离中心或起点远”,这里译作“偏离度”。
  
可得性(Availability)
  
  在某些情况下,人们根据事例或事件的发生能够回忆起来的难易程度来估测某一类别的频率或某一事件的概率。例如,你会通过回忆熟人的心脏病发作来估测中年人发作心脏病的危险。与此类似,你会通过想象某一特定商业冒险活动可能遭遇到的各种各样的困难来评估其失败的概率。这种用于决断的归纳法称为可得性(availability)。可得性对于估测频率或概率是一种有用的思路,因为大类别的事例通常能够比小频率类别的事例更好更快地回忆起来。不过,可得性受到其他一些因素而不是频率和概率的影响。因而,对可得性的信赖会导致预测偏差,其中一些偏差说明如下:
  
  1、因事例的可提取性导致的偏差(Biases due to the retrievability of instances)。
  
  在根据某一类别的事例的可得性来判断类别的大小时,事例易于提取的类别会比频率相等而事例较难提取的类别显得数目更大。在一个对该效应的简单说明中,主试先给受试者听一份男女名人的名单,然后要求他们判断名单中男性的名字是否多于女性的名字。不同的名单提供给不同的受试者群体。在某些名单中男性相比女性更为著名,而在其他名单中女性相比男性更为著名。对于每份名单,受试者都错误地判断名人更多的类别(注:即性别)就是数目更大的类别。
  
  除了相似性还有其他的影响因素,比如,鲜明性会影响事例的可提取性。例如,目睹一所房子在火中燃烧对这类事故的主观概率所造成的影响要比阅读本地报纸了解一场火灾所造成的影响可能更为强烈。而且,最近发生的事件可能比较早发生的事件更容易回忆起来。当你目睹一部汽车倾覆在路旁时,你会暂时调高交通事故的主观概率,这是一种一般的体验。
  
 2、因搜索体系的效力导致的偏差(Biases due to the effectiveness of a search set)
  
  假设你从一篇英语课文中随机抽取一个单词(三个字母或以上)。该单词以字母r打头或者r为第三个字母,哪一个更为可能?人们解决这类问题的方法是,回忆以r打头的单词(比如road)以及r在第三位的单词(比如car),并且根据这两类单词进入脑海的难易程度来估测其相对频率。因为根据第一个字母搜索单词比根据第三个字母搜索单词要容易得多,多数人便断定以某个特定的辅音字母打头的单词要比同一辅音字母出现在第三位的单词的数目更大。他们甚至还错误地断定那些出现在第三位的频率比出现在第一位的频率更高的辅音字母(比如r或k)也是如此。
  
  不同的工作要求有不同的搜索体系。例如,假设要求你确定抽象名词(思想,爱)与具体名词(门,水)出现在书面英语中的频率。解答这类问题的一种常用的方法是搜索单词可能出现的上下文。提及抽象概念的上下文(爱在爱情故事中)比提及具体名词的上下文(比如门)似乎更容易被想起。如果单词出现的频率是根据其出现的上下文的可得性判断的,那么,抽象名词就会被断定为比具体名词的数目更大。这种偏差在最近的一项研究中被观察到。该项研究显示,所断定的抽象名词出现的频率大大高于具体名词出现的频率(与客观频率相等)。抽象名词也被断定比具体名词出现在更多类型的上下文中。
  
3、因想象力的不足导致的偏差(Biases of imaginability)。
  
  有时,人们需要估测其事例不存在于记忆之中、但可以根据某种特定法则生成的类别的频率。在这种情况下,人们一般根据能够构造相关事例的难易程度生成数个事例进而评估频率或概率。然而,构造事例的难易程度并不总是能够反映它们的真实频率,而且这一评估模式容易产生偏差。为了说明这个问题,我们来考虑一个由10个人组成的群(group),这10个人中的k个成员组成一个委员会,其中,2≤k≤8。k个成员能够组成多少个不同的委员会?这个问题正确的答案可根据二项式的系数 求出,当k=5时,最大组合数为252。很明显,由于任何一个由k个成员组成的委员会确定了一个由(10-k)个非成员组成的唯一的群,所以,k个成员组成的委员会的数目等于(10-k)个成员组成的委员会的数目。
  
  不用计算的方法来解答这个问题,其途径是在心里构造由k个成员组成的委员会并且根据它们进入脑海的难易程度测算其数目。成员很少的委员会(比如2个)的数目比成员很多的委员会(比如8个)的数目更容易算出。构造委员会最简单的方案是将群划分为独立的单元。你很快就会发现,构造5个由2个成员组成的独立的委员会是很容易的,而生成2个由8个成员组成的独立的委员会甚至也是不可能的。因而,如果根据想象力或者根据构造的可得性估测频率,小规模的委员会比较大规模的委员会显得数目更多,这恰恰与钟形函数(bell-shaped function)反映的基本准则相反。事实上,当天真的受试者被要求估测不同规模的独立的委员会的数目时,他们估测的结果是委员会规模的一个单调递减函数。例如,由2个成员组成的委员会的数目的估测中值为70,而由8个成员组成的委员会的估测值为20(这两种情况下正确的答案均为45)。
  
  想象力在评估现实条件下的概率时起了重要的作用。例如,一次充满危险的探险活动中的风险是通过设想出探险活动无法妥善应对的各种偶然性来进行评估的。尽管设想出各种灾难的难易程度并不一定反映出其真实概率,但是,如果许多这类困难得到生动的描述,探险活动就会显得异常危险。相反,如果某些可能的危险难以想象或者甚至根本没有料及,那么,一项任务中的风险就可能会被严重低估。
  
  注1:对于穷举有限的可能情况的问题,一般可归结为数学中的排列组合问题。例如,计算由2个和8个成员组成的委员会的数目,由组合数性质可得, 。
  
  注2:钟形函数(bell-shaped function),即正态分布函数,其图形称为钟形曲线。
  
 4、因错觉产生的相关关系(Illusory correlation)。
  
  Chapman描述过在判断两个事件同时发生的频率时存在的一种有趣的偏差。他向天真的评判者提供了有关几位假想的精神病人的信息,每位病人的资料包括一项临床诊断及病人绘制的一幅人物素描。随后,评判者估测每项诊断(比如,妄想症或疑心病)与素描的各项特征(比如,一双奇怪的眼睛)相关的频率。受试者明显高估了正常的关联关系(比如,疑心病与奇怪的眼睛)同时发生的频率。这种效应被称为因错觉产生的相关关系(illusory correlation)。在根据得到的资料做出的错误判断中,天真的受试者“再发现”了许多常见但尚未发现的有关画像测试解释的临床经验。因错觉产生的相关关系效应极端排斥相对立的资料。甚至在症状与诊断之间实际上是负相关时,这种效应仍然存在,而且妨碍评判者发现实际存在的联系。
  
  可得性为因错觉产生的相关关系效应提供了合理的说明。我们可以根据两个事件之间关联联系的强度来判断它们同时发生的频率。当关联度强时,你可能会得出事件经常相伴发生的结论。因而,强度关联会被断定为经常同时发生。例如,按照这种观点,疑心病与奇怪的眼睛的素描之间因错觉产生的相关关系是由于这样一个事实:疑心病更容易与眼睛而不是身体的任何其他部位联系在一起。
  
  毕生的经验告诉我们,一般来说,大类别的事例比频率较小的类别的事例更准确更迅速地回忆起来;可能发生的事件比不可能发生的事件更容易联想;当事件经常同时发生时,事件之间的关联关系会得到强化。结果,人们便拥有了一项可以任用的程序(即,可得性归纳法),根据有关可提取的心理机制、构造或能够展现出来关联的难易程度,来估测某个类别的数目、某个事件的概率或事件同时发生的频率。然而,正如先前的例子所说明的,这种有价值的估测程序会导致系统偏差。
  
调整与锚定(Adjustment and Anchoring)
  
  在很多情况下,人们进行估测是从某个初值开始经过调整而得到最终的答案。初值(或叫起点)可能是由问题的公式化得到的,也可能是部分计算的结果。在这两种情况下调整一般都是不充分的。也就是说,不同的起点会产生不同的偏离初值的估测结果。我们将这种现象称为锚定(anchoring)。
  
  1、不充分调整(Insufficient adjustment)。
  
  在某次对锚定效应的示范中,要求受试者估测各种用百分数表示的数量(例如,联合国中非洲国家所占的百分比)。对于每一种数量,通过转动受试者面前的一个幸运轮来决定0至100之间的一个数字。根据指示,受试者首先要指出该数字是高于还是低于实际数值,然后,对给定数字进行上下调整来估测实际数值。对于每种数量给不同的受试者以不同的数字,而这些任意给出的数字对估测结果有着明显的影响。例如,将得到的数字10和65作为起点的不同群体对联合国中非洲国家所占百分比的估测中值分别为25和45。对估测精度的奖励不会减弱锚定效应。
  
  不仅在为受试者给出起点时,而且在受试者将其估测基于某些不完全计算结果上时,锚定均会发生。有一项对直觉估算数字的研究说明了这种效应。在5秒钟内,两个高中生群体对写在黑板上的一个数学表达式进行估算。一个群体估算乘积
  
  8×7×6×5×4×3×2×1
  
  而另一个群体估算乘积
  
  1×2×3×4×5×6×7×8
  
  为了迅速解答这类问题,人们会做几步计算,并通过推断和调整估算乘积。因为调整一般是不充分的,该程序应该导致对实际结果的低估。而且,因为递减序列比递增序列开始几步乘法运算的结果(从左至右进行)要大,所以,前面算式的乘积应该判定为大于后面的算式的乘积。这两项预测均被证实。递增序列的估算中值为512,而递减序列的估算中值为2250。正确的答案是40320。
  
 2、对连续事件与不连续事件的估测偏差(Biases in the evaluation of conjunctive and disjunctive events)。
  
  在Bar-Hillel最近所做的一项研究中,受试者有机会对两个事件中的一个进行下注。计有三类事件:(1)简单事件,比如从一只装有50%的红球和50%的白球的袋子中抽到一只红球;(2)连续事件,比如从一只装有90%的红球和10%的白球的袋子中连续7次抽到一只红球,每次抽取后将球放回袋子;(3)不连续事件,比如从一只装有10%的红球与90%的白球的袋子中连续抽取7次至少抽到1只红球,每次抽取后将球放回袋子。在这个问题中,有显著多数的受试者更喜欢对连续事件(其概率为0.48)而不是简单事件(其概率为0.50)下注。受试者也更喜欢对简单事件而不是不连续事件(其概率为0.52)下注。因此,在这两种对比选择中,多数受试者均下注于可能性较小的事件。这种选择模式说明了一个具有普遍意义的发现。对赌博中的选择及对概率的判定的研究表明,人们倾向于高估连续事件的概率并低估不连续事件的概率。这种偏差用锚定效应很容易解释。基本事件(elementary event,如每个阶段的成功)的给定概率为估算连续事件和不连续事件的概率提供了一个自然起点。既然自起点的调整一般是不充分的,因此,在这两种情况下,最终的估测值与基本事件的概率保持得非常接近。注意:连续事件的全概率(overall probability)小于单个基本事件的概率,而不连续事件的全概率大于单个基本事件的概率。作为锚定的结果,在连续问题中全概率会被高估,而在不连续问题中全概率会被低估。
  
  复合事件概率评估中的偏差在制订计划的情形中显得尤其突出。一项任务(比如一种新产品的开发)的成功完成一般具有连续的特征:为了任务的成功,一系列事件中的每个事件都必须发生。甚至当这些事件中每个事件的可能性都很大时,如果事件的数目是庞大的,那么,成功的全概率可能会相当小。这种高估连续事件概率的一般倾向会造成在评估某项计划的成功或者某个项目的按时完成的可能性时盲目乐观。反过来,我们一般会在风险评估中遇到不连续结构。复杂系统(比如,核反应堆或人体)的任何一个基本单元的故障都会造成整个系统发生故障。甚至当每个单元发生故障的可能性很微小时,如果涉及到很多单元,那么,整个系统发生故障的概率可能会很大。由于锚定的原因,人们会倾向于低估复杂系统发生故障的概率。因此,锚定偏差的倾向有时可由事件的结构推断出。连续事件的链状结构会造成高估,不连续事件的漏斗状结构会造成低估。
  
  注:文中的概率计算如下:
  (1)简单事件。抽取一只红球的概率为0.5;
  (2)连续事件。连续7次抽到红球的概率为0.9×0.9×0.9×0.9×0.9×0.9×0.9=0.48;
  (3)不连续事件。连续抽取7次至少抽到一只红球的概率可根据概率的加法法则计算,具体计算略。
  
3、主观概率分布估测中的锚定效应(Anchoring in the assessment of subjective probability distributions)。
  
  在决策分析中,专家们经常需要用概率分布的形式表达他们对某种数量(比如,特定某天的道琼斯平均指数值)的信念。通常,通过让评判者选择与其主观概率分布指定的百分数相符合的数值来构造上述概率分布。例如,可能会要求评判者选择一个数字 ,使得其对于该数字大于道琼斯平均指数值的主观概率为0.90。也就是说,他应该选择数值 ,如此,他愿意接受的道琼斯平均指数不超过该值的机率为9:1。道琼斯平均指数值的主观概率分布可用数个这样的与不同的百分数相对应的判断结果进行构造。
  
  通过采集许多种不同数量的主观概率分布,我们有可能检验评判者是否进行了适当的校准。如果某个评判者所估测数量的真值的n%确实小于其给定的值 ,那么,我们认为这位评判者在一系列问题中进行了适当的(或客观的)校准。例如,真值应该有1%的量小于 ,且有1%的量大于 。因此,对于问题的98%的情况,真值应位于 与 之间的置信区间内。
  
  几位研究人员从大量评判者的估测结果中得到了许多数量关系的主观概率分布。这些概率分布表明存在着大量的对适当校准的系统性背离。在多数研究中,问题有大约30%的情况下,估测数量的真值或者小于 或者大于 。这就是说,受试者规定了过度狭窄的置信区间,该置信区间比他们根据自己有关估测数量的知识所做的判断带有更多的确定性。这种偏差对于天真的受试者和老练的受试者都是常见的,而且无法通过引入适当的记分规则(这鼓励了客观校准)加以消除。至少在部分程度上,这种效应可归结为锚定效应。
  
  例如,为道琼斯平均指数选择值 ,开始很自然地先考虑某个受试者对道琼斯指数所做的最佳估测,然后再向上调整该值。如果这种调整象大多数其他情况一样是不充分的,那么, 就不是充分的误差范围。与此相似的锚定效应会发生在对 的选择中,通过向下调整某个受试者的最佳估测结果可能得到该值。因而, 与 之间的置信区间会太过于狭窄,而且所估测的概率分布也太过紧密。主观概率可以通过某种程序进行系统地调整,这支持了上面的解释。在该程序中,某个受试者的最佳估测结果不再成为锚定。
  
  给定数量(比如,道琼斯平均指数)的主观概率分布可以通过两条不同的途径得到:(1)要求受试者选择与其概率分布指定的百分数相符合的道琼斯指数值;(2)要求受试者估测道琼斯指数的真值会超过某些指定数值的概率。这两种程序在形式上是等价的,而且应该产生同一种分布。然而,研究人员建议对不同的锚定采用不同的调整模式。在程序(1)中,自然的起点是某个受试者对数量的最佳估测结果。另一方面,在程序(2)中,受试者会锚定在问题给出的数值上。受试者可能会锚定在对等的机率(即,50:50的机会)上,两者可选其一。该机率是估测概率时自然的起点。对于这两种情况,程序(2)应比程序(1)产生较小的偏差机率。
  
  为了对比这两种程序,研究人员为一组受试者提供了由24种数量(比如,新德里与北京之间的空中距离)组成的系列,他们就每一个问题或者估测 或者估测 。另一组受试者得到第一组对这24种数量中每种的判定结果的中值,要求他们估测给定数值超出相关数量真值的机率。在没有任何偏差时,第二组应该再次得到指定给第一组的机率,即9:1。然而,如果平均机率或者给定的值成为锚定,第二组的机率的偏差就应该较小,即,更接近1:1。事实上,对于所有的问题该组给定的机率中值为3:1。在对这两组的判断进行客观校准检验时,发现第一组受试者的太过激进,这与早期的研究结果相吻合。他们所定义的概率为0.10的事件实际上在24%的情况下发生了。与此相对,第二组受试者太过保守。他们分配的平均概率为0.34的事件实际上在26%的情况下发生了。这些实验结果说明了校准的程度决定于导出程序的方式。
  
  注:subject--专业术语应为“被试”,文中为通俗起见译做“受试者”。与此相对的是experimenter“主试”。

说明:文中空白处的符号分别为:
  X90,X90,
  Xn,X01,X99,X01,X99,
  X01,X99,
  X90,X10,X90,X10,X10,X90,
  X10,X90
  其中,数字为下标。

讨论(Discussion)
  
  本文讨论了对用于判断的归纳法的信赖而产生的认知偏差。这些偏差并非归咎于一相情愿或者报酬与惩罚造成的判断失真这类动机效应(motivational effects)。实际上,尽管鼓励受试者进行准确判断并对正确的答案给予奖励,还是发生了前面记录的数个严重的判断误差。
  
  对归纳法的信赖与偏差的普遍存在并非只局限于外行中。有经验的研究人员在直觉化思维时也容易出现同样的偏差。例如,不够注意先验概率而预测最能代表所给数据的结果,这种倾向已经在受过全面的统计学培训的人所做的直觉判断中观察到。虽然统计学老手避免了象赌徒谬误这样的基本偏差,但是,他们在更复杂且更模糊的问题中所做的直觉判断还是容易出现类似的谬误。
  
  毫不奇怪,象代表性和可得性这样有用的归纳法被人们记住了,即使它们偶尔会导致预测或估测中的偏差。令人吃惊的或许是人们并没有从毕生的经验中推论出诸如向均值的回归或样本空间对抽样变化的影响这样的基本的统计法则。在日常生活中,尽管每个人都面对着大量的可能已从中归纳出上述统计学法则的实例,但是,只有极少的人独自发现了抽样和回归的原理。统计原理并非得自日常生活的经验,因为相关的事例并没有进行合适的编码(译注:即转换为数学语言)。例如,人们没有发现一篇课文中连续几行比连续几页的单词的平均长度更加不同,因为他们只是没有注意到每一行或每一页的单词的平均长度。因此,人们并不了解样本空间与抽样变化之间的关系,尽管学习这种知识的资料是丰富的。
  
  缺少合适的编码也解释了为什么人们通常无法发现其概率判断中的偏差。可以想象,通过保持记录分配了同一概率的事件中实际发生的事件的比例,某人能够获悉其判断是否得到了客观校准。然而,根据判定的概率对事件进行分类是不合理的。例如,在缺少这样的分类时,个人不可能发现他分配了0.9或更高概率的预测实际上只有50%成为现实。
  
  对认知偏差的经验分析对于判定概率在理论和应用两个方面都有启示。现代决策理论认为主观概率是一个理想化的人的量化的意见。尤其,某个给定事件的主观概率用该人愿意接受的对该事件的一系列赌注进行确定。如果某个人在赌注之间的选择满足某种原则(即,理论原则),那么,该人就得到了某种内在一致的(或连贯的)主观概率度量标准。允许不同的人对同一事件有不同的概率,在这个意义上,我们称得到的概率是主观的。这种方法的主要贡献在于它为适用于单一事件的概率提供了一种精确的主观说明,并深深植根于一般的理性决策理论之中。
  
  或许他应该注意到,虽然有时候主观概率可以从对不同赌注的偏好中得出,但是在正常情况下,主观概率并不是以这种方式形成的。某个人对A队而不是对B队下注是因为他相信A队更有可能取胜;他并非是从自己的下注偏好中得出这种信念的。因此,实际上是主观概率决定了对不同赌注的偏好,而不是象理性决策的公理化理论所认为的是从不同的偏好中得出主观概率的。
  
  概率的内在主观特性已导致许多学生相信一致性(或内在一致性)是用以评估所判定的概率的唯一有效标准。从规范的主观概率理论的观点来看,任何一种内在一致的概率判断体系都与任何别的体系一样有效。这种标准并不是完全令人满意的,因为某种内在一致的主观概率体系可能与个人持有的其他信念不相一致。我们来考虑一个人,该人对抛掷硬币游戏中所有可能结果的主观概率反映出赌徒谬误。也就是说,他对特定一次抛掷掷出反面的概率的估测随着先前抛掷中连续出现正面的数目而增大。该人的判断可能是内在一致的,按照规范理论的标准因此可以接受为充分的主观概率。然而,这些概率与人们普遍持有的硬币没有记忆因此不能产生序列依赖的信念不相一致。为了充分(或理性)地考虑所判定的概率,仅有内在一致性是不够的。判断必须与个人持有的整个信念体系相一致。不幸的是,可能没有简单的正式程序用来对概率判断体系与评判者的整个信念体系之间的一致性进行评估。即使内在一致性更容易得到及评估,理性的评判者只不过是力求做到使它们相一致。尤其,他会尝试使其概率判断与他对有关课题的知识、概率法则以及他自己用于判断的归纳法和偏差相一致。
  
  
  概要(Summary)
  
  本文讲述了三种应用于不确定条件下决断的归纳法:(1)代表性,通常应用于人们需要判断对象A隶属于类别B或事件A从属于过程B的概率时;(2)事例或情景的可得性,经常应用于人们需要估测某个类别的频率或某一特定进程的可能性时;(3)自锚定的调整,通常应用于相关数值可以得到时的数值预测。这些归纳法极为省事而且通常是有效的,但是,它们也会导致可预料的系统误差。对这些归纳法及其导致的偏差的更好理解可以改善在不确定条件下的判断与决策。
  
  (全文完)


原文:
  www.nau.edu/library/courses/psychology/ psy635-wayment/reserve/tversky1.pdf

个人简介
首席经济学家,香港中文大学(深圳)SFI客座教授,行为经济学者,创新发展,金融投资专家,南开大学经济学博士,荷兰maastricht管理学院mba,兰州大学数学学士 email:prophd@126.com
每日关注 更多
郑磊 的日志归档
[查看更多]
赞助商广告