大样本数据分析中的假设检验研究

熊义杰 原创 | 2017-04-02 21:20 | 收藏 | 投票

 

大样本数据分析中的假设检验研究

熊义杰

(西安理工大学经济与管理学院)

 

今天,由于计算机技术的飞速发展,计算机的运算速度和存储容量不断提高,因此大样本数据的分析越来越方便快捷。在经济计量分析中,我们常常可以看到,有的人使用了容量达到好几百甚至几千的大样本数据进行回归和相关分析。数理统计知识告诉我们,样本容量超过30即为大样本,小于30即为小样本。经济计量分析的实质其实也是一种统计推断方法,即通过小样本数据获得的回归方程,来推断总体是否具有与样本数据相同的属性,用假设检验的术语来表述,即需要判断样本究竟来自一个什么样的总体。我们知道,对于回归结果的假设检验通常都借助于T分布进行。我们同样知道,T分布的形式不仅与样本的标准误差和均值有关,而且与样本容量的大小有关。然而根据数理统计知识,当样本容量超过120时,T分布即趋近于正态分布。也就是是,当样本容量大于120时,样本分布的形式将不再受样本容量大小影响,其分布的形式与正态分布相类似,将只受总体均值和方差影响。

这种现象就给我们提出了一个重要问题,对于大样本数据应该怎样进行假设检验?或者换一句话说,对于大样本数据,尤其是样本容量大到几百甚至几千的大样本数据,还有必要进行假设检验吗?这就是本文所要探讨的问题。

为了确切地弄清楚我们的问题,我们有必要先弄清楚假设检验的必要性何在以及假设检验的基本原理。

假设检验的必要性是由抽样的随机性所决定的。因为,由于抽样是随机的,因而在总体不相关的情况下,偶然情况下也可能会获得一个具有一定相关程度的样本;而在总体相关的情况下,偶然情况下也可能会获得一个不相关的样本。因此,在获得依样本估计的参数以后,就必须进行假设检验。

 假设检验的基本原理与区间估计基本类似,只是在具体做法上有所不同。假设检验的具体方法是,首先必须先有一个原假设H0,然后对照这个原假设来检验被择假设H1。那么,究竟是接收H0还是接收H1,则需要借助于一个统计量。假如总体方差为已知,则假设检验可以利用正态分布来进行。

我们假定,一般的一元线性回归模型是:

        Y=α+βX+

该模型通常也叫作总体方程式。而由样本估计的回归直线则为:

 

            

在这里,对于参数 进行假设检验的原假设和被择假设分别是:

   

原假设的具体含义是,我们的样本来自于一个总体参数为0的总体;相应地被择假设的含义是说,我们的样本来自于一个总体参数不为0的总体。

于是,按照区间估计的原理,我们就不难得到:

也就是说,我们有:

     P(-1.96z1.96)=0.95

按照假设检验的原理,在这里,统计量:    

就是我们对原假设和被择假设取舍的标准。即如果统计量z的绝对值大于1.96,就接收被择假设;反之,如果z统计量的绝对值小于1.96,就接收原假设。

上述的检验过程是以总体方差的已知为条件的。在总体方差未知的条件下,假设检验只能利用T-分布进行。在利用T-分布进行假设检验的情况下,我们有:

   

其中,α是检验要求的显著性水平,也叫不可靠性概率,v是样本自由度,t就是假设检验所依据的统计量,其定义是:

进行假设检验的原假设和被择假设仍然是:

   

检验的方法与运用正态分布检验相同。即如果t统计量的绝对值大于一定显著性水平和一定自由度条件下的临界值(可由T分布表查得)就接收被择假设,反之则接收原假设。假设检验的基本原理可以用图1予以说明。

                         1 假设检验示意图

由于假设检验的依据是运用随机抽样取得的样本进行,因而假设检验也必然会犯错误。比如,真实的总体可能是无关的(H0真),但由于抽样的随机性,所据以分析的样本却可能是相关的。这时,就会导致错误地接收H1而否定H0,这样就犯了错误I,即弃真。同样,真实的总体也可能是相关的(H1真),但由于抽样的随机性,所据以分析的样本却可能是无关的。这时将导致错误地接收H0而否定H1,这就犯了错误II,即存伪。注意,这里我们不管是说弃真还是存伪,都是针对于原假设而言的。不明白这一点,往往就可能会混淆两类错误。假设检验中的这两类错误可以表列如表1所示。

                    1  假设检验中的两类错误

 

  接受H0(拒绝H1

  拒绝H0(接受H1

H0H1

      无误

 错误Ⅰ:弃真(5%

H0H1

错误Ⅱ:存伪(95%

       无误

假设检验中的两类错误在小样本条件下是不可避免的,这是由抽样的随机性所决定的。要想避免少犯这些错误,没有别的办法,唯有尽可能地增大样本容量。不难设想,当样本容量大到接近于总体的时候,这两类错误自然也就不复存在了。

清楚了假设检验的基本原理,我们就可以对我们关心的问题进行讨论了。既然假设检验的必要性是由于抽样的随机性决定的,随机性也就是偶然性,因此很显然如果抽样中不存在随机性,毫无疑问也就不必进行假设检验了。这样,问题就归结为,必然和偶然的分界线究竟是什么?

本文在开始时就已经指出,根据数理统计知识,当样本容量超过120时,T分布即趋近于正态分布。也就是是,当样本容量大于120时,样本分布的形式将不再受样本容量大小影响,其分布的形式与正态分布相类似,将只受总体均值和方差影响。这就告诉我们,必然和偶然的分界线也就是样本容量n=120,也就是说,当样本容量n120时,样本的分布形式会受到样本容量大小的影响;当样本容量n120时,样本的分布形式将不再受到样本容量大小的影响。换句话说,当样本容量n120时,实际上用以分析的样本也就相当于总体,也就无需对样本进行进行假设检验了,或者说样本和总体就完全成为同一的东西了,因此假设检验实际上也就是对总体的检验也就是对总体的检验,这时候只需要使用正态分布进行检验即可。说的明确些,就是可直接使用前面的公式(1)利用正态分布表进行检验,即如果计算的Z值大于1.96,就可以有95%的把握认为所分析的样本总体参数不为0;如果计算的Z值小于1.96,就可以有95%的把握认为所分析的样本总体参数是为0的。

 

上述结论实属一家之言,欢迎业界同仁批评指正。

 

                             201742星期日于古都西安

个人简介
1982年本科毕业 1985年硕士毕业 1999年获得管理学博士学位 2000年晋升教授,西安理工大学区域经济学硕士生导师,陕西城市战略研究所研究员,教育部科技发展中心“中国科技论文在线”评审专家,国家社会科学基金项目主持人,出版…
每日关注 更多
赞助商广告