第十三章 非参数检验

第一节 Chi-Square过程

13.1.1 主要功能

13.1.2 实例操作

第二节 Binomial过程

13.2.1 主要功能

13.2.2 实例操作

第三节 Runs过程

13.3.1 主要功能

13.3.2 实例操作

第四节 1-Sample K-S过程

13.4.1 主要功能

13.4.2 实例操作

第五节 2 Independent Samples过程

13.5.1 主要功能

13.5.2 实例操作

第六节 k Independent Samples过程

13.6.1 主要功能

13.6.2 实例操作

第七节 2 Related Samples过程

13.7.1 主要功能

13.7.2 实例操作

第八节 K Related Samples过程

13.8.1 主要功能

13.8.2 实例操作

    许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计或检验总体参数,统称为参数统计。

    但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计(Nonparametric tests)。

    非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。

 

第一节 Chi-Square过程

 

13.1.1 主要功能

       调用此过程可对样本数据的分布进行卡方检验卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。

 

 

13.1.2 实例操作

    [例13-1]某地一周内各日死亡数的分布如下表,请检验一周内各日的死亡危险性是否相同?

 

 

死亡数

11

19

17

15

15

16

19

13.1.2.1  数据准备

    激活数据管理窗口,定义变量名:各周日day,死亡数为death。按顺序输入数据, 结果见图13.1。激活Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图13.2),选death点钮使之进入Frequency Variable框,定义死亡数为权数,再点击OK钮即可。

 

 

13.1  数据录入窗口

 

13.2  数据加权对话框

 

13.1.2.2  统计分析

   激活Statistics菜单选Nonparametric Tests中的Chi-Square...命令项,弹出Chi-Square Test对话框(图13.3)。现欲对一周内各日的死亡数进行分布分析,故在对话框左侧的变量列表中选day,点击钮使之进入Test Variable List框,点击OK钮即可。

 

13.3  卡方检验对话框

 

13.1.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    运算结果显示一周内各日死亡的理论数(Expected)为15.71,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual);卡方值χ2 = 3.4000,自由度数(D.F.)= 6 ,P = 0.7572 ,可认为一周内各日的死亡危险性是相同的。

 

DAY

                    Cases

       Category  Observed  Expected  Residual

           1.00        11     15.71     -4.71

           2.00        19     15.71      3.29

           3.00        17     15.71      1.29

           4.00        15     15.71      -.71

           5.00        13     15.71     -2.71

           6.00        16     15.71       .29

           7.00        19     15.71      3.29

                      ---

          Total       110

 

          Chi-Square            D.F.         Significance

             3.4000               6              .7572

 

 

 

第二节 Binomial过程

13.2.1 主要功能

    有些总体只能划分为两类,如医学中的生与死、患病的有与无。从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布。调用Binomial过程可对样本资料进行二项分布分析。

 

13.2.2 实例操作

    [例13-2]某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?

 

13.2.2.1 数据准备

    激活数据管理窗口,定义性别变量sex。按出生顺序输入数据,男性为1 ,女性为0。

13.2.2.2 统计分析         

    激活Statistics菜单选Nonparametric Tests中的Binomial Test...命令项,弹出 Binomial Test对话框(图13.4)。在对话框左侧的变量列表中选sex,点击钮使之进入Test Variable List框,在Test Proportion框中键入0.50,再点击OK钮即可。  

 

13.4  二项分布检验对话框

13.2.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177,可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。

 

SEX

      Cases

                                 Test Prop. =   .5000

         28    = 1.00            Obs. Prop. =   .7000

         12    =  .00

         --                      Z Approximation

         40   Total              2-Tailed  P = .0177

 

 

 

第三节 Runs过程

13.3.1 主要功能

    依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个游程。调用Runs过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。

 

13.3.2 实例操作

     [例13-3]某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为“1”,对非发病的住户标记为“0”,共17户:

0  1  1  0  0  0  1  0  0  1  0  0  0  0  1  1  0  0  1  0  0  0  0  1  0  1

 

问病户的分布排列是呈聚集趋势,还是随机分布?

 

13.3.2.1  数据准备

    激活数据管理窗口,定义住户变量epi。按住户顺序输入数据,发病的住户1 ,非发病的住户0。

 

13.3.2.2  统计分析         

    激活Statistics菜单选Nonparametric Tests中的Runs Test...项,弹出 Runs Test对话框(图13.5)。在对话框左侧的变量列表中选epi,点击钮使之进入Test Variable List框。在临界割点Cut Point框中有四个选项:

 

13.5  游程检验对话框

 

    1、Median:中位数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;

    2、Mode:众数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;

    3、Mean:均数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;

    4、Custom:用户指定临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;

    本例选Custom项,在其方框中键入1(根据需要选项,本例是0、1二分变量,故临界割点值用1),再点击OK钮即可。

13.3.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    检验结果可见本例游程个数为14,检验临界割点值(Test value) = 1.00,小于1.00者有17个案例,而大于或等于1.00者有9个案例。Z = 0.3246,双侧 P = 0.7455。 所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。

 

EPI

           Runs:   14           Test  value  =  1.00

           Cases:  17   LT 1.00

                    9   GE 1.00            Z =   .3246

                   --

                   26   Total     2-Tailed  P =   .7455  

 

 

 

第四节 1-Sample K-S过程

13.4.1 主要功能

    调用此过程可对单样本进行Kolmogorov-Smirnov Z检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。

 

 

 

13.4.2 实例操作

    [例13-4]某地正常成年男子144人红细胞计数(万/立方毫米)的频数资料如下,问该资料的频数是否呈正态分布?

 

红细胞计数

人数

红细胞计数

人数

420-

440-

460-

480-

500-

520-

2

4

7

16

20

25

540-

560-

580-

600-

620-

640-

24

22

16

2

6

1

13.4.2.1  数据准备

    激活数据管理窗口,定义频数变量名为f,依次输入人数资料

 

13.4.2.2  统计分析         

    激活Statistics菜单选Nonparametric Tests中的1-Sample K-S ...命令项,弹出One-Sample Kolmogorov-Smirnov Test 对话框(图13.6)。在对话框左侧的变量列表中选f,点击钮使之进入Test Variable List框,在Test Distribution框中选Normal项,表明与正态分布形式相比较,再点击OK钮即可。

13.6  单样本Kolmogorov-Smirnov Z检验对话框

 

13.4.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

  K-S正态性检验的结果显示,Z值=0.7032,双侧P值=0.7060,可认为该地正常成年男子的红细胞计数符合正态分布。

 

F

     Test distribution  -  Normal                     Mean:  12.0000

                                        Standard Deviation:   9.3808

              Cases:  12

              Most extreme differences

        Absolute        Positive      Negative         K-S Z       2-Tailed P

         .20298         .20298        -.16509          .7032          .7060

 

 

 

第五节 2 Independent Samples过程

 

13.5.1 主要功能

    调用此过程可对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。

13.5.2 实例操作

    [例13-5]调查某厂的铅作业工人7人和非铅作业工人10人的血铅值(μg / 100g)如下,问两组工人的血铅值有无差别?

 

非铅作业组

铅作业组

5    5    6    7    9    12    13    15    18    21

    17   18   20   25   34    43    44

 

13.5.2.1 数据准备

    激活数据管理窗口,定义分组变量group(非铅作业组为1,铅作业组为2,血铅值为Pb。按顺序输入数据。

 

13.5.2.2 统计分析         

    激活Statistics菜单选Nonparametric Tests中的2 Independent Samples...命令项,弹出Two-Independent-Samples-Test对话框(图13.7)。在对话框左侧的变量列表中选Pb,点击钮使之进入Test Variable List框;选group,点击钮使之进入Grouping Variable框,点击Define Groups...钮,在弹出的Two Independent Samples:Define Groups对话框内定义Group 1为1,Group 2为2,之后点击Continue钮返回Two-Independent-Samples-Test对话框;在Test Type框中有四种检验方法:

 

13.7  两独立样本检验对话框

 

    Mann-Whitney U:主要用于判别两个独立样本所属的总体是否有相同的分布;

    Kolmogorov-Smirnov Z:推测两个样本是否来自具有相同分布的总体;

    Moses extreme reactions:检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;

    Wald-Wolfowitz runs:考察两个独立样本是否来自具有相同分布的总体。

    本例选Mann-Whitney U检验方法,之后点击OK钮即可。

 

13.5.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    结果表明,第1组的平均秩次(Mean Rank)为5.95,第2组的平均秩次为13.36,U = 4.5,W = 93.5,精确双侧概率P = 0.0012,可认为铅作业组工人的血铅值高于非铅作业组。

 

PB  by  GROUP

     Mean Rank    Cases

          5.95       10    GROUP = 1

         13.36        7    GROUP = 2

                     --

                    17  Total

                                  Exact             Corrected for ties

           U             W      2-Tailed P           Z      2-Tailed P

           4.5          93.5       .0012         -2.9801       .0029

 

 

 

第六节 k Independent Samples过程

13.6.1 主要功能

    调用此过程可对多个独立样本进行中位数检验和Kruskal-Wallis H检验。

 

 

13.6.2 实例操作

    [例13-6]随机抽样得以下三组人的血桨总皮质醇测定值(μg / L),试比较有无差异?

 

正常人

单纯性肥胖

皮质醇增多症

0.4

1.9

2.2

2.5

2.8

3.1

3.7

3.9

4.6

7.0

0.6

1.2

2.0

2.4

3.1

4.1

5.0

5.9

7.4

13.6

9.8

10.2

10.6

13.0

14.0

14.8

15.6

15.6

21.6

24.0

 

13.6.2.1  数据准备

    激活数据管理窗口,定义分组变量group(正常人为1,单纯性肥胖为2,皮质醇增多症为3,总皮质醇测定值为pzc。按顺序输入数据。

 

13.6.2.2  统计分析         

    激活Statistics菜单选Nonparametric Tests中的k Independent Samples...项,弹出 Tests for Several Independent Samples对话框(图13.8)。在对话框左侧的变量列表中选pzc,点击钮使之进入Test Variable List框。选group,点击钮使之进入Grouping Variable框,点击Define Range...钮,在弹出的K Independent Samples:Define Range对话框内定义Mininum为1,Maxinum为2,之后点击Continue钮返回Two-Independent-Samples-Test对话框。在Test Type框中有两个检验方法的选项:Kruskal-Wallis H为单向方差分析,检验多个样本在中位数上是否有差异,Median为中位数检验,检验多个样本是否来自具有相同中位数的总体;本例选Kruskal-Wallis H项。之后点击OK钮即可。

 

13.8   多样本资料的秩和检验对话框

 

13.6.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    结果表明,1至3组的平均秩次(Mean Rank)分别为9.65、11.75、25.10,χ2 值(即H值)为 18.1219,P = 0.0001;可认为三组人的血桨总皮质醇测定值有差异,根据本例情况可看出皮质醇增多症组高于其他两组人。

 

PZC  by  GROUP

     Mean Rank    Cases

          9.65       10   GROUP =    1

         11.75       10   GROUP =    2

         25.10       10   GROUP =    3

                     --

                     30   Total                     Corrected for ties          

 Chi-Square     D.F.    Significance    Chi-Square       D.F.   Significance

    18.1219       2         .0001        18.1300           2        .0001

 

 

 

 

第七节 2 Related Samples过程

 

13.7.1 主要功能

    调用此过程可对两个相关样本资料(如配对、配伍资料)进行秩和检验。

 

 

13.7.2 实例操作

    [例13-7]研究饲料中缺乏Vit E对大鼠肝中Vit A含量的关系,将大鼠按性别相同、体重相近的原则配成8对,并将每对大鼠随机分为2组(正常饲料组、Vit E缺乏饲料组),一定时间后杀死大鼠,测定肝中Vit A含量,结果如下表,问:饲料中缺乏Vit E对大鼠肝中Vit A含量有无影响?

 

大鼠对别

正常饲料组

Vit E 缺乏饲料组

1

2

3

4

5

6

7

8

37.2

20.9

31.4

41.4

39.8

39.3

36.1

31.9

25.7

25.1

18.8

33.5

34.0

28.3

26.2

18.3

 

13.7.2.1  数据准备

    激活数据管理窗口,定义正常饲料组变量名va1, Vit E 缺乏饲料组变量名va2, 按顺序输入数据。

13.7.2.2  统计分析         

    激活Statistics菜单选Nonparametric Tests2 Related Samples...项,弹出Two-Related-Samples Tests对话框(图13.9)。在对话框左侧的变量列表中选va1,在Current Selections栏的Variable 1处出现va1,选va2,在Current Selections栏的Variable 2处出现va2,然后点击钮使va1 -va2(表明是配对变量)进入Test Pair(s) List框。在Test Type框中有三种检验方法:

 

13.9  两相关样本的秩和检验对话框

 

    1、Wilcoxon:配对符号等级秩次检验,

    2、Sign:符号检验;

    3、McNemar:以研究对象作自身对照,检验其“前后”的变化是否显著,该法适用于相关的二分变量数据。

    本例选Wilcoxon和Sign两项。点击Options...钮,弹出Two-Related-Samples:Options

对话框,在Statistics栏中选Decriptive项,要求计算均数、标准差等指标,点击Continue钮返回Two-Related-Samples Tests对话框,之后点击OK钮即可。

 

13.7.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    首先显示两变量va1和va2的例数、均数、标准差、最大值和最小值;配对符号秩和检验(Wilcoxon Matched-Pairs Signed-Ranks Test)结果,其平均秩分别为5.00 和1.00 ,Z = -2.3805,双侧P = 0.0173,可认为两组大鼠肝中Vit A含量有差别,饲料中缺乏Vit E会使大鼠肝中Vit A含量降低;但符号检验(Sign Test)的结果,双侧P = 0.0703,则认为两组大鼠肝中Vit A含量无差别。在这种情况下,应取配对符号秩和检验(Wilcoxon)结果,因两法比较之下,配对符号秩和检验较为敏感,效率较高。

 

                N        Mean     Std Dev  Minimum  Maximum

VA1             8    34.75000     6.64852    20.90    41.40

VA2             8    26.23750     5.82064    18.30    34.00

- - - - - Wilcoxon Matched-Pairs Signed-Ranks Test

       VA1

 with  VA2

     Mean Rank    Cases

          5.00        7  - Ranks (VA2 LT VA1)

          1.00        1  + Ranks (VA2 GT VA1)

                      0    Ties  (VA2 EQ VA1)

                     --

                      8    Total

         Z =   -2.3805            2-Tailed P =  .0173

- - - - - Sign Test

      VA1

with  VA2

           Cases

               7  - Diffs (VA2 LT VA1)

               1  + Diffs (VA2 GT VA1)       (Binomial)

               0    Ties                     2-Tailed P =      .0703

              --

               8    Total

 

 

 

 

第八节 K Related Samples过程

 

13.8.1 主要功能

     调用此过程可对多个相关样本资料(如配伍资料)进行秩和检验。

 

13.8.2 实例操作

    [例13-8]用某药治疗血吸虫病患者,在治疗前和治疗后一周、二周和四周各测定7名患者血清SGPT值的变化,以观察该药对肝功能的影响,结果如下表,问:患者四个阶段的血清SGPT值有无不同?

 

患者编号

治疗前

   

一周

二周

四周

1

2

3

4

5

6

7

63

90

54

45

54

72

64

188

238

300

140

175

300

207

138

220

83

213

150

163

185

54

144

92

100

36

90

87

 

13.8.2.1  数据准备

    激活数据管理窗口,定义变量名:治疗前为before、治疗后一周为w1、二周为w2、四周为w4,按顺序输入各组SGPT数据。

 

13.8.2.2  统计分析         

    激活Statistics菜单选Nonparametric Tests中的k Related Samples...命令项,弹出 Tests for Serveral Related Samples对话框(图13.10)。在对话框左侧的变量列表中选before、w1、w2和w4, 点击钮使before、w1、w2和w4均进入Test Variables框。在Test Type框中有三种选项:

    1、Friedman:双向方差分析,考察多个相关样本是否来自同一总体;

    2、Cochran's Q:作为两相关样本McNemar检验的多样本推广,特别适用于定性变量和二分字符变量;  

    3、Kendall's W:Kendall和谐系数检验,通过计算Kendall和谐系数W,以检验多个相关样本是否来自同一分布的总体。

    本例选Friedman和Kendalls W两种检验方法,再点击Statistics...钮,弹出K Related-Samples:Statistics对话框,在Statistics栏中选Decriptive项,要求计算均数、标准差等指标,点击Continue钮返回K Related-Samples Tests对话框;最后点击OK钮即可。

 

 

13.9  多个相关样本的秩和检验对话框

 

13.8.2.3  结果解释

    在结果输出窗口中将看到如下统计数据:

    首先显示的是四个变量before、w1、w2、w4的例数、均数、标准差、最大值和最小值。

    接着显示检验结果:

    Friedman双向方差分析,平均秩次分别1.29、3.86、3.00和1.86 ,χ2 = 16.7143,P = 0.0008,可认为患者四个阶段的血清SGPT值有差别。

    Kendall和谐系数检验,平均秩次分别1.29、3.86、3.00和1.86 ,和谐系数W = 0.7959,χ2  = 16.7143,P = 0.0008,结论同前。

 

                N         Mean     Std Dev   Minimum   Maximum

BEFORE          7     63.14286    14.70180     45.00     90.00

W1              7    221.14285    61.55331    140.00    300.00

W2              7    164.57143    47.27528     83.00    220.00

W4              7     86.14286    34.48878     36.00    144.00

- - - - - Friedman Two-Way Anova

     Mean Rank   Variable

          1.29   BEFORE

          3.86   W1

          3.00   W2

          1.86   W4

          Cases        Chi-Square          D.F.   Significance

             7           16.7143             3          .0008

 

- - - - - Kendall Coefficient of Concordance

     Mean Rank   Variable

          1.29   BEFORE

          3.86   W1

          3.00   W2

          1.86   W4

          Cases               W       Chi-Square         D.F.  Significance

             7           .7959          16.7143            3         .0008