第十三章
非参数检验
许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计或检验总体参数,统称为参数统计。
但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计(Nonparametric
tests)。
非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。
第一节
Chi-Square过程
13.1.1
主要功能
调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。
13.1.2
实例操作
[例13-1]某地一周内各日死亡数的分布如下表,请检验一周内各日的死亡危险性是否相同?
周
日 |
死亡数 |
一 二 三 四 五 六 日 |
11 19 17 15 15 16 19 |
13.1.2.1
数据准备
激活数据管理窗口,定义变量名:各周日为day,死亡数为death。按顺序输入数据, 结果见图13.1。激活Data菜单选Weight Cases...命令项,弹出Weight
Cases对话框(如图13.2),选death点击钮使之进入Frequency
Variable框,定义死亡数为权数,再点击OK钮即可。
图13.1
数据录入窗口 |
图13.2
数据加权对话框 |
13.1.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中的Chi-Square...命令项,弹出Chi-Square Test对话框(图13.3)。现欲对一周内各日的死亡数进行分布分析,故在对话框左侧的变量列表中选day,点击钮使之进入Test Variable
List框,点击OK钮即可。
图13.3
卡方检验对话框 |
13.1.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
运算结果显示一周内各日死亡的理论数(Expected)为15.71,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual);卡方值χ2 = 3.4000,自由度数(D.F.)= 6 ,P = 0.7572
,可认为一周内各日的死亡危险性是相同的。
DAY
Cases
Category Observed Expected Residual
1.00
11
15.71
-4.71
2.00
19
15.71
3.29
3.00
17
15.71
1.29
4.00
15
15.71
-.71
5.00
13
15.71
-2.71
6.00
16
15.71
.29
7.00
19 15.71
3.29
---
Total
110
Chi-Square
D.F.
Significance
3.4000
6
.7572
|
第二节
Binomial过程
13.2.1
主要功能
有些总体只能划分为两类,如医学中的生与死、患病的有与无。从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布。调用Binomial过程可对样本资料进行二项分布分析。
13.2.2
实例操作
[例13-2]某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?
13.2.2.1 数据准备
激活数据管理窗口,定义性别变量为sex。按出生顺序输入数据,男性为1 ,女性为0。
13.2.2.2 统计分析
激活Statistics菜单选Nonparametric
Tests中的Binomial
Test...命令项,弹出 Binomial Test对话框(图13.4)。在对话框左侧的变量列表中选sex,点击钮使之进入Test Variable List框,在Test
Proportion框中键入0.50,再点击OK钮即可。
图13.4
二项分布检验对话框 |
13.2.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177,可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。
SEX
Cases
Test Prop. =
.5000
28 =
1.00
Obs. Prop. =
.7000
12
=
.00
--
Z Approximation
40 Total
2-Tailed P =
.0177
|
第三节
Runs过程
13.3.1
主要功能
依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个游程。调用Runs过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。
13.3.2
实例操作
[例13-3]某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为“1”,对非发病的住户标记为“0”,共17户:
0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0
1 |
问病户的分布排列是呈聚集趋势,还是随机分布?
13.3.2.1
数据准备
激活数据管理窗口,定义住户变量为epi。按住户顺序输入数据,发病的住户为1 ,非发病的住户为0。
13.3.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中的Runs Test...项,弹出
Runs Test对话框(图13.5)。在对话框左侧的变量列表中选epi,点击钮使之进入Test Variable List框。在临界割点Cut
Point框中有四个选项:
图13.5
游程检验对话框 |
1、Median:中位数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;
2、Mode:众数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;
3、Mean:均数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;
4、Custom:用户指定临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类;
本例选Custom项,在其方框中键入1(根据需要选项,本例是0、1二分变量,故临界割点值用1),再点击OK钮即可。
13.3.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
检验结果可见本例游程个数为14,检验临界割点值(Test
value) = 1.00,小于1.00者有17个案例,而大于或等于1.00者有9个案例。Z = 0.3246,双侧 P = 0.7455。
所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。
EPI
Runs: 14
Test value = 1.00
Cases: 17 LT
1.00
9 GE 1.00
Z =
.3246
--
26 Total 2-Tailed P = .7455
|
第四节
1-Sample K-S过程
13.4.1
主要功能
调用此过程可对单样本进行Kolmogorov-Smirnov
Z检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。
13.4.2
实例操作
[例13-4]某地正常成年男子144人红细胞计数(万/立方毫米)的频数资料如下,问该资料的频数是否呈正态分布?
红细胞计数 |
人数 |
红细胞计数 |
人数 |
420- 440- 460- 480- 500- 520- |
2 4 7 16 20 25 |
540- 560- 580- 600- 620- 640- |
24 22 16 2 6 1 |
13.4.2.1
数据准备
激活数据管理窗口,定义频数变量名为f,依次输入人数资料。
13.4.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中的1-Sample K-S ...命令项,弹出One-Sample Kolmogorov-Smirnov Test
对话框(图13.6)。在对话框左侧的变量列表中选f,点击钮使之进入Test Variable List框,在Test
Distribution框中选Normal项,表明与正态分布形式相比较,再点击OK钮即可。
图13.6
单样本Kolmogorov-Smirnov Z检验对话框 |
13.4.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
K-S正态性检验的结果显示,Z值=0.7032,双侧P值=0.7060,可认为该地正常成年男子的红细胞计数符合正态分布。
F Test
distribution - Normal
Mean:
12.0000
Standard Deviation:
9.3808
Cases:
12 Most
extreme differences
Absolute
Positive
Negative
K-S Z
2-Tailed P
.20298
.20298
-.16509
.7032
.7060
|
第五节
2 Independent Samples过程
13.5.1
主要功能
调用此过程可对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。
13.5.2
实例操作
[例13-5]调查某厂的铅作业工人7人和非铅作业工人10人的血铅值(μg /
100g)如下,问两组工人的血铅值有无差别?
非铅作业组 铅作业组 |
5 5 6 7 9 12 13 15 18
21 17 18 20 25 34 43
44 |
13.5.2.1 数据准备
激活数据管理窗口,定义分组变量为group(非铅作业组为1,铅作业组为2),血铅值为Pb。按顺序输入数据。
13.5.2.2 统计分析
激活Statistics菜单选Nonparametric
Tests中的2 Independent
Samples...命令项,弹出Two-Independent-Samples-Test对话框(图13.7)。在对话框左侧的变量列表中选Pb,点击钮使之进入Test Variable List框;选group,点击钮使之进入Grouping Variable框,点击Define
Groups...钮,在弹出的Two Independent Samples:Define
Groups对话框内定义Group
1为1,Group 2为2,之后点击Continue钮返回Two-Independent-Samples-Test对话框;在Test
Type框中有四种检验方法:
图13.7
两独立样本检验对话框 |
Mann-Whitney U:主要用于判别两个独立样本所属的总体是否有相同的分布;
Kolmogorov-Smirnov Z:推测两个样本是否来自具有相同分布的总体;
Moses extreme
reactions:检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;
Wald-Wolfowitz runs:考察两个独立样本是否来自具有相同分布的总体。
本例选Mann-Whitney U检验方法,之后点击OK钮即可。
13.5.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
结果表明,第1组的平均秩次(Mean
Rank)为5.95,第2组的平均秩次为13.36,U = 4.5,W = 93.5,精确双侧概率P = 0.0012,可认为铅作业组工人的血铅值高于非铅作业组。
PB by GROUP Mean Rank
Cases
5.95
10 GROUP =
1
13.36
7 GROUP =
2
--
17
Total
Exact
Corrected for ties
U
W
2-Tailed P
Z
2-Tailed P
4.5
93.5
.0012
-2.9801
.0029
|
第六节
k Independent Samples过程
13.6.1
主要功能
调用此过程可对多个独立样本进行中位数检验和Kruskal-Wallis H检验。
13.6.2
实例操作
[例13-6]随机抽样得以下三组人的血桨总皮质醇测定值(μg / L),试比较有无差异?
正常人 |
单纯性肥胖 |
皮质醇增多症 |
0.4 1.9 2.2 2.5 2.8 3.1 3.7 3.9 4.6 7.0 |
0.6 1.2 2.0 2.4 3.1 4.1 5.0 5.9 7.4 13.6 |
9.8 10.2 10.6 13.0 14.0 14.8 15.6 15.6 21.6 24.0 |
13.6.2.1
数据准备
激活数据管理窗口,定义分组变量为 group(正常人为1,单纯性肥胖为2,皮质醇增多症为3),总皮质醇测定值为pzc。按顺序输入数据。
13.6.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中的k Independent
Samples...项,弹出 Tests for Several Independent
Samples对话框(图13.8)。在对话框左侧的变量列表中选pzc,点击钮使之进入Test Variable List框。选group,点击钮使之进入Grouping Variable框,点击Define
Range...钮,在弹出的K Independent Samples:Define
Range对话框内定义Mininum为1,Maxinum为2,之后点击Continue钮返回Two-Independent-Samples-Test对话框。在Test Type框中有两个检验方法的选项:Kruskal-Wallis
H为单向方差分析,检验多个样本在中位数上是否有差异,Median为中位数检验,检验多个样本是否来自具有相同中位数的总体;本例选Kruskal-Wallis
H项。之后点击OK钮即可。
图13.8
多样本资料的秩和检验对话框 |
13.6.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
结果表明,1至3组的平均秩次(Mean
Rank)分别为9.65、11.75、25.10,χ2
值(即H值)为 18.1219,P
= 0.0001;可认为三组人的血桨总皮质醇测定值有差异,根据本例情况可看出皮质醇增多症组高于其他两组人。
PZC by GROUP Mean Rank
Cases
9.65
10 GROUP =
1
11.75
10 GROUP =
2
25.10
10 GROUP =
3
--
30 Total
Corrected for ties
Chi-Square D.F. Significance Chi-Square
D.F.
Significance 18.1219
2
.0001
18.1300
2
.0001
|
第七节
2 Related Samples过程
13.7.1
主要功能
调用此过程可对两个相关样本资料(如配对、配伍资料)进行秩和检验。
13.7.2
实例操作
[例13-7]研究饲料中缺乏Vit E对大鼠肝中Vit
A含量的关系,将大鼠按性别相同、体重相近的原则配成8对,并将每对大鼠随机分为2组(正常饲料组、Vit E缺乏饲料组),一定时间后杀死大鼠,测定肝中Vit
A含量,结果如下表,问:饲料中缺乏Vit E对大鼠肝中Vit A含量有无影响?
大鼠对别 |
正常饲料组 |
Vit E
缺乏饲料组 |
1 2 3 4 5 6 7 8 |
37.2 20.9 31.4 41.4 39.8 39.3 36.1 31.9 |
25.7 25.1 18.8 33.5 34.0 28.3 26.2 18.3 |
13.7.2.1
数据准备
激活数据管理窗口,定义正常饲料组变量名为va1, Vit
E 缺乏饲料组变量名为va2,
按顺序输入数据。
13.7.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中 2 Related
Samples...项,弹出Two-Related-Samples Tests对话框(图13.9)。在对话框左侧的变量列表中选va1,在Current
Selections栏的Variable 1处出现va1,选va2,在Current Selections栏的Variable
2处出现va2,然后点击钮使va1 -va2(表明是配对变量)进入Test Pair(s) List框。在Test
Type框中有三种检验方法:
图13.9
两相关样本的秩和检验对话框 |
1、Wilcoxon:配对符号等级秩次检验,
2、Sign:符号检验;
3、McNemar:以研究对象作自身对照,检验其“前后”的变化是否显著,该法适用于相关的二分变量数据。
本例选Wilcoxon和Sign两项。点击Options...钮,弹出Two-Related-Samples:Options
对话框,在Statistics栏中选Decriptive项,要求计算均数、标准差等指标,点击Continue钮返回Two-Related-Samples
Tests对话框,之后点击OK钮即可。
13.7.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
首先显示两变量va1和va2的例数、均数、标准差、最大值和最小值;配对符号秩和检验(Wilcoxon Matched-Pairs
Signed-Ranks Test)结果,其平均秩分别为5.00 和1.00 ,Z = -2.3805,双侧P =
0.0173,可认为两组大鼠肝中Vit
A含量有差别,饲料中缺乏Vit E会使大鼠肝中Vit A含量降低;但符号检验(Sign Test)的结果,双侧P =
0.0703,则认为两组大鼠肝中Vit
A含量无差别。在这种情况下,应取配对符号秩和检验(Wilcoxon)结果,因两法比较之下,配对符号秩和检验较为敏感,效率较高。
N
Mean
Std Dev Minimum Maximum VA1
8
34.75000
6.64852
20.90
41.40 VA2
8
26.23750
5.82064
18.30
34.00
- - - - -
Wilcoxon Matched-Pairs Signed-Ranks Test
VA1 with VA2 Mean Rank
Cases
5.00
7 - Ranks (VA2 LT
VA1)
1.00
1 + Ranks (VA2 GT
VA1)
0
Ties (VA2 EQ
VA1)
--
8
Total
Z = -2.3805
2-Tailed P =
.0173 - - - - - Sign
Test
VA1 with VA2
Cases
7 - Diffs (VA2 LT
VA1)
1 + Diffs (VA2 GT
VA1)
(Binomial)
0
Ties
2-Tailed
P =
.0703
--
8
Total
|
第八节
K Related Samples过程
13.8.1
主要功能
调用此过程可对多个相关样本资料(如配伍资料)进行秩和检验。
13.8.2
实例操作
[例13-8]用某药治疗血吸虫病患者,在治疗前和治疗后一周、二周和四周各测定7名患者血清SGPT值的变化,以观察该药对肝功能的影响,结果如下表,问:患者四个阶段的血清SGPT值有无不同?
患者编号 |
治疗前 |
治 疗
后 | ||
一周 |
二周 |
四周 | ||
1 2 3 4 5 6 7 |
63 90 54 45 54 72 64 |
188 238 300 140 175 300 207 |
138 220 83 213 150 163 185 |
54 144 92 100 36 90 87 |
13.8.2.1
数据准备
激活数据管理窗口,定义变量名:治疗前为before、治疗后一周为w1、二周为w2、四周为w4,按顺序输入各组SGPT数据。
13.8.2.2
统计分析
激活Statistics菜单选Nonparametric
Tests中的k Related
Samples...命令项,弹出 Tests for
Serveral Related Samples对话框(图13.10)。在对话框左侧的变量列表中选before、w1、w2和w4, 点击钮使before、w1、w2和w4均进入Test Variables框。在Test
Type框中有三种选项:
1、Friedman:双向方差分析,考察多个相关样本是否来自同一总体;
2、Cochran's Q:作为两相关样本McNemar检验的多样本推广,特别适用于定性变量和二分字符变量;
3、Kendall's
W:Kendall和谐系数检验,通过计算Kendall和谐系数W,以检验多个相关样本是否来自同一分布的总体。
本例选Friedman和Kendall’s W两种检验方法,再点击Statistics...钮,弹出K Related-Samples:Statistics对话框,在Statistics栏中选Decriptive项,要求计算均数、标准差等指标,点击Continue钮返回K
Related-Samples Tests对话框;最后点击OK钮即可。
图13.9
多个相关样本的秩和检验对话框 |
13.8.2.3
结果解释
在结果输出窗口中将看到如下统计数据:
首先显示的是四个变量before、w1、w2、w4的例数、均数、标准差、最大值和最小值。
接着显示检验结果:
Friedman双向方差分析,平均秩次分别1.29、3.86、3.00和1.86 ,χ2
= 16.7143,P =
0.0008,可认为患者四个阶段的血清SGPT值有差别。
Kendall和谐系数检验,平均秩次分别1.29、3.86、3.00和1.86 ,和谐系数W =
0.7959,χ2 = 16.7143,P = 0.0008,结论同前。
N
Mean
Std Dev
Minimum
Maximum BEFORE
7
63.14286
14.70180
45.00
90.00 W1
7
221.14285
61.55331
140.00
300.00 W2
7
164.57143
47.27528
83.00
220.00 W4
7
86.14286
34.48878
36.00
144.00 - - - - -
Friedman Two-Way Anova Mean Rank
Variable
1.29
BEFORE
3.86
W1
3.00
W2
1.86
W4
Cases
Chi-Square
D.F.
Significance
7
16.7143
3
.0008
- - - - -
Kendall Coefficient of Concordance Mean Rank
Variable
1.29
BEFORE
3.86
W1
3.00
W2
1.86
W4
Cases
W
Chi-Square
D.F.
Significance
7
.7959
16.7143
3
.0008
|