第四章 摘要性分析

第一节 Frequencies过程

4.1.1 主要功能

4.1.2 实例操作

第二节 Descriptives过程

4.2.1 主要功能

4.2.2 实例操作

第三节 Explore过程

4.3.1 主要功能

4.3.2 实例操作

第四节 Crosstabs过程

4.4.1 主要功能

4.4.2 实例操作

 

    摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。

 

第一节 Frequencies过程

 

4.1.1 主要功能

    调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。

 

 

4.1.2 实例操作

    [例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。

 

7.43  7.88  6.88  7.80  7.04  8.05  6.97  7.12  7.35  8.05

7.95  7.56  7.50  7.88  7.20  7.20  7.20  7.43  7.12  7.20

7.50  7.35  7.88  7.43  7.58  6.50  7.43  7.12  6.97  6.80

7.35  7.50  7.20  6.43  7.58  8.03  6.97  7.43  7.35  7.35

7.58  7.58  6.88  7.65  7.04  7.12  8.12  7.50  7.04  6.80

7.04  7.20  7.65  7.43  7.65  7.76  6.73  7.20  7.50  7.43

7.35  7.95  7.35  7.47  6.50  7.65  8.16  7.54  7.27  7.27

6.72  7.65  7.27  7.04  7.72  6.88  6.73  6.73  6.73  7.27

7.58  7.35  7.50  7.27  7.35  7.35  7.27  8.16  7.03  7.43

7.35  7.95  7.04  7.65  7.27  7.72  8.43  7.50  7.65  7.04

 

4.1.2.1 数据准备

    激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。

 

 

4.1  输入血清总蛋白含量值

 

4.1.2.2 统计分析

    激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies:Format对话框,在Order by栏中有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

 

 

4.2  频数表分析对话框

 

    点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。

 

 

4.3  频数表分析的统计指标对话框

 

    点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。

 

4.1.2.3 结果解释

    在输出结果窗口中将看到如下统计数据:

    系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

 

X                                                        Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.43         1      1.0      1.0      1.0

                             6.50         2      2.0      2.0      3.0

                             6.72         1      1.0      1.0      4.0

                             6.73         4      4.0      4.0      8.0

                             6.80         2      2.0      2.0     10.0

                             6.88         3      3.0      3.0     13.0

                             6.97         3      3.0      3.0     16.0

                             7.03         1      1.0      1.0     17.0

                             7.04         7      7.0      7.0     24.0

                             7.12         4      4.0      4.0     28.0

                             7.20         7      7.0      7.0     35.0

                             7.27         7      7.0      7.0     42.0

                             7.35        11     11.0     11.0     53.0

                             7.43         8      8.0      8.0     61.0

                             7.47         1      1.0      1.0     62.0

                             7.50         7      7.0      7.0     69.0

                             7.54         1      1.0      1.0     70.0

                             7.56         1      1.0      1.0     71.0

                             7.58         5      5.0      5.0     76.0

                             7.65         7      7.0      7.0     83.0

                             7.72         2      2.0      2.0     85.0

                             7.76         1      1.0      1.0     86.0

                             7.80         1      1.0      1.0     87.0

                             7.88         3      3.0      3.0     90.0

                             7.95         3      3.0      3.0     93.0

                             8.03         1      1.0      1.0     94.0

                             8.05         2      2.0      2.0     96.0

                             8.12         1      1.0      1.0     97.0

                             8.16         2      2.0      2.0     99.0

                             8.43         1      1.0      1.0    100.0

                                     ------   -------  -------

                            Total       100    100.0    100.0

 

 

       接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。

 

Mean          7.366        Std err        .039      Median        7.350

Mode          7.350        Std dev        .394      Variance       .155

Kurtosis       .034        S E Kurt       .478      Skewness       .060

S E Skew       .241        Range         2.000      Minimum       6.430

Maximum       8.430

 

 Percentile   Value      Percentile    Value      Percentile    Value

  25.00       7.120        50.00       7.350        75.00       7.580

 

Valid cases     100      Missing cases      0

 

 

       最后系统输出带有正态曲线的直方图(图4.4),由图中可见,数据基本呈现正态分布形状。

   

 

4.4  频数分布的直方图

 

从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

 

X1

                                                         Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.40         3      3.0      3.0      3.0

                             6.60         5      5.0      5.0      8.0

                             6.80         8      8.0      8.0     16.0

                             7.00        12     12.0     12.0     28.0

                             7.20        25     25.0     25.0     53.0

                             7.40        23     23.0     23.0     76.0

                             7.60        10     10.0     10.0     86.0

                             7.80         7      7.0      7.0     93.0

                             8.00         6      6.0      6.0     99.0

                             8.40         1      1.0      1.0    100.0

                                    -------   -------  -------

                            Total      100     100.0    100.0

 

Valid cases     100      Missing cases      0

 

 

 

第二节 Descriptives过程

 

4.2.1 主要功能

    调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。

 

 

4.2.2 实例操作

  [例4-2]调查20名男婴的出生体重(克)资料如下,试作描述性统计。

 

2770  2915  2795  2995  2860  2970  3087  3126  3125  4654

2272  3503  3418  3921  2669  4218  3707  2310  2573  3881

 

4.2.2.1 数据准备

    激活数据管理窗口,定义男婴出生体重的变量名为X,然后输入男婴出生体重的原始数据。

 

4.2.2.2 统计分析

    激活Statistics菜单选Summarize中的Descriptives...命令项,弹出Descriptives对话框(图4.5)。现欲对男婴出生体重进行描述性分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框;本例要求将原始数据转换成z分值,故选Save standardized value as variables项。

 

 

4.5  描述性统计对话框

 

    点击Options...钮,弹出Descriptives:Options对话框(图4.6)。框中各指标的意义请读者参阅本章第一节。选好项目后点击 Continue钮返回Descriptives对话框,再点击OK钮即可。

 

 

4.6  描述性统计指标对话框

 

4.2.2.3 结果解释

    在结果输出窗口中将看到如下统计数据:均数为3188.450, 标准误为140.681, 标准差为629.146, 方差为395824.997, 峰度系数为0.118, 峰度系数的标准误为0.992, 偏度系数为0.732, 偏度系数的标准误为0.512, 全距为2382.000, 最小值为2272, 最大值为4654, 有效例数为100,无缺失值。

Number of valid observations (listwise) =        20.00

Variable  X

 

Mean          3188.450                  S.E. Mean        140.681

Std Dev        629.146                  Variance      395824.997

Kurtosis          .118                  S.E. Kurt           .992

Skewness          .732                  S.E. Skew           .512

Range         2382.000                  Minimum         2272

Maximum       4654                      Sum            63769.000

 

Valid observations -       20         Missing observations -        0

 

 

    此外,系统以zx为变量名将原始数据转换成标准z分值,存放在原数据库中(图4.7)。例如,已知均数为3188.450, 标准差为629.146,故原始值2770的Z分值为= - 0.66511;原始值2770的Z分值为= 1.10078。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。

 

 

4.7  原始数据及其标准Z分值

 

 

第三节 Explore过程

 

4.3.1 主要功能

    调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。

 

 

4.3.2 实例操作

  [例4-3]下表为30名10岁少儿的身高(cm)资料,试作探索性分析。

 

编号

身高

男孩

女孩

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

121.4

131.5

132.6

129.2

134.1

135.8

140.4

136.0

128.2

137.4

135.5

129.0

132.2

140.9

129.3

133.4

132.7

130.1

136.7

139.7

133.0

140.3

124.0

125.4

137.5

120.9

138.8

138.6

141.4

137.5

 

4.3.2.1 数据准备

    激活数据管理窗口,定义少儿身高的变量名为X,然后再定义一个变质为SEX,用于作性别分组。顺序输入少儿身高的原始数据,在变量SEX中,男孩输入1、女孩输入2。

 

4.3.2.2 统计分析

  激活Statistics菜单选Summarize中的Explore...项,弹出Explore对话框(如图4.8),现欲对少儿身高资料进行分组的探索性分析,故在对话框左侧的变量列表中选x点击钮使之进入Dependent List框,再选sex点击钮使之进入Factor List框。

 

4.8  探索性分析对话框

 

    点击Statistics...钮,弹出Explore:Statistics对话框(图4.9),有如下选项:

    1、Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;

    2、M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;

    3、Outliers:输出五个最大值与五个最小值;

    4、Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数;

    5、Grouped Frequency tables:输出分组的例数与数值范围表。

    本例全部选择,之后点击Continue钮返回Explore对话框。

 

 

4.9  探索性分析统计对话框

 

    点击Plot...钮弹出Explore:Plot对话框(图4.10),在Boxplot栏内选Factor levels together项要求按组别进行箱图绘制;在Descriptive栏内选Stem-and-leaf项要求作茎叶情形描述。之后点击Continue钮返回Explore对话框,再点击OK钮即可。

 

 

4.10  探索性分析绘图对话框

 

4.3.2.3 结果解释

    在结果输出窗口中将看到如下统计数据:

    先输出男孩的数据。共15例,无缺失值,其均数为132.9,中位数为132.6,5%修正均数为133.0944,均数的95%置信区间为130.0706~132.7294,标准误为1.3192,方差为26.1043,标准差为5.1092,最小值为121.4,最大值为140.9,全距为19.5,四分位全距为6.8,偏度系数为-0.4239,偏度系数的标准误为0.5801,峰度系数为0.4961,峰度系数的标准误为1.1209。

    接着输出四个不同权重下作中心趋势的粗略最大似然确定数,对于伴有长拖尾的对称分布数据或带有个别极端数值的数据,用粗略最大似然确定数替代均数或中位数,结果更准确。系统还进行数据的茎叶情形描述。如系统指出男孩的身高资料中,有一个数值是茎为12,叶为1,其实该数值是121.4;有四个数值是茎为12,叶为8999,其实这些数值是129.2、128.2、190.0、129.3。

    再接着输出百分位数:第5%位数是121.4,第10%数是125.48,第25%位数是129.2,第50%位数是132.6,第75%位数是136,第90%位数是140.6。并输出最大五个数和最小五个数:最大五个数是140.9,140.4,137.4,136.0,135.8;最小五个数是121.4,128.2,129.0,129.2,129.3。

    最后输出频数分布表。

 

 X

 By  SEX              1

 Valid cases:  15.0      Missing cases:  .0        Percent missing:  .0

 

Mean     132.9000   Std Err     1.3192   Min    121.4000   Skewness    -.4239

Median   132.6000   Variance   26.1043   Max    140.9000   S E Skew     .5801

5%Trim   133.0944   Std Dev     5.1092   Range   19.5000   Kurtosis     .4961

95% CI for Mean (130.0706, 135.7294)     IQR      6.8000   S E Kurt    1.1209

 

                                 M-Estimators

                                  ------------

 Huber  ( 1.339)               132.9127   Tukey  ( 4.685)             133.0901

 Hampel ( 1.700, 3.400, 8.500) 133.0153   Andrew ( 1.340 * pi )       133.0904

 

 Frequency    Stem &  Leaf

     1.00       12 *  1

     4.00       12 .  8999

     4.00       13 *  1224

     4.00       13 .  5567

     2.00       14 *  00

 Stem width:      10.0

 Each leaf:       1 case(s)

 

                                 Percentiles

                                 -----------

Percentiles   5.0000   10.0000   25.0000   50.0000   75.0000   90.0000  95.0000

Haverage    121.4000  125.4800  129.2000  132.6000  136.0000  140.6000

Tukey's Hinges                  129.2500  132.6000  135.9000

 

                               Extreme Values

                               ------- ------

    5    Highest     Case #                 5    Lowest      Case #

          140.9      Case: 14                     121.4      Case: 1

          140.4      Case: 7                      128.2      Case: 9

          137.4      Case: 10                     129.0      Case: 12

          136.0      Case: 8                      129.2      Case: 4

          135.8      Case: 6                      129.3      Case: 15

 

                               Frequency Table

                              --------- -----

                   Bin                             Valid      Cum

                  Center         Freq      Pct       Pct       Pct

                   126.4         5.00    33.33     33.33     33.33

                   136.4        10.00    66.67     66.67    100.00

 

 

    下一部分为系统输出的女孩资料分析结果,其意义同上述。

 

X

 By  SEX              2

 Valid cases:  15.0     Missing cases:  .0     Percent missing:  .0

 

Mean     134.0000    Std Err    1.6428   Min    120.9000   Skewness    -.8937

Median   136.7000    Variance  40.4829   Max    141.4000   S E Skew     .5801

5% Trim  134.3167    Std Dev     6.3626  Range   20.5000   Kurtosis    -.2747

95% CI for Mean (130.4765, 137.5235)     IQR      8.7000   S E Kurt    1.1209

 

                                 M-Estimators

                                 ------------

 Huber  ( 1.339)               135.4183   Tukey  ( 4.685)             136.2104

 Hampel ( 1.700, 3.400, 8.500) 135.1852   Andrew ( 1.340 * pi )       136.2327

 

 Frequency    Stem &  Leaf

     2.00       12 *  04

     1.00       12 .  5

     4.00       13 *  0233

     6.00       13 .  677889

     2.00       14 *  01

 Stem width:      10.0

 Each leaf:       1 case(s)

 

                                 Percentiles

                                 -----------

Percentiles  5.0000   10.0000   25.0000   50.0000   75.0000   90.0000   95.0000

Haverage   120.9000  122.7600  130.1000  136.7000  138.8000  140.7400

Tukey's Hinges                 131.4000  136.7000  138.7000

 

                                Extreme Values

                                ------- ------

    5    Highest     Case #                 5    Lowest      Case #

          141.4      Case: 29                     120.9      Case: 26

          140.3      Case: 22                     124.0      Case: 23

          139.7      Case: 20                     125.4      Case: 24

          138.8      Case: 27                     130.1      Case: 18

          138.6      Case: 28                     132.7      Case: 17

 

                               Frequency Table

                               --------- -----

                   Bin                             Valid      Cum

                  Center         Freq      Pct       Pct       Pct

                   125.9          4.00    26.67     26.67     26.67

                   135.9         10.00    66.67     66.67     93.33

                   145.9          1.00     6.67      6.67    100.00­­­­­­­­­­­­­­­­­­­

 

 

    此外,按用户要求,系统输出箱图。图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值。

 

 

4.11  性别分组少儿身高资料的箱图

 

 

 

第四节 Crosstabs过程

 

4.4.1 主要功能

    调用此过程可进行计数资料和某些等级资料的列联表分析,在分析中,可对二维至n维列联表(RC表)资料进行统计描述和χ2 检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test)且有单双侧( One-Tail、 Two-Tail),对数似然比检验(Likelihood Ratio)以及线性关系的Mantel-Haenszelχ2 检验。

 

 

4.4.2 实例操作

  [例4-4]用两组大白鼠诱发鼻咽癌的动物实验中,一组单纯用亚硝胺鼻注,另一组附加维生素B12 , 生癌率如下表,问两组生癌率有无差别?

 

动物分组

生癌鼠数

未生癌鼠数

合计

生癌率(%)

亚硝胺组

亚硝胺+B12

52

39

19

3

71

42

73.2

92.9

合计

91

22

113

80.5

 

­­­4.4.2.1 数据准备 

    激活数据管理窗口,定义变量名:count为频数变量(行列对应的频数值),group为组变量(行),test为试验结果变量(列)。按顺序输入相应的变量(图4.12)。

 

 

4.12  原始数据的输入

 

4.4.2.2 统计分析

    在进行计数资料的分析前,应对频数变量的值进行加权处理。先激活Data菜单, 选Weight Cases...项,弹出Weight Cases对话框,选Weight cases by,再选变量count点击钮使之进入Frequence Variable框中,点击OK钮完成加权。

    激活Statistics菜单,选Summarize中的Crosstabs...项,弹出Crosstabs对话框(如图4.13示)。在Crosstabs对话框中,选group点击钮使之进入Row(s)框,选test点击钮使之进入Column(s)框。点击Statistics...钮,弹出Crosstabs:Statistics对话框(图4.14), 其中Chi-square即为读者所熟悉的χ2 检验。由于在实际研究中,变量间的依赖强度和特征也是需要考虑的,χ2 值不是列联强度的好的度量,故用户可根据实际需要选择其他相关的指标:

   

 

4.13  列联表分析对话框

 

 

4.14  列联表统计方法对话框

 

    1、定距变量的关联指标

    Correlations:可作列联表行、列两变量的Pearson相关系数或作伴随组秩次的Spearman相关系数。

2、定类变量的关联指标

    Contingency coefficient:列联系数,其值 =,界于0~1之间,其中N为总例数;

    Phi and Cramer's V:ψ系数 = ,用于描述相关程度,在四格表χ2 检验中界于-1~1之间,在RC表χ2 检验中界于0~1之间;Cramer's V =,界于0~1之间,其中k为行数和列数较小的实际数;

    Lambda:λ值,在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;

    Uncertainty coefficient:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

    3、定序变量的关联指标

    Gamma:γ值 = ,P为同序对子数,Q为异序对子数,界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1;

    Somers'D:Somers'D值 = ,T为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;

    Kendall's tau-b:Kendall τ= ,T为在V1变量上是同序在V2变量上不是的对子数, T为在V2变量上是同序在V1变量上不是的对子数,Kendall τ值界于-1~1之间;

    Kendall's tau-c:Kendall τ= ,m为行数和列数较小的实际数,Kendall τ值界于-1~1之间。

    4、其他指标

    Kappa:内部一致性系数;

    Eta:Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例;

    Risk:相对危险度。

    点击Cells...钮,弹出Crosstabs:Cells对话框(图4.15),用于定义列联表单元格中需要计算的指标。Observed为实际观察数,Expected为理论数,Row为行百分数,Column为列百分数,Total为合计百分数,Raw为实际数与理论数的差值,Standardized为实际数与理论数的差值除理论数,Adj. Standardized为由标准误确立的单元格残差。选择后点击Continue钮返回Crosstabs对话框,再点击OK钮即可。

 

 

4.15  列联表单元对话框

 

4.4.2.3 结果解释

    在结果输出窗中,系统先输出四格表资料,包括实际观察数、理论数、行百分数、列百分数和合计百分数。

 

TEST  by  GROUP

                          GROUP

            Count  |

           Exp Val |

           Row Pct |

           Col Pct |                    Row

           Tot Pct |       1|       2| Total

TEST       --------+--------+--------+

                1  |    52  |    39  |    91

                   |  57.2  |  33.8  | 80.5%

                   | 57.1%  | 42.9%  |

                   | 73.2%  | 92.9%  |

                   | 46.0%  | 34.5%  |

                   +--------+--------+

                2  |    19  |     3  |    22

                   |  13.8  |   8.2  | 19.5%

                   | 86.4%  | 13.6%  |

                   | 26.8%  |  7.1%  |

                   | 16.8%  |  2.7%  |

                   +--------+--------+

            Column      71       42      113

             Total   62.8%    37.2%   100.0%

 

 

    接着输入有关统计数据,Pearson χ2值为6.47766,P值为0.01092,可认为亚硝胺+B12组的生癌率较高;校正χ2值为5.28685,P值为0.02149;M-T检验χ2值为 6.42034,P值为0.01128;最小理论数为8.177,故不需作精确概率计算。(如果四格表中有理论频数小于5时,Crosstabs命令会自动进行Fisher精确概率计算)。

    内部一致性系数为-0.21731,Pearson相关系数和Spearman相关系数均为0.23943。

    第一组对第二组的相对危险性RR值为21%左右(0.21053),即可认为第二组生癌的相对危险性为第一组的4.75倍。

 

  Chi-Square                 Value          DF             Significance

--------------------       -----------     ----            ------------

Pearson                     6.47766         1                  .01092

Continuity Correction       5.28685         1                  .02149

Likelihood Ratio            7.31007         1                  .00686

Mantel-Haenszel test for    6.42034         1                  .01128

  linear association

 

Minimum Expected Frequency -    8.177

                                                         Approximate

   Statistic              Value      ASE1     Val/ASE0   Significance

--------------------   ---------   -------    --------   ------------

Kappa                    -.21731    .07083    -2.54513

Pearson's R              -.23943    .07447    -2.59807    .01065 *4

Spearman Correlation     -.23943    .07447    -2.59807    .01065 *4

 

*4 VAL/ASE0 is a t-value based on a normal approximation, as is the significance

 

     Statistic                Value            95% Confidence Bounds

--------------------        --------          -----------------------

Relative Risk Estimate (TEST 1 / TEST 2) :

   case control              .21053            .05816        .76211

   cohort (GROUP 1 Risk)     .66165            .51872        .84397

   cohort (GROUP 2 Risk)    3.14286           1.06940       9.23654

 

Number of Missing Observations:  0