第十章 分类分析

第一节 K-Means Cluster过程

10.1.1 主要功能

10.1.2 实例操作

第二节 Hierarchical Cluster过程

10.2.1 主要功能

10.2.2 实例操作

第三节 Discriminant过程

10.3.1 主要功能

10.3.2 实例操作

 

    人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。在医学实践中也经常需要做分类的工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查;等等。统计学中常用的分类统计方法主要是聚类分析与判别分析。

    聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类。

   

第一节 K-Means Cluster过程

10.1.1 主要功能

    调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。

10.1.2 实例操作

   [例10.1]为研究儿童生长发育的分期,调查12531月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。

 

月份

月平均增长率(%                                            

身高

体重

胸围

坐高

1

2

3

4

6

8

10

12

15

18

24

30

36

42

48

54

60

66

72

11.03

5.47

3.58

2.01

2.13

2.06

1.63

1.17

1.03

0.69

0.77

0.59

0.65

0.51

0.73

0.53

0.36

0.52

0.34

50.30

19.30

9.85

4.17

5.65

1.74

2.04

1.60

2.34

1.33

1.41

1.25

1.19

0.93

1.13

0.82

0.52

1.03

0.49

11.81

5.20

3.14

1.47

1.04

0.17

1.04

0.89

0.53

0.48

0.52

0.30

0.49

0.16

0.35

0.16

0.19

0.30

0.18

11.27

7.18

2.11

1.58

2.11

1.57

1.46

0.76

0.89

0.58

0.42

0.14

0.38

0.25

0.55

0.34

0.21

0.55

0.16

 

10.1.2.1  数据准备

    激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但为了更直观地了解聚类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别为x1x2x3x4,输入原始数额

 

10.1.2.2  统计分析

    激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框(如图10.1示)。从对话框左侧的变量列表中选x1x2x3x4,点击Ø钮使之进入Variables框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterate and classify指先定初始类别中心点,而后按K-means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。

 

10.1  逐步聚类分析对话框

 

       为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。

       本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。

 

10.1.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。

 

Initial Cluster Centers.

      Cluster       X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         3.5800        9.8500        3.1400        2.1100

        4          .3400         .4900         .1800         .1600

 

Convergence achieved due to no or small distance change.

The maximum distance by which any center has changed is .0000

Current iteration is  2

 

Minimum distance between initial centers is 10.5200

 

   Iteration               Change in Cluster Centers

                    1         2         3         4

     1             .0000     .0000  2.46E+00  1.27E+00

     2             .0000     .0000     .0000     .0000

 

Case listing of Cluster membership.

     Case ID   Cluster       Distance

       1         1           .000

       2         2           .000

       3         3          2.457

       4         4          3.219

       5         3          2.457

       6         4          1.530

       7         4          1.346

       8         4           .515

       9         4           .915

      10         4           .266

      11         4           .281

      12         4           .668

      13         4           .467

      14         4           .844

      15         4           .415

      16         4           .873

      17         4          1.215

      18         4           .619

      19         4          1.269

 

 Final Cluster Centers.

     Cluster        X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         2.8550        7.7500        2.0900        2.1100

        4          .9060        1.4660         .4820         .6560

 

 

       之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.001,即聚类效果好。这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCL_1存于原始数据库中。

 

Distances between Final Cluster Centers.

     Cluster         1             2             3             4

        1          .0000

        2        32.4397         .0000

        3        45.3400       13.2521         .0000

        4        52.2325       20.0924        6.9273         .0000

 

 Analysis of Variance.

 Variable       Cluster MS   DF         Error MS     DF         F      Prob

    X1          37.5806    3             .369      15.0     101.7853   .000

    X2         817.1164    3            1.354      15.0     603.2588   .000

    X3          45.4089    3             .281      15.0     161.1145   .000

    X4          46.0994    3             .235      15.0     195.4933   .000

 

 Number of Cases in each Cluster.

      Cluster       unweighted cases    weighted cases

        1                   1.0               1.0

        2                   1.0               1.0

        3                   2.0               2.0

        4                  15.0              15.0

  Missing                     0

  Valid cases              19.0              19.0

 

 Variable Saved into Working File.

  QCL_1 (Cluster Number)

 

 

       在原始数据库(图10.2)中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为:

       第一期,出生后至满月,增长率最高;

       第二期,第2个月起至第3个月,增长率次之;

       第三期,第3个月起至第8个月,增长率减缓;

       第四期,第8个月后,增长率显著减缓。

 

 

10.2  逐步聚类分析的分类结果

 

第二节 Hierarchical Cluster过程

10.2.1 主要功能

    调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。

10.2.2 实例操作

   [例10.229名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。

编号

N0.

X1

X2

X3

X4

X5

血红蛋白

X6

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

54.89

72.49

53.81

64.74

58.80

43.67

54.89

86.12

60.35

54.04

61.23

60.17

69.69

72.28

55.13

70.08

63.05

48.75

52.28

52.21

49.71

61.02

53.68

50.22

65.34

56.39

66.12

73.89

47.31

30.86

42.61

52.86

39.18

37.67

26.18

30.86

43.79

38.20

34.23

37.35

33.67

40.01

40.12

33.02

36.81

35.07

30.53

27.14

36.18

25.43

29.27

28.79

29.17

29.99

29.29

31.93

32.94

28.55

448.70

467.30

425.61

469.80

456.55

395.78

448.70

440.13

394.40

405.60

446.00

383.20

416.70

430.80

445.80

409.80

384.10

342.90

326.29

388.54

331.10

258.94

292.80

292.60

312.80

283.00

344.20

312.50

294.70

 0.012

 0.008

 0.004

 0.005

 0.012

 0.001

 0.012

 0.017

 0.001

 0.008

 0.022

 0.001

 0.012

 0.000

 0.012

 0.012

 0.000

 0.018

 0.004

 0.024

 0.012

 0.016

 0.048

 0.006

 0.006

 0.016

 0.000

 0.064

 0.005

1.010

1.640

1.220

1.220

1.010

0.594

1.010

1.770

1.140

1.300

1.380

0.914

1.350

1.200

0.918

1.190

0.853

0.924

0.817

1.020

0.897

1.190

1.320

1.040

1.030

1.350

0.689

1.150

0.838

13.50

13.00

13.75

14.00

14.25

12.75

12.50

12.25

12.00

11.75

11.50

11.25

11.00

10.75

10.50

10.25

10.00

 9.75

 9.50

 9.25

 9.00

 8.75

 8.50

 8.25

 8.00

 7.80

 7.50

 7.25

 7.00

 

10.2.2.1  数据准备

    激活数据管理窗口,定义变量名:钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1x2x3x4x5x6,之后输入原始数据。

10.2.2.2  统计分析

    激活Statistics菜单选Classify中的Hierarchical Cluster...项,弹出Hierarchical Cluster Analysis对话框(图10.3)。从对话框左侧的变量列表中选x1x2x3x4x5x6,点击Ø钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables

10.3  系统聚类分析对话框

 

       点击Statistics...钮,弹出Hierarchical Cluster Analysis: Statistics对话框,选择Distance matrix,要求显示距离矩阵,点击Continue钮返回Hierarchical Cluster Analysis对话框(图10.4)。

 

10.4  系统聚类方法选择对话框

 

       本例要求系统输出聚类结果的树状关系图,故点击Plots...钮弹出Hierarchical Cluster Analysis:Plots对话框,选择Dendrogram项,点击Continue钮返回Hierarchical Cluster Analysis对话框。

       点击Method...钮弹出Hierarchical Cluster Analysis:Method对话框,系统提供7种聚类方法供用户选择:

       Between-groups linkage:类间平均链锁法;    

       Within-groups linkage:类内平均链锁法;

       Nearest neighbor:最近邻居法;

       Furthest neighbor:最远邻居法;

       Centroid clustering:重心法,应与欧氏距离平方法一起使用;

       Median clustering:中间距离法,应与欧氏距离平方法一起使用;

       Ward's method:离差平方和法,应与欧氏距离平方法一起使用。

       本例选择类间平均链锁法(系统默认方法)。在选择距离测量技术上,系统提供8种形式供用户选择:

       Euclidean distanceEuclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类;

       Squared Euclidean distanceEuclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类;

       Cosine:变量矢量的余弦,这是模型相似性的度量;

       Pearson correlation:相关系数距离,适用于R型聚类;

       ChebychevChebychev距离,即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q型聚类;

       BlockCity-BlockManhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q型聚类;

       Minkowski:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根;p由用户指定

       Customized:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,pr由用户指定。

       本例选用Pearson correlation,点击Continue钮返回Hierarchical Cluster Analysis对话框,再点击OK钮即完成分析。

 

10.2.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       29例样本进入聚类分析,采用相关系数测量技术。先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。然后显示类间平均链锁法的合并进程,即第一步,X3X6被合并,它们之间的相关系数最大,为0.863431;第二步,X1X5合并,其间相关系数为0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为0.338335;第五步,与最后一个变量X4合并,这个相关系数最小,为-0.054485

 

Data Information

         29 unweighted cases accepted.

          0 cases rejected because of missing value.

Correlation measure used.

 

Correlation Similarity Coefficient Matrix

 Variable       X1           X2           X3          X4           X5

   X2        .5379

   X3        .2995         .6349

   X4        .1480        -.1212        -.2706

   X5        .6248         .5820         .2653         .2939

   X6        .0972         .5693         .8634        -.3226         .2481

 

Agglomeration Schedule using Average Linkage (Between Groups)

            Clusters  Combined               Stage Cluster  1st Appears    Next

  Stage      Cluster 1  Cluster 2   Coefficient     Cluster 1     Cluster 2     Stage

   1            3          6      .863431         0           0         3

   2            1          5      .624839         0           0         4

   3            2          3      .602099         0           1         4

   4            1          2      .338335         2           3         5

   5            1          4     -.054485         4           0         0

 

 

       按类间平均链锁法,变量合并过程的冰柱图如下。先是X3X6合并,接着X1X5合并,然后X3X6X2合并,接着再与X1X5合并,最后加上X4,六个变量全部合并。

 

Vertical Icicle Plot using Average Linkage (Between Groups)

 

 (Down) Number of Clusters  (Across) Case Label and number

 

 

       下面用更为直观的聚类树状关系图表示,即X1X2X3X5X6先聚合后与X4再聚合。这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择一个,再加上微量元素锰即可,其效果与六个指标都用是基本等价的,但更经济更迅速。

 

Dendrogram using Average Linkage (Between Groups)

 

                            Rescaled Distance Cluster Combine

 

 

       微量元素钙、镁、铁、铜和血红蛋白聚合成一类,在这5个指标中如何选择一个典型指标呢?先按下式计算类中每一变量与其余变量的相关指数(即相关系数的平方)的均值,而后把该值最大的变量作为典型指标。

        = (式中m为类中变量个数)

       本例相关指数的均值依次为:

       = = 0.1947

        =   = 0.3388

        =  = 0.3272

      =   = 0.2164

        =  = 0.2851

       故选择镁(变量X2)典型指标。

 

 

第三节 Discriminant过程

 

10.3.1 主要功能

    调用此过程可完成判别分析。判别分析目前在医学中得以广泛应用,不仅在于它所建立的判别式可用于临床辅助诊断,而且判别分析可分析出各种因素对特定结果的作用力大小,故亦可用于病因学或疾病预后的推测。

10.3.2 实例操作

   [例10.3]为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。

 

编号

冠心病人组

编号

正常人组

舒张压kPa

x1

胆固醇mmol/L

x2

舒张压kPa

x1

胆固醇mmol/L

x2

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

9.86

13.33

14.66

9.33

12.80

10.66

10.66

13.33

13.33

13.33

12.00

14.66

13.33

12.80

13.33

5.18

3.73

3.89

7.10

5.49

4.09

4.45

3.63

5.96

5.70

6.19

4.01

4.01

3.63

5.96

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

10.66

12.53

13.33

9.33

10.66

10.66

9.33

10.66

10.66

10.66

10.40

9.33

10.66

10.66

11.20

9.33

2.07

4.45

3.06

3.94

4.45

4.92

3.68

2.77

3.21

5.02

3.94

4.92

2.69

2.43

3.42

3.63

 

10.3.2.1  数据准备

    激活数据管理窗口,舒张压、胆固醇的变量名分别以x1x2表示,将冠心病人资料和正常人资料合并,一同输入。而后,再定义一变量名为result,用于区分冠心病人资料和正常人资料,即冠心病人资料的result值均为1,正常人资料的result值均为2。

 

10.3.2.2  统计分析

    激活Statistics菜单选Classify中的Discriminant...项,弹出Discriminant Analysis对话框(图10.5)。从对话框左侧的变量列表中选result,点击Ø钮使之进入Grouping Variable框,并点击Define Range...钮,在弹出的Discriminant Analysis:Define Range对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum处输入1、在Maximum处输入2,点击Continue钮返回Discriminant Analysis对话框。再从对话框左侧的变量列表中选x1x2,点击Ø钮使之进入Independents框,作为判别分析的基础数据变量。

 

10.5  判别分析对话框

 

       系统提供两类判别方式供选择,一是Enter Independent together,即判别的原始变量全部进入判别方程;另一是Use stepwise method,即采用逐步的方法选择变量进入方程。对于后者,系统有5种逐步选择方式:

       Wilks' lambda:按统计量Wilks λ最小值选择变量;

       Unexplained variance:按所有组方差之和的最小值选择变量;

       Mahalanobis' distance:按相邻两组的最大Mahalanobis距离选择变量;

       Smallest F ratio:按组间最小F值比的最大值选择变量;

       Rao's V:按统计量Rao V最大值选择变量。

       本例由于变量数仅为2个,倾向让两个变量均进入方程,故选用Enter Independent together判别方式。

       点击Statistics...钮,弹出Discriminant Analysis: Statistics对话框,在Descriptive栏中选Means项,要求对各组的各变量作均数与标准差的描述;在Function Coefficients栏中选Unstandardized项,要求显示判别方程的非标准化系数。之后,点击Continue钮返回Discriminant Analysis对话框。

       点击Classify...钮,弹出Discriminant Analysis: Classification对话框,在Plot栏选Combined groups项,要求作合并的判别结果分布图;在Display栏选Results for each case项,要求对原始资料根据建立的判别方程作逐一回代重判别,同时选Summary table项,要求对这种回代判别结果进行总结评价。之后,点击Continue钮返回Discriminant Analysis对话框。

       点击Save...钮,弹出Discriminant Analysis: Save New Variables对话框,选Predicted group membership项要求将回代判别的结果存入原始数据库中。点击Continue钮返回Discriminant Analysis对话框,之后再点击OK钮即完成分析。

 

10.3.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       首先,系统提示将判别回代的结果以变量名DIS_1存于原始数据库中。

       接着系统显示数据按变量RESULT分组,共31个样本作为判别基础数据进入分析,其中第一组15例,第二组16例。同时,分组给出各变量的均数(means)与标准差(standard deviations)。

 

Following variables will be created upon successful completion of the procedure:

  Name          Label

  --------     ----------------------------------------

  DIS_1    --- Predicted group for analysis 1

 

On groups defined by RESULT

            31 (Unweighted) cases were processed.

             0 of these were excluded from the analysis.

            31 (Unweighted) cases will be used in the analysis.

 

Number of cases by group

                Number of cases

    RESULT    Unweighted    Weighted    Label

         1          15         15.0

         2          16         16.0

     Total           31         31.0

Group means

    RESULT             X1             X2

       1              12.49400        4.86800

       2              10.62875        3.66250

     Total             11.53129        4.24581

 

Group standard deviations

    RESULT             X1             X2

       1               1.64064        1.12948

       2               1.09681         .92467

     Total              1.65996        1.18231

 

On groups defined by RESULT

Analysis number       1

Direct method:  all variables passing the tolerance test are entered.

     Minimum tolerance level..................  .00100

 

Canonical Discriminant Functions

     Maximum number of functions..............       1

     Minimum cumulative percent of variance...  100.00

     Maximum significance of Wilks' Lambda....  1.0000

 

Prior probability for each group is  .50000

 

 

       下面为典型判别方程的方差分析结果,其特征值(Eigenvalue)即组间平方和与组内平方和之比为1.2392,典型相关系数(Canonical Corr)为0.7439Wilks λ值为0.446597,经χ2检验,χ222.571P<0.0001

       用户可通过判别方程的标准化系数,确定各变量对结果的作用大小。如本例舒张压(X1)的标准化系数(0.88431)大于胆固醇(X2)的标准化系数(0.82306),因而舒张压对冠心病的影响作用大于胆固醇。考察变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示X1的变量与函数间的相关系数为0.62454X20.54396,同样表明舒张压对冠心病的影响作用大于胆固醇。

       根据系统显示的非标准化判别方程系数,得到判别方程为:

       D = 0.6379195X1 + 0.8001452X2 - 10.7532968

       依此方程,病人组的中心得分点为1.11198,正常人组的中心得分点为-1.04248。本例为二类判别,二类判别以0为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分>0的为冠心病人,判别分<0的为正常人。

 

Canonical Discriminant Functions

 

                 Pct of   Cum  Canonical    After   Wilks'

 Fcn  Eigenvalue  Variance   Pct    Corr      Fcn    Lambda  Chi-square  df   Sig

                                         :    0    .446597    22.571    2  .0000

  1*    1.2392    100.00   100.00  .7439   :

 

   * Marks the 1 canonical discriminant functions remaining in the analysis.

 

Standardized canonical discriminant function coefficients

             Func  1

X1            .88431

X2            .82306

 

Structure matrix:

Pooled within-groups correlations between discriminating variables

                                  and canonical discriminant functions

(Variables ordered by size of correlation within function)

             Func  1

X1            .62454

X2            .54396

 

Unstandardized canonical discriminant function coefficients

                  Func  1

X1               .6379195

X2               .8001452

(Constant)      -10.7532968

 

Canonical discriminant functions evaluated at group means (group centroids)

     Group       Func 1

       1        1.11198

       2       -1.04248

 

 

       下面为原始数据逐一回代的判别结果显示。其中病人组有3人被错判(编号为167,打**者),正常人组有3人被错判(编号为171825,打**者)。接着用分布图的形式显示判别结果,图中1代表病人,2代表正常人,每四个12代表一个人;图中可见,有三个病人跨过0界进入负值区,被错判为正常人,也有三个正常人跨过0界进入正值区,被错判为病人。最后系统对回代判别的情况作评价,即病人组判别正确率为80.0%,正常人组为81.3%,总判别正确率为80.65%

 

Case    Mis        Actual        Highest Probability      2nd Highest      Discrim

Number  Val  Sel    Group       Group P(D/G) P(G/D)    Group P(G/D)      Scores

     1                  1 **        2  .4692  .6817        1  .3183      -.3187

     2                  1           1  .7060  .8188        2  .1812       .7347

     3                  1           1  .5490  .9737        2  .0263      1.7112

     4                  1           1  .8162  .8606        2  .1394       .8795

     5                  1           1  .4884  .9784        2  .0216      1.8049

     6                  1 **        2  .7174  .8236        1  .1764      -.6805

     7                  1 **        2  .5157  .7151        1  .2849      -.3924

     8                  1           1  .6475  .7918        2  .2082       .6547

     9                  1           1  .1594  .9953        2  .0047      2.5190

    10                  1           1  .2305  .9926        2  .0074      2.3110

    11                  1           1  .4577  .9806        2  .0194      1.8546

    12                  1           1  .4869  .9785        2  .0215      1.8072

    13                  1           1  .8782  .8798        2  .1202       .9588

    14                  1           1  .4264  .6473        2  .3527       .3166

    15                  1           1  .1594  .9953        2  .0047      2.5190

    16                  2           2  .2097  .9935        1  .0065     -2.2968

    17                  2 **        1  .7554  .8389        2  .1611       .8005

    18                  2 **        1  .3611  .5874        2  .4126       .1986

    19                  2           2  .5442  .9741        1  .0259     -1.6489

    20                  2           2  .5157  .7151        1  .2849      -.3924

    21                  2           2  .3048  .5275        1  .4725      -.0164

    22                  2           2  .4154  .9833        1  .0167     -1.8570

    23                  2           2  .4876  .9785        1  .0215     -1.7367

    24                  2           2  .7323  .9551        1  .0449     -1.3846

    25                  2 **        1  .2945  .5156        2  .4844       .0637

    26                  2           2  .9393  .8963        1  .1037      -.9664

    27                  2           2  .8590  .8741        1  .1259      -.8648

    28                  2           2  .4483  .9812        1  .0188     -1.8007

    29                  2           2  .3339  .9879        1  .0121     -2.0087

    30                  2           2  .8647  .8759        1  .1241      -.8721

    31                  2           2  .3928  .9847        1  .0153     -1.8970

 

Symbols used in plots

Symbol  Group    Label

 ------    -----    --------------------

  1        1

  2        2

 

                          All-groups Stacked Histogram

Classification results -

                      No. of    Predicted Group Membership

   Actual Group        Cases          1          2

--------------------         ------        --------     --------

Group       1             15         12          3

                                   80.0%      20.0%

Group       2             16          3         13

                                   18.8%      81.3%

Percent of "grouped" cases correctly classified:  80.65%

 

Classification processing summary

        31 (Unweighted) cases were processed.

         0 cases were excluded for missing or out-of-range group codes.

         0 cases had at least one missing discriminating variable.

        31 (Unweighted) cases were used for printed output.

        31 cases were written into the working file.

 

 

       系统将判别回代的结果以dis_1为变量名存入原始数据库中,如下图所示。用户可通过翻动原始数据库详细查阅。

 

 

10.6  原始数据及判别结果