- 2022-08-13 发布 |
- 37.5 KB |
- 91页



申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学课件
基本思想聚类分析的基本思想:对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标,具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小,把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来,形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图),用它把所有样品(或指标)间的亲疏关系表示出来。\n聚类分析和判别分析的区别应该指出,聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型,这些类型不是事先给定的。而判别分析则事先已知类型的划分.通常每一类都有一个训练样本,据此得出判别函数或判别准则,从而对新样品的归属作出判别。与多元分析的其它方法相比,聚类分析的方法很粗糙,理论也尚不完善。但由于它的应用取得很大成功,和回归分析和判别分析一起被称为多元分析的三大实用方法。本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后,简要介绍一种模糊聚类法。\n§4.1分类统计量聚类分析不仅可以对样品进行分类,也可以对指标(变量)进行分类。设有个样品,每个样品有个指标。对观察值,可根据间的某种相似性,对个样品进行分类。例如某班有个学生,可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面,也可对指标进行分类。即根据某种相似性,把这个指标进行分类。例如在服装设计中,往往要测量很多的指标(变量),如身高,上体长,臂长,肩宽,胸围等。对这些指标,大致可分为两大类。一类反映人的高矮,另一类反映人的胖瘦。\n分类统计量对样品进行分类的方法称为Q型聚类法。由于每个样品可看成是p维空间的一个点,n个样品就组成p维空间中的n个点。这时,自然可以用距离来度量样品之间的相似性。而对指标(变量)进行分类的方法,称为R型聚类法。指标(变量)间的某种相似性,常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。\n4.1.1样品间的“相似性”度量—距离设每个样品有p个指标,观察值记为(4.1.1)每个样品可看成是p维空间的一个点。于是,可用各点之间的距离来衡量各样品点之间的接近程度。样品和之间的距离,一般应满足如下的三个条件:(ⅰ),且时当且仅当;(ⅱ);(ⅲ);有时所用的距离不满足(ⅲ),但在广义的角度上仍称为距离。常用的距离有如下几种:\n1.明考斯基(Minkowski)距离(明氏距离)(4.1.2)明氏距离有如下三种特殊形式。\n2.绝对距离(m=1)(4.1.3)\n3.欧氏距离(m=2)(4.1.4)\n4.切比雪夫(Chebychev)距离(m=∞)(4.1.5)\n数据的标准化方法当各指标的观察值相差很大时,则不应直接采用明氏距离。这时应对每个指标的数据进行标准化,然后对标准化数据计算距离。令(4.1.6)(4.1.8)(4.1.7)分别表示第个指标的样本均值、样本方差和样本极差。\n标准化方法或极差标准化(4.1.9)(4.1.10)当考虑这些指标(变量)之间的相关性时,可采用方差加权距离或马氏距离。数据的标准化方法有标准差标准化\n5.方差加权距离(4.1.11)其中为第个指标的方差。\n6.马氏(Mahalanobis)距离其中为维向量的协方差矩阵。当和未知时,可用作为的估计,而用作为的估计,记,则(4.1.12)其中\n例4.1.1欧洲各国的语言有许多相似之处,有的十分相近。为了研究这些语言之间的历史关系,对数字1,2,…,10的单词作比较,表4.1.1列出了英语(E),挪威语(N),丹麦语(Da),荷兰语(Du),德语(G),法语(Fr),西班牙语(S),意大利语(I),波兰语(P),匈牙利语(H)和芬兰语(Fi)11种语言的单词1,2,…,10的拼写方法,希望计算这11种语言之间的距离。\n表4.1.111种欧洲语言的数词\n选择适用的距离在聚类分析中通常要结合实际问题来选择适用的距离,有时应根据实际问题定义新的距离,下面的例子说明了这一点。显然,本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似,特别是每个单词的第一个字母。于是可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如英语和挪威语中只有1和8的第一个字母不同,则它们之间的距离为2。这11种语言两两之间的距离列于表4.1.2。\n表4.1.211种欧洲语言之间的距离\n4.1.2变量间的“关联性”度量—相似系数越接近1,说明指标(变量)与的关系越密切。用表示的个观察值()。常用的相似系数有以下几种:聚类分析方法不仅可以样品进行分类,同时也可对指标(变量)进行分类。在对指标(变量)进行分类时,用相似系数来度量指标(变量)之间的相似程度。第个指标(变量)与第个指标(变量)之间的相似系数用来表示,一般应满足如下的三个条件:(ⅰ).(ⅱ).(ⅲ).\n1.夹角余弦(4.1.13)这是n维空间中指标(变量)的观察向量与的观察向量之间的夹角余弦。\n2.相关系数指标(变量)与的相关系数为(4.1.14)可以表示与线性相关的程度,这是把数据标准化后的夹角余弦。当指标(变量)为定性(例如性别,职业,等级)时,也可以定义样品间的“距离”和指标(变量)之间的“相似系数”。\n§4.2谱系聚类法谱系聚类法是广泛采用的一种聚类方法,许多统计软件(例如SAS,SPSS)中都有专门的程序。谱系聚类法的基本思想是逐步把距离最近的类合并在一起。具体做法是1先把每个样品(指标)作为一类,即有类n。2选择距离最近的两类合并成一个新类,每次合并至少要减少一类。3如此重复,直至所有样品(指标)都并成一类为止。谱系聚类法的合并过程中要涉及两个类之间的距离,而类与类之间的距离有许多种不同定义,而不同的定义则产生不同的谱系聚类法。本节首先引进三种类与类之间的距离,然后详细介绍谱系聚类法。\n4.2.1类与类之间的距离先讨论样品聚类的方法。用i,j表示样品。用表示与之间的距离,用与表示两个类,所包含的样品数分别为与。与之间的距离用表示。下面给出三种最常用的类与类之间距离的定义。\n1.最短距离(4.2.1)即定义与之间的距离为与中最近的两个样品的距离。类与类之间的最短距离有如下的递推公式。设由与合并而成,则与其它类的最短距离为(4.2.2)\n2.最长距离(4.2.3)即定义与之间的距离为与中最远的两个样品的距离。类与类之间的最长距离有如下的递推公式。设由与合并而成,则到的最长距离为(4.2.4)\n3.类平均距离(4.2.5)即定义与之间的距离为与中所有两两样品之间距离的平均数。类平均距离的递推公式如下,设由与合并而成,则到的类平均距离为\n类平均距离(4.2.6)其中为中的样品数,为中的样品数,。上述类与类之间的距离,不但适用对样品的聚类,同时也适用对指标(变量)的聚类。这时可以用指标之间的相似系数代替。为了方便,两类之间的相似系数也统称为两类间的距离。\n4.2.2谱系聚类法根据样品之间的距离(或指标间的相似系数),以及类与类之间的距离,就可进行谱系聚类,基本步骤归纳如下:1.n个样品各成一类,计算两两之间的距离(或相似系数),得距离矩阵(或相似系数矩)。n阶矩阵D对称,矩阵D的对角线上的元素全为零(相似系数矩阵的对角线元素全为1)。这时,记。2.选择中的最小元素(相似系数矩阵则选最大元素),设为,则将与合并成一个新类。在中划去与所在的行与列,再加入新类所对应的行与列,得到一个新的距离矩阵。是一个n-1阶对称矩阵。如果最小元素不止一个,可同时合并。每合并两类,距离矩\n谱系聚类法阵降低一阶。3.对重复步骤2得对称矩阵,依次类推,直到所有样品(指标)合并成一类为止。4.在合并时记下两类合并时的样品(或变量)的编号,以及合并两类时的距离(或相似系数)的大小(称为水平),并绘成聚类的谱系图。然后根据实际情况或要求,选定相应的临界水平,从而确定分类的个数。对给定的,采用不同的类与类之间距离定义,通常就会得到不同的聚类结果。对于上述三种类与类距离的谱系聚类法,分别称为最短距离法,最长距离法和类平均法。下面通过具体例子说明这三种谱系聚类方法。\n例4.2.1为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费的分布规律,需要用调查资料对5个省分类,指标(变量)及数据如表4.2.1。表4.2.11991年5省城镇居民月均消费数据(单位:元/人)\n例其中:人均粮食支出,:人均衣着商品支出:人均副食支出,:人均食用品支出:人均烟、酒、茶支出,:人均燃料支出:人均其它副食支出,:人均非商品支出把每个省看作一个样品,以1,2,3,4,5分别表示辽宁、浙江、河南、甘肃、青海5个省.计算两两之间的欧氏距离,例如\n例于是得距离矩阵如下:各元素数值的大小反映了城镇居民两两之间的消费水平的相似性。由于甘肃省与河南省之间的欧氏距离最小(为2.20),表明这两个省份城镇居民的消费水平最接近。\n1.最短距离法对例4.2.1,采用最短距离法的聚类过程如下:(ⅰ)把每个省看作一个样品,即.这时,中的最小元素为.因而在水平2.20上合并和成.利用递推公式(4.2.2),计算与之间的最短距离\n最短距离法划去中所在的行与列,加入新类与其余各类的距离作为新行与新列,得如下\n最短距离法(ⅱ)中的最短距离为,于是在水平2.21上把和合并成新类。计算与的最短距离为划去中和所在的行与列,并加上的相应行与列得\n最短距离法(ⅲ)中的最短距离为,因而在水平11.67上合并和成新类。得于是(ⅳ)最后,在水平12.80上合并和,这时所有的5个省聚为一类。\n谱系图本例首先在水平2.20上合并样品3和样品4成新类。接着又在2.21水平上合并和成新类。然后在水平11.67上合并和成新类。最后在水平12.80上合并和成一个大类。把上述聚合过程及合并时的水平用图表示出来,称为谱系图(或聚类图)。(见图4.2.1)\n阈值在聚类分析中,最后应分成几类,即类的个数问题,至今尚未有令人满意的方法。一种常用方法是根据谱系图选择一个合适的阈值T,当类间距离大于T时就不再并类。例如对图4.2.1,取T=12时,相当于在距离12处切一刀,则5个样品分成两类,即辽宁和浙江为一类,河南、甘肃和青海为一类。而取T=2.5时可分为三类,即河南、甘肃和青海为一类,辽宁与浙江各自为一类。\n2.最长距离法对例4.2.1,采用最长距离法的聚类过程如下:(ⅰ)首先在水平2.20上合并和成新类。\n最长距离法(ⅱ)计算与之间的最长距离得如下\n最长距离法(ⅲ)根据,最小。于是在3.51水平上把和合并成新类。根据递推公式(4.2.4),与的最长距离为于是得\n最长距离法(ⅳ)根据,在11.67水平上合并,把和合并成新类。按递推公式(4.2.4)得从而(ⅴ)最后,在水平24.63上合并和,即所有的样品聚为一类。同样可画出最长距离法的谱系图(图4.22)。对于例4.2.1,最长距离法与最短距离法的分类结果相同,但最长距离法各类合并时的水平与最短距离法有所变化。\n3.类平均法采用类平均法对例4.2.1作聚类分析。(ⅰ)在水平2.20上合并和成新类。\n类平均法(ⅱ)计算与之间的类平均距离。根据(4.2.6)式\n类平均法得\n类平均法(ⅲ)根据,最小。应在2.86水平上合并和为新类。并利用递推公式(4.2.6)得从而得\n类平均法(ⅳ)由,在11.67水平上合并和为新类。再由(4.2.6)式得于是(ⅴ)最后在水平18.66上合并和成一类。类平均法的谱系图见图4.2.3。\n不同聚类方法的聚类结果一般是不同的对于例4.2.1,三种谱系聚类法的聚类结果相同。一般来说,不同聚类方法的聚类结果是不同的,甚至会有较大的差异。\nSPSS判别分析的主要步骤(1)输入数据\n(2)依次单击Analyze→Classify→Hierarchicalcluster\n(3)聚类分析主对话框\n(4)在HierarchicalClusterAnalysis对话框中输入分析变量和标识变量①把移到Variable框中作为分折变量。②而把省份名称移到LabelCasesby框中作为标识变量。③Cluster选项:选择Cases项(SPSS默认项),即选择对样品进行聚类。而选择Variables则是对变量(指标)进行聚类。④Display选项:选择Statistics和Plots项(SPSS默认项)。\n(5)Statistics选项单击〖Statistics〗,打开Statistics对话框,选择输出的结果。①Agglomerationschedule选项:选择该项可以列出系统聚类过程中每一步被合并的这两个类、被合并类的类间距离以及最终的聚类结果。②ProximityMatrix选项:选择该项可以给出类与类之间的距离矩阵。\nStatistics对话框\n(6)Plots选项系统聚类过程可产生两种图形:Dendrogram(树形图)和Icicle(冰柱图)。①Dendrogram选项:选择该项给出系统聚类过程中每一步被合并的这两个类以及类间距离。②Icicle选项:•Allcluster:给出聚类过程中每一步的信息。•Specifiedrangeofcluster:只给出选定聚类数范围内的信息。•None:不输出冰柱图。③Orientation选项:•Vertical:显示纵向冰柱图。•Horizontal:显示横向冰柱图。\nPlots对话框\n(7)Measure选项在Method对话框中,分别给出了距离(连续)变量、离散变量和二值变量的样品间距离选项。其中距离(连续)变量的样品间距离,选择Interval选项.主要有①EuclideanDistance选项:欧氏距离②SquaredEuclideanDistance选项:平方欧氏距离③Minkowsk选项:明氏距离④Block选项:绝对距离⑤Chebychev选项:切比雪夫距离⑥Cosine选项:夹角余弦\n(8)ClusterMethod选项在Method对话框中,给出了类间距离选项,主要有①Nearestneighbor:最短距离②Furthestneighbor:最长距离③Between-groupslinkage:类平均距离\nMethod对话框\n(9)欧氏距离矩阵\n(10)聚类的凝聚过程表\n(11)冰柱图\n(12)树形图\n例4.2.2(续例4.1.1)根据例4.1.1给出的11种欧洲语言的距离矩阵,分别采用最短距离法,最长距离法和类平均法进行聚类。根据距离矩阵,挪威语(N)和丹麦语(Da),以及法语(Fr)与意大利语(I)和西班牙语(S)与意大利(I)之间的距离(均为1)最小,即对于各种聚类方法,都首先在水平1上合并(即挪威语和丹麦语)为一个新类。但由于法语与西班牙语之间的距离为2,即因此不能把(即法语,西班牙语和意大利语)合并为一类,而只能合并与,或与为一个新类。这里选择合并与为一个新类,然后再按不同的聚类方法作聚类分析,得聚类谱系图(见图4.2.4,图4.2.5和图4.2.6)。\n最短距离法采用最短距离法的聚类过程为:(ⅰ)首先在水平1上合并挪威语(N)和丹麦语(Da)为新类,以及合并法语(Fr)与意大利语(I)为新类。(ⅱ)然后在水平2上把英语(E)并入挪威语—丹麦语的类中,西班牙语(S)并入法语—意大利语的类中。(ⅲ)而在水平5上合并荷兰语(Du)与德语(G)为新类,同时把波兰语(P)并入法语—意大利语—西班牙语的类中。(ⅳ)在水平7上,合并英语—挪威语—丹麦语和法语—意大利语—西班牙语—波兰语。(ⅴ)在水平8上,合并匈牙利语和芬兰语。(ⅵ)最后,合成一类。\n最长距离法采用最长距离法的聚类过程为:(ⅰ)与最短距离法相同,在水平1上合并挪威语(N)和丹麦语(Da),以及法语(Fr)与意大利语(I)为新类。然后在水平2上把英语(E)并入挪威语—丹麦语的类中,把西班牙语(S)并入法语—意大利语的类中。并仍在水平5上把波兰语(P)并入法语—意大利语—西班牙语的类中。(ⅱ)与最短距离法不同的是在水平6上把德语(G)并入英语—挪威语—丹麦语的类中,在水平7上把荷兰语(Du)与英语—挪威语—丹麦语—德语类和法语—意大利语—西班牙语—波兰语合并成一类。并在最后由两类合并成一个大类,而最短距离法由三类合并成一大类。采用类平均法的聚类结果与最长距离法较为相近。\n二点说明由于不同聚类法所采用的类与类之间距离的定义不同,一般会得到不同的聚类结果。(1)对于一个具体问题,可采用几种不同的距离(或相似系数)及聚类方法进行聚类。如果各种方法的聚类方法结果大致相同,则认为聚类结果是可信的。(2)当样品只有二个或三个指标时,可通过观察数据的散点图来选择聚类方法。根据经验,最短距离法适用条形,甚至是S形的类,而其他方法适用椭球形的类。\n例4.2.3(续例2.1.4)利用1975年1月至1976年12月纽约证卷交易所的5种股票(AlliedChemical,duPont,UnionCarbide,Exxon和Texaco)的周反弹率的连续100周观察数据,已求得样本相关矩阵。试对这5种股票作聚类分析。为了方便,用1,2,3,4和5代表这5种股票的周反弹率(即5个变量),5个变量的样本相关矩阵为\n1.最短距离法:(ⅰ)根据,由于最大,从而在相似水平0.60把和合并成新类。按递推公式(4.2.2),得与其它类之间的相似系数为求得如下\n最短距离法(ⅱ)中的最大相似系数为,于是在相似水平0.52上把和合并成新类,并计算与其它类之间的相似系数为可得如下\n(ⅲ)最短距离法(ⅲ)由于中的和的相似系数0.51为最大,从而在0.51水平上合并和成新类。并计算和的相似系数为于是得为(ⅴ)最后,在相似水平0.32上,把所有5种股票合并成一类。最短距离法的谱系图如图4.2.7。\n2.最长距离法(ⅰ)首先在相似系数0.60水平上合并和成新类。(ⅱ)然后在0.58水平上合并和成新类。(ⅲ)再在0.52水平上合并和成新类。(ⅳ)最后在0.46水平上合并成一个大类。最长距离法的谱系图如图4.2.8。.\n3.类平均法(ⅰ)在0.60水平上合并和成新类。(ⅱ)然后在0.55水平上合并和成新类。(ⅲ)接着在0.52水平上合并和成新类。(ⅳ)最后在0.39水平上合并成一个大类。类平均法的谱系图见图4.2.9。三种方法的聚类结果基本一致,根据图4.2.7,4.2.8和4.2.9,取阈值T=0.5时,5种股票分成两类。为一类,为另一类。实际上,1,2,3为化工股票,而4,5为石油股票。\n§4.3模糊聚类法在日常生活中有许多概念不是很严格的,而是模糊的。例如“年老”就是一个模糊概念,不大好用一个具体数字来划分年老的界限。又例如说一个人很“漂亮”,这也是一个模糊概念,不仅很难给出一个严格的数量界限,而且看法也会因人而异。为了处理现实生活和科学研究中的这些模糊概念,就产生了模糊集理论(1965年由L.A.Zadeh首先提出)。把模糊集理论应用于聚类分析,就产生了模糊聚类法。本节介绍一种基本的模糊聚类法。\n4.3.1模糊聚类的基本概念1.特征函数对于一个集合,空间中的任一元素,要么,要么,两者必居其一且仅居其一。这一特点可以用一个函数来表示称为集合的特征函数。例如,集合为某地区在某年度完成国家利税的企业全体。这时,对该地区任一企业,可以用特征函数描述它是否完成国家利税,即(4.3.1)\n2.隶属函数与模糊集如需要进一步知道某企业完成国家利税的程度大小时,仅用特征函数就不够了。模糊集理论把特征函数的概念推广到闭区间,即用0~1之间的一个数来度量这种程度的大小,这个数称为隶属度。当用函数表示隶属度的变化规律时,称为隶属函数,记为。即对于每一个元素,有内的一个数与之对应。即若在E上定义了一个隶属函数,则称E称为模糊集。例如某企业完成国家利税的90%,则可以说这个企业完成国家利税的隶属度是0.9。\n3.模糊矩阵及其褶积当矩阵的元素取值满足,则称为模糊矩阵。设为两个模糊矩阵,,其元素为则称矩阵C为模糊矩阵A与B的褶积。记为其中显然,两个模糊矩阵的褶积仍为模糊矩阵。(4.3.2)(4.3.3)(4.3.4)\n例:设A和B为两个模糊矩阵则的元素为于是\n4.模糊等价矩阵及其λ-截矩阵设方阵A为一模糊矩阵,若满足(4.3.5)则称A为模糊等价矩阵。例如,矩阵为由于所以A是一个模糊等价矩阵。\nλ-截矩阵设为一个模糊等价矩阵,为一个给定的数。令则称矩阵为的截矩阵。(4.3.6)\n例例如是一个模糊等价矩阵,取,则而取,则\n4.3.2模糊聚类方法与一般的聚类方法相似,模糊聚类法首先计算样品间的距离矩阵或变量间的相似矩阵,然后对元素作变换,使各元素取值在内,成为模糊矩阵,并进一步改造为模糊等价矩阵。最后,对不同的,可得相应的-截矩阵,从而得相应的分类。具体步骤如下:1.计算样品间的距离矩阵D或变量间的相似系数矩阵R。\n2.变换为模糊矩阵把(或)中的元素作变换,统一记为。例如对相似系数矩阵,令而对于距离矩阵,则令于是对一切即使A成为模糊矩阵。\n3.建立模糊等价矩阵对模糊矩阵进行褶积运算:使。则是一个模糊等价矩阵。为了减少计算,褶积运算也可采用使,那么就是一个模糊等价矩阵。并记\n4.聚类把按由大到小的顺序排列,依次取,求相应的-截矩阵。当-截矩阵的元素为1时表示相应的两个样品(或变量)并为一类。随着的变小,逐步进行并类。最后当时,把所有的样品(或变量)聚为一类。5.按值画出聚类的谱系图。\n例4.3.1(续例4.2.3)在例4.2.3中,已知5种股票(分别用1,2,3,4,5表示)的样本相关系数矩阵为相关系数矩阵已是模糊矩阵,从而只需对模糊矩阵进行褶积运算求模糊等价矩阵。由于\n例由于,即是模糊等价矩阵。其元素由大到小排列为\n(ⅰ)得的-截矩阵为即5种股票各自成一类。取\n(ⅱ)得-截矩阵为于是在水平上,把合并为一类,即5种股票分为四类:,和。取\n(ⅲ)相应的-截矩阵为从而在水平上,5种股票分为三类:,和。取\n(ⅳ)相应的-截矩阵为因此在水平上,5种股票分为两类:和。取\n(ⅴ)则-截矩阵为所以这时把5种股票合并为一类。模糊聚类的谱系图如图4.3.1,与谱系聚类法结果相同。最后取查看更多