中华统计学习网

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

中华统计学习网

中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com现代统计学与SAS应用:协方差分析第1节协方差分析的概述1.什么是协方差分析在介绍医学试验设计时曾谈到,严格按试验设计的4项基本原则设计试验,目的就是为了排除非处理因素的干扰和影响,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但在某些实际问题中,有些因素在目前还不能控制或难以控制,如在动物饲养试验中,各组动物所增加的平均体重不仅仅与各种饲料营养价值高低有关,还与各动物的进食量有关,甚至与各动物的初始重量等因素及其交互作用都有关系。如果直接进行方差分析,会因为混杂因素的影响而无法得出正确结论。协方差分析(AnalysisofCovariance)是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量(Covariate),建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均数之间是否有显著性的差别,这就是协方差分析仅问题的基本思想。只有1个定量的自变量时称为一元协方差分析、含有2个及2个以上定量的自变量时称为多元协方差分析。2.协方差分析的模型下面我们结合用SAS中GLM过程进行协方差分析时MODEL语句的书写方式,从实用的角度介绍处理几种常见试验设计类型资料的协方差分析的模型。设定性的影响因素为A、B、C等,它们之间的交互作用为A*B、A*C等;定量的影响因素为X或X1、X2、…;定量的观测结果(即因变量)为Y,则有∶(1)单因素k水平设计的协方差分析模型为∶MODELY=XA/SS3;(2)配伍组设计的协方差分析模型为∶MODELY=XAB/SS3;(3)两因素析因设计的协方差分析模型为∶MODELY=XABA*B/SS3;[说明]若定量的影响因素在2个或2个以上,则可用X1X2X3等取代上述诸模型中的变量X。另外,还需写上相应的LSMEANS语句,参见下节的SAS程序。3.协方差分析的应用条件理论上要求各组资料都来自方差相同的正态总体;各组的总体直线回归系数相等,且都不为0。因此,严格地说,在对资料作协方差分析之前,应先对这两个前提条件作假设检验,若资料符合上述两个条件,或经变量变换后符合上述条件,方可进行协方差分析。第2节一元协方差分析应用举例1.完全随机设计资料的一元协方差分析[例4.3.1]考察牡蛎在不同温度的水中不同位置上生长情况,有人作了如下试验∶分别在通向发电站的凉水河道的5富同位置上各放4袋牡蛎,每袋10个。用trt代表位置因素,它的5个水平是∶trt=1∶入口处的底部;trt=2∶入口处的表层;trt=3∶出口处的底部;trt=4∶出口处的表层;trt=5∶电站附近的深水处。将牡蛎洗干净称出初始体重x,放在不同位置一个月后称出最后的体重y。资料见SAS程序,试分析定性因素trt和定量因素x对因变量y的影响大小。中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com[分析与解答]因入口处水的温度低,出口处水的温度高,可以推测∶定性变量trt对y可能有较大影响;然而,牡蛎的初始体重x对牡蛎的最后体重y可能也有一定的影响。故适合选用协方差分析方法分析此资料。[SAS程序]──[D4P18.PRG]DATAoyster;PROCSORT;/*过程步1;DOtrt=1TO5;BYtrt;RUN;DOrep=1TO4;INPUTxy;PROCUNIVARIATENORMAL;/*过程步2;OUTPUT;VARy;BYtrt;END;END;RUN;CARDS;27.232.6PROCANOVA;/*过程步3;32.036.6CLASStrt;33.037.7MODELy=trt;26.831.0MEANStrt;28.633.8RUN;26.831.726.530.7PROCGLM;/*过程步4;26.830.4CLASStrt;28.635.2MODELy=trtxtrt*x/SS1;22.429.1RUN;23.228.924.430.2PROCGLM;/*过程步5;29.335.0中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.comCLASStrt;21.827.0MODELy=xtrtx*trt/SS1;30.336.4RUN;24.330.520.424.6PROCGLM;/*过程步6;19.623.4CLASStrt;25.130.3MODELy=xtrt/SOLUTIONSS3;18.121.8LSMEANStrt/STDERRPDIFF;;RUN;(程序的第1部分)(程序的第2部分)[程序修改指导]数据步中的trt为处理因素(即定性变量),它有5个水平;rep为各条件下重复试验次数(均为4次);x为牡蛎的初始体重;y为牡蛎的最后体重。过程步1按trt的递增水平整理资料;过程步2对资料进行正态性检验;过程步3对定量观测指标y作单因素5水平(即trt)方差分析(即不考虑x的影响);过程步4和5都是对资料作初步协方差分析,用选择项SS1意味着结果与变量在MODEL语句中的先后顺序有关。过程步4中的顺序有助于了解定性的影响因素trt独自对因变量y的影响大小,说明它包含了过程步3的作用;过程步5中的顺序有助于了解定量的影响因素x独自对因变量y的影响大小;在这两个过程步中都含有trt与x的乘积项,其目的是检验定性的影响因素处于不同水平时,y随x变化的直线回归方程的斜率是否相等,因为各组斜率相等是进行协方差分析的重要条件之一。过程步6是在前面所有过程步运行结束,发现x*trt无显著性意义(即前述的条件满足)后才写出来的。若x*trt有显著性意义,需要对资料作变换,设法使资料满足条件后,再作协方差分析。在实际应用时,所有的过程步不应一次写出,揪例而言,首先应运行前两个过程步,看资料是否满足正态性要求,若不满足,需采取适当的变量变换法使之满足;若满足,再运行第3~5过程步,看各总体回归斜率是否相等,若不等仍需进行数据变换;若相等,则可去掉交叉乘积项,即写出最后的过程步。选择项SOLUTION要求输出回归系数的估计值及其标准误差和假设检验等结果;LSMEANS语句要求输出定性的影响因素trt各水平下y的修正均数,其后的选择项的含义是∶STDERR要求输出y的修正均数的标准误、各修正均数与0比较的假设检验结果;PDIFF要求输出y的各修正均数之间两两比较的检验结果。[输出结果及其解释]trt=1W:Normal0.912105Prob|T|H0:LSMEAN(i)=LSMEAN(j)i/j12中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com3451.0.93120.00100.00610.678020.9312.0.00030.00320.578630.00100.0003.0.18980.001840.00610.00320.1898.0.034250.67800.57860.00180.0342.NOTE:Toensureoverallprotectionlevel,onlyprobabilitiesassociatedwithpre-plannedcomparisonsshouldbeused.这是最后一个过程步输出的第4部分,即y的5个修正均数之间的两两比较的结果。设y的修正均数为,具体地说,(,,)中的任何一个与(,)中任何一个之间有显著或非常显著性差别。[专业结论]在扣除了牡蛎的初始体重x对牡蛎的最后体重y的影响之后,仍可看出定性变量trt对y有非常显著性的影响,即牡蛎的最后体重y在出口处的底部与表层(trt=3、trt=4)的修正均数之间无显著性差别,而它们与其他三个位置上的修正均数间都有显著或非常显著性的差别。结合具体问题可知,牡蛎在水温较高的水中生活,体重增加稍快一些。2.配伍组设计资料的一元协方差分析[例4.3.2]研究核黄素缺乏对蛋白质利用的影响,将36只大白鼠按某些重要的非处理因素配成12个区组,用随机的方法决定每组中的3只分别进入3富同的饲料组。饲料1为缺乏核黄素的饲料;饲料2为含核黄素的饲料、但限制食量使与第1组食量相近;饲料3为含核黄素的饲料、但不限制食量。3组大白鼠之进食量X与同期内所增体重Y的资料如下,试分析3种饲料的营养价值之间有无显著性差别。配伍饲料1饲料2饲料3组号XYXYXY1256.927.0260.332.0544.7160.32271.641.7271.147.1481.296.13210.225.0214.736.7418.9114.64300.152.0300.165.0556.6134.85262.214.5269.739.0394.576.36304.448.8307.537.9426.672.87272.448.0278.951.5416.199.48248.29.5256.226.7549.9133.7中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com9242.837.0240.841.0580.5147.010342.956.5340.761.3608.3165.811356.976.0356.3102.1559.6169.812198.29.2199.28.1371.954.3[分析与解答]如果收集资料时未记录每只大白鼠的进食量,则此例就是配伍组设计的一元方差分析问题(参见本书第2篇第3章第3节);显然,处理现在的资料选用协方差分析为宜。[SAS程序]──[D4P19.PRG]DATAabc;PROCUNIVARIATENORMAL;INFILE'a:bkqs121.dat';VARy;DOa=1TO12;BYb;RUN;DOb=1TO3;PROCANOVA;INPUTxy@@;CLASSab;OUTPUT;MODELy=ab;END;END;RUN;PROCSORT;PROCGLM;BYa;RUN;CLASSab;PROCUNIVARIATENORMAL;MODELy=xabx*ax*b/SS3;VARy;RUN;BYa;PROCGLM;RUN;CLASSab;PROCSORT;MODELy=xab/SS3SOLUTION;BYb;LSMEANSb/STDERRPDIFF;RUN;RUN;(程序的第1部分)(程序的第2部分)中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com[程序修改指导]参照前例修改指导,注意∶因A、B两因素各水平组合下无重复试验数据,故不能分析A*B的作用。最后一个过程步是根据倒数第2个过程步计算结果,发现X*A与X*B都无显著性意义后才写出来的。[输出结果及其解释]A=1W:Normal0.778076Prob|T|H0:LSMEAN(i)=LSMEAN(j)i/j1231.0.08420.511320.0842.0.2112中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com30.51130.2112.这是最后一个过程步输出的第3部分,给出了研究者最关心的因素B的各水平下的有关结果∶①y的修正均数、②标准误差、修正均数与0比较的P值。最后是因素B三个水平下y的修正均数之间的两两比较结果,均无显著性意义。[专业结论]在排除了进食量x对所增体重y的影响后,发现所考察的3种饲料的营养价值之间无显著性差别。3.两因素析因设计资料的一元协方差分析[例4.3.3]在棉花产量(LINT)的研究中,考虑两个定性因素,VAR(棉花品种,分为∶37号和213号)、SPAC(种时的行距,分为30和40cm);还考察一个定量因素,即BOLL(棉籽重量)。按两因素析因设计安排试验,VAR与SPAC共有4中不同的水平组合,4种条件下重复试验的次数分别为9、16、8、16次,资料如下,试分析各因素对棉花产量LINT的影响大小。[分析与解答]依题意,此资料适合选用析因设计的协方差分析方法分析。[SAS程序]──[D4P20.PRG]DATAabc;213404.91.0213405.71.0INPUTvarspacbolllint@@;213403.00.7213404.71.5CARDS;213405.01.3213402.80.437308.42.937308.02.5213405.21.2213405.61.037307.42.737308.93.1213404.51.0213405.61.237305.62.137308.02.7213402.00.7213401.20.237307.62.537305.41.5213404.21.2213405.31.237306.92.537404.51.3213407.01.737409.13.137409.03.1;37408.02.337407.22.2PROCGLM;37407.62.537409.03.0CLASSvarspac;37402.30.637408.73.0MODELlint=bollvarspac37408.02.637407.22.5var*spac/SS3;37407.62.437406.92.2RUN;37406.92.537407.62.4PROCGLM;中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com37404.71.4213304.61.7CLASSvarspac;213306.81.7213303.51.3MODELlint=bollvarspac/213302.41.0213303.01.0SOLUTIONSS3;213302.80.5213303.60.9LSMEANSvarspac/STDERR;213306.91.9213407.42.1RUN;(程序的第1部分)(程序的第2部分)[程序修改指导]此处假定资料满足作协方差分析的前提条件,实际应用时应仿前例作检验。第1个过程步是探索性分析,目的在于弄清两定性因素var与spac的交互作用是否有显著性意义。第2个过程步是在看到第1个过程步输出结果后写尝重新运行。因var*spac无显著性意义,故最后的MODEL语句中舍去了该项。在LSMEANS语句中没加选择项PDIFF的原因是两个定性因素var和spac都是两水平的,由模型语句输出的结果中就可得知两水平之间的差别是否有显著性了。[输出结果及其解释]GeneralLinearModelsProcedureDependentVariable:LINTSumofMeanSourceDFSquaresFModel430.875464367.71886609153.320.0001Error442.215147880.05034427CorrectedTotal4833.09061224SourceFBOLL111.6467271211.64672712231.340.0001VAR中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com10.955592960.9555929618.980.0001SPAC10.465391580.465391589.240.0040VAR*SPAC10.084886200.084886201.690.2009这是第1个过程步的输出结果,显示var与spac的交互作用无显著性意义。GeneralLinearModelsProcedureDependentVariable:LINTSumofMeanSourceDFSquaresFModel330.7905781610.26352605200.810.0001Error452.300034080.05111187CorrectedTotal4833.09061224SourceFBOLL111.5628144811.56281448226.230.0001VAR1中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com1.239672861.2396728624.250.0001SPAC10.449876530.449876538.800.0048这是第2个过程步输出的第1部分,3个因素对因变量lint都有非常显著性的作用。|T|StdErrorofParameterEstimateParameter=0EstimateINTERCEPT-.2726531659B-2.630.01180.10382857BOLL0.300204072215.040.00010.01995932VAR370.4166533813B4.920.00010.084602312130.0000000000B...SPAC300.2014621753B2.970.00480.06790593400.0000000000B...这是第2个过程步输出的第2部分,得公共回归系数bc=0.3002,P=0.0001。中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.comLeastSquaresMeansVARLINT|T|LSMEANLSMEANH0:LSMEAN=0372.010421380.053234380.00012131.593768000.055227320.0001SPACLINT|T|LSMEANLSMEANH0:LSMEAN=0301.902825770.054895620.0001401.701363600.039965730.0001这是第2个过程步输出的第3部分,即两个定性因素各水平下lint的修正均数、标准误差和修正均数与0比较的假设检验的概率。[专业结论]棉籽重量(boll)、棉花的品种(var)和种的行距(spac)对棉花产量都有非常显著性的影响。种下去的棉仔重量与棉花产量有正相关关系(因bc=0.3>0)、37号品中优于213号品种(因修正均数2.01>1.59)、行距30优于40(因修正均数1.90>1.70)。第3节多元协方差分析应用举例多元协方差分析与一元协方差分析在本质上是相同的,只是定量的影响因素的个数大于等于2而已。故下面仅举一例,其他可如法炮制。[例4.3.4]下面是30名婴幼儿身高X1(cm)、体重X2(kg)及体表面积Y(cm2)的资料,请把身高、体重化为相等后,比较男、女两性别体表面积修正均数之间是否有显著性差别。(注∶详细数据见[D4P21.PRG])。编号男:X1X2Y女:X1X2Y154.03.002446.254.03.002117.3...中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com..................1594.015.006101.691.012.505291.5[分析与解答]资料中包含两个定量的影响因素X1、X2和一个定性的影响因素SEX(性别),应选用多元协方差分析方法分析此资料。本例属于完全随机设计资料的多元协方差分析问题。[SAS程序]──[D4P21.PRG]DATAW;DOI=1TO15;DOSEX=1TO2;INPUTX1X2Y@@;OUTPUT;END;END;CARDS;54.03.002446.254.03.002117.350.52.251928.453.02.252200.251.02.502094.551.52.501906.256.53.502506.751.03.001850.352.03.002121.051.03.001632.576.09.503845.977.07.503934.080.09.004380.877.010.004180.474.09.504314.277.09.504246.180.09.004078.474.09.003358.876.08.004134.573.07.503809.796.013.505830.291.012.005358.497.014.006013.691.013.005601.799.016.006410.694.015.006074.992.011.005283.392.012.005299.494.015.006101.691.012.505291.5;PROCGLM;CLASSSEX;MODELY=SEXX1X2/SOLUTIONSS3;LSMEANSSEX/STDERRPDIFF;RUN;[程序修改指导]SEX表示性别,本例中SEX=1表示男性,SEX=2表示女性。在MODEL语句中,把定量的(难以控制的)和定性的(易于控制的)影响因素一律放在等号右边,把观测指标变量(相当于因变量)放在等号左边。如果要检查协方差分析的条件是否满足,可参照前节程序实现,此处为节省篇幅,假定条件满足(注∶实际应用时,应作此检验)。[输出结果及其解释]DependentVariable:YSumofMean中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.comSourceFModel368523072.1122841024.04557.410.0001Error261065399.7640976.91Corrected2969588471.87TotalSourceDFTypeⅢFSEX1139769.3397139769.33973.410.0762X11938153.7036938153.703622.890.0001X21368954.7895368954.78959.000.0059由TypeⅢSS的计算结果表明:身高(X1)、体重(X2)对体表面积都有非常显著性的影响,而男、女两性之间无显著性差别。|T|StdErrorofParameterEstimateParameter=0EstimateINTERCEPT-1255.559200B-2.540.0172493.53332897SEX1136.828607B1.850.076274.0867550620.000000B...X154.4772174.780.000111.38538027X2130.6451083.000.005943.53877443由回归分析的结果可知:与X1、X2相对应的公共偏回归系数b1=54.477217、b2=130.645108,它们与零之间差别的检验结果分别为P=0.0001和P=0.0059。LeastSquaresMeans中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com\n中华统计学习网www.1000tj.com圣才学习网www.100xuexi.comSEX|T|Pr>|T|H0:LSMEANLSMEANH0:LSMEAN=0LSMEAN1=LSMEAN214013.4576452.326940.00010.076223876.6290352.326940.0001男、女两性体表面积的修正均数分别为4013.45764和3876.62903,两者之间无显著性差别(P=0.0762)。[专业结论]分别把身高和体重化为相等后,男、女两性体表面积修正均数之间无显著性的差别。中华统计学习网www.1000tj.com圣才学习网www.100xuexi.com
查看更多

相关文章

您可能关注的文档