- 2022-09-01 发布 |
- 37.5 KB |
- 125页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
高等生物统计学课件1
第2章回归分析与相关分析(Regressionanalysisandcorrelationanalysis)2.1回归与相关2.3协方差分析2.4多元线性回归2.2简单回归复习与提高2.5通径分析与偏相关分析2.6逻辑(logistic)回归\n2.1回归与相关在生物科学研究中,经常会遇到探讨共处于一个统一体中变量之间的关系问题,其目的就是想了解变量之间是否有因果关系或相关关系。系统中变量之间相依关系因果关系相关关系回归分析相关分析对于变量之间的因果关系,统计学的任务是查明因果关系是否存在,若存在,判定强弱,并找出揭示这种关系的模型,用于预测、控制、优化。对于相关关系(又叫相依关系),统计学的任务是找出刻画这种关系强弱的指标,并用于判定这种关系存在性及强弱。前者就是回归分析,后者就是相关分析。\n相关关系如人的血压Y与年龄X之间的关系,一般来说,年龄越大血压越高,但年龄相同的两个人的血压不一定相等。又如某农作物的亩产量Y与施肥量X之间有一定的关系,但施肥量相同,亩产量却不一定相同。这样的例子在实际中举不甚举。相关关系是两个随机变量之间的平行关系,它们要么互为因果,要么具有共同的因。相关关系概念\n相关关系度量指标\n线性相关关系检验\n例题设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系强弱。X20222426283032343638Y314376436495585615671733755835\n\n\n例题设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系是否可认为是0.99,并给出其95%置信区间。\n回归关系与回归分析回归关系在相关关系中,如果关心的是容易测定或控制变量X对变量Y的决定作用大小,将X看成一个普通变量,这时变量X与Y之间就成为回归关系。回归模型如果普通变量x与随机变量Y具有回归关系,则Y除过受变量x的作用以外,还受到控制不严格和未知因素的作用。所以,x与Y应满足关系式\n对于回归模型,显然有回归方程反映了因变量随自变量的变化而变化的平均变化情况。\n回归模型分类回归分析研究一个随机变量与一个或几个可控变量之间回归关系,从而找出回归关系的模型,用于预测、优化和控制,这种统计方法称为回归分析。回归分析主要解决三个问题:提供建立具有回归关系的变量之间的数学关系式(称为经验公式)的一般方法;判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著;利用所得到的经验公式进行预测和控制。\n2.2简单回归复习与提高一元线性回归模型\n一元线性经验回归方程及其建立最小二乘法(Theleastsquaremethod)\n\n最小二乘法估计量的统计性质由于样本满足回归模型,从而一定有\n所以,又正态分布的性质有:进而有\n一元线性回归有关检验离差平和分解\n回归显著性检验F检验T检验\n相关系数检验截距检验\n\n例为了研究大豆脂肪含量和蛋白质含量的关系,测定了10种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据。分别两组观测数据建立蛋白质含量对脂肪含量的回归方程。15.416.317.518.920.021.022.815.817.919.142.4142.6141.3139.6439.7337.3735.3342.4839.3339.9243.1943.7345.3140.7641.1735.1335.7041.8642.3738.07\n\n回归直线间与相关系数间比较两条回归直线间比较在生物科学研究中,人们经常要了解物种之间是否存在共同生物学基础。这种问题的探讨是以回归线的比较为基本工具。回归线比较包括平行检验、共截距检验、重合检验等。平行检验\n\n共截距检验\n重合检验所谓回归线重合检验就是在平行检验接受平行的情况下,两回归线合并估计斜率,在进行共截距检验。\n\n\n例对由两组观测数据建立蛋白质含量对脂肪含量的回归线进行比较。\n\n\n多条回归直线间比较重合分析\n平行分析\n\n共截距分析\n\n注意:k条回归线的共截距分析方法略作改进就可以用于检验k条回归线是否过指定点。具体做法如下:\n肥料测定数据(xij,yij)和平均A1x1j4758534649565444y1j546663515666615040746750.87558.375A2x2j5253645859616366y2j545367626263646947649459.50061.750A3x3j4448465059575853y3j525854617064696641549451.87561.7501298145554.08360.625\n三种施肥试验下y对x回归线分析变异来源(1)Lx1x1(2)Ly1y1(3)Lx1y1斜率(3)/(1)截距自由度剩余离差和总剩余离差和A1A2A3180.875178.00230.875293.875223.500313.500226.375195.00257.7501.25161.09551.1164-5.2979-3.43263.836566610.55439.876425.746646.1773平行性589.750830.875675.1251.1515-0.2100-6.76712.01352048.8305重合性945.833891.625765.7500.809616.839222271.6709\n\n两条相关系数间比较在生物科学研究中,人们经常要探讨某个试验指标受不同控制因素影响关系的强弱。这一问题在相当普遍情况下,可以通过相关系数的比较得以解决。\n\n\n\n2.3协方差分析(Analysisofcovariance)生物科学研究试验,大部分情况下是自然试验,或观测试验。试验指标除受人们关心的、严格控制因素影响以外,很多情况下会受到无法控制的可测量因素指标的影响。如果在对试验指标受严格控制因素影响的探索试验中,忽视这种无法控制的可测量因素指标对试验结果的作用,无疑会由试验数据得到虚假结论。例如前面我们介绍的苹果树产能受施肥影响的实验中,如果忽视苹果树产能受基础产能影响,直接由施肥后的产量数据进行方差分析,会得到下列结论:变异来源离差平房和自由度均方F肥料间60.750230.3750.7677<1说明肥料对产量没有影响肥料内830.8752139.565总和891.62523不考虑基础产能影响的产能方差分析\n协变量与协方差分析概念设在研究试验指标Y受可控因素A影响的试验中,由于无法控制可测量指标因素指标x导致试验单元不一致,从影响试验结果,则称指标x为协变量;分析带有协变量试验数据的统计方法称为协方差分析。协方差分析是把回归分析与普通方差分析相结合,处理带有些变量数据问题有效方法。协方差分析数据结构因素试验数据(xij,yij)和平均A1x11x12x1jx1ry11y12y1jy1rAix21x22x2jx2ryijyijyijyirAaxa1xa2xajxarya1ya2yajyaj\n协方差分析统计模型协方差分析一般流程\n\n肥料校正数据和A162.15661.49064.24760.30861.85363.79361.09661.611496.544A256.39954.24755.59157.48056.33855.03553.73255.278444.100A363.61165.00563.30865.70264.33860.64164.49067.247514.3421455.000苹果树生产能力受施肥影响例子续回归校正后试验指标数据表\n协方差分析出了可以按前面所讲的过程实现以外,也可以用与前面所讲过程等价的离回分析来实现,具体见下表。变异来源自由度离差平房和均方Fa条直线回归a条平行回归1条直线回归平行性重合性f1=ar-2af2=f1-1f3=ar-2f4=f2-f1f5=f3-f2Q总Q平Q重Q4=Q平-Q总Q5=Q重-Q总MS1=Q总/f1MS2=Q平/f2MS4=Q4/f4MS5=Q5/f5F=MS4/MS1F=MS5/MS2单因素单协变量协方差分析(离回分析)表变异来源自由度离差平房和均方Fa条直线回归a条平行回归1条直线回归平行性重合性1820222246.177348.8305271.67092.6532225.49362.56542.44151.3266112.7468F=0.52F=43.9490**\n在生物科学研究中,经常会遇到探讨共处于一个统一体中一个变量(向应变量)与多个变量(自变量)之间的关系问题,其目的就是想了解变量之间是否有因果关系或相关关系,进而确定引起应变量发生变化的主要自变量,并建立应变量随这些主要自变量变化关系的经验模型。在统计学中,把分析两个或两个以上自变量对一个自变量是否有线性影响关系的统计分析称之为多元线性回归.二元性线性回归模型二元性回归模型及其几何解释2.4多元线性回归分析\n\n二元性线性回归几何解释\n\n多元性回归分析多元性线性回归模型\n多元性线性回归模型的数据结构\n多元性线性经验回归方程建立\n中心化经验回归方程为\n\n一医学工作者与了解糖尿病人的血糖(响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量)之间的多元回归方程,以便了解糖尿病人的血糖与其他几个血液理化指标之间的关系,进而探索糖尿病的有效治疗方案.其随机收集了27名糖尿病患者的血液化验样本数据如下表所示,试就这些数据建立糖尿病人的血糖(响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量)之间的多元线性经验回归方程.多元线性回归分析举例\n\n\n计算建立经验回归方程所需各量\n最小二乘法的正规方程组\n\n记号及其含义\n一、回归方程的方差分析多元线性回归方程的假设检验及其评价二、偏回归系数检验\n偏相关系数t检验偏相关系数F检验\n三、复相关系数与多元线性回归显著性检验决定系数表示回归离差平方和占总离差平方和的比例,它反映了进入回归方程所有自变量对响应变量回归贡献的大小,决定系数愈接近1,说明回归整体愈显著。\n复相关系数所有自变量xi与响应变量y间的线性相关程度。如果只有一个自变量,此时,复相关系数等于样本相关系数。复相关系数与下列临界值比较可以检验回归显著性。\n糖尿病人血糖与其他血液理化指标回归的方差分析表ParameterStandardVariableDFEstimateErrortValuePr>|t|变量自由度偏回归系数标准误t值P值Intercept225.943272.828592.100.0473X1220.142450.365650.390.7006X2220.351470.204201.720.0993X322-0.270590.12139-2.230.0363X4220.638200.243262.620.0155糖尿病人血糖与其他血液理化指标回归的偏回归系数t检验\n糖尿病人血糖与其他血液理化指标回归的偏回归系数F检验\n标准化回归系数变量回归系数bj标准化回归系数b’jljj标准差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257\n1.残差标准差(RootMSE)反映了回归方程的精度,其值越小说明回归效果越好。三、其他有关评价指标与评价2.决定系数(determinationcoefficient)说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好\n3.复相关系数(multiplecorrelationcoefficient)说明所有自变量与Y间的线性相关程度。即观察值Y与估计值之间的相关程度。如果只有一个自变量,此时4.校正决定系数(Adjusteddeterminationcoefficient)\n回归方程的优化(自变量的选择)1.变量多增加了模型的复杂度2.计算量增大3.估计和预测的精度下降4.模型应用费用增加一、全局择优法根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好\n1.Cp准则的计算公式\n2.AIC准则的计算公式二、选优法方法双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法).\n前进法自变量从无到有、从少到多。1.Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(p小)则引入。2.在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。后退法先将全部自变量放入方程,然后逐步剔除。1.偏回归平方和最小的变量,作F检验及相应的p值,决定它是否剔除(p大);2.建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果.\n逐步回归法逐步回归法与前进法、后退法有所不同,它是一种对回归方程中自变量的双向筛选。该方法通过先引入有意义的自变量,后剔除无意义变量这种过程的反复重复,直至既没有有意义自变量可引入回归方程,也没有无意义变量从回归方程剔除为止。注意:入选标准愈低,能进入模型的变量愈少。\n\n糖尿病人血糖与其他血液理化指标的逐步回归过程演示模型UQLyyy与x482.7144139.8375222.5519y与x169.4251153.1267222.5519y与x246.7873175.7645222.5519y与x357.9133164.6386222.5519逐步回归第一步从方程中无自变量开始,选取一元回归回归离差平方和最大的自变量,作F检验以决定是否选入方程。X4入选\n逐步回归第二步模型UUiQFiP-Valuey与x482.7144y与x4,x1107.790325.0759114.76155.24410.0311y与x4,x2107.407424.6931115.14445.14690.0326y与x4,x3106.568323.8539115.98364.93600.0360在第一步基础上,分别引入一个尚未进入方程的自变量,选引入后回归离差平方和最大者;对已进入回归方程的自变量检验偏回归显著性,从而确定是否要剔除自变量。模型UUiQFiP-Valuey与x169.425138.36528.02330.0085y与x482.714425.07595.24410.0311y与x4,x1107.7903114.7615剔出x1x1入选\n逐步回归第三步在第二步基础上,重复第二步的过程。模型UUiQFiP-Valuey与x4,x1107.7903y与x4,x1,x2113.64725.8569y与x4,x1,x3121.748013.9897100.80383.18470.0875变量模型UUiQFiP-Valuey与x4,1,3121.7480100.804x1y与x4,3106.568315.17973.46350.0756x3y与x4,1107.790313.95773.18470.0870x4y与x1,394.202627.54546.28490.0197剔出x3x3入选\n逐步回归第四步在第三步基础上,重复第二步的过程。模型UUiQFiP-Valuey与x4,1,3,2133.710711.962788.84122.96240.099y与x4,1,3121.7480变量模型UUiQFiP-Valuey与x4,1,3,2133.710788.8412x2y与x4,1,3121.748011.9627x1y与x4,3,2133.09780.61290.15180.7006x3y与x4,1,2113.647220.0635x4y与x1,3,2105.916727.7940剔出x1x2入选\n逐步回归第五步在第四步基础上,检验是否还有自变量需要剔出。变量模型UUiQFiP-Valuey与x4,3,2133.097889.4540x4y与x3,2100.829232.2686x3y与x4,2107.407425.69046.60540.0171x2y与x4,3106.568326.5295没有可剔出的变量了变异来源自由度SSMSFP-Value回归3133.09844.36611.41**0.0001**残差2389.4543.889总变异26222.5519\n多元回归应用的条件观察个体数n与变量个数m的比例一般至少应为:n/m=5~10\n残差分析(检验应用条件)\n用标准化残差发现异常点一般,观测点的标准化残差绝对值大于2,就认为该观测点为异常点(outlier也称离群值)多重复共线性及其应对方法多元线性回归中,若自变量间存在较强的线性相关关系,使一个或几个自变量可以由另外的自变量线性表示时,则称自变量间存在有复共线性(Multi-Colinearity)。复共线性的存在,可使得回归系数最小二乘估计方差加大,回归系数估计稳定性差,有时甚至会严重背离实际情况,结果分析困难。\n复共线性危害的认识现从该系统中,随机抽取10个个体,观测数据如下。试就这些数据建立经验回归方程,并比较经验回归系数与其理论值。x11.11.41.71.71.81.81.92.02.32.4x21.11.51.81.71.91.81.82.12.42.5y16.316.819.218.019.520.921.120.920.322.0\n复共线性存在性的识别显然,复共线性有下列危害①统计上会使经验回归系数严重不稳定;②应用上,会使回归系数的符号与专业知识推断不符,自变量的重要性与专业认识不符。1.符号检验法若某自变量在多元回归模型中的偏回归系数的符号与相应简单回归系数(或简单相关系数)的符号相反,表明有多重共线性存在,并确定该变量为引起多重共线性的变量。2.简单相关系数矩阵法根据简单相关系数确定多重共线性的严重程度。一般认为相关系数在0.6以上均可导致多重共线性。\n3.决定系数法整个方程决定系数R2高,但各自变量对应的回归系数均不显著,则一定有复共线性。4.方差膨胀因子(thevarianceinflationfactor,VIF)法:方差膨胀因子表达式为VIFi=1/(1-Ri2)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。5.条件数与特征分析法在自变量的观测值构成的设计矩阵X中,求出自变量相关系数矩阵R的特征值,如果某个特征值很小(如小于0.05),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。对多重共线性的两点认识:①在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。②多重共线性是针对固定的自变量而言,是一种样本的特征,而非总体的特征。\n消除多重共线性的方法:1.增加样本容量;2.利用先验信息改变;3.筛选自变量,删除不必要的自变量或采用逐步回归;4.针对性估计法:①岭回归(Ridgeregression)②主成分分析(Principalcomponentsanalysis)③偏最小二乘回归法(Partialleastsquaresregression)④Lasso(Theleastabsoluteshrinkageandselectionoperator)回归以下对4种针对性方法简要介绍如下复共线性处理方法\n①岭回归(Ridgeregression)岭回归法是1970年Hoerl(霍尔)和Kennard(凯南德)提出来的方法。主要用以引入偏误为代价,换取估计量方差的减小,回归系数估计以下列方式实现②主成分分析(Principalcomponentsanalysis)主成分回归法是另外一种常用的处理多重共线性的有偏估计方法,它通过提取主成分,将解释变量集合转化为相互正交的少数几个主成分变量,试图通过降维消除解释变量之间的多重共线性,然后再实施最小二乘回归。\n③偏最小二乘回归法(Partialleastsquaresregression)偏最小二乘回归是1983年由H.Wold和C.Albano提出,其原理也是通过提取主成分方式来降维以消除多重共线性。在提取主成分过程中,偏最小二乘法不同于主成分回归法,它要求所提取的主成分满足两个原则:(1)尽可能大地代表设计阵X中的变异信息;(2)提取出的主成分对因变量Y的解释能力达到最强。④Lasso回归法Lasso回归是1996年Tibshiran提出来的方法。回归系数估计以下列方式实现\n2.5通径分析与偏相关分析\n\n\n通径分析有关量的计算1.通径系数计算\n2.直接决定系数与间接决定系数计算3.xj对y的决策系数计算4.xj对y的直接决定系数检验\n例题\n\n\n\n\n\n\n\n例题\n\n\n\n2.6逻辑(logistic)回归在生物科学研究中,我们经常会遇到一种现象的发生与多个因素有关的问题,这些因素有些可能是定量的、有些可能是定性的,并且他们之间还有可能有存在混杂作用。分析这些因素对我们所关心现象出现概率的影响作用,并建立反映这种影响作用的数量表到形式最有效统计工具就是Logistic回归。Logistic回归概念Logistic回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。它适合于某类现象发生的成因分析。Logistic回归是目前常用的,一个较好的,控制混杂因素的多因素分析方法。它与多元回归分析差别在于响应变量是二值或多值离散变量,自变量既可以是分类,也可以是定量变量。\nLogistic回归模型在m个自变量的作用下所关心现象发生的概率记作:则Logistic回归模型\n取值范围概率P:0~1,logitP:-∞~∞。\n若令:则Logistic回归模型转化为:Logistic回归模型的图形\nLogistic回归模型的生物学意义常数项表示自变量均为0时所关心现象出现与不出现概率比的自然对数。回归系数表示自变量改变一个单位时logitP的改变量。优势率OR(Oddsratio)生物学衡量因素作用大小的比数比指标。计算公式为:\n优势率OR与回归系数的关系\nLogistic回归的数据结构Logistic回归模型的参数估计回归系数的MLE\n某一因素Xj两个不同水平c1,c0的优势比优势比估计\nLogistic回归实例吸烟、饮酒与食道癌关系的病例-对照调查资料以下是一个研究吸烟、饮酒与食道癌关系的病例-对照资料,试建立食道癌患病情况与吸烟、饮酒之间关系的Logistic回归方程。\n经Logistic回归计算后得:\nLogistic回归模型的假设检验\n查看更多