统计学毕业论文
分类号o212编号2009030136题目_学院姓名专业学号研究类型指导教师提交日期\n原创性声明本人郑重声明:本人所呈交的论文是在指导教师的指导下独立进行研究所取得的成果。学位论文中凡是引用他人已经发表或未经发表的成果、数据、观点等均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。本声明的法律责任由本人承担。论文作者签名:论文指导教师签名:\n目录引言11:Logistic回归模型概述21.1二分类logistic回归分析2(1)分组数据的logistic回归模型2(2)未分组数据的logistic回归模型41.2多类别logistic回归分析62:判别分析的概述72.1模型73利用logistic冋归进行二次判别提高判别分析效率84•实例分析9结束语13参考文献14致谢错误!未定义书签。附表115\nLogistic回归与判别分析的比较【摘要】通过介绍logistic回归与判别分析的判别功能的思想、原理、条件及定义,来说明在实际中的回判优越性。利用随机比较方法,研究判别分析和Logistic回归分类回判正确率。结果显示‘Logistic冋归冋判正确率优于判别分析。在处理因变量为定性变量的冋归分析中‘Logistic冋归模型具有很好的预测准确度和应用推广性。关键词:判别分析;Logistic回归;回判率中图分类号:0212.文献标识码:AoLogisticregressionmodelanddiscriminateanalysisiscomparisonAbstract:thisarticleintroducestheapplicationofLogisticmodelanddiscriminateanalysisofthinkingprincipleandutilization.Todiscriminateandforecastthediscriminationaccuracyrate,Bystochasticcomparisonthediscriminateaccuracyrateofdiscriminateanalysisandlogisticregressionisstudied.Theresultshowsthatthediscriminateaccuracyrateoflogisticregressionisbettershowthandiscriminateanalysis.AndtheanalysisresuItsshowthatlogisticregressionmodelhaswelLPredictiveaccuracyandpracticalpromotionalvalueishandingregressionanalysisofqualitativedependentvariable.Keywords:Logisticregressionmodel;discriminateanalysis;discriminateaccuracyrate.\n引言生活中,在研究实际问题时,经常遇到分类问题。在很多情况下,为了研究目的,将研究对象经常分为两类,成为二分类问题。例如:在一次住房展销会上,与房地产商签订初步购房意向书的顾客屮,在随后的3个月的时间内,只有一部分顾客确实买到了房屋。确实购买了房屋的顾客记为1,没有购买到房屋的记为0.再如,在是否参加赔偿责任保险公司的研究小,根据户主的年龄、流动资产额和户主的职业,因变量y被规定冇两种可能的结果:户主有赔偿责任保险单,户主没有赔偿责任保险单。这种结果也可以用虚拟变量0或1来表示。再如在一项社会安全问题的调查中,一个人在家是否害怕生人來,因变量y二1表示害怕,y二0表示不怕川。上面的例子说明,因变量的结果只取两种可能情况的应用很广泛。在统计学中,常用的分类方法是判别分析和logistic冋归。这两种方法简单实用,很多统计软件可以完成冇关的计算,他们应用很广,特别是医学、生物学领域和经济管理等研究领域。在医学生物学领域中,Biometrics,BiometricalJournal等学术刊物每年都刊登很多判别分析或logistic冋归应用的论文;hunter在2004年其所著《AppliedLinerRegressionModels》一片中对logistic冋归在线性冋归屮的应用进行了研究,得出了许多有关结论囚;易尚辉等对因大肠癌而住院的病历按治愈和未治愈分两组进行非条件多元素logistic回归分析[珥口玉峰等借助于判别分析对心血管功能进行定量的判别和预测[铁陈希孺在《数理统计与管理》上发表了一个关于广义线性模型的专题讲座,其中对logistic回归做了一些统计理论方面的介绍国。在上述应用中,判别分析和logistic冋归对解决实际问题提供了许多有用的信息。然而两种统计方法的统计理论并不完全相同oLogistic回归采用极人似然估计方法估计模型参数,依据冋归函数值对观测数据进行分类;判别分析基于观测值与两个不同类別\n之间距离差异进行分类,距离包括马氏距离和欧氏距离等。Logistic回归具有良好的判别和预测功能,尤其在资料类型不能满足Fisher判别和3与必判别的条件吋,更能显示出logistic回归判别的优势与功能。木文通过对比来研究两种方法的回归正确率,分类方法对全部观测值进行分类,其中分类结果正确的观测点所占比例为冋判正确率。从医学牛物学、经济管理领域等领域屮的例子显示,logistic回归比判别分析稳健,回判正确率优于判别分析。在很多应用中,直接采用logistic回归进行分类。1:Logistic回归模型概述通常意义上的logistic冋归要求因变量y只有两种取值(二分类),但当y的取值冇两种意义上时,就要用多分类logistic回归分析^multinomLogisticRegression^・1-1二分类logistic回归分析El(1)分组数据的logistic回归模型下面首先考虑一般的回归模型:疋=0()+0內+£/;i二1,2,,n.其中勺满足£(^)=0;)[•为0-1型随机变量,其概率分布为卩(兀)=时(1-卩严;兀=0,1•显然有=®=0o+0]坷。针对0-1型因变量产生的问题,我们对因变量模型因该做两方面的改进。第一,回归函数应该改用限制在[0,1]区间内的连续曲线,而不能在沿用直线回归方程。限制在[0,1]区间内的连续曲线很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为\nLogistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。第二,因变量X本身只取0,1两个离散值,不适于直接作为回归模型屮的因变量,由于回归函数£(X.)=“=%+0“表示口变量为X:的条件下x等于1的比例。这提示我们可以用牙•等于1的比例代替x•木身作为因变量。(1)由于)〔•是0-1型贝努利随机变量,则得如下概率分布p(y.=\)=7r.P(X=0)=1-耳显然冇E(yJ二花=0()+0內,故当因变量为0-1型随机变量时,因变量均值表示给定自变量时尸1的概率,又因为O
MahaIanobisDistanceforSquaredDistaneetogroupFromgroup12311.0000<.0001<.00012<.00011.0000<.00013<.0001<.00011.0000由上表可得出每两组间的平方距离,由于协方差阵相等,所以平方距离相等。,Z/(112)=£)2(211)=54.38909,D2(3ll)=D2(ll3)=122.79310,D2(213)=Z)2(3I2)=35.63377。以及相对应的F值,相应的P值都<0.01,说明冇显著差异,冇回判意义。\nTheSASSystemTheDISCRIMProcedure14:19M(PairwiseGeneralizedSquaredDistancesBetweenGroups2,-_・1__D(i|j)=(X-XCOV(X-X)-2InPRIORBBBBIGeneralizedSquaredDistancetogroupFromgroup12312.1972256.58632124.99032256.586322.1972237.830993124.9903237.830992.19722LinearDiscriminantFunction■1_T_Constant=-.5X?COVX+InPRIORCoefficient=COVXjjjVectorVariable123Constarit-98.78483-43.25217-8.11244xl565.51136121.7999966.86461x2263.05146478.6305836.74916x3242.0649920B.78477103.43424LinearDiscriminantFunctionforgroup得到的线性判别函数为:Y}(x)=-98.78488+565.51136石+263.05146x2+242.06499x3Y2(x)=—43.25217+121.79999^+478.63058x2+06.78477®Yy(x)=-&11244+66.86461坷+36.74916x2+l03.43424“\nTheDISCRIMProcedureClassificationResultsforCalibrationData:WORK.D511ResubstitutionResuItsusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunctiond\x)=(x-xycov\x-x)PosteriorProbabilityofMembershipinEachgroup22Pr(j|X)=exp(-.5D(X))/SUMexp(-.5D(X))kObs123456789101112131415PosteriorProbabiIityMembershipingroupFromgroup222333121123312CIassifiedintogroup2223331211233120.00001.00000.00000.00001.00000.00000.00001.00000.00000.00000.00001.00000.00000.00001.00000.00000.00001.00001.00000.00000.00000.00001.00000.00001.00000.00000.00001.00000.00000.00000.00001.00000.00000.00000.00001.00000.00000.00010.99991.00000.00000.00000.00001.00000.000012由上表及下表可看出没有错判信息,错判的比率为0.\nTheSASSystemTheDISCRIMProcedureCIassificationSummaryforCalibrationData:WORK.D511ResubstitutionSummaryusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction2-1_d(x)二(x-xycov(x-x)•■•JJJPosteriorProbabilityofMembershipinEachgroup22Pr(j|X)二exp(-.5D(X))/SUMexp(-.5D(X))jkkNumberofObservationsandPercentC1assifiedintogroupFromgroup123Total14004100.000.000.00100.00206060.00100.000.00100.00300550.000.00100.00100.00Total4651526.6740.0033.33100.00Priors0.333330.333330.33333ErrorCountEstimatesforgroup123TotalRate0.00000.00000.00000.0000Priors0.33330.33330.3333(2)用logistic回归建立回归方程。Anovab模型平方和df均方FSig.1回归2.5373.84626.388.000*残差.32010.032总计2.85713a.预测变量:(常量),x3,x1,x2<;\na.因变量:y系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)1.319.1777.445.000X11.7301.122.2691.542.154.3682.717x2-14.4904.119-.829-3.518.006.2024.948x3-2.4191.301-.352-1.859.093.3133.195a.因变量:y结束语木文通过分析比较logistic回归模型与判别分析的思想、原理等,进而通过实例应用,在研究数据而分类问题上,研究判别分析和logistic冋归分类冋判优越性。分析得出判别分析和logistic回归分类的回判正确率受随机误差大小和变量个数的影响很大,一般情况下,logistic回归的回判率优于判别分析。但随着随机误差的变大,logistic回归模型的回判正确率低于判别分析。但总的來说,在处理因变量为定性变量的回归分析屮,logistic模型有很好的预测准确度和使用推广性。\n参考文献[1]王国梁等。问卷调查资料的一种统计分析方法-Logistic回归模型。统计研究,1991(2)[2]Kunter.MH.etal.AppliedLinearRegressionModels,(4thEdition)\M].McGraw-Hill92004.[3]易尚辉,易银沙,刘桃成,吕媛。大肠癌预后logistic回归分析[J],中国现代医学杂志,2008(7):969-970.[4]口玉峰,耿美英,连江宏,罗志昌,张松,杨文鸣。逐步Bayes判别分析在心血管功能评定中的应用[J],北京工业大学学报,1994(3):54-60.[5]陈希孺。广义线性模型[J]°数理统计与管理。2002,21(5)-2004,23(2)。[6]张尧庭等。定性资料的统计分析桂林:广西师范人学出版社,1991[7]何晓群。多元统计分析[M]・北京:中国人民大学出版社,2004[8]吴喜之,田茂雨。现代回归模型诊断[M]。北京:中国统计出版社,2003\n附表1元素样聶、二氧化硫X\氮氧化物■飘尘Xj类型号\n0.0450.0660.0940.0030.0480.2100.0860」960.1870.0530.0200.0350.2050.0880.0430.26520.0390.26420.0610.19420.0030.10230.0150.10630.0660.26310.0720.27420.0720.21110.0820.30110.0600.20920.0080.11230.0150.17030.0680.28410.0580.2152