应用统计学-绪论

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

应用统计学-绪论

马昕经济学教研室电话:62783253(H)Email:maxin@ncepu.edu.cn应用统计学\n教材:何晓群《多元统计分析》,中国人民大学出版社,2004参考书何晓群《现代统计分析方法与应用》,中国人民大学出版社,1998王学民《应用多元分析》,上海财经大学出版社JamsMLattin等著,《多元数据分析》(英文版),机械工业出版社考核方法:读书报告:30分(考试前交)期末考试(开卷):70分\n第一章绪论多元数据分析的必要性多元数据分析方法概论多元数据的描述统计基本知识回顾\n一、多元数据分析的必要性信息时代——数据时代,决策:经验→科学经济发展科学研究军事企业组织——信息组织市场分析投资决策设备管理你的直觉判断总是正确的吗?基于数据分析的决策对LaQuinta旅馆进行以回归分析为基础的选址\n数据分析从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程每个数据:反映某个事物某一方面的特征\n统计学:单变量分析描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验相关分析:两个随机变量间的(线性)相关程度回归分析:一个随机变量和一组随机变量间的依存/相关关系\n为什么需要多元数据?一般来说事物通常具有多面性,即每一事物有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力必须全面考虑事物的各个方面,才能对其正确认识。两变量分析有时会得到虚假结果\nDistinguishingMidgesSupposeweareinterestedinmeasuringthewinglengthandtheantennalength.\nDistinguishingMidgesWhatcanyoudowithbothvariablesthatyoucan’tdowithjustoneofthem?\nSimpson’sParadoxExample:44%ofmaleapplicantsareadmittedbyauniversity,butonly33%offemaleapplicantsDoesthismeanthereisunfairdiscrimination?UniversityinvestigatesandbreaksdownfiguresforEngineeringandEnglishprogrammesMaleFemaleAccept3520Refuseentry4540Total8060为什么需要多元数据-续\nSimpson’sParadoxNorelationshipbetweensexandacceptanceforeitherprogrammeSonoevidenceofdiscriminationWhy?MorefemalesapplyfortheEnglishprogramme,butitithardtogetintoMoremalesappliedtoEngineering,whichhasahigheracceptanceratethanEnglishMustlookdeeperthansinglecross-tabtofindthisoutEngineeringMaleFemaleAccept3010Refuseentry3010Total6020EnglishMaleFemaleAccept510Refuseentry1530Total2040\nSimpson’sParadoxInthisexample,thebivariateanalysis(cross-tabulationorcorrelation)gavemisleadingresultsIntroducinganothervariablegaveabetterunderstandingofthedataItevenreversedtheinitialconclusions\n\n二、多元数据分析过程及方法反映对象行为的、可被观测的所有特征面精选特征面子集行为数据测量模型模式多元分析方法行为—数据—结构蠓:身体长度、翅膀长度、翅膀宽度、触角长度、…翅膀长度、触角长度定比数据\n\nSomeCommonPatternsinPointCloudsplanesfilamentsclustersoutliersDataAnalysis:FindingandInterpretingsuchPatterns\n多元数据分析方法概述多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的核心:概要和简化工具:矩阵代数、统计软件\n具体方法聚类分析:按距离远近分类判别分析:给定样本定类——亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型GroupingDiscriminatingPrincipleComponent,Factoring,CorrespondenceInferring推断exploring探索数据模式StructuralEquationModel\n课程内容:第一章绪论第二章向量、矩阵与多维正态分布第三章聚类分析第四章判别分析第五章方差分析第六章回归分析第七章主成分分析第八章因子分析第九章对应分析第十章结构方程模型\n课程重点强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释牢记:从数据中获取信息没有确定的方法具体问题具体分析\n三、多元数据的描述数据的计量尺度:告诉我们从数据中可获得哪些信息。品质数据:计算无意义定类尺度:按穷尽和互斥原则将对象某种特征归类通常用虚拟变量表示:定序尺度对象特征等级或顺序差别的测度\n三、多元数据的描述数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数p\n数据的矩阵描述注:若无特别说明,向量均指列向量\n四、统计基本知识回顾:单变量分析描述统计参数估计假设检验相关与回归\n1.描述统计描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异系数\n异常点\n目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标正态右偏左偏正态比正态更陡比正态平缓分布的偏度与峰度\n标准化变量对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。相对度量例:地区供电局数据\n基本概念2、参数估计总体样本变量观测值华北电大的所有学生华北电大的所有学生中所有抽取的100名学生\n基本概念(续)参数统计量精确度准确度偏误\n标准差:小标准误:小标准差:大标准误:小标准误差standarderror标准差standarddeviation\n抽样推断:从样本统计量推断总体参数参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立\n参数估计:总体参数的点估计假设在总体X中,θ为未知参数(均值、方差、成数等)。由样本(x1、x2…xn)构造统计量来估计未知参数θ,称为θ的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。方法矩估计法极大似然估计法最小二乘法\n设 为待估计的总体参数,为样本统计量,则 的优良标准为:点估计量的优良性标准指样本统计量抽样分布的平均值等于被估计的总体指标无偏性\n设和是总体指标的两个无偏估计量,有效性若    ,则称 为比 更有效的估计量\n如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。一致性一致性是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”——葛兰杰n1n2n3n1Z/2Z临界点-Z拒绝域Z<-Z接受域Z>-ZZ临界点Z拒绝域Z>Z接受域Z0为正相关,<0为负相关;||=0表示不存在线性关系;||=1表示完全线性相关;0<||<1表示存在不同程度线性相关:||<0.4为低度线性相关;0.4≤||<0.7为显著线性相关;0.7≤||<1.0为高度线性相关。\n样本相关系数有容量为n的样本(xi,yi)i=1,2…,n\n相关系数的假设检验实际研究中,相关系数一般都是利用样本数据计算得到的,因而随样本的变化而变化,具有一定的随机性。从样本相关系数推断总体相关系数需要进行假设检验。相关系数的检验分为两类:总体相关系数是否为0的检验,即总体是否相关的检验相关系数等于某一给定值的检验\n相关系数的显著性检验(t检验法)⒈提出假设:目的检验总体两变量间线性相关性是否显著步骤⒉构造检验统计量:\n相关系数的显著性检验(t检验法)⒊根据给定的显著性水平,确定临界值;⒌计算检验统计量并做出决策。⒋确定接受域与拒绝域:若,则接受H0,表示总体两变量间线性相关性不显著;若,则拒绝H0,表示总体两变量间线性相关性显著步骤手表需求\n回归分析指对于具有因果关系的诸相关变量,根据其相关关系的具体形式,选择合适的数学模型来近似地表达变量间的平均变化关系的统计分析方法。220xy8065140101149每周收入$每周支出$x为非随机变量y为随机变量\n总体回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数表示自变量x每变动一个单位,因变量y平均变动单位数。样本回归方程:(估计的回归方程)(一元线性回归方程)\n设:一元线性回归方程参数、的确定:最小平方法\n整理得到由两个关于、的二元一次方程组成的方程组:进一步整理,有:\nb与r的关系:r>0r<0r=0b>0b<0b=0
查看更多

相关文章

您可能关注的文档