- 2022-08-24 发布 |
- 37.5 KB |
- 14页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学总复习
应用统计学总复习教师:严洁2012年6月[本课件专为北大政府管理学院《应用统计学》课程所设计,限于选修本课程的学生使用,未经作者允许请勿以任何方式传播。]第一部分:重要概念、知识点一、应用统计学全景1.1描述统计:是指用归纳性的数值对一个已知的样本或者总体的数量特征进行概括1.2推断统计:是从样本信息推论到总体数量特征的统计技术1.3.测量尺度1.3.1定类尺度:每一种不同的数字或符号代表着不同的类别或标记的一种度量方法。是测量定类变量所使用的尺度。1.3.2定序尺度:每一种数字或符号代表着有序的选项,但各选项之间不必是等距关系的一种度量方法。1.3.3定距尺度:是指有一个固定的数字区间贯穿于一个度量序列之中的度量方法。每个数字之间是等距的,并且0只代表等距序列中的一个位置,而不是代表“一无所有”。1.3.4定比尺度:是指数字的赋值能够具有所有算术特征的一种度量方法。0就代表“一无所有”。二、描述统计2.1平均值mean:用于定距及以上变量的集中趋势的描述。2.2众数mode:出现次数最多的值,用于任一层次的变量集中趋势的描述。2.3中位值median:数据序列中处于中央位置的值,用于定序及以上变量的集中趋势的描述。第1页共14页\n2.4方差variance、标准差std.deviation:观察值与其平均值之差的平方和除以全部观察总数。方差的平方根就是标准差。标准差越大,平均值的代表性越小。它表示数据的离散程度。2.5集中趋势:均值、中位数、众数;离散趋势:方差、标准差、四分位差、极差。2.6列联表:通过将两个变量交互分类,旨在发现变量之间是否存在某种联系的频次/频率分布表。适用于定类、定序变量。2.6.1列联表的卡方检验:检验变量之间是否独立。在sig<0.05的情况下,说明变量之间不独立。2.6.2列联强度系数:表示变量之间关系的强弱。在sig<0.05的情况下,绝对值越接近于1,说明变量之间关系越强。2.6.3定类变量:ф系数、C系数、V系数、λ系数(lambda)、τ系数(Goodman&KruksalTau-y)2.6.4定序变量:斯皮尔曼等级相关系数ρ、Gamma系数、Kendall’sTau系数、d系数三、推断统计3.1概率分布:回答的是随机现象一共有多少种结果以及每种结果所伴随的概率是多少。3.2抽样分布:是样本统计量的概率分布。对一个固定的总体,在确定的样.....本设计和样本量的条件下,样本统计量的所有可能取值及其出现概率的序列就是该统计量的抽样分布。3.3正态分布:3.3.1正态分布的两个参数——均值和标准差一旦确定,正态分布的具体形态也就唯一确定。3.3.23σ法则:在正态分布中,有68.3%的变量值落在以平均数为中心的一个标准差范围内;有95.4%的变量值落在以平均数为中心的两个标准差范围内;有99.7%的变量值落在平均数为中心的三个标准差范围内。第2页共14页\n3.4标准正态分布:标准差为1,均值为0的正态分布N(0,1)称为标准正态X−μ分布。z=σ3.5中心极限定理:从任意一个总体中随机抽出规模为n的样本,随着n的扩大(n>=30),样本均值的抽样分布会近似服从正态分布。3.6统计推论分为两类:参数估计和假设检验3.7参数估计:是根据一个随机样本的统计值来估计总体的参数值。包括点估计和区间估计。3.8点估计:用样本的统计值估计总体的参数值。3.8.1从总体中随机抽取n个样本,随着n的增大,所有样本均值的平均值是总体均值的无偏估计。3.8.2从总体中随机抽取n个样本,随着n的增大,所有的样本成数(比例)的平均值是总体成数(比例)的无偏估计。3.8.3从总体中随机抽取n个样本,随着n的增大,所有的样本方差的平均值是总体方差的无偏估计。3.8.4样本方差和总体方差的计算公式有区别,样本方差要以n-1为分母。这样计算出来的所有样本方差的平均值才是总体方差的无偏估计。3.9区间估计:用样本统计值来推测总体参数的可能范围。3.9.1区间估计的思想是寻找两个统计量,分别来估计总体参数的上限和下限,使得总体参数落在上下限之间内的概率为1-α。1-α就是估计区间包括真值的概率,称为置信概率/置信水平/置信系数。这个区间就叫做“在1-α置信水平下参数的置信区间”。区间的边界叫置信上限和置信下限。α是事先给定的小正数。第3页共14页\n3.10样本均值的标准差叫做均值标准误。3.10.1标准差和标准误的区别:标准差(standarddeviation):根据原始的观察值计算,反映的是一组原始数据的离散程度;标准误(standarderror):是指样本统计量的标准差。根据样本统计量计算的,反映的是统计量的离散程度;比如,样本均值的标准误差根据多个样本的样本均值计算,反映样本均值的离散程度。σs.e.=n3.11假设检验:是指通过样本的统计值和结果来检验事先对总体的情况所做出的假设。包括原假设和备择假设。3.11.1原假设:又称虚无假设、无差异假设。备择假设:就是与原假设相反的假设。3.11.2假设检验的基本思想:首先假设变量之间无差异,如果由此得出在一次观测中发生小概率事件,那么就拒绝无差异假设,接受备择假设。换句话说,经过随机抽样从总体中得到一个样本,如果根据计算发现样本的统计量在原假设成立的条件下几乎是不可能发生的,那么就拒绝原假设。3.12小概率原理:概率较小的事件,在一次观察中是几乎不可能出现的。但是如果在一次观察中恰恰发生了小概率事件,那么合理的想法是否定原有事件具有小概率的假设。3.13假设检验的种类:双侧(双边,双尾)和单侧(单边,单尾)。四、统计分析方法4.1统计分析步骤:确定研究目的→根据理论假设转换成研究假设→数据整理→变量探测性、描述性分析→选择数据分析方法→检验因果关系、各种条件关系、辨别虚假关系等→对分析结果进行解释4.2统计推论的逻辑:借助中心极限定理、小概率原理,将样本统计量通过抽样分布与总体参数联系起来,进行统计推论。第4页共14页\n4.3一元单因素方差分析(ANOVA):因变量为一个定距/定比变量,自变量为一个定类变量。4.3.1分析目的:比较不同群体在某一个测量上的平均水平是否有显著差异。4.3.2基本思想:把推测的全部误差分为两个部分——可以被自变量解释的部分,没有被解释的部分,然后从二者比值的大小检验两个变量是否相关。4.3.3原假设:任意两个组的均值都相等;备择假设:至少有一对均值不相等.4.3.4假设检验:sig.<0.05,表示统计显著,说明在95%的置信水平下,因变量在自变量的各组平均值上存在显著差异。4.4一元多因素方差分析(Univariate):因变量为一个定距/定比变量,自变量为多个定类变量。4.4.1分为饱和模型和非饱和模型,只有模型中的所有项目都显著才能做出有显著差异的结论。4.4.2两个变量的交互效应如果统计显著,说明在一个变量的不同类别上的因变量均值会在另外一个变量的不同类别上有显著的差异第5页共14页\n4.5多元方差分析(Multivariate):因变量为多个定距/定比变量,自变量为多个定类变量。4.6相关分析(correlate):反映现象之间存在的但关系数值不固定的相互依存关系。4.6.1按相关的程度可分为完全相关、不完全相关和不相关;按相关的形式可分为线性相关和非线性相关;按研究变量的多少可分为单相关、偏向关和复相关。4.6.2相关系数(Pearsonr)是用来说明变量之间在直线相关条件下,相关关系密切程度和方向的统计分析指标。其定义公式为:∑()xxyy−−()r=22∑∑()()x−−xyy式中:x为自变量,y为因变量。4.7一般线性回归分析(linearregression):用变量的观察数据拟合所关注的变量和影响它变化的变量之间的线性关系式,检验影响变量的显著程度和比较它们作用大小,进而用两个或多个变量的变化解释和预测另一个变量的变化。4.7.1因变量:一个定距/定比变量;自变量:一个或者多个定距/定比变量(也可以包括由定类变量转换的虚拟变量)4.7.2回归系数B:表示在至少95%的置信水平下,在控制了其他变量的情况下,自变量每增加一个单位时,因变量随之增加B个单位。其符号表示作用方向,绝对值表示变化的幅度。4.7.3标准化的回归系数Beta:去除自变量的物理单位,将各个自变量对因变量的作用力进行相对比较,该系数绝对值最大的自变量说明其对因变量的解释作用最大。24.7.4确定系数R:表示回归方程中的所有自变量所解释的因变量的变化(因变量的方差)的百分比。越接近于1,说明模型中的变量对y的解释能力越强。调整后的确定系数AdjustedR2:排除自变量数目过多的影响。当n远大于自变量的个数时,AdjustedR2约等于R2。第6页共14页\n4.7.5回归系数不显著的原因:样本量太小或者变量太多;自变量变化范围太小;自变量之间高度相关,即出现了多重共线性问题;自变量与因变量之间是非线性关系。检验多重共线性的指标是方差膨胀因子(VIF)或者容忍度(Tolerance)4.7.6虚拟变量:以编码“1”和“0”表示案例的类别归属。该变量的平均数表示编码为1的一类案例占样本的比例。虚拟变量的回归系数表示编码为“1”的类别与参照类(编码均为0)的因变量均值之差。4.7.7残差表示因变量的预测值与观测值之间的差。4.7.8一般线性回归的假定条件包括:总体误差项的零均值、方差齐、正态分布、误差项无序列相关、误差项与自变量无关。4.7.9Durbin-Watson系数用来检验误差项是否存在序列相关;标准化的残差图用来检验方差齐、误差项与字变量相关等假定条件。4.8逻辑斯蒂回归:是非线性概率模型的一种,它将收益递减规律纳入模型。利用Logistic函数的特点,将事件发生的概率进行Logit转换后,将Logitp以自变量和回归系数进行线性表达。pln()=++abxbx++...bx1122ii1−p4.8.1因变量:虚拟变量;自变量:一个或者多个定距/定比变量(也可以包括由定类变量转换的虚拟变量)4.8.2事件发生比(odds)Ω=p/(1-p)b发生比率(oddsratio):发生比之比Ω*/Ω=ebi4.8.3回归系数的解释:当b=0.693,则e=2,表示自变量每增加一个单位,bi因变量新的发生比是原来的2倍。如果e=0.8,则表示新的发生比bi是原来的80%。如果自变量为虚拟变量,e=1.6,则表示,取值为1的那一类的发生比是参照类的1.6倍。第7页共14页\n4.8.4标准化的回归系数:可以比较各因素对因变量的作用的相对重要性。Beta=b*s/1.8138b:回归系数;s:自变量的标准差;1.8138:Logistic分布的标准差4.8.5整体检验:通过对数似然函数值(LogLikelihood)进行检验,SPSS报告“-2logLikelihood(-2LL)”指标,该指标越大,说明回归方程的拟合程度越差。该报告值越小,意味着回归方程的拟合程度越好。与截距模型进行比较:比较二者的拟合水平是否有显著提高。前后两模型的-2LL的差值在“ModelChi-Square”中给出,卡方检验中sig<0.05,则说明统计显著。2类确定系数R:越接近于1,说明模型的变量对因变量的解释能力越强,但揭示了因变量的什么值则无从判定。模型正确预测的百分比:用回归模型对样本案例因变量值正确估计的样本数占总样本数的比例。4.8.6多分类变量的逻辑斯蒂回归:4.8.7序列变量的逻辑斯蒂回归:4.9因子分析:通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数共同因素(公因子)来表示基本的数据结构。其主要目的是浓缩数据和寻求变量的基本结构。。第8页共14页\n4.9.1因子负载:连接观测变量和公因子的纽带,相当于公因子和观测变量之间的相关系数。(SPSS输出表的表头为ComponentMatrix)4.9.2公因子方差(也叫共同度):观测变量中由公因子决定的比例,公因子的方差越大,变量能被因子说明的程度越高。(SPSS输出表的表头为Communalities)4.9.3因子贡献率:每个公因子所解释的方差占所有变量总方差的比例。(SPSS输出表的表头为TotalVarianceExplained)4.9.4检验原有变量是否适合作因子分析:计算KMO检验统计量,KMO越接近1,意味着变量间的相关性越强,原有变量越适合做因子分析。0.9以上表示非常适合,0.8表示适合,0.7表示一般,0.6以下表示不适合。五、数据质量评估5.1抽样调查的一般程序:概念→理论假设→操作化→研究设计(问卷设计、抽样设计、实施程序设计)→抽样→实地调查→建立数据库→分析数据→假设检验→得出结论(研究报告)5.2概率抽样:按照一定的概率以随机原则抽取样本,每一个单元都有一定的机会被抽中并且它们被抽中的概率是已知的。包括简单随机抽样、系统抽样、概率与规模成比例的抽样;分层抽样、整群抽样、多阶段抽样等等。5.3非概率抽样:抽取样本时不是按照随机原则,而是根据主观判断有目的、有意识地进行,或者根据方便原则进行。包括配额抽样,滚雪球抽样,街头偶遇抽样等等。5.4抽样中的基础概念:5.4.1研究总体:在理论上明确界定的总体;调查总体:对研究总体的进一步界定,是从中抽取样本的总体5.4.2个体:收集信息的基本单位,构成总体5.4.3样本:从总体中按照一定规则和程序抽出来的个体的集合5.4.4抽样单位:包含个体,用来抽选个体进入样本,在一个抽样过程中,第9页共14页\n第一阶段抽取的抽样单位称为初级抽样单位5.4.5抽样框:是从中抽取样本的抽样单位的名单。抽样框的数目与抽样单位的层次相对应。5.4.6抽样误差:用样本的统计值去推算总体的参数值时总会有差异,这个差异就是抽样误差。5.4.7偏差:按照某一抽样方案反复抽样时,估计值与参数值之间的系统性差异。5.5某变量的覆盖误差由未覆盖总体占研究总体的比例,未覆盖总体与覆盖总体在该变量上的取值差异所决定。5.6某变量的回答误差由未回答样本占总样本的比例,未回答样本与回答样本在该变量上的取值差异所决定。5.7复杂抽样设计下的某变量标准误的正确计算方法要考虑抽样单位、权重、分层等因素。5.8信度:是指使用相同研究技术重复测量同一个对象时,得到相同研究结果的可能性。信度往往以相关系数来加以计算。通常计算的方法有再测信度系数、复本信度系数、折半信度系数、内部一致性系数(alpha系数)。5.9效度:是指实证测量在多大程度上反映了概念的真实含义,即测量工具能测出其所要测量的概念的程度。效度又分为内容效度、准则效度、建构效度(通常用因子分析法);或者分为内在效度和外在效度。5.10用因子分析的结果判断结构效度5.10.1要依据被测量的概念及其层次和结构5.10.2如果概念在设计的时候是单维的,那么,我们期待只提取一个公因子,因子贡献率很高,至少要高于55%,每个条目与公因子的因子负载彼此接近,都高于0.7(底线是大于0.55),公因子共同度至少高于0.555.10.3如果概念在设计的时候是多维的,那么,我们期待公因子的个数与设计的维度数一致,累计因子贡献率很高,至少要高于55%;公因子与某些条目的组别与设计的维度类别一致;某公因子与该组条目第10页共14页\n的因子负载彼此接近,都高于0.7(底线是大于0.55),公因子共同度至少高于0.55六、定量研究论文、数据报告与研究报告6.1科学研究的过程6.2定量研究论文主要内容:研究目标、文献综述、理论假设、分析方法和分析模型、数据来源和数据描述、数据分析/模型检验、得出结论(理论拓展或政策建议或实际应用)6.2.1关于数据来源的介绍至少包括以下内容:数据的采集方式、质量控制方法、样本的抽样方式(介绍分层的标准、PSU的定义、数量、抽样方法等)、样本的有效回答率、样本量;数据采集的执行机构、数据使用的授权机构等第11页共14页\nI.第二部分:考试题型一、填空题:**“本项研究中,我们假设人们的年龄会对人们的婚姻观念有显著的影响……”,请问这个假设中,需要测量的因变量是人们的婚姻观念,自变量是人们的年龄。**“请问您家去年的总收入是多少元?”,这个题目是用了____________测量尺度?二、选择题:**_______是指实证测量在多大程度上反映了概念的真实含义,即测量工具能测出其所要测量的概念的程度。A.信度B.效度C.显著度D.自由度**如果用列联表来度量两个定类变量之间的列联强度,那么,应该选择下面哪一种相关系数?______________A.LambdaB.Tau-b/Tau-cC.PearsonD.Eta**一项逻辑斯蒂回归分析的结果中,性别变量的发生比率为0.436***,其中男性的编码为1,女性的编码为0,请问,性别变量对因变量(是否去旅游)的作用是?____________三、判断对错题:【】总体是正态分布,样本也服从正态分布【】标准误也被称为标准差【】进行方差分析时,因变量要使用定类变量第12页共14页\n四、简答题:(一)请参照下表回答问题表5不同年龄组的受访人对“中国电视应该优先播放中国电影和节目”的态度(%)18-2930-39岁40-49岁50-59岁60-70岁岁非常同意13.020.024.829.433.2比较同意33.740.249.148.546.4中立10.08.06.57.04.8不太同意38.827.717.212.514.3非常不同意4.64.02.32.61.3有效回答人数632833818656461(Chi-Squre=252.0P<0.001;Gamma=-0.2,P<0.001)(1)卡方检验的结果说明什么?(2)Gamma的结果说明了什么?(二)有一个抽样方案这样写着:调查组在某县的所有镇和乡中,按照概率与人口规模成比例的抽样方法,抽取了1个镇和1个乡。然后在每个入选的乡、镇中各抽取了5个村,每个村根据村委会户籍资料名单随机抽取20个育龄妇女进行调查。1、初级抽样单位是什么?2、受访人的资格特征是什么?3、是否分层了?如果是,那么分层的标准是什么?4、在该县一共抽到的样本规模是多少?5、这个抽样方案的最大弱点是什么?(从psu的数量和分布的角度来考虑)第13页共14页\n五、论述题:解读下面的统计分析结果。注:***p(sig)<0.001**p(sig)<0.01*p(sig)<0.05注意解释:理论假设是什么模型之间的区别自变量对因变量的作用模型整体的解释力基本结论注意统计意义和现实意义的联系第14页共14页查看更多