- 2022-08-13 发布 |
- 37.5 KB |
- 22页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学整理
考点1统计学的产生和发展(小题目)(一)萌芽期(17世纪中-18世纪中)1.德国的记述学派(国势学派)康令和阿痕瓦尔(1764年首创统计学一词)他们在大学中开设“国势学”采用记述性材料,讲述国家“显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。2.政治算术学派英国的威廉·配第,约翰·格朗特威廉·配第的代表著《政治算术》对当时的英、荷、法等国的“国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。(定量)(二)近代期(18世纪末——19世纪末)1.数理统计学派法国的拉普拉斯,比利时的凯特勒。拉普拉斯把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用;凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论融合改造为近代意义的统计学。他是数理统计学派的奠定人,有“统计学之父”之称。2.社会统计学派德国的克尼斯、恩格尔、梅尔等。他们强调统计学是研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系。(三)统计学的现代期(20世纪初至今)数理统计学与社会统计学逐步融合成为统一的现代统计学。统计学的主流从描述统计学转向推断统计学。20世纪30年代R·费希尔的推断统计理论标志着现代数理统计学的确立。考点2描述统计学与推断统计学的关系描述统计学与推断统计学是现代统计学的两个组成部分,相辅相成,缺一不可。描述统计是推断统计的前提基础,推断统计是描述统计的发展延伸。概率论(包括分布理论、大数定律和中心极限定理等)推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)(描述统计(统计数据的搜集、整理、显示和分析等)反映客观现象的数据样本数据总体数据总体内在的数量规律性考点3理论统计与应用统计1.理论统计:研究统计学的一般理论;研究统计方法的数学原理2.应用统计:研究统计学在各领域的具体应用\n考点4数据的直接来源普查、抽样调查、重点调查和典型调查,重点关注4种方法的优缺点1.普查为某一特定目的,专门组织的一次性全面调查。一种摸清国情、国力的重要调查方法。特点:(1)一次性或周期性的;(2)需要规定统一的标准调查时间,保证结果的准确性;(3)数据较准确,规范化程度也高,因此可作为抽样调查和其他调查的依据;(4)使用范围较窄,只能调查一些最基本或特定的现象。(5年经济调查、10年人口调查)2.抽样调查按照一定的概率从总体中抽取一部分单位构成样本,并根据样本信息推断总体数量特征的一种非全面调查。一种应用最为广泛的调查组织方式。(产品质量破坏检验、居民住宅调查)特点:(1)按随机原则抽取;(2)存在由样本推断总体产生的抽样误差,但其误差可计算也可控制;(3)适用范围广,且节约成本,可以保证实效性。3.重点调查:它只从全部总体单位中选择少数重点单位进行调查,这些重点单位尽管在全部总体单位中出现的频数极少。特点:(1)主要适用于通过重点单位来反映主要情况或基本趋势的调查;(2)投入少、调查速度快;(3)用于定量研究。4.典型调查是从全部总体单位中选择一个或几个有代表性(典型性)的单位进行深入细致调查的一种调查组织方式。特点:(1)适用于通过典型单位来描述或揭示事物的本质或规律的调查;例如,研究工业企业的经济效益,可在同行业中选择一个或几个经济效益突出的单位做调查,从中找出经济效益好的原因和经验。(2)主要用于定性研究,调查结果一般不能推断总体。考点5统计数据的质量1抽样误差(不可避免、但可计算、可控)(1)由抽样的随机性所带来的误差(2)所有样本可能的结果与总体真值之间的平均差异(3)影响抽样误差的大小的因素:样本量;总体的变异性;要求的可靠性2非抽样误差(可以避免)(1)由其他原因造成的样本观察结果与总体真值之间的差异(2)存在于所有的调查之中(概率抽样、非概率抽样和全面调查)(3)有抽样框误差、回答误差、无回答误差、调查员误差、测量误差(4)控制方法:调查员的培训、调查结果进行检验。3质量要求:精度、准确性、关联性及时性、一致性。\n考点6统计学基本概念中的变量变量:在研究总体时,我们重点关注的是总体单位具有哪些特征或属性,我们把这些特征称为变量。变量的名称是针对总体中每一基本单位的属性都存在着差异而言的。(性别:品质变量,成绩:数量变量)考点7统计数据的分组品质标志分组:按照性别、质量等级等定性指标分组数量标志分组:按照数量或数值等定量指标分组分组原则:“不重不漏”和“上限不在内”考点8确定组距与组限一组数据的最大值与最小值之差称为极差,用R表示,即 R=最大值-最小值(1)组距:由组数(K)和极差(R)就可确定组距(d),即d≥R/k。(2)组中值:各组取相同的组距,再选择接近数据中的最小值作为第一组的组中值。无上限的开口组的组中值=下限+邻组组距/2无下限的开口组的组中值=上限-邻组组距/2(3)组限:下限=组中值-d/2 上限=组中值+d/2即组距=上限-下限,组中值=(上限+下限)/220分:考点9分布集中趋势的测度(测度值的特点,分组后数据的计算)1、众数(M0)特点:(1)不受极端值的影响(2)一组数据可能没有众数或有几个众数(3)主要用于分类数据,也可用于顺序数据和数值型数据确定:(1)品质数据(分类数据、顺序数据)的众数是频数最大的数据;(2)分组后的数值型数据则为:M0=L+[(f-f-1)/(f-f-1+f-f+1)]●iM0=L+[(f-f-1)/(f-f-1+f-f+1)]●iM0:众数L:众数组的下限组值V:上限值f:众数组的频数f-1:众数前一组的频数f+1:众数后一组的频数i:众数组的组距2、中位数(Me)特点:(1)排序后处于中间位置;\n(1)不受极端值的影响;(2)主要用于顺序数据,也可用数值型数据,但不能用于分类数据;(3)各变量值与中位数的离差绝对值之和最小,即。中数位置的确定:原始数据:(n+1)/2分组数据:中位数的位置=n/2中位数计算:3、四分位数特点:(1)排序后处于25%和75%位置上的值;(2)不受极端值的影响;(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;\n例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:123456789104、均值特点:(1)集中趋势的最常用测度值;(2)一组数据的均衡点所在,体现了数据的必然性特征;(3)易受极端值的影响;(4)用于数值型数据,不能用于分类数据和顺序数据计算:根据分组数据计算加权均值(若不习惯用Mi表示组中值,就用书中的Xi表示)\n5.平均数特点:\n6.几何平均数是均值的另一种类型,主要用于比率或速度的平均.考点10分布离散程度的测度(特点、方差、标准差计算)1、极差特点:(1)一组数据的最大值与最小值之差;(2)离散程度的最简单测度值;(3)易受极端值影响;未考虑数据的分布。计算公式:R=max(xi)-min(xi)2、内距(1)也称四分位差,上四分位数与下四分位数之差:内距=QU-QL(2)反映了中间50%数据的离散程度;(3)不受极端值的影响;(4)可衡量中位数的代表性。3、方差和标准差(1)离散程度的测度值之一;最常用的测度值;(2)反映了数据的分布;反映了各变量值与均值的平均差异;(3)根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。\n注意:方差和标准差的计算都是分组数据的计算,先要判断是总体还是样本。总体方差和标准差(重点看分组数据的计算公式)样本方差和标准差(重点看分组数据的计算公式)4、离散系数(1)标准差与其相应的均值之比;(2)对数据相对离散程度的测度;(3)消除了数据水平高低和计量单位的影响;(4)用于对不同组别数据离散程度的比较。\n计算公式:(分组数据)考点11常用的抽样方法(P96)(优缺点、抽样分布的形式)简单随机抽样、分层、系统、整群抽样中心极限定理:设从均值为μm,方差为σ2/n的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。例题:总体平均数为20,方差σ2=10,样本单位数n=10,样本均值的平均数=20,则样本均值的方差=1。(公式打不出来,老师复习时提过,笔记上应该有)考点12点估计与区间估计(P123小题目)对于给定的置信区间的宽度=2*(允许误差/实际误差)\n允许误差的公式在课本P142。影响置信区间宽度的因素:(1)总体数据的离散程度(σ);(2)样本容量:当置信水平(置信系数)固定时,区间宽度随样本量的增大而增大;(3)置信水平:当样本量给定时,区间宽度随着置信水平的增大而增大。样本容量越大,提供的有关总体的信息越多。常用的置信水平值99%,95%,90%;相应的α值分别为0.01,0.05,0.10。(10分)考点13总体均值(μ)的区间估计(大样本)计算题判断σ2已知还是未知。无论其未知还是已知,其统计量都是Z,但是公式不同。1.假定条件总体服从正态分布(n≧30)2、使用正态分布统计量z3、总体均值u在1-a置信水平下的置信区间(要写成区间的形式)【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%\n考点14样本量的确定(熟记P142公式4.28和P143公式4.30)\n考点15双侧检验与单侧检验(假设的形式)双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0考点16两类错误结合课本P1531.第Ⅰ类错误(弃真错误):原假设为真时拒绝原假设。第Ⅰ类错误的概率记为α,被称为显著性水平。2.第Ⅱ类错误(取伪错误):原假设为假时未拒绝原假设。第Ⅱ类错误的概率记为β。3.两类错误的关系:α与β不可能同时减小或者增大。α越小,犯第Ⅰ类错误的可能性越小,犯第Ⅱ类错误的可能性越大。α比较容易控制,β不易控制。考点17方差分析(定义)(10分)方差分析表补充完整1.检验多个总体均值是否相等的统计方法。通过分析数据的误差来检验各总体的均值是否相等,从而判断分类型自变量对数值型因变量是否有显著影响。2.研究分类型自变量对数值型因变量的影响一个或多个分类型自变量;一个数值型因变量3.有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量;双因素方差分析:涉及两个分类的自变量考点18方差分析的3个基本假定(P187—188)1.每个总体都应服从正态分布。对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。比如,每个行业被投诉的次数必需服从正态分布。\n2.各个总体的方差(σ2)必须相同。即各组观察数据是从具有相同方差的总体中抽取的。比如,四个行业被投诉次数的方差都相等。3.观察值是独立的。比如,每个行业被投诉的次数与其他行业被投诉的次数独立。考点19单因素方差分析(10分)(将所给表补充完整并进行分析)分析步骤:1.提出假设(1)一般提法H0:u1=u2=…=uk自变量对因变量没有显著影响H1:u1,u2,…,uk不全相等自变量对因变量有显著影响(2)注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等.2.构造检验的统计量(1)计算因素各水平(总体)的均值。假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数,公式为:式中:ni为第i个总体的样本观察值个数xij为第i个总体的第j个观察值(2)计算全部观察值的总平均值全部观察值的总和除以观察值的总个数计算公式为\n(3)计算误差平方和SST(总误差平方和):全部观察值xij与总平均值的离差平方和。反映全部观察值的离散状况。其计算公式为前例的计算结果:SST=(57-47.869565)2+…+(58-47.869565)2=115.9295SSA(水平项误差平方和):各组平均值与总平均值的离差平方和;反映各总体的样本均值之间的差异程度,又称组间平方和。该平方和既包括随机误差,也包括系统误差。计算公式为前例的计算结果:SSA=1456.608696SSE(误差项误差平方和):每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内平方和。该平方和反映的是随机误差的大小计算公式为前例的计算结果:SSE=2708(4)计算统计量各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差。计算方法是用误差平方和除以相应的自由度。三个平方和对应的自由度分别是SST的自由度为n-1,其中n为全部观察值的个数SSA的自由度为k-1,其中k为因素水平(总体)的个数SSE的自由度为n-k组间均方MSA(SSA的均方)计算公式为\n组内方差MSE(SSE的均方)计算公式为检验统计量F将MSA和MSE进行对比,即得到所需要的检验统计量F当H0为真时,二者的比值服从分子自由度为(k-1)、分母自由度为(n-k)的F分布,即3.统计决策将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出对原假设H0的决策。根据给定的显著性水平α,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fa(k-1,n-k)。a若F>Fa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响;若F查看更多