- 2022-08-13 发布 |
- 37.5 KB |
- 149页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学-07抽样推断
统计学─从数据到结论王二威\n第七章抽样推断\n引言森林管理森林的现有储量森林以往的生长情况森林未来的生长情况\n几个基本概念总体和样本;样本容量参数和统计量新技术下日光灯的寿命候选人的支持率\n7.1抽样推断概述抽样推断的涵义以抽样调查为基础用样本资料估计和判断总体资料抽样推断的特征按随机的原则抽取样本以样本指标推算总体指标抽样误差可以事先计算和控制\n7.1抽样推断概述A公司人事部经理被分配一项任务,为公司2500名管理人员制定一份简报,其中包括管理人员的平均薪金和公司中已完成管理培训程序的管理人员所占比率。如果没有2500管理人员具体的信息,假定选取30名管理人员组成一个样本进行研究分析\n7.1抽样推断概述:抽样的组织方式1.简单随机抽样直接抽选法标签法随机数码表法2.类型抽样(分层抽样)等比例分类抽样不等比例分类抽样\n3.等距抽样的:亦叫机械抽样先将总体各单位按某一标志排队然后按等距离抽取样本单位7.1抽样推断概述:抽样的组织方式\n等距抽样的操作程序:第一步:编制抽样框将全及总体按有关标志(x)从低到高顺序排队列出辅助标志(f)将辅助标志依次累计\n例某村民小组有30户农户,若调查该村民小组所有农户2005年人均收入水平,可编制成如下抽样框:\n序号1234567891011121314152004年人均收入(十元)x185187190198201218256260274290295325340366368人口数(人)f425343345421543人口数累计4611141821242833373940454952抽中户序号1617181920212223242526272829302004年人均收入(十元)x370371388402410446453470477490499502503516520人口数(人)f423344243454335人口数累计56586164687274788185909497100105抽中户抽样框\n第二步:计算抽样距离(K)如果抽取6户进行调查,则:抽样距离K=105÷6=17.5\n第三步:抽取调查单位半距起点、等距抽样\n半距起点、等距抽样以第一个抽样距离的一半处作为第一个调查单位以后毎隔一个抽样距离抽取一个调查单位直到最后一个调查单位抽出为止\n以抽取6户为例,抽取的户数依次为:第1户n1=17.5÷2=8.75为第3号户第2户n2=8.75+17.5=26.25为第8号户第3户n3=26.25+17.5=43.75为第13号户第4户n4=43.75+17.5=61.25为第19号户第5户n5=61.25+17.5=78.75为第24号户第6户n6=78.75+17.5=96.25为第28号户抽中户的位置可用图形表示如下:n1n2n3n4n5n65k6k4k3k2k1k\n第四步:对抽中单位进行代表性检查计算样本平均数与全及平均数之比值其比值以人均收入水平上下不超过3%为有代表性。\n现以半距起点、等距抽取的6户为例,检查其代表性30户的人均收入=∑xf/∑f=37990÷105=361.8(十元)6户的人均收入=∑x/n=(190+260+340+402+477+503)÷6=362(十元)二者比值为:362/361.8=100.06%可以看出,抽中的6户有足够的代表性,可以作为样本进行调查。\n4、整群抽样将总体单位划分成若干群(R)以群为单位,从中随机抽取一部分群(r)对中选群的所有单位进行全面调查。例如:对某镇农户进行家计调查,以自然村庄划分群,抽取若干个自然村庄,对中选村庄的所有农户都进行调查。D村庄L村庄M村庄N村庄J村庄A村庄B村庄C村庄E村庄F村庄G村庄H村庄K村庄\n7.1抽样推断概述:抽样的组织方式5.多阶段抽样类型抽样和整群抽样的结合\n7.1抽样推断概述:抽样方法重复抽样亦称回置抽样每抽出一个单位在登记后仍放回去同一个单位有多次被重复抽中的可能不重复抽样亦称不回置抽样已经被抽出的单位不再放回每个单位只有被抽中一次的可能\n7.2抽样分布及抽样推断理论依据——基础知识概率随机变量(概率)分布正态分布\n7.2抽样分布及抽样推断理论依据——基础知识:概率概率是0和1之间的一个数目,表示某个事件发生的可能性或经常程度。你买彩票中大奖的机会很小(接近0)但有人中大奖的概率几乎为1你被流星击中的概率很小(接近0)但每分钟有流星击中地球的概率为1你今天被汽车撞上的概率几乎是0但在北京每天发生车祸的概率是1。\n7.2抽样分布及抽样推断理论依据——基础知识:概率发生概率很小的事件称为小概率事件(smallprobabilityevent);小概率事件不那么可能发生,但它往往比很可能发生的事件更值得研究。在某种意义上,新闻媒体的主要注意力大都集中在小概率事件上。\n7.2抽样分布及抽样推断理论依据——基础知识:随机变量试验随机变量可能的取值抽查100个产品取到次品的个数0,1,2,…,100一家餐馆营业一天顾客数0,1,2,…抽查一批电子原件使用寿命X0新建一座住宅楼半年完成工程的百分比0X100\n7.2抽样分布及抽样推断理论依据——基础知识:概率分布随机变量取一切可能值或范围的概率或概率的规律称为概率分布(probabilitydistribution,简称分布)。概率分布可以用各种图或表来表示;一些可以用公式来表示。概率分布是关于总体的概念。有了概率分布就等于知道了总体。\n7.2抽样分布及抽样推断理论依据——基础知识:正态分布取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量(continuousvariable)。换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。它们的概率分布很难准确地用离散变量概率的条形图表示。\n7.2抽样分布及抽样推断理论依据——基础知识:正态分布想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为1;完全可以重新设置量纲,使得这些矩形条的面积和为1。不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为1。该曲线即所谓概率密度函数(probabilitydensityfunction,pdf),简称密度函数或密度。下图为这样形成的密度曲线。\n逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。\n7.2抽样分布及抽样推断理论依据——基础知识:正态分布正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。一个正态分布用N(m,s)表示;其中m为均值,而s为标准差。也常用N(m,s2)来表示,这里s2为方差(标准差的平方)。\n7.2抽样分布及抽样推断理论依据——基础知识:正态分布标准差为1的正态分布N(0,1)称为标准正态分布(standardnormaldistribution)。标准正态分布的密度函数用f(x)表示。任何具有正态分布N(m,s)的随机变量X都可以用简单的变换(减去其均值m,再除以标准差s):Z=(X-m)/s,而成为标准正态随机变量。这种变换和标准得分的意义类似。\n两条正态分布的密度曲线。左边是N(-2,0.5)分布,右边是N(0,1)分布\n正态分布当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面的面积。比如,标准正态分布变量落在区间(0.51,1.57)中的概率,就是在标准正态密度曲线下面在0.51和1.57之间的面积。很容易得到这个面积等于0.24682;也就是说,标准正态变量在区间(0.51,1.57)中的概率等于0.24682。如果密度函数为f(x),那么这个面积为积分\n标准正态变量在区间(0.51,1.57)中的概率\n7.2抽样分布及抽样推断理论依据——基础知识:参数与统计量总体参数总体均值,总体成数,总体标准差,总体方差统计量抽样平均数,抽样成数,样本标准差,样本方差\n7.2抽样分布及抽样推断理论依据——P200三种分布总体分布样本分布抽样分布\n所有样本指标(如均值、成数、方差等)所形成的分布称为抽样分布是一种理论概率分布随机变量是样本统计量样本均值,样本成数等结果来自容量相同的所有可能样本抽样分布(概念要点)\n样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下均值和方差总体分布14230.1.2.3\n样本均值的抽样分布(一个例子)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)\n样本均值的抽样分布(一个例子)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5x\n所有样本均值的均值和方差式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n\n样本均值的分布与总体分布的比较抽样分布=2.5σ2=1.25总体分布14230.1.2.3P(x)1.00.1.2.31.53.04.03.52.02.5x\n7.2抽样分布及抽样推断理论依据——大数定律大数定律是阐述大量随机变量的平均结果具有稳定性的一系列定律的总称独立同分布贝奴利大数定律意义:随着抽样单位数的增加,样本平均数有接近于总体平均数的趋势\n样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)\n正态分布均匀分布总体分布样本均值分布(n=2)样本均值分布(n=10)样本均值分布(n=30)指数分布\n中心极限定理当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体X\n1.抽样调查的主要目的在于()。计算和控制误差B.了解总体单位情况C.用样本来推断总体D.对调查单位作深入的研究2.抽样调查所必须遵循的基本原则是()。随意原则B.可比性原则C.准确性原则D.随机原则3.在下列情况下,计算不重复抽样的抽样平均误差可以采用重复抽样公式()。A.总体单位数很多B.抽样单位数很少C.抽样单位数对总体单位数的比重很小;D.抽样单位数对总体单位数的比重较大。\n4.一般所说的大样本是指样本容量()。小于10B.不大于10C.小于30D.不小于305.将总体单位按一事实上标志排队,并按固定距离抽选样本点的方法是()。A.类型抽样B.等距抽样C.整群抽样D.简单随机抽样6.按地理区域划片所进行的区域抽样,其抽样方法属于()。A.纯随机抽样B.等距抽样C.类型抽样D.整群抽样\n7.4参数估计7.4.1抽样误差概念7.4.2影响抽样误差大小的影响因素7.4.3抽样平均误差的计算7.4.4抽样极限误差\n7.4.1抽样误差的概念抽样误差是样本指标和总体指标之间数量上的差别。以数学符号表示:\n理解抽样误差可以从两方面着手:抽样误差是指由于抽样的随机性而产生的那一部分代表性误差,不包括登记性误差。也不包括可能发生的偏差。\n误差登记性误差代表性误差在调查过程中由于主客观原因引起的登记、汇总或计算等方面的差错而造成的误差由于样本结构和总体结构不同,样本总体不能完全代表总体而产成的样本指标与总体指标的误差偏差随机误差破坏了抽样的随机原则而产生的误差实际误差抽样平均误差是样本指标与总体指标的差别所有可能出现的样本指标的标准差遵守随机原则但可能抽到各种不同的样本而产生的误差\n样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量的某可能值抽样分布样本统计量所有可能值的概率分布主要样本统计量平均数 比率(成数) 方差\n抽样平均误差是反映抽样误差一般水平的指标,其实质是指抽样平均数的标准差,它反映了是指样本指标与总体指标的平均离差程度,也就是样本指标与总体指标的标准差,通常用来表示。抽样平均误差\n可以作为衡量样本指标对于全及指标代表性程度的一个尺度。是计算样本指标与全及指标之间变异范围的一个根据。在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。抽样平均误差\n7.1.2影响抽样平均误差的因素1.总体各单位标志值的差异程度;2.样本的单位数;3.抽样的方法;4.抽样调查的组织形式。差异越大,抽样误差越大单位数越多,抽样误差越小重复抽样的抽样误差比不重复抽样的大\n1.重复抽样的条件下式中,n为样本容量;为总体标准差。一般情况下是未知,可用样本标准差替代。\n式中,n为样本容量;为总体成数标准差,一般情况下是未知,可用样本成数标准差替代。.\n2.不重复抽样的条件下式中,N为总体单位数;n为样本容量;σX2为总体方差。一般情况下是未知,可用样本方差替代σx2。式中,N为总体单位数;n为样本容量;σP2为总体成数的方差。一般情况下是未知,可用样本成数方差替代σp2。\n抽样平均数的平均误差例题:某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平资料如下月平均工资524534540550560580600660工人数469108643计算样本平均数和抽样平均误差。\n解:先列表xfxf5244209612965184534632046764056540948604003600550105500100100056084480005806348040024006004240016006400660319801000030000502800052640\n计算平均数即平均工资:\n抽样成数的平均误差例题:某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。解:已知p=60%、n=100、N=500\n练习:要估计某高校10000名在校生的近视率,现随机从中抽取400名,检查有近视眼的学生320名,试计算样本近视率的抽样平均误差。解:根据已知条件:1)在重复抽样条件下,样本近视率的抽样平均误差:\n2)在不重复抽样条件下,样本近视率的抽样平均误差:计算结果表明,用样本的近视率来估计总体的近视率其抽样平均误差为2%左右(即用样本的近视率来估计总体的近视率其误差的绝对值平均说来在2%左右)。\n7.1.4抽样极限误差抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差可允许的最大范围。即:或maxmax\n上面两式可改写成以下两个不等式,即:为总体平均数的估计区间(置信区间)为总体成数的估计区间(置信区间)\n例:要估计某乡粮食亩产量和总产量,从该乡2万亩粮食作物中抽取400亩,求得其平均亩产量为400公斤。如果确定抽样极限误差为5公斤,试估计该乡粮食亩产量和总产量所在的置信区间。\n即该乡粮食亩产量的区间落在400±5公斤的范围内,即在395~405公斤之间。粮食总产量在20000×(400±5)公斤,即在790~810万公斤之间\n例:要估计某高校10000名在校生的近视率,现随机从中抽取400名,计算的近视率为80%,如果确定允许误差范围为4%,试估计该高校在校生近视率所在的置信区间。该校学生近视率的区间落在80%±4%的范围内,即在76%~84%之间。\n抽样误差的概率度基于概率估计要求,抽样极限误差△x或△p通常需要以抽样平均误差μx或μp为标准单位来衡量。把抽样极限误差△x或△p分别除以μx或μp得相对数t,表示误差范围为抽样平均误差的t倍。t是测量抽样估计可靠程度的一个参数,称为抽样误差的概率度。\n即,抽样极限误差是抽样平均误差的多少倍。我们把倍数t称为抽样误差的概率度\n参数估计一、总体参数的点估计二、总体参数的区间估计\n总体参数的点估计(一)参数点估计的基本特点(二)抽样估计的优良标准\n(一)参数点估计的基本特点基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。例如,样本平均值代表总体平均数;以抽样调查所获得的人口结构代表总体的人口结构等。\n(二)抽样估计的优良标准1.无偏性作为总体参数估计量的样本统计量,要求其期望值(平均数)等于被估计的总体参数。这样的估计量称为无偏估计量。2.有效性以抽样指标估计总体指标要求作为优良估计量的方差应比其它估计量的方差小。3.一致性作为优良估计量的样本容量充分大时,抽样指标也应充分地靠近总体指标。即方差越小的估计量就越有效一般情况下均可满足\n总体参数的区间估计(一)区间估计的基本特点及要素(二)总体平均数(成数)的区间估计\n(一)区间估计的基本特点及要素1.区间估计的基本特点根据给定的概率保证度,利用实际抽样资料,指出总体参数可能存在的区间范围。这个区间称为置信区间。2.区间估计必须具备的三个要素(1)估计值(2)抽样误差范围(3)概率保证程度\n抽样估计的置信度抽样估计的置信度就是表明样本指标与总体指标的误差不超过一定范围的概率保证程度,它一般用F(t)表示。又称抽样估计的概率保证程度。\n1、总体平均数抽样估计的置信度2、总体成数抽样估计的置信度\n(二)总体平均数(成数)的区间估计表达式其中,为极限误差成数其中,为极限误差\n(二)总体平均数(成数)的区间估计1.计算抽样平均数和标准差:或抽样成数平均数和成数标准差:简单随机抽样下的一般步骤2.计算平均误差:5.结果3.计算极限误差:4.计算区间的上下限:如:可以在m%的概率保证程度下,估计*******在**~**之间。如果给定的是概率度,则可查《正态分布概率表》获得。这是上面所计算的上下限\n练习:某制造厂的产品重量服从正态分布,其总体标准差σ=15千克,平均重量未知。现随机抽取一个n=250的样本,计算结果是=65千克。以95%的置信度估计总体平均重量的置信区间。解:本题已知条件为:样本容量n=250,X~N(65,15);置信水平为95%;查正态概率双侧临界值表有:t=1.96\nΔx=tμx=1.96×0.9487=1.86则,65-1.86≤≤65+1.86即95%的估计区间为:63.14≤≤66.86计算结果说明,我们有95%的把握程度认为总体平均数介于63.14千克到66.86千克之间。\n练习2:对某批成品按重复抽样方法抽选200件检查,其中废品8件,以95%的把握程度估计该批成品的废品率范围。\n从某厂生产的5000只灯泡中,随机重复抽取100只,对其使用寿命进行调查,调查结果如表使用寿命(小时)组中值x产品数量fxf3000以下3000—40004000—50005000以上25003500450055002305018500010500022500099000-1480-8401601160677120021168000128000024220800合计—100434000—53440000\n又该厂质量规定使用寿命在3000小时以下为不合格品。(1)按重复抽样方法,以95.45%的概率保证程度估计该批灯泡的平均使用寿命;(2)按重复抽样方法,以68.27%的置信度估计该批灯泡的合格率。\n必要抽样数目的确定确定适当样本容量的意义1.在一定的误差允许下,样本容量太大,则会增大工作量,造成人力、财力和时间的浪费。2.如查改变了对误差的要求,则可以通过增减样本容量来控制抽样误差的大小。\n样本容量的确定由于\n判断1.抽样误差的产生是由于破坏了随机原则所造成的。()2.在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。()3.样本指标是一个客观存在的常数。()4.抽样误差产生的原因是抽样调查时违反了随机原则。()5.抽样平均误差就是总体指标的标准差。()6.同样条件下,重复抽样误差一定大于不重复抽样误差。()\n7.5假设检验7.5.1假设检验与参数估计7.5.2假设检验的流程7.5.3单个总体平均数的假设检验7.5.4两个总体均值的假设检验7.5.5总体成数的假设检验\n“骂人”背后的哲学我从来没有骂过人你骂过人否定一个事物是比较容易的7.5假设检验\n7.5.1假设检验与参数估计由统计资料得知,1989年某地新生儿的平均体重3190g,现从1990年的新生儿中随机抽取100个,测得其平均体重3210g,问1990年的新生儿和1989年相比,体重有无显著差异?\n7.5.1假设检验与参数估计参数估计是用样本统计量估计总体参数的方法,总体参数在估计之前是未知的。假设检验则是先对的值提出一个假设,然后利用样本信息去检验这个假设是否成立。\n统计方法统计方法统计描述统计推断参数估计假设检验\n7.5.1假设检验与参数估计1989=3190g1990样本=3210g差异20g原因?抽样的随机性?\n7.5.2假设检验的流程1.建立假设1990年的新生儿平均体重为原假设:1990年的新生儿平均体重为3190g备择假设:1990年的新生儿平均体重不等于3190g\n7.5.2假设检验的流程2.确定统计量影响因素很多:单一样本的比较,多个样本的比较大样本?小样本?总体方差是否已知?\n7.5.2假设检验的流程本题目,样本容量100是大样本,总体方差已知为Z作为检验统计量\n7.5.2假设检验的流程4.选择显著性水平(确定小概率)事先给定的形成拒绝域的小概率通常取a=0.01,a=0.05或a=0.10;这表明,当作出接受原假设的决定时,其正确的概率为99%,95%或90%。拒绝域:原假设H0成立条件下,统计量落入的小概率区域。接受域:统计量能够取值的非拒绝域。\n0拒绝域拒绝域非拒绝域(1)双侧检验\n7.5.2假设检验的流程5.确定决策规则找出统计量分布的临界值计算拒绝域6.计算统计量的实际值并作出决策Z=2.5\n假设检验的内容假设检验总体均值的假设检验总体比例的假设检验总体方差的假设检验s未知s已知大样本小样本两个总体均值差的假设检验\n前情回顾假设检验的步骤1、建立原假设和备择假设2、确定适当统计量3、选择显著性水平4、确定决策规则(找出拒绝域)5、计算统计量实际值并进行决策\n7.5.4单个总体平均数的假设检验1.正态总体,方差已知\n7.5.4单个总体平均数的假设检验1.正态总体,方差已知双侧检验P219例7-11单侧检验P220例7-12\n7.5.4单个总体平均数的假设检验2.正态总体,方差未知,大样本双侧检验P221例7-132.正态总体,方差未知,小样本P222例7-14\n7.5.5两个总体平均数的假设检验1.两正态总体,两方差已知,大样本P223例7-15\n7.5.5两个总体平均数的假设检验2.两正态总体,两方差未知,大样本\n7.5.5两个总体平均数的假设检验3.两正态总体,两方差未知,小样本T统计量,t分布自由度取修正值P224例7-16\n7.6方差分析7.6.1基本概念7.6.2基本思想7.6.3基本假设7.6.4单因素方差分析\n7.6.1什么是方差分析?(概念要点)检验多个总体均值是否相等通过对各观察数据误差来源的分析来判断多个总体均值是否相等\n什么是方差分析?(一个例子)表8-1该饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8【例8.1】某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表8-1。试分析饮料的颜色是否对销售量产生影响。\n什么是方差分析?(例子的进一步分析)检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的平均销售量,也就是检验下面的假设H0:1234H1:1,2,3,4不全相等检验上述假设所采用的方法就是方差分析方差分析问题就转换成研究不同水平下各个总体的均值是否有显著差异的问题。\n构造检验的统计量(前例计算结果)表8-2四种颜色饮料的销售量及均值超市(j)水平A(i)无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观察值个数x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值x=28.695\n7.6.2方差分析的基本思想和原理(几个基本概念)因素或因子所要检验的对象称为因子要分析饮料的颜色对销售量是否有影响,颜色是要检验的因素或因子水平因素的具体表现称为水平A1、A2、A3、A4四种颜色就是因素的水平观察值在每个因素水平下得到的样本值每种颜色饮料的销售量就是观察值\n方差分析的基本思想和原理(几个基本概念)试验这里只涉及一个因素,因此称为单因素四水平的试验总体因素的每一个水平可以看作是一个总体比如A1、A2、A3、A4四种颜色可以看作是四个总体样本数据上面的数据可以看作是从这四个总体中抽取的样本数据\n方差分析的基本思想和原理(两类误差)随机误差在因素的同一水平(同一个总体)下,样本的各观察值之间的差异;比如,同一种颜色的饮料在不同超市上的销售量是不同的不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差\n方差分析的基本思想和原理(两类误差)2.系统误差在因素的不同水平(不同总体)下,各观察值之间的差异比如,同一家超市,不同颜色饮料的销售量也是不同的。这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差\n方差分析的基本思想和原理(两类方差)组内方差因素的同一水平(同一个总体)下样本数据的方差比如,无色饮料A1在5家超市销售数量的方差组内方差只包含随机误差组间方差因素的不同水平(不同总体)下各样本之间的方差比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差组间方差既包括随机误差,也包括系统误差\n方差分析的基本思想和原理(方差的比较)如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异\n1.比较两类误差,以检验均值是否相等2.比较的基础是方差比3.如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的4.误差是由各部分的误差占总误差的比例来测度的方差分析的基本思想和原理\n7.6.3方差分析中的基本假定每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每种颜色饮料的销售量必需服从正态分布各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的比如,四种颜色饮料的销售量的方差都相同观察值是独立的比如,每个超市的销售量都与其他超市的销售量独立\n方差分析中的基本假定在上述假定条件下,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题如果四个总体的均值相等,可以期望四个样本的均值也会很接近四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分样本均值越不同,我们推断总体均值不同的证据就越充分\n方差分析中基本假定如果原假设成立,即H0:m1=m2=m3=m4四种颜色饮料销售的均值都相等没有系统误差这意味着每个样本都来自均值为、方差为2的同一正态总体Xf(X)1234\n方差分析中基本假定如果备择假设成立,即H1:mi(i=1,2,3,4)不全相等至少有一个总体的均值是不同的有系统误差这意味着四个样本分别来自均值不同的四个正态总体Xf(X)3124\n受不同因素的影响,研究所得的数据会不同。造成结果差异的原因可分成两类:一类是不可控的随机因素的影响,这是人为很难控制的一类影响因素,称为随机变量;另一类是研究中人为施加的可控因素对结果的影响,称为控制变量。\n根据控制变量的个数,可以将方差分析分成单因素方差分析和多因素方差分析。单因素方差分析的控制变量只有一个(但一个控制变量可以有多个观察水平)多因素方差分析的控制变量有多个。\n表8-2四种颜色饮料的销售量及均值超市(j)水平A(i)无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观察值个数x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值x=28.695\n双因素方差分析(一个例子)不同品牌的彩电在各地区的销售量数据品牌(因素A)销售地区(因素B)B1B2B3B4B5A1A2A3A4365345358288350368323280343363353298340330343260323333308298【例】有四个品牌的彩电在五个地区销售,为分析彩电的品牌(因素A)和销售地区(因素B)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据,见下表。试分析品牌和销售地区对彩电的销售量是否有显著影响?\n7.6.4单因素方差分析的数据结构观察值(j)因素(A)i水平A1水平A2…水平Ak12::nx11x12…x1kx21x22…x2k::::::::xn1xn2…xnk\n单因素方差分析的步骤提出假设构造检验统计量统计决策\n提出假设一般提法H0:m1=m2=…=mk(因素有k个水平)H1:m1,m2,…,mk不全相等对前面的例子H0:m1=m2=m3=m4颜色对销售量没有影响H0:m1,m2,m3,m4不全相等颜色对销售量有影响\n构造检验的统计量为检验H0是否成立,需确定检验的统计量构造统计量需要计算各水平的均值全部观察值的总均值离差平方和均方(MS)\n构造检验的统计量(计算水平的均值)假定从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体的样本均值为该样本的全部观察值总和除以观察值的个数计算公式为式中:ni为第i个总体的样本观察值个数xji为第i个总体的第j个观察值\n构造检验的统计量(计算全部观察值的总均值)全部观察值的总和除以观察值的总个数计算公式为\n构造检验的统计量(前例计算结果)表8-2四种颜色饮料的销售量及均值超市(j)水平A(i)无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平均值观察值个数x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总均值x=28.695\n构造检验的统计量(计算总离差平方和SST)全部观察值与总平均值的离差平方和反映全部观察值的离散状况总离差平方和(总变异)其计算公式为前例的计算结果:SST=(26.5-28.695)2+(28.7-28.695)2+…+(32.8-28.695)2=115.9295\n构造检验的统计量(计算误差项平方和SSW)每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内离差平方和该平方和反映的是随机误差的大小误差项平方和(组内变异或是组内平方和)计算公式为前例的计算结果:SSW=39.084\n构造检验的统计量(计算水平项平方和SSB)各组平均值与总平均值的离差平方和反映各总体的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为前例的计算结果:SSB=76.8455\n构造检验的统计量(三个平方和的关系)P259总离差平方和(SST)、误差项离差平方和(SSW)、水平项离差平方和(SSB)之间的关系SST=SSW+SSB\n构造检验的统计量(三个平方和的作用)SST反映了全部数据总的误差程度;SSW反映了随机误差的大小;SSB反映了随机误差和系统误差的大小如果原假设成立,即H1=H2=…=Hk为真,则表明没有系统误差,组间平方和SSB除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小为检验这种差异,需要构造一个用于检验的统计量\n构造检验的统计量(计算均方MS)各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差计算方法是用离差平方和除以相应的自由度三个平方和的自由度分别是SST的自由度为n-1,其中n为全部观察值的个数SSB的自由度为k-1,其中k为因素水平(总体)的个数SSW的自由度为n-k\n构造检验的统计量(计算均方MS)SSB的均方也称组间方差,记为MSB,计算公式为SSW的均方也称组内方差,记为MSW,计算公式为\n构造检验的统计量(计算检验的统计量F)将MSB和MSW进行对比,即得到所需要的检验统计量F当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即\n构造检验的统计量(F分布与拒绝域)如果均值相等,F=MSB/MSW1aF分布F(k-1,n-k)0拒绝H0不能拒绝H0F\n统计决策将统计量的值F与给定的显著性水平的临界值F进行比较,作出接受或拒绝原假设H0的决策根据给定的显著性水平,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值F若F>F,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若FF,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响\n单因素方差分析表(基本结构)方差来源平方和SS自由度df均方MSF值组间(因素影响)组内(误差)总和SSBSSWSSTk-1n-kn-1MSBMSWMSBMSW对照输出结果的ANOVA表\n本章小结7.1抽样推断概述抽样的组织方式、抽样方法7.27.3抽样推断的理论依据中心极限定理:样本均值的分布服从正态分布7.4参数估计抽样平均误差、抽样极限误差、概率度点估计、区间估计\n本章小结7.5假设检验抽样的组织方式、抽样方法7.6方差分析查看更多