- 2022-09-01 发布 |
- 37.5 KB |
- 79页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学第10章
第10章方差分析与试验设计10.1方差分析引论10.2单因素方差分析10.3方差分析中的多重比较10.4双因素方差分析10.5试验设计初步\n10.1方差分析引论10.1.1方差分析及其有关术语10.1.2方差分析的基本思想和原理10.1.3方差分析中的基本假定10.1.4问题的一般提法\n10.1.1方差分析及其有关术语(1)检验多个总体均值是否相等(2)研究定性的自变量(条件)对数值型因变量(结果)的影响(3)有单因素方差分析和双因素方差分析•单因素方差分析:涉及一个分类的自变量(条件)•双因素方差分析:涉及两个分类的自变量(条件)\n例10.1为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了23家不同的企业作为样本.得最近一年中消费者对企业投诉的次数如下表.表10-1消费者对四个行业的投诉次数行业观测值零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758\n续(1)分析四个行业之间的服务质量是否有显著差异,也就是要判断不同“行业”的“投诉次数”是否有显著差异.可归结为检验这四个行业被投诉次数的均值是否相等.(2)如果它们的均值相等,就意味着它们之间的服务质量没有显著差异;如果均值不全相等,则表示它们之间的服务质量有显著差异.\n几个基本概念1.对投诉次数是否有影响的那些(可以控制的)条件称为因素.2.为了考察一个因素的影响,一般把他严格控制在几个不同的状态或等级上,把因素的每一个状态或等级称为一个水平.3.只考察一个因素的方差分析,称为单因素方差分析.4.同时考察两个或两个以上因素的方差分析,称为多因素方差分析.5.假定各水平的数据是来自正态分布总体的随机样本,各水平的样本互相独立,且方差相等.\n二.方差分析的基本思想和原理1.两类误差及两类方差(1)每个水平为一个总体(2)每个水平的一组观察值为总体的一个随机样本,同一水平下样本观察值之间的差异称为随机误差,用组内方差来表示.(3)不同水平下样本观察值之间的差异可能是由于不同水平引起的,这种误差称为系统误差,但也包含随机误差.不同水平样本观察值之间差异用组间方差来表示,即组间方差包括随机误差,也包括系统误差.\n2.方差的比较(1)如果不同水平对试验结果没有不同影响,那么组间方差中只包括随机误差.这时,组间方差与组内方差应该相近,组间方差与组内方差之比接近1.(2)如果不同水平对试验结果有不同影响,那么组间方差除了随机误差之外还包括系统误差.这时,组间方差就会大于组内方差,组间方差与组内方差之比就会大于1.(3)方差分析就是通过这种方差的比较,作出判断.\n三.方差分析中的基本假定(1)每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本.(2)各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的(3)样本是独立的即每个行业的样本是独立抽取的\n三.方差分析中的基本假定(1)每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本.(2)各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的(3)样本是独立的即每个行业的样本是独立抽取的\n四.问题的一般提法(1)要检验k个水平(总体)的均值是否相等,需要提出如下假设:不全相等对例10.1,设为零售业被投诉次数的均值,为旅游业被投诉次数的均值,为航空公司被投诉次数的均值,为家电制造业被投诉次数的均值,则提出的假设为不全相等\n10.2单因素方差分析(one-wayanalysisofvariance)一.数据结构二.分析步骤三.关系强度的测量四.用Excel进行方差分析\n一.数据结构表10-2单因素方差分析的数据结构\n二.分析步骤(一)提出假设对于k个水平的单因素方差分析,原假设和备择假设为不全相等\n(二)构造检验的统计量1.水平的样本均值:设第I水平有 个观察值,则第i个水平的样本均值2.样本的总均值其中(10.1)(10.2)\n消费者对四个行业的投诉次数及均值表10-3\n3.计算误差平方和(1)总误差平方和(sumofsquaresfortotal)用SST表示总误差平均和,反映全部数据的离散情况,即(10.3)例10.1的总误差平方和为\n(2)水平项误差平方和(sumofsquaresforfactorA)用SSA表示水平项误差平方和,反映各水平样本数据之间的异差程度,即对于例10.1有(10.4)\n(3)误差项平方和(sumofsquaresforerror)用SSE表示误差项平方和,反映各水平数据的离散情况,即对例10.1,零售业的误差项平方和(10.5)\n续类似可得从而\n三个平方和的关系总误差平方和SST、误差项平方和SSE及水平项误差平方和SSA之间的关系SST=SSA+SSE即(10.6)\n续(三个平方和的关系)由于从而在实际计算时,一般先计算SST和SSA,而SSE=SST-SSA对于例10.1有4164.6087=1456.6087+2708\n4.计算统计量(1)各个误差平方和的大小与数据的多少有关,各个误差平方和的平均称为平均平方,也称均方或方差,用MS表示.(2)平均平方是离差平方和除以相应的自由度(3)三个平方和的自由度分别为SST的自由度为n-1SSA的自由度为k-1SSE的自由度为\n续(计算统计量)(4)SSA的平均平方记为MSA,即(5)SSE的平均平方记为MSE,即(10.7)关于自由度,存在如下的关系式(10.8)对于例10.1\n续(计算统计量)如果 成立,那么(10.9)对于例10.1,求得\n(三)统计决策对于规定的显著性水平,由于成立时根据小概率原理,若则拒绝.认为各水平均值 全相等.称所考察因素的各水平间差异显著,或各水平均值间有显著差异.而当则不能拒绝.这时称各水平之间无显著差异,即认为成立,各水平的均值都相等.\n续(统计决策)对于例10.1,若取 ,则由于从而拒绝.认为四个不同行业的平均投诉次数有显著差异,即不同行业的平均投诉次数是不同的.\n图10-4统计量F的抽样分布F(k-1,n-k)0F\n(四)方差分析表(analysisofvariancetable)前面这些计算结果可以列成表格的形式,称为方差分析表.误差来源平方和自由度均方F值FαSSdfMS组间SSAk-1MSAMSA/MSE组内SSEn-kMSE-总差异SSTn-1--表10-4方差分析表\n例10.1的方差分析表表10-5\n三.关系强度的测量拒绝原假设则表明因素(自变量)与观测值之间有关系,而组间平方和(SSA)则度量了自变量(行业)对因变量(投诉次数)的影响大小.因此变量间关系的强度用用自变量平方和(SSA)总平方和(SST)的比例大小来反映,其平方根R就可以用来测量两个变量之间的关系强度.(10.10)对于例10.1,得\n四.用Excel进行单因素方差分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在数据分析工具中选择【单因素方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(也可根据需要确定)在【输出区域】中选择输出位置\n表10-6用Excel进行方差分析的步骤\n表10-7Excel输出的方差分析结果\n10.3方差分析中的多重比较当方差分析拒绝 ,从而接受 时,认为各水平均值不全相等.多重比较(multiplecomparisonprocedures)是通过对各均值之间的配对比较来进一步检验到底那些均值之间有显著差异.多重比较的方法有多种,这里介绍最小显著差异法.\n最小显著差异法(LSD)LSD方法是一种检验两个总体均值是否相等的t检验方法,由(8.8)式其中 是由两个样本的数据求得.当对多个总体进行比较时,由于MSE是把k个水平的全部样本数据求得,从而用MSE代替.于是统计量t为\n多重比较的步骤(1)提出原假设和备择假设(3)若则拒绝 ,称 和 有显著差异,否则不能拒绝.即接受 ,称 和 没有显著差异.(2)检验统计量\nLSD方法LSD方法通常并不按t值作检验,而是基于 作检验.(1)提出 和(3)若则拒绝 ,否则接受.(2)计算LSD(10.11)\n例10.1的LSD方法已知取 ,则,从而多重比较的结果可以列成表格形式,称为多重比较表.\n例10.1的多重比较表(LSD法)24*111014*113表中差值右上角标者表示相应的\n10.4双因素方差分析一、双因素方差分析及其类型(1)同时分析两个因素(因素A和因素B)对试验结果的影响.(2)分别对两个因素进行检验,考察各自的作用.(3)如果因素A和因素B对试验结果的影响是相互独立的,则可以分别考察各自的影响,这种双因素方差分析称为无交互作用的双因素方差分析.(4)如果因素A和因素B除了各自对试验结果的影响外,还产生额外的新影响,这种额外的影响称为交互作用,这时的双因素方差分析则称为有交互作用的双因素方差分析.(5)无交互作用的双因素方差分析,相当于对每个因素分别进行单因素方差分析.\n例10.3品牌地区地区1地区2地区3地区4地区5品牌1品牌2品牌3品牌4365345358288350368323280343363353298340330343260323333308298表10-8不同品牌的彩电在各地区的销售量数据有四个品牌的彩电在五个地区销售为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据.试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05)\n二、无交互作用的双因素方差分析(一)数据结构双因素方差分析的基本假定(1)每个水平组合的观察值,是来自正态总体的简单随机样本.(2)各正态总体的方差都相等.(3)各随机样本相互独立.\n表10-9双因素方差分析数据结构\n各水平样本均值与样本总均值(1)A(行)因素第i水平的样本均值(2)B(列)因素第j水平的样本均值(3)样本总平均(10.12)(10.13)(10.14)\n(二)分析步骤1.提出假设(1)对A(行)因素提出的假设为不全相等(2)对B(列)因素提出的假设为不全相等\n2.构造检验统计量(1)计算误差平方和总误差平方和反映全部数据的离散情况(10.15)\n续(计算误差平方和)(10.16)SSR反映A(行)因素误差平方和(10.17)SSC反映B(列)因素误差平方和(10.18)SSE反映随机误差平方和即SST=SSR+SSC+SSE(10.19)\n续(计算均方)各个误差平方和的大小与数据的多少有关,各个误差平方和的平均称为均方(平均平方).均方是离差平方和除以相应的自由度.各个平方和的自由度分别为SST的自由度为n-1SSR的自由度为k-1SSC的自由度为r-1SSE的自由度为且\n续(计算均方)SSR的均方记为MSR,即SSC的均方记为MSC,即SSE的均方记为MSE,即(10.20)(10.21)(10.22)\n构造检验统计量检验A(行)因素的各水平对试验结果有无显著影响,采用统计量检验B(列)因素的各水平对试验结果有无显著影响,采用统计量(10.23)(10.24)\n3.统计决策对规定的显著性水平,由于则拒绝 ,认为A(行)因素的各水平间有显著差异.对规定的,由于根据小概率原理,若从而,若则拒绝 ,认为B(列)因素的各水平间有显著差异.\n方差分析表表10-10双因素方差分析表误差来源误差平方和自由度均方F值A(行)因素SSRk-1MSR=SSR/(k-1)FR=MSR/MSEB(列)因素SSCr-1MSC=SSC/(r-1)FC=MSC/MSE误差SSE(k-1)(r-1)MSE=SSE/(k-1)(r-1)-合计SSTn-1--\n例10.4有四个品牌的彩电在五个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05)解:先建立假设.对于A(行)因素(品牌)对于B(列)因素(地区)不全相等不全相等直接利用Excel进行双因素方差分析结果见表10-11.\n用Excel进行双因素方差分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在数据分析工具中选择【无重复双因素方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(也可根据需要确定)在【输出选项】中选择输出区域\n用Excel进行双因素方差分析的步骤\n表10-11Excel输出的方差分析结果\n统计决策从而拒绝 ,接受 ,即不同的品牌对销售产生了不同的影响.又由于由于所以接受 ,即不同地区对销售没有产生不同的影响.\n(三)关系强度的测量把A(行)因素的平方和SSR和B(列)因素的平方和SSC加在一起,与总平方和的比值定义为R2,即(10-25)对于例10.4,得\n三、有交互作用的双因素方差分析例10.5城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验取得共获得20个行车时间(分钟)的数据如下.试分析路段、时段以及路段和时段的交互作用对行车时间的影响.表10-14不同时段和不同路段的行车时间单位:分钟\n各水平样本均值与样本总均值(1)A(行)因素第i水平的样本均值(2)B(列)因素第j水平的样本均值\n续(4)样本总平均(3)A(行)因素第i水平与B(列)因素第j水平组合的样本均值\n计算误差平方和SST代表总误差平方和(10.26)(10.27)SSR代表A(行)因素平方和(10.28)SSC代表B(列)因素平方和\n续(10.29)SSE代表误差平方和即SST=SSR+SSC+SSRC+SSE(10.30)SSRC代表交互作用平方和\n表10-15有交互作用的双因素方差分析表\n用Excel进行有交互作用的双因素方差分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在数据分析工具中选择【可重复双因素方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(也可根据需要确定)在【每一样本的行数】方框内键入5在【输出区域】中选择输出位置\n表10-16用Excel进行双因素方差分析的步骤\n表10-17Excel输出的方差分析结果\n10.5试验设计初步一、完全随机化设计二、随机化区组设计三、因子设计\n一、完全随机化设计完全随机化设计(completelyrandomizeddesign)是指因素的水平或水平组合采用随机方法安排到试验单元的一种试验设计.“处理”是指因素的各个水平或水平组合“试验单元(experimentunit)”是安排“处理”的对象或材料对单因素或双因素的完全随机化设计可采用单因素或双因素方差分析.\n例10.6一家种子开发股份公司研究出三个新的小麦品种:品种1、品种2和品种3.为研究不同品种对产量的影响,需要选择一些地块,在每个地块种上不同的品种,然后获得产量数据进行分析.这里的“小麦品种”就是试验因子或因素,而品种1、品种2、品种3就是因子的三个不同水平,称为处理.假定选取3个面积相同的地块,这里的“地块”就是试验单元.将每个品种随机地指派给其中的一个地块,这就是随机化设计.试验数据见表10-18.\n表10-18完全随机化设计的数据\n表10-19例10.6的方差分析表\n二、随机化区组设计(randomizedblockdesign)先将试验单元划分为若干个同质组,称为“区组”(Block).再将各种处理随机地指派给各个试验单元.比如在上面的例子,首先根据土壤的好坏分成若干个区组.假定分成四个区组:区组1、区组2、区组3和区组4,每个区组中有三个试验单元.在每个区组内的三个试验单元以随机方法决定小麦品种.单因素随机化区组设计采用无重复双因素方差分析.\n表10-20随机化区组设计的数据\n表10-21随机化区组设计的方差分析表\n三、因子设计设同时考察两个因素:小麦品种和施肥方式.假定有三个小麦品种和两种施肥方式.这样三个小麦品种和两种施肥方式的水平搭配共有3×2=6种.如果我们用30个地块(试验单元)进行实验,则每一种水平搭配可以做5次试验,也就是每个品种与施肥方式的水平组合重复5次试验.考虑两个或两个以上因素的全部水平搭配的试验设计称为因子设计.对于两个因素的因子设计可采用有交互作用的双因素方差分析方法\n表10-22因子设计的数据\n表10-23因子设计的方差分析表查看更多