生物统计学讲义

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

生物统计学讲义

《生物统计》绪言在人们的实践活动中,常常会遇到类似下面的一些问题,如:一种新的疫苗,如何判断它是否有效?吸烟会不会使得肺癌的机会增加?如何抽检几百或几千人来估计某种病的流行程度?某批产品中合格品究竟有多少?该不该报废?如何消耗最少的资源和人力来得到我们所需要的某种信息?某种实验方法,或饲料配方,有没有明显改进?……等等。这一类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单个实验的结果有某种不确定性。例如为了知道产品合格与否或它的使用寿命,我们常常需要对它作破坏性检验,此时我们显然不能把所有的产品都检验一下,而只能满足于对少数几个样品的抽检。这样获得的信息显然是不完全的;再比如要检验疫苗的有效性,但一般来说,接种过疫苗的动物不一定全不发病,而未接种的也不会全发病。那么发病与不发病的差别究竟到多大时我们才能认为接种是有效的呢?同时,即使我们采用完全一样的实验条件再次进行实验,发病与不发病的动物数量也会有所变化,这说明类似实验的结果具有某种内在的不确定性。要想在这种情况下正确判定疫苗的有效性,就涉及了我们如何评价一些并不确定的实验结果的问题。要从这样一些问题中得出科学的,可靠的结论,就必须依靠统计学。有人干脆给统计学下了这样的定义:“统计学就是从不完全的信息里取得准确知识的一系列技巧”,这个定义还是有一定道理的。另外,当必须根据有限的,不完全的信息作出决策时(例如决定一批产品是出厂还是报废,某种新药是否有效等等),统计学可以提供一种方法,使我们不仅能做出合理的决策,而且知道所冒风险的大小,并帮助我们把可能的损失减至最小。其次,如何花费最小代价取得所关心的信息,也是统计学的一大课题(实验设计)。不注意这一点可能使辛辛苦苦的工作成为一种浪费。生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。第一章概率论基础§1.1随机现象与统计规律性一、概率论是研究随机现象的数量规律的数学分枝所谓随机现象,就是在基本条件不变的情况下,各次实验或观察会得到不同的结果的现象,而且这一结果是不能准确预料的。例:血球计数,昆虫密度调查,某一时刻车间中开动的车床数,优秀选手射击弹着分布,抽样时某一样品合格与否等等。必然现象(或不可能事件)则是指在一定条件下必然会发生(或不发生)的事件,也可称为决定性事件。例:早晨太阳从东方升起,水向低处流,万有引力,标准大气压,纯水100℃沸腾等等。大部分科学实验的结果都属于随机事件,分析它们就需要概率的知识,如:\n例1.1试验两种不同饲料配方对鸡增重的影响。饲养五周后,增重如下:配方1(x):1.49kg,1.36kg,1.50kg,1.65kg,1.27kg,1.45kg,1.38kg,1.52kg,1.40kg;配方2(y):1.25kg,1.50kg,1.33kg,1.45kg,1.27kg,1.32kg,1.60kg,1.41kg,1.30kg,1.52kg。在例1中,,我们是否可以说配方1比配方2好呢?也许有同学会说:“,当然就说明配方1好啦。”实际问题却不是这样简单。由于鸡的个体差异等都会影响实验的结果,因此上述实验中包含着一些无法排除的随机误差。在这种情况下,我们怎么能判断与之间的差异是随机误差造成的,还是配方1真的优于配方2?或者换句话说,与的差异大到何种程度,我们就可以较有把握地说配方1真的优于配方2?要科学地回答这一类的问题,靠我们以前学过的数学知识是解决不了的,必须依靠统计学的知识。由于吃同一种饲料的一组鸡的生活条件基本上是一致的,它们之间的差异应该是随机误差大小的一种估计,因此我们可以把上述两组鸡之间的差异与组内的差异作一下比较,如果组间差异明显大于组内的差异,则认为配方1比配方2好;否则就只能认为这两种配方差不多。根据这样的统计学理论,我们只能认为这两个配方间没有明显差异,原因是它们组内差异比较大,说明随机因素的影响很大,平均数间的差异可能是随机因素引起的。例1.2如果数据变成配方1(x):1.40kg,1.42kg,1.50kg,1.39kg,1.46kg,1.45kg,1.51kg,1.44kg,1.41kg,1.38kg;配方2(y):1.38kg,1.41kg,1.35kg,1.50kg,1.36kg,1.33kg,1.42kg,1.38kg,1.37kg,1.41kg此时两组数据的平均值变化不大,直观上结果应与上题相同,但统计结论却完全变了,变为应该认为配方1明显优于配方2。这是因为组内差距变小了,x与y之间的差别不能仅用随机因素的影响来解释。从上述例子可看出,没有概率论的知识就不能对实验结果作出科学的,有说服力的结论。一、频率稳定性随机事件的结果一般是不可预料的,那又如何研究呢?个别随机事件(结果)在一次实验或观察中可以出现或不出现,但在大量实验中,它出现的次数与总实验次数之比常常是非常稳定的。这种现象称为频率稳定性,正是随机事件内在规律性的反映。例1.3掷币实验:实验者掷币次数正面次数频率蒲丰404020480.5069皮尔逊1200060190.5016皮尔逊24000120120.5005从上述实验结果可知,随着投掷次数的增加,正面出现的次数越来越接近一个常数:0.5。这一实验的结果很好地反映了多次重复的随机实验中的频率稳定性。直观上,我们用一个数P(A)来表示随机事件A发生可能性的大小,P(A)就称为A的概率。一般来说,当实验次数N越来越大,直至趋于无穷时,频率也会逐渐趋近于概率。§1.2样本空间与事件\n我们假定试验或观察可在相同的条件下重复进行。这是因为一次随机实验的结果不可预料,我们主要依靠频率稳定性来研究随机现象的内在规律,因此不可重复的实验对统计学来说是没有多少意义的。一、样本空间的概念定义:在一组固定的条件下所进行的试验或观察,其可能出现的结果称为样本点,一般用ω表示。全体样本点的所构成的集合称为样本空间,一般用Ω表示。例1.4投一个硬币:ω={正},{反};Ω={正,反}投二个硬币:ω={正正},{正反},{反正},{反反};Ω={正正,正反,反正,反反}样本点和样本空间是严格依赖于我们的实验设计的,不同的实验设计可能有不同的样本点和样本空间。每一个最基本、最简单的结果称为一个样本点,所有可能的样本点构成样本空间,而部分样本点的集合则构成了事件。定义:样本点的集合称为事件。显然有:必然事件:Ω;不可能事件:Φ。注意:上述定义不严格,如果Ω中有不可列*一个无穷集合,若它的元素可与自然数集建立一一对应,则称其为可列集,否则称为不可列集。详细讨论可参见有关测度论的书籍。个样本点,则不能把Ω的一切子集都看成事件,否则无法在其上定义概率。关于这些问题的详细讨论超出了本课程的范围。二、事件间的关系:设A、B均为事件,则它们可能有以下关系:包含:若A发生,则B必然发生,此时称A包含于B,或B包含A。记为:AB,或BA。例:{正正}{两币相同}相等:若AB,且BA,则称A与B相等,记为A=B。例:{反反}={正面不出现}对立:由所有不包含在A中的样本点所组成的事件称为A的逆事件,或A的对立事件,记为。(也可称为“非A”)例:{}={正反,反正}={两币不同}显然A逆的逆等于A,即=A。一、事件的运算已知事件A,B,我们可以通过它们构成一些新的事件:交:同时属于A及B的样本点的集合。记为:AB或AB,此时A与B同时发生。若AB=Ф,则称A与B互不相容。样本点一定是互不相容的。并:至少属于A或B中一个的全体样本点的集合,记为AB。此时可能A,B都发生,也可能只发生一个。若AB=Ф,则可把并称为和,且记为A+B。注意:在集合论的运算中,和只是并的特例,要明确它们的不同,原因是:在集合论中,同一个元素只能计算一次,所以一个集合中不能有两个相同的元素。差:包含在A中且不包含在B中的样本点的集合。记为A-B。注意:这是三种运算中唯一不满足交换律的运算。显然:,,Venn图:用图解的方法表示集合间的关系。如:\nABABAB相离相交包含图1.两集合A、B的三种关系。显然两事件A与B的关系只有上述三种,这种图解的方法对我们搞清事件间的关系是很有好处的。运算顺序:1.逆,2.交,3.并或差。运算规律:(1)交换律:AUB=BUA,A∩B=B∩A(2)结合律:(AUB)UC=AU(BUC),(AB)C=A(BC)(3)分配律:(AUB)∩C=(A∩C)U(B∩C),(A∩B)UC=(AUC)∩(BUC)(4)德莫根(DeMorgan)定理:对于n个事件,甚至对可列个事件,上述定理仍成立,可写为:,注意:上述集合论运算规律与算数运算的规律很相似。若把并比作算术加法,把交比作算术乘法,则交换律与结合律是相同的。但分配律有差异:集合论运算中除有交对并的分配律外,还有并对交的分配律,而后者在算术运算中是不成立的。这种差异同样来自于集合运算的规定:在集合中,同一元素只能计算一次而不能够重复计算。例1.5A,B,C是三个事件,请用运算式表示下列事件:(1)A发生,B与C不发生:,或A―B―C,或A-(BUC)(2)A与B都发生而C不发生:,或AB―C,或AB―ABC(3)至少发生一个:AUBUC(4)恰好发生一个:(5)恰好发生二个:§1.3概率一、古典概型从17世纪中叶,人们就开始研究随机现象,当时这种兴趣或需要主要是由赌博引起的,因此人们首先注意的是这样一类随机事件:它们只有有限个可能的结果,即只有有限个样本点,同时这些样本点出现的可能性相等。这样的概率空间称为古典概型。由于样本点是等可能的,很自然地,人们就把事件A的概率定义为A所包含的样本点数与样本点总数的比值,即显然这样的定义同时也给出了概率的计算方法,这种方法今天还有着广泛的用途,尤其是在产品的抽样检查方面。这样建立起来的概率有如下的性质:(1)对任意事件A,P(A)≥0(非负性)(2)P(Ω)=1(规范性)(3)若A1,A2,…,An两两互不相容,则:\n(可加性)注意:上述可加性称为有限可加性。它主要适用于样本空间只包含有限个样本点的情况。如果样本空间含有无穷多个样本点,则上述可加性也应推广为可列可加性(或称完全可加性),即:若A1,A2,…An,…互不相容,则例1.6五个身高不同的人,随机站成一排,问恰好是按身高顺序排列的可能性有多大?解:五个人随机排列,则排法共有5!种。有利场合则为从高到矮,或从矮到高,共两种。因此所求概率为:例1.7100块集成电路中混有5块次品。任取20块检测,问至多发现一块次品的概率为多大?解:样本空间:有利场合:20块样品中没有次品:20块样品中有一块次品:∴例1.810个同样的球,编号为1—10,从中任取三个,求恰有一个球编号小于5,一个球等于5,另一个大于5的概率。解:样本空间:有利场合:∴P=20/120=1/6例1.9设有n个球,每个可以的等概率落入N个格子之一中,(N>n),求:(1)指定的n个格中各有一球的概率;(2)任意n个格中各有一球的概率。解:由于每个球落入各个格中的可能都相等,这是古典概型。每个球有N种可能的位置,因此n个球在N个格中共有Nn种落法。即样本空间共有Nn个样本点。第一问的有利场合为n个球的全排列,即n!,因此P1=n!/Nn第二问中选定n个格,共有种选法,因此有利场合为,即这一问题是统计物理中的典型问题之一。例1.10求某班的40位同学中至少有两位同学生日相同的概率。\n解:利用例1.9第二问的答案,可很容易地得出本题的答案:令N=365,n=40,则有:P=1-365!/(36540·(365-40)!)»1-0.109=0.891从直观上看,每年有365天,班上只有40位同学,似乎有两位同学生日相同的概率并不大。但严格的计算显示这一概率接近0.9,因此我们不能太相信自己的直觉。例1.11:袋中有a只白球,b只黑球,不放回抽样,求第K次恰好抽到一只黑球的概率(1≤K≤a+b)。解法1:把所有的球编号,若把摸出的球排成一直线,可能的排法为(a+b)!。有利场合:第K个位置必须放黑球,共有b种方法;剩下的(a+b-1)个位置有(a+b-1)!个放法,∴共为:b·(a+b-1)!即解法2:黑球之间和白球之间不加区别,仍把它们都摸出来排成一条线。黑球有种放法。黑球放好后,白球只有一种放法,∴样本点有个。有利场合:,这是因为第K个位置必须放黑球,剩下a+b-1个位置,放b-1个黑球。∴解法3:取K个球排成一行,排法有:有利场合:,因此有:注意这里设想问题的顺序。在本题中是先取一个黑球,再随便取剩下的球。如果先取剩下的球,最后取黑球则不行,因为这时剩下什么球是不确定的。从本题中可看出如下几点:(1)概率P与K无关,这正说明抽签对所有参加者都是公平的,与先后次序无关。(2)同一问题可选用不同的模型来解决。这里主要是样本空间的选取不同,只要方法正确,结果是相同的,但要注意计算总样本点和有利场合时一定要用同一个模型,否则必然出错。二、几何概型\n古典概型概念虽然比较简单直观,但它成功地解决了一类问题的计算方法,这些问题在今天的现实生活中也还常常能碰到。古典概型计算的基础是某种事先确定的,公认的等可能性,而它最大的限制就是只能有有限个样本点。因此,历史上有不少人企图通过把类似的方法推广到有无限多结果,但又能定义某种等可能性的场合,这样就产生了几何概型。称它为几何概型,是因为此时样本点数常常是不可列的,因此无法用样本点数目之比来定义概率,而是根据问题维数的不同,改用长度、面积、或体积之比来定义概率,采用几何方法来进行计算。这种方法在今天也还有一定使用价值。例1.12两人约定于7点到8点在某地会面,求一人等半小时以上的概率。y87.5x77.58解:如图:x代表甲到的时间,y为乙到的时间,则对角线上的点代表两人同时到达。而图中左上与右下两个三角形部分的点代表有一人需等待半小时以上,它们的面积和为总面积的,故在本题中,以两个座标轴分别代表甲乙二人到达的时间,这样每一个可能发生的事件(甲乙二人分别在某一时刻到达)就变成了二维平面上的一个点。由于在指定时间段内到达的可能性相同,我们就可以用代表有利场合的面积与整个指定区间面积之比来代表所求的概率。类似方法常可用于解决各种相遇问题。例1.13蒲丰(Buffon)投针问题平面上画有一些平行线,线间距离均为a。向此平面随意投掷一枚长为L(L0,则记称为事件B发生的条件下事件A发生的概率。乘法定理:当然这一公式成立的条件是P(A)>0,P(B)>0,否则或不存在。推广:例1.20甲袋中有a只白球,b只黑球,乙袋中有α只白球,β只黑球,现从甲袋中任取2只放入乙袋,再从乙袋中任取2只,求从乙袋中取出的是两只白球的概率。解:设A0,A1,A2分别为从甲袋中取出0,1,2只黑球的事件。B为从乙袋中取出两只白球的事件,则:\n§1.5独立性一、定义:对任意事件A和B,若P(AB)=P(A)·P(B),则称A,B是独立的。显然:A,B独立等价于,即:B的发生对A没有任何影响,也没有提供任何消息,反之也一样。独立与不相容是完全不同的概念,决不可互相混淆。实际上,若A,B概率均不为0,且不相容,则B发生可推出A不发生,即有。因此在一般情况下A与B不相容则它们必非互相独立,同理独立也必非不相容。例1.21袋中有a只黑球和b只白球,有放回摸球,求:(1)第二次摸黑球的概率。(1)已知第一次摸黑球,第二次也摸黑球的概率。解:以A表示第一次摸黑球,B表示第二次摸黑球。则:∴由于,因此A与B是互相独立的。例1.22把例1.21中有放回摸球改为不放回摸球,仍求及。解:∴\n这里,因此A与B不是互相独立的。这是因为是不放回摸球,摸出一球后就改变了袋中球的组成,因此第二次摸球结果的可能性依赖于第一次摸球的结果。要注意与有放回摸球相比,P(B)的值并未改变,这说明后抽签的人并不吃亏。例1.23某种实验,现已知甲成功的概率为0.7,乙成功的概率为0.8。若让他们各做一次,求这两次实验至少有一次成功的概率。解法(1):设A为至少成功一次,则为两人均失败。∴解法(2)设A为甲成功,B为乙成功,则由加法定理:例1.24上题改为:二人各做两次,求至少有一次成功。解:设A、B分别为甲,乙至少有一次成功。或:下面我们再来讨论多个事件的独立性。二、多个事件的独立性:定义:A,B,C为三个事件,若下列4式同时成立,则称它们互相独立。(1)(2)根据两个事件独立的定义,我们知道(1)式成立,则A、B、C两两独立,那么从(1)式是否可能推出(2)式呢?回答是否定的。例1.25一个均匀正4面体,三个面分别染为红,白,黑色,第四个面同时染上红、白、黑三种颜色,以A,B,C分别记投一次出现红,白,黑的事件。则:\n但∴A,B,C两两独立,但A,B,C不独立例1.26一个均匀正8面体,其第1,2,3,4面染红色,1,2,3,5面染白色,1,6,7,8面染黑色,以A,B,C表示投一次出现红,白,黑的事件,则但从这两个例子可以看出,(1)式不能推出(2)式,(2)式也不能推出(1)式,这两个条件是缺一不可的。定义:A1,A2,…An为n个事件,若对任何正整数K,(2≤K≤n),有,其中i1,i2,…ik为满足下式的任何k个自然数:1≤i12-rn∴从上面例子可以看出,同样多的元件,功能也相同,但连接方式不同,它们的可靠性也不同。研究类似课题的可靠性理论已成为一个与应用联系密切的研究领域,显然它也是以概率论为基础的。借助事件独立的概念,我们还可以定义试验的独立性。直观上看,这就是试验E1的任何一个结果都不对试验E2产生影响,反之也一样。或者说,E1的一切可能结果与E2的一切可能结果都是独立的。重复的投币,有放回的摸球等等,都可作为独立试验的例子。这种试验很重要,因为随机现象的统计规律性只能在大量重复试验中显现出来。§1.6全概公式与逆概公式一、全概公式:若事件组A1,A2,…An…满足:(1)A1,A2,…An…互不相容,且P(Ai)>0,(i=1,2,…)(2)A1+A2+A3+…+An+…=Ω(完全性)则对任一事件B,有:满足上述条件的事件组通常称为样本空间Ω的一个分割。例1.29一等小麦种子中混有2%二等种子,1.5%三等种子,1%四等种子,它们长出的穗含有50颗以上麦粒的概率分别为0.5,0.15,0.1,0.05。求这批种子所结的穗含有50颗以上麦粒的概率。解:从中任选一种子,它分别为1,2,3,4等的事件记为A1,A2,A3,A4。B表示它结的穗含50颗以上麦粒。则由全概公式,有:利用全概公式可把一复杂事件化为一系列简单事件来求其概率。二、贝叶斯(Bayes)公式(或称逆概公式)若事件B能且只能与两两互不相容事件A1,A2,…An,…之一同时发生,则\n证明:由条件可知:由于∴再利用全概公式替换P(B),即可得原式。贝叶斯公式有着十分广泛的用途,它之所以被称为逆概公式,是因为它实际是在知道结果的情况下来推断原因:A1,A2,…An,…是可能导致B出现的原因。P(Ai)是各种原因出现的可能性大小,一般是过去经验的总结,称为先验概率。若现在已知B出现了,我们要求它是由哪个原因引起的概率,这就是,称为后验概率。它反映了试验之后对原因发生可能性大小的新知识。例如医生诊断病人所患何病(A1,A2,…An,…中的某一个),他确定某种症状B(如体温,某种化验指标等等)出现,现在实际就是求,通过比较它们的大小就可对疾病作出诊断。此时贝叶斯公式显然是很有用的。在这里P(Ai)是人患各种病可能性大小,这可从资料中获得,而的确定则要依靠医学知识,有了它,就可求得。如果综合从多个症状所得到的条件概率,诊断会更准确一些。按照上述的思路,采用计算机进行诊断原则上也是完全可行的。例1.30由于通信系统会受到干扰,接收台收到的不全是正确信号,现已知发报台分别以概率0.6和0.4发“·”和“-”。发“·”时,收报台分别以0.8和0.2的概率收到“·”和“-”;发“-”时,分别以0.9和0.1的概率收到“-”和“·”。求当收报台收到“·”时是正确的概率。解:令A为发“·”,B为收“·”。则P(A)=0.6,P()=0.4例1.31中年男性人群中,20%超重,50%正常,30%低体重,他们动脉硬化的概率分别为30%,10%,1%。从中随机取一人,恰为动脉硬化者,求他分属各组的概率。解:A1,A2,A3分别表示体重超重、正常、偏低,B表示动脉硬化。\n由题意,:P(A1)=0.20,P(A2)=0.50,P(A3)=0.30例1.32一道题同时列出m个答案,要求学生把其中的一个正确答案选出来。设他知道哪个正确的概率为p,现有一学生答对了,求他确实知道而不是瞎猜的概率。解:设A为该生知道正确答案这一事件,B为答对这一事件。则:若令m=5,p=1/2,则例1.33一项化验有95%的把握把患某疾病的人鉴别出来;但对健康人也有1%可能出现假阳性。若此病发病率为0.5%,则当某人化验阳性时,他确实患病的概率有多大?解:设A:患病;B:化验阳性。则:这个数值可能比我们预料的要小得多,这是因为:平均200人有一人患病,发现他们的可能为0.95,即化验200人发现真病人0.95个;而剩下的199个正常人我们也会发现1.99个假阳性的,因此即使化验不正常也不必太担心。上述结论在体检时比较可靠。若考虑到在医院看病化验的人大部分已有某种症状,其发病率可能远高于0.5%,则此结论可能不正确。例1.34三张同样的卡片,一张两面是红色,一张两面是黑色,一张一面红一面黑,随机取出一张,其上面是红的,问下面是黑的概率是多少?解:以A1,A2,A3分别表示上述3张卡片,以B记上面是红的这一事件。则所求为:\n但从直观上看,如果上面是红的,那这张卡片只可能是两面红或一面红一面黑;由于抽到哪张卡片是等可能的,因此所求概率应为。这与前面计算出来的不同。究竟哪个错了呢?是直观的算法错了。因为这里抽到哪张卡片确实是等可能的,但当我们看到上面是红的时,它是红红或红黑却不是等可能的。因为如果是红黑的一张,它还有的可能性是黑面向上,此时我们看到的就不是红的了。所以应认为各面向上出现的可能性相等。红色的面共有三个,其中只有一个出现时下面才会是黑的,因此所求概率应为,而不是。从这道例题可以看到,当我们用古典概型解题时,一定要特别注意各样本点的等可能性。否则很容易出错。作业:1.绘出符合下列关系的Venn图(A,B,C为随机事件):(1)ABC=A(2)AUBUC=A(3)ABC(4)A(5)2.A,B,C,D为4个随机事件,试用它们表示:(1)至少发生一件;(2)恰好发生二件;(3)至多发生一件;(4)都不发生。3.试证4.某城市发行三种报纸A,B,C,该市民居订A的占45%,订B的占35%,订C的占30%,同时订A及B的占10%,同时订A及C的占8%,同时订B及C的占5%,同时订A,B及C的占3%,试求下列百分率:(1)只订A的(2)只订A及B的(3)只订一种报的(4)正好订两种的(5)至少订一种的(6)不订任何报的5.从6双不同的手套中任取4只,问其中恰有一双配对的概率是多少?6.如图电路,在100天内,A,B,C损坏的概率分别为0.7,0.5,0.6,求断电概率。BAC7.已知某白种人群体中A、B、O血型的基因频率分别为:IA=0.28,IB=0.06,IO=0.66,问该群体中具有各种血型的人的比例如何?A型血的人与B型血的人婚配的概率是多少?8.某码头只能容纳一只船,现已知某日将独立地开来两只船,且24小时内到达可能性相等,若它们所需停泊时间分别为3小时及4小时,试求有一船要在江中等待的概率。9.袋中有红、黄、白球各一只,每次取一只,有放回地摸三次,求下列事件概率:A=“全红”,B=“同色”,C=“全不同色”,D=“不全同色”,E=“无红”,\nF=“无红且无黄”,G=“无红或无黄”,H=“全红或全黄”。10.三个孩子的家庭中,已知有一女孩,求至少有一男孩子的概率。11.设有N个袋子,每个装a只黑球,b只白球。从第一袋任取一球放入第二袋,再从第二袋取一放入第三袋,…问从最后一袋中取出黑球的概率为多少?12.飞机可分为甲,乙,丙三个部分,它们分别被击中1,2,3弹后,飞机才会被击落;它们的面积百分比分别为0.1,0.2,0.7。现已知飞机被击中2弹,求飞机坠落的概率。13.求证:若A,B独立,则,B;A,;,也独立。14.求证:若A,B,C相互独立,则A∪B,AB,A-B皆与C独立。15.甲,乙,丙进行某项比赛,每局中各人胜利的可能性相等,先胜三局者为胜。现已知甲胜1,3局;乙胜第2局,分别求甲,乙,丙获得最后胜利的概率。16.对一目标进行3次独立射击。第一、二,三次射击命中概率分别为0.4,0.5,0.7,试求:(1)三次中恰好有一次击中的概率。(2)至少有二次击中的概率。17.高炮击中飞机的概率为0.6,若要以99%把握击中来犯敌机,至少需多少门大炮同时开火?18.导弹击中飞机的概率为0.7,击中后必落。高炮击中飞机的概率为0.4,击中一发有0.8的概率击落,击中两发必落。现发射了两枚导弹,两门大炮,求飞机被击落的概率。19.实验室中有12只动物可供某生理实验用。每次实验任取3只,用后放回。现求第三次实验时取出的动物均未参加过实验的概率。若已知第二次的三只也未用过,求第三次3只仍未用过的概率。20.已知进行某种细胞培养时,样品有4%的可能被杂菌污染。现有一种简单的检查方法,它会把2%未污染的样品误判为污染的,而把5%污染的误判为未污染。求此法认为未污染者确实未污染和认为污染而实际上没有的概率。21.甲袋有5个白球,4个黑球;乙袋有3个白球,6个黑球。现从两袋中各取一球,交换后放回,再从两袋各取一球,问恰为一黑一白的概率是多少?22.已知某样品内可能含有A,B,C三种酶之一。它们出现的可能性分别为0.3,0.4,0.3。由于条件限制,采用的分析方法正确鉴定酶种的概率为0.6,错误鉴定为其他两种酶的可能性均为0.2。现对该样品作4次鉴定,结果为A,B,C,A。求样品确实含有A酶的概率。第二章随机变量及其数字特征§2.1随机变量和分布函数一、随机变量:直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性别,并计算其中雄性动物的数量X,显然X可能取值为0,1,…,10;但究竟取值为几,只能在实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量的特点就是当实验条件一定时,实验结果仍不确定。上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有一大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这样的随机变量称为连续型随机变量。二、分布函数:\n随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只一组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知道得很清楚了,我们可以把这样的关系列成一张表:X:01……10P:P0P1……P10这样的表称为概率分布表,P称为概率函数,并记为:P(X=x)=p(x)显然概率函数应满足:对任意可能结果x,有p(x)≥0,且这里的求和是对一切可能的结果进行的。对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了。当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg、100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似微分的概念,我们就有:称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积:而P(a≤Xa,有:\nF(b)≥F(a)2)3)左连续性:F(x-0)=F(x)总结:我们研究随机变量的方法,大致有这样几种:1.分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而分布列则给出了每个样本点对应的概率。2.密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过积分就可以得到变量落入任何区间的概率。其性质为:P(X=x)=0,(分布列也有类似性质,只是求和代替了积分)3.为了统一起见,我们又引入了分布函数:F(x)=P(X>n,它可以用二项分布来近似。4.几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值为1,2,……其概率分布称为几何分布:g(k,p)=P(X=k)=qk-1×pk=1,2,3……作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是把以前的经历都忘掉了一样。这一性质可简单证明如下:令B为前m次未成功,A为再等k次,则仍服从原来的分布g(k,p)。更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下:证明:以p记上述条件概率,令qk=P(X>k)及pk=P(X=k)。则pk+1=qk-qk+1而所求的条件概率即:pk=(1-p)k-1·p,这正是几何分布。5.负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为:(注意X取值范围与二项分布的不同)显然若令k=1,则为几何分布。我们把它称为负二项分布,是因为可以把它看作\n展开式中的各项系数。它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作为聚集性的指标,k越小,该生物的群集性越明显。6.泊松(Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常多(n→∞),使np→λ(常数)时,二项分布就趋近于泊松分布,为:x=0,1,2,……历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点,成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼叫数;汽车站的乘客人数;射线落到某区域中的粒子数;细胞计数中某区域里的细胞数……等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例):(1)平稳性:在(t0,t0+Δt)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点t0无关。它说明现象的统计规律不随时间变化。(2)独立增量性(无后效性):在(t0,t0+Δt)中来到k个呼叫的可能与t0以前的事件独立,即不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的。(3)普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(Δt)为长度为Δt的时间间隔中来k个呼叫的概率,则:它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍的。这一点从一个侧面说明了泊松分布的重要性。如果改用细胞计数为例,则上述三条性质可描述如下:(1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的。(2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不会互相排斥。(3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我们对细胞无法准确计数。生物学中能够符合上述条件的事例是相当多的,如水中细菌数;从远处飘来的花粉、孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分布了。§2.3连续型随机变量连续型随机变量X可取某个区间[c,d]或(-∞,∞)中的一切值,且存在可积函数f(x),使\nf(x)称为X的(分布)密度函数,F(x)称为X的分布函数。显然这样,有了f(x),就可以计算X落入任何一个区间的概率,而∴P(X=C)=0即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然事件。例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如1.8m的概率为0,这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找一个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个人身高为1.7m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0,因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于1.7m的人中将不包括这个人,也就不可能是全空间,即不是必然事件了。下面我们就来介绍一些连续型随机变量的例子:1.均匀分布:若a,b为有限数,则由下列密度函数定义的分布称为[a,b]上的均匀分布:相应的分布函数为:例:数字4舍5入后的误差分布,农药剂量在田间的分布,人工种植的果树的分布等。2.指数分布:指数分布的密度函数为:其中λ>0,为常数分布函数为:指数分布经常用来作为各种“寿命”的分布,例如动物寿命,元件寿命,电话通话时间……等等,与几何分布类似,它也具有无记忆性:\n即:已知寿命大于s年,则再活t年的概率与s无关。因此也称指数分布是“永远年轻”的。可以证明,指数分布是唯一具有上述性质的连续型分布。3.正态分布:它的密度函数为:其中σ>0,μ与σ均为常数。其分布函数为:正态分布通常记为N(μ,σ2)。若μ=0,σ=1,则称为标准正态分布,记为N(0,1)。它的密度函数和分布函数分别用j(x)和Ф(x)表示:正态分布也可以作为二项分布的极限。当n®¥时,若q,p均不趋于0,此时的二项分布以N(np,npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布。这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定要非常熟悉。\n图2.1正态分布密度函数曲线图2.1为正态分布密度函数曲线。从图中可见,f(x)在x=μ=0处达到最大值,整个图形关于直线x=μ对称,σ越大则曲线越平,σ越小,曲线越尖。在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线见图2.2。(a)(b)图2.2标准正态分布密度函数曲线(a)和分布函数曲线(b)从图2.2中可看出标准正态分布密度函数j(x)的曲线有以下特征:1°x=0时,j(x)达到最大值。2°x取值离原点越远,j(x)值越小。3°关于y轴对称,即j(x)=j(-x)4°在x=±1有两个拐点。5°曲线与x轴间所夹面积为1。标准正态分布函数F(x)的曲线是密度函数积分后的图形,它在x0点的取值为x0点左方密度函数曲线与x轴所夹的面积。分布函数曲线有以下特征:1°关于点(0,0.5)对称,该点也是它的拐点;\n2°曲线以y=0和y=1为渐近线;3°F(1.960)-F(-1.960)=0.954°F(2.576)-F(-2.576)=0.99后两个数值在统计推断中有重要应用,应熟记.上述特征特别是密度函数j(x)的特征在计算函数值时常有应用,应结合图形直观印象加以熟记。由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的j(x)和F(x)值,这是因为由它们的对称性,有:因此可容易地算出x任意取值时j(x)和F(x)的值。由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标准化,然后再查表。标准化方法如下:设X~N(μ,σ2),令,则U~N(0,1),即:这样,只要先计算的值,就可以从标准正态分布表中查出所需要的数值了。在查表过程中,下述一些关系式也是十分有用的。它们大多基于j(x)的对称性,希望能在理解的基础上记忆它们,只有真正理解了才能牢固记忆且灵活应用。这些关系式包括:令X~N(0,1),则:例2.1已知小麦穗长服从N(9.978,1.4412),求下列概率:(1)穗长<6.536cm,(2)穗长>12.128cm,(3)穗长在8.573cm与9.978cm之间。解:\n∴所求概率分别为:0.00842,0.06811,0.34134。例2.2从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从N(60,16),问:(1).若有70分钟可用,走哪条路好?(2).若只有65分钟呢?解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有:(1):显然F2(70)>F1(70),应走第二条路。(2):显然F1(65)>F2(65),应走第二条路。这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时间充裕,则应走第二条路,此时到达的可能性大;反之时间有限,就只能走近路碰碰运气了。§2.4随机向量在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的环境条件,也要有温度、湿度,CO2浓度、光照强度等等。这样,当我们对类似的随机现象进行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量:X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度…,而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分,而统一称为n维随机变量,其中n取值为自然数。引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中,我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必要的概念。一、多维随机变量与联合分布函数与一维随机变量类似,多维随机变量也有离散型与连续型的区别。它们的取值都可视为n\n维空间中的点,不过离散型的概率集中在一些孤立的点上,而连续型的概率则分布在一些或大或小的区间内。对于离散型随机向量,我们同样不仅关心它能取哪些值,而且关心它取这些值的概率。因此我们仍可使用类似概率分布表的形式描述离散型随机向量,与一维随机变量的唯一区别就是它的取值不再是一个简单的数,而是一个向量。例2.3袋中装有4只白球和6只黑球,有放回摸球二次,令每次摸到白球记为1,摸到黑球记为0,则有如下的二维随机变量:取值:(0,0)(0,1)(1,0)(1,1)概率:如果改为不放回摸球,则二维随机变量改为:取值:(0,0)(0,1)(1,0)(1,1)概率:对于连续型随机向量,我们也可用类似一维的方法定义它的密度函数。以二维为例,则有:同样与一维类似,我们可进一步定义多维情况下的分布函数:定义:称n元函数F(x1,x2,…xn)=P(X10,a=(a1,a2,…an),x=(x1,x2,…xn),均为实向量,则密度函数定义的分布称为n维正态分布,也称n元正态分布。n维正态分布可简记为N(a,B)。显然多维连续分布的密度函数应为非负,且对全空间(即每一维均为从-∞至+∞)的积分应为1。同样与一维情况类似,多维分布的分布函数与离散分布的概率分布表或连续分布的密度函数有以下关系:离散:令p(y1,y2,…yn)=P(X1=y1,X2=y2,…Xn=yn),则分布函数为:连续:令f(y1,y2,…yn)为其密度函数,则分布函数为:F(x1,x2,…xn)=二、边际分布前边已说过,我们引入多维随机变量的概念就是为了把它作为一个整体来研究,即不仅研究每个分量的性质,而且要研究各分量之间的关系。前述的联合分布就是描述多维随机变量这一整体的,而边际分布则是描述一个分量子集或一个个单独分量的。从这一角度看,有了联合分布应能推出所有边际分布;反之,即使有了所有的边际分布也未必能确定联合分布,因为边际分布只描述了一个个分量子集,但没有描述这些子集间的关系。为简单起见,我们以二维联合分布为例讨论它与其边际分布的关系。这些关系可以进一步推广到n维分布的场合。现在让我们重新看一下例2.3。例2.3袋中有4只白球和6只黑球,摸到白球记为1,摸到黑球记为0。以X1记第一次摸球的结果,X2记第二次摸球的结果,若为不放回摸球,则X1,X2的联合分布为:取值:(0,0)(0,1)(1,0)(1,1)概率:如果我们现在只考虑X1的取值,不考虑X2的取值,则根据古典概型的计算公式,有:\n同理,若只考虑X2的取值,则有:这就是两个边际分布。上述联合分布与边际分布我们可统一写成表2.1的形式表2.1有放回摸球的概率分布x1x201p2(x2)01p1(x1)与上述类似,如果改为不放回摸球,则其概率分布变为表2.2。表2.2无放回摸球的概率分布x1x201p2(x2)01p1(x1)注意上述边际分布实际是联合分布各行、各列之和,即在联合分布中,固定X1取值,对X2的一切取值求和,则可得到X1的边际分布;再固定X2的取值,对X1的一切值求和,则可得到X2的边际分布。在连续的情况下,则是固定X1,对X2从-∞到+∞求积分,可得X1的边际分布;再固定X2,对X1从-∞到+∞求积分,可得X2的边际分布。比较表2.1和表2.2可知,它们的两个边际分布是完全相同的,但联合分布则完全不同。这正说明联合分布中不仅包含了各分量的性质,而且包含了它们之间的联系,因此确实有必要把它们作为一个整体来研究。\n三、随机变量的独立性。在第一章中,我们介绍了事件独立性的概念。利用事件的独立性我们常常可以大大简化有关的计算。现在我们再来介绍一下随机变量的独立性。定义:设F(x1,x2,…xn)为随机向量X=(X1,X2,…Xn)的联合分布函数,若对任意x1,x2,…xn,有:F(x1,x2,…xn)=F1(x1)·F2(x2)…Fn(xn)则称随机变量X1,X2,…Xn互相独立。其中F1,F2,…Fn分别为X1,X2,…Xn的分布函数。对于离散型随机变量,独立性定义等价于对任意一组可能取值x1,x2,…xn,有:P(X1=x1,X2=x2,…Xn=xn)=P1(X1=x1)·P2(X2=x2)…Pn(Xn=xn)对于连续型随机变量,独立性定义等价于对一切x1,x2,…xn,有:f(x1,x2,…xn)=f1(x1)·f2(x2)…fn(xn)其中f为随机向量的联合密度函数,f1,f2,…fn分别为各分量的密度函数。可以证明,若随机变量X1,X2,…Xn互相独立,则从中任意取出的一个子集合Xi1,Xi2,…Xim,也互相独立。它们的下标应满足:1≤i10)r=1,X1=KX2+Cr=-1,X1=-KX2+C(2)若r=0,则称X1与X2不相关。下列事实等价:(i)cov(X1,X2)=0(ii)X1与X2不相关(iii)E(X1·X2)=E(X1)·E(X2)(iv)D(X1+X2)=D(X1)+D(X2)证明:(i)与(ii)等价显然。∵cov(X1,X2)=E[(X1-E(X1)·(X2–E(X2))]=E[X1X2-X1·E(X2)-X2·E(X1)+E(X1)·E(X2)]=E(X2X2)-E(X1)·E(X2)∴(i),(iii)等价D(X1+X2)=E[X1-E(X1)+X2–E(X2)]2=E[(X1-E(X1))2+(X2–E(X2))2+2(X1-E(X1))(X2–E(X2))]=D(X1)+D(X2)+2cov(X1,X2)∴(i)与(iv)等价(2)若X,Y独立,则X,Y不相关,但逆不成立。实际上,独立是说互相间没有任何影响,因此不存在任何函数关系;而不相关只说X,Y间没有线性关系,是否有非线性关系则不一定。另外,期望和方差的运算也可推广到n个随机变量:若X1,X2…Xn不相关,则:E(X1·X2…Xn)=E(X1)·E(X2)…E(Xn)D(X1+X2+…+Xn)=D(X1)+D(X2)+…+D(Xn)四、矩前面所介绍的数学期望,方差,协方差等最常用的数字特征,都是某种矩。\n(1)原点矩:对正整数k,mk=E(Xk)称为随机变量X的k阶原点矩。数学期望就是一阶原点矩。(2)中心矩:对正整数k,Ck=E(X-E(X))k称为随机变量X的k阶中心矩。方差是二阶中心矩。五、其他一些数学特征1.中位数:定义:中位数是同时满足P(X≥x)≥,P(X≤x)≥的x值。注意:在离散型的情况下,中位数可能不唯一。如:X:157P:0.10.40.5中位数为[5,7]中任意数。2.众数:定义:若X为离散型,则使P(X=xi)=pi达到最大值的xi称为众数;若X为连续型,则使其密度函数f(x)达到最大值的x称为众数。在上面的例子中,众数为7。显然众数也可能不唯一。3.变异系数:由于方差,标准差的大小均与所取的单位有关,不能客观反映随机变量本身的特征,我们引入变异系数的概念:定义:令,称为随机变量X的变异系数。这是一个没有单位的数,使用它可以更好地直观比较各随机变量的离散程度,但一般不用于统计检验。4.偏态系数(偏度):定义:三阶中心矩除以标准差的立方称为随机变量的偏态系数,记作CS。即:5.峰态系数(峭度)定义:四阶中心矩除以标准差的4次方再减3,称为峰态系数,记作Ce。即:-3Ce>0,密度函数图形尖;Ce<0,密度函数图形平。正态分布的偏度和峭度均为0,这一性质常用于检验一个观测到的分布是否服从正态分布。§2.6大数定律与中心极限定理如果一列随机变量X1,X2,…Xn互相独立,且有相同的边际分布函数,则称它们为独立同分布的随机变量。连续掷币,有放回摸球等许多实验都可产生独立同分布随机变量列。定义:称随机变量列是相互独立的,若对任何的x1,x2,…xn,有:F(x1,x2,…xn)=F1(x1)·F2(x2)·…·Fn(xn)其中F1,F2,…Fn分别为X1,X2,…Xn的边际分布函数,而F为其联合分布函数。即:\n对离散型:P(X1=x1,X2=x2,…Xn=xn)=P(X1=x1)·P(X2=x2)…P(Xn=xn)对连续型:f(x1,x2,…xn)=f1(x1)·f2(x2)·…·fn(xn)若各Xi还有共同的分布函数,则称它们为独立同分布的随机变量。大数定律:X1,X2,…Xn…是独立同分布的随机变量,且数学期望存在。设E(Xi)=a,则对任意ε>0,有:其中中心极限定理:设X1,X2,…Xn…是独立同分布的随机变量,且E(Xi),D(Xi)存在,则对一切实数a3);(2)X的密度函数f(X)。2.已知X~N(5,16),求P(X≤10),P(X≤0),P(0≤X≤15),P(X≥5),P(X>15)的值。3.已知X~N(0,25),求x0,使得:P(X≤x0)=0.025,P(X≤x0)=0.01,P(Xx0)=0.90。4.小麦株高服从N(63.33,2.882),求下列概率:(1)株高小于60cm;(2)株高大于69cm;(3)株高在62—64cm之间;(4)株高落在μ±1.96σ之间;(5)株高在多少cm以上的占全体的95%?5.求超几何分布、负二项分布的数学期望和方差。6.求指数分布的期望和方差。7.设轮船横向摇摆的振幅X的概率密度为:(x>0)求:(1)A=?(2)遇到大于其振幅均值摇摆的概率是多少?(3)X的方差。\n第三章统计推断§3.1统计学的基本概念。前面两章中我们介绍了概率论的基本内容,包括古典概型的一些计算方法以及研究随机现象的有力工具——随机变量。从本章起,我们开始讨论统计学的核心内容,即如何从一些包含有随机误差,又并不完全的信息中得出科学的、尽可能正确的结论。在一般情况下,所谓信息就是从实验或调查中得到的数据,这些数据显然带有一些我们既无法控制、也无法避免的误差。换句话说,即使我们尽可能保持所有条件都不改变,当你把实验重做一遍时,所得到的结果总会或多或少有所不同,这就是随机误差的影响。至于信息的不完全性,这主要是因为在一般情况下我们不可能把所有感兴趣的东西都拿来进行测定。例如要研究中国人的体型或某种病的流行程度,我们不可能把全中国每个人都测量一番,或对每个人进行体检,只能是按照某种事先确定好实验方案挑选一些人进行体检或测量。再比如希望对一批产品是否合格作出判断时,常常也不能对每个产品均做检验,只能是抽查少数产品。在这些情况下,我们获得的信息显然是不够完整的。如何从这些不完整的信息出发,对我们感兴趣的事物整体作出尽可能正确的判断呢?这就是统计学要解决的主要问题。一般来说,我们获得的信息所包含的不确定性,主要来自以下几个方面:(1)测量过程引入的随机误差;(2)取样随机性所带来的变化,即由于只取少数样品测量,那么取这一批样品的测量结果与取另外一批当然会有差别;(3)我们所关心的性质确实发生了某种变化。显然只有第三种改变才是我们所要检测的。统计学的任务就是在前两种干挠存在的情况下,对第三种改变是否存在给出一个科学的结论。另外需要注意的一点是统计学是可能发生错误的。由于据以作出统计判断的信息是不完全的,有误差的,我们也就无法保证统计学结论是百分之一百地正确。这与它的科学性并不矛盾,我们所面对的就是这样一个并不完美的世界,我们对这个世界的认识也只能是一种相对正确的真理,我们只能在此基础上作出尽可能正确的结论。同时,统计学一般不仅给出结论,而且给出这一结论的可靠性,即它是正确的可能性有多大。这样,我们就可以对一旦犯错误所造成的损害进行某种控制。总之,对于需要从有误差的实验数据中得出结论的科学工作者来说,统计学是一种不可或缺的工具。一、统计推断的两种途径:假设检验与参数估计作出统计判断的主要工具就是假设检验。它的基本思路是这样的:首先,根据需要判断的目标建立一个统计假设,它的主要要求是一但我们对这一假设是否成立作出了结论,就应该能够对所要判断的目标作出明确的回答;其次,根据所建立的统计假设,利用统计学知识建立起一个理论分布,根据这一理论分布必须能计算出我们观察到的实验结果出现的可能性有多大;第三步,是算出实验结果出现的可能性后,把这可能性与人为规定的一个标准(一般取为0.05,称为显著性水平)进行比较,如果可能性大于这一标准,则认为统计假设很可能是对的,即接受统计假设;若可能性小于这一标准,说明在统计假设成立的条件下,观测到这一实验结果的可能性很小。一般来说,一个小概率事件在一次观测中是不应出现的,而现在它竟然出现了,一个合理的解释就是它实际上不是一个小概率事件,我们把它当作一个小概率事件是因为我们的统计假设不对,因此所算出来的它出现的概率也不对。在这种情况下,我们就应拒绝统计假设。这样,我们就根据实验结果对统计假设是否成立作出了判断,从而也对我们要解决的目标作出了明确的回答。根据统计假设的类型,我们可以把假设检验进一步分为参数检验和非参数检验。\n统计的另一个重要功能就是作出参数估计。在实践中,我们常常希望对某些参数给出估计值,例如农作物的产量,产品的合格率或使用寿命,人群中某种疾病的发病率,等等。统计学也可根据抽样结果对这一类问题作出回答。答案一般有两种类型,一种是给出该参数可能性最大的取值,这叫做点估计;另一种是给出一个区间,并给出指定参数落入这一区间的概率,这叫做区间估计。参数估计与假设检验所依据的统计学理论其实是一样的,它们的区别只是以不同形式给出结果而已。本章主要介绍统计推断的一般原理及对总体均值和方差进行统计推断的方法。二、统计学常用术语:个体:可以单独观测和研究的一个物体,一定量的材料或服务。也指表示上述物体,材料或服务的一个定量或定性的特性值。总体:一个统计问题中所涉及的个体的全体。特性:所考查的定性或定量的性质或指标。总体分布:当个体理解为定量特性值时,总体中的每一个个体可看成是某一确定的随机变量的一个观测值,称这个随机变量的分布为总体分布。样本:按一定程序从总体中抽取的一组(一个或多个)个体。样本量:样本中所包含的个体数目。观测值:作为一次观测结果而确定的特性值。统计量:样本观测值的函数,它不依赖于未知参数。例如:样本均值:样本方差:样本协方差:样本k阶原点矩:样本k阶中心矩:分位数:对随机变量X,满足条件P(X≤xp)≥p的最小实数xp称为X或其分布的P分位数。几点说明:1°对每次观察来说,样本是确定的一组数。但在不同的观察中,它会取不同的值。因此作为一个整体,应把样本视为随机变量,也有自己的分布。样本全部可能值的集合称为样本空间。2°样本的任何函数,只要不含有未知参数,都可称为统计量。例如都是统计量,而不是统计量,因为μ,σ是总体参数,一般是未知数。构造统计量的目的是把样本中我们关心的信息集中起来以便加以检验,因此针对不同的问题需要构造不同的统计量。\n3°为了使样本能真正反映总体的特性,我们要求它有代表性和随机性。即要求样本中的每个个体都具有与总体相同的分布,且每个个体相互独立。这样的样本称为简单随机样本。有限总体无放回抽样的样本不是相互独立的。但若总体个数N很大,且样本含量n<0.1N,则可近似认为是简单随机样本。三、抽样分布前已述及,统计检验过程中要构造统计量把样本中我们关心的信息集中起来,以便加以检验;而这种检验主要是通过计算统计量取到观测值的可能性大小,并把这种可能性与指定标准(即显著性水平)比较来进行的。为了计算这种可能性,我们就需要知道统计量所服从的理论分布。由于这些理论分布的推导需要较多的数学知识,同时它们的分布函数和密度函数的数学表达式也很复杂,对于生物系的同学来说,掌握推导过程和这些表达式也没有什么实际用途,因此本书略去了这一部分,有兴趣的同学可参考概率论或数理统计的教科书,例如复旦大学编写的教材《概率论》。下面我们就介绍一些常用统计量的理论分布。如无特别说明,假设所有样本均抽自正态总体。1.样本线性函数的分布:若X1,X2,……Xn为一简单随机样本,其总体分布为N(μ,σ2),统计量u为:u=a1X1+a2X2+…+anXn,其中a1,a2,…,an为常数,则u也为正态随机变量,且(3.1)显然若取ai=,i=1,2,…,n,则u=为样本均值。此时。2.χ2分布:设X1,X2…Xn相互独立,且同服从N(0,1),则称随机变量(3.2)所服从的分布为χ2分布,记为Y~χ2(n),n称为它的自由度。3.t分布:设X~N(0,1),Y~χ2(n),且X,Y互相独立,则称随机变量(3.3)所服从的分布为t分布,记为T~t(n)。n称为它的自由度。4.F分布设X~χ2(m),Y~χ2(n),且互相独立,则称随机变量(3.4)所服从的分布为F分布,记为F~F(m,n),(m,n)称为它的自由度。5.正态总体样本均值与方差的分布。\n这一定理及它的推论构成了本章主要内容的理论基础。定理:若X1,X2…Xn为抽自总体N(μ,σ2)的简单随机样本,定义样本均值为:,样本方差为:,则有:(1)与S2相互独立;(2)~N()(3.5)(3)(n-1)S2/σ2~χ2(n-1)。(3.6)推论1:统计量(3.7)推论2:若X1,X2,…,Xm为取自总体N的样本,Y1,Y2…Yn为取自总体N()的样本,且它们互相独立,则:(3.8)其中S12,S22分别为X1,…,Xm,Y1,…,Yn的样本方差。推论3:在推论2的条件下,若σ1=σ2,则:(3.9)几点说明:1°有些书上样本方差定义为:我们的定义为:这是因为可证明E(S2)=σ2,而E()=。2°E(S2)=σ2,但E(S)≠σ。这可用反证法证明如下:若E(S)=σ,由方差定义,有:D(S)=E(S2)-(E(S))2=σ2-σ2=0这意味着S是一个常量,永不改变。这显然不可能。所以假设E(S)=σ不成立。\n3°(3.3)式和(3.7)式中的n有不同的统计学意义。(3.3)式中的n是Y的自由度,而(3.7)式中S2表达式已将它的自由度n-1除掉了,此地除以是因为S2是总体方差估计值,而的方差为总体方差的1/n倍,因此使用(3.7)式才能将标准化。§3.2假设检验的基本方法与两种类型的错误现在我们从一道例题入手,看看假设检验的基本做法和其中所涉及的一些理论性问题。例3.1某地区10年前普查时,13岁男孩子平均身高为1.51m,现抽查200个12.5岁到13.5岁男孩,身高平均值为1.53m,标准差0.073m,问10年来该地区男孩身高是否有明显增长?分析:从题目知10年前总体均值μ1=1.51m。现在抽取200个个体,得样本均值m,样本标准差S=0.073m。现在总体均值μ未知。题目要求判断μ>μ1是否成立。解决方法:先假设μ=μ1=1.51m。再看从这样一个总体中抽出一个n=200,,S=0.073的样本的可能性有多大?如果这可能性很大,我们只能认为μ与μ1差别不大,即μ=μ1很可能成立。反之若可能性很小,则说明在假设μ=μ1成立的条件下,抽出这样一个样本的事件是一个小概率事件。小概率事件在一次观察中是不应发生的,但它现在发生了,一个合理的解释就是它本不是小概率事件,是我们把概率算错了。而算错的原因就是我们在一开始就做了一个错误的假设μ=μ1。换句话说,此时我们应该认为μ>μ1,即男孩身高有明显增长。这就是假设检验的基本思路。按这一思路解题,首先需要明确以下几个问题:1°假设的建立。零假设:记为H0,针对要考查的内容提出。本例中可为:H0:μ=151。它通常为一个数值,或一个半开半闭区间(例如可能为H0:u≤151)。原则为:a)通过统计检验决定接受或拒绝H0后,可对问题作出明确回答;b)要能根据H0建立统计量的理论分布。备择假设:记为HA,是除H0外的一切可能值的集合。这里强调一切可能值是因为检验只能判断H0是否成立,若不成立则必须是HA。HA通常是一个区间。例如当H0取为μ=151时,HA应取为μ≠151。此时若有理由认为μ>151或μ<151不可能出现,也可只取HA为可能出现的一半,即μ<151或μ>151,这样可提高检验精度(原因参见单侧与双侧检验)。当H0取为μ≥151或μ≤151时,HA则应相应取为μ<151或μ>151。原则为:a)应包括除H0外的一切可能值;b)如有可能,应缩小备择假设范围以提高检验精度。2°小概率原理:小概率事件在一次观察中不应出现。这是一切统计检验的理论基础。注意:小概率事件不是不可能事件。观察次数多了,它迟早会出现。因此“一次”这个词是重要的。3°两种类型的错误:统计量是随机变量,它的取值受随机误差等因素的影响,是可以变化的。我们根据它作出的决定也完全可能犯错误。这一点无法绝对避免。统计上犯的错误可分为以下两类:第一类错误:H0正确,却被拒绝。又称弃真。犯这种错误的概率记为α。第二类错误:H0错误,却被接受。又称存伪。犯这种错误的概率记为β。两类错误的关系可用图3.1说明:\nIIIμ0uαμ1图3.1两类错误及其关系设所检验的参数为总体均值,统计量服从正态分布,单侧检验。μ0:H0中的参数值;μ1:总体参数真值;uα:查表所得分位数。若H0正确,即μ0=μ1,图中两曲线应重合为曲线I。由于统计量u>uα时我们拒绝H0,因此犯第一类错误的概率α=P(u>uα),即图中uα竖线右边阴影部分面积。若H0错误,即μ0≠μ1,统计量u的真正密度函数曲线为II。由于u151(或μ<151)。-uα/2uα/2uα双侧单侧双侧检验:拒绝域为μ≠151。\n图3.2双侧与单侧检验双侧检验时拒绝域分为两块,但阴影部分总面积是与单侧检验相同的,因此,从而使β增大(参见3°)。这样在α相同时,单侧检验的β值小于双侧检验,即单侧检验优于双侧检验。这是因为我们使用了额外的知识排除了一种可能性。5°显著性水平的选择。α的选择有很大任意性。选择的主要依据是犯了两类错误后的危害性大小。例如,若问题为药品出厂检验,H0:合格,HA:不合格。第一类错误为实际合格,判为不合格,药厂承受经济损失;第二类错误为实际不合格,判为合格,出厂后可能引起严重的索赔问题。权衡利弊,第二类错误危害大。因此应取较大的α,以减小β。反之,若检验对象是钮扣,则即使有些废品率稍高的产品进入市场也不会有多大关系,而报废一批产品损失就很大,因此应减小α。α的常用值为:0.05,0.01。个别情况下使用0.1。§3.3正态总体的假设检验本节开始介绍对正态总体进行假设检验的具体方法。从正态分布的密度函数可知,正态总体只有两个参数,这就是期望μ和方差σ2。因此我们的检验主要也是针对这两个参数进行。本节只讨论两种类型的假设检验,那就是单样本检验和双样本检验。所谓单样本检验就是全部样品都抽自一个总体,检验的目的通常是μ或σ是否等于某一数值;双样本检验则是有分别抽自不同总体的两个样本,检验的目的是看这两个总体的μ或σ是否相等。双样本检验的最大优点是我们不必知道总体的参数究竟应该等于什么数值,而只要看看它是否有变化就可以了。在生物学实验中我们常常采取设置对照的方法,如检验某种药物是否比安慰剂有更好的疗效;或新品种农作物是否比旧品种产量更高等等,此时都应该采用双样本检验的方法。如果我们需要考虑三个以上总体,则应采用第四章介绍的方差分析的方法。一、单样本检验步骤1°建立假设,包括H0与HA。一般来说,H0取值有三种可能:μ=μ0,μ≤μ0,或μ≥μ0。这里μ0是一个具体数值。注意H0的表达式中必须包含等号,因为我们实际上就是根据这个等号建立理论分布的。μ0数值的确定一般有三种可能的来源:a)凭经验我们知道μ0应等于多少;b)根据某种理论可以计算出μ0应等于多少;c)实际问题要求它等于多少,例如市场要求产品寿命不得小于1000小时等。至于H0中是否包含大于或小于号则主要看实际问题的要求。对应于H0的三种可能取值,HA也有相应三种:μ≠μ0,μ<μ0,或μ>μ0。当H0取为μ=μ0,但我们由专业知识可知μ>μ0,或μ<μ0中有一种不可能出现时,也可选择另一种为HA。此时也相当于单侧检验。注意HA应包括除H0外的一切可能值。在有专业知识可依据的情况下,应优先选取单侧检验,因为这样可提高检验精度。需要强调的是选择单尾的依据必须来自数据以外的专业知识或实践要求,而不能来自数据本身。换句话说,不能看数据偏大就取上单尾检验,偏小就取下单尾检验。这是因为即使观测数据偏大,它们也可能来自一个均值偏小的总体。2°选择显著性水平α。α最常用的数值是0.05。当我们计算出统计量的观测值出现的概率大于0.05时,我们称之为“没有显著差异”,并接受H0;当小于0.05时,我们称之为“差异显著”,并拒绝H0。一般情况下,此时我们应进一步与0.01比较,若算出的概率也小于0.01,则称“差异极显著”,此时我们拒绝H0\n就有了更大把握。在个别情况下,例如犯第二类错误后后果十分严重时,也可选用0.1或其他数值。需要特别强调的是我们一般都取α=0.05,这只是一种约定俗成,理论上并没有任何特殊意义。从这个角度看,当我们算出的概率等于0.051时就接受H0,等于0.049时就拒绝H0,这是没有什么道理的。在实际工作中,如果我们算出的概率十分接近0.05,一般不应轻易下结论,而应增加样本含量后再次进行检验。3°选择统计量及其分布。检验均值一般选择为统计量,检验方差则选择S2为统计量。统计量服从什么分布则要由§3.1中的抽样分布来决定。各种情况下的统计量理论分布如下:检验均值:可根据是否知道总体方差分为以下两种情况:a)总体方差σ2已知:根据§3.1(3.5)式应使用u检验,统计量服从正态分布。(3.10)注意这里分母上要除以,这是因为σ是总体标准差,统计量的标准差应为总体标准差的,因此用上述公式才能将标准化。b)总体方差σ2未知:根据§3.1(3.7)式,应使用t检验,统计量服从t分布。~t(n-1)(3.11)注意这里分母上除以的原因与u检验相同,n不是S2的自由度。S2的自由度n-1已在它的表达式中除去了。参见§3.1最后的说明。检验方差:根据§3.1(3.6)式,使用c2检验,统计量服从c2分布。(3.12)上述各式中为样本均值,S2为样本方差,n为样本容量,μ0与为H0中总体均值与方差取值。4°建立拒绝域。根据统计假设确定是单侧检验还是双侧检验,根据统计量的分布选取适当的表,再根据选定的α值查出分位数取值,从而建立拒绝域。注意正态分布和t分布的密度函数关于y轴对称,如果是双侧检验可取绝对值与分位数比;如果是单侧检验则应区分下单尾是小于负分位数拒绝H0,上单尾则是大于正分位数拒绝H0。c2分布则没有对称性,必须分别查下侧分位数和上侧分位数。5°计算统计量,并对结果作出解释。把样本观测值代入统计量公式,求得统计量取值,检查是否落入拒绝域。若没落入则认为“无显著差异”,接受H0;若落入α=0.05的拒绝域,则应进一步与α=0.01的拒绝域比较,若未落入,则认为“有显著差异,但未达极显著水平”,拒绝H0;若也落入α=0.01拒绝域,则认为“有极显著差异”,拒绝H0。最后,根据上述检验结果对原问题作出明确回答。例3.1某地区10年前普查时,13岁男孩平均身高为1.51m。现抽查200个12.5岁至13.5岁男孩,身高平均值为1.53m,标准差S=0.073m,问10年来该地区男孩身高是否有明显增长?\n解:分析:由于生活水平提高,孩子身高只会增加,不会减少。同时,题目也是问身高是否有增长,因此可用单侧检验。H0:μ=151;HA:μ>151查表,得df=199,α=0.05的t单侧分位数为:t0.95(199)≈t0.95(180)=1.653;α=0.01的单侧分位数为:t0.99(199)≈t0.99(180)=2.347t>t0.99,∴有极显著差异,拒绝H0,即:应认为10年来该地区男孩高有明显增长。当分布表中不能找到恰好相同的自由度时,可选取表中最接近的值代替,也可以取接近的几个值进行插值计算得出近似值。例3.2已知某种玉米平均穗重μ0=300g,标准差σ=9.5g,喷药后,随机抽取9个果穗,重量分别为(单位为g):308,305,311,298,315,300,321,294,320。问这种药对果穗重量是否有影响?解法1:先检验方差是否变化,再决定是采用U检验还是T检验。1°检验穗重标准差是否改变:H0:σ=9.5;HA:σ≠9.5取α=0.05,查df=8的χ2分布表,得:,∴无显著差异,接受H0,可认为喷药不影响穗重标准差,σ仍为9.5。因此可采用u检验。2°检验穗重均值是否有变化:H0:μ=300;HA:μ≠300查正态分布表,得:U0.975=1.96,U0.995=2.58。U>U0.975,但U1的临界值。因此计算F统计量时应把较大的S2放在分子位置,并相应地把它的自由度也放在前边。这样只需要用上侧分位数就够了。若是双侧检验查,单侧查。注意表中分子分母自由度的位置,分子分母自由度颠倒后F的分位数值是不同的。检验两个均值是否相等:可分为以下三种情况:a)两总体方差已知:u检验。根据正态分布性质,有:在H0:μ1=μ2成立的条件下,上式化为:(3.14)b)两总体方差未知,但它们相等(相当于第一步F检验已通过的情况):t检验。在H0:μ1=μ2成立的条件下,根据(3.9)式,有:(3.15)n=m时,可简化为:(3.16)c)两总体方差未知,且不等(相当于第一步F检验未通过的情况):近似t检验。此时上述统计量不再严格服从t分布,只能采用近似公式。最常用的为Aspin-Welch检验法。即统计量(3.17)\n近似服从t分布,其自由度为:df=,其中。例3.3两发酵法生产青毒素的工厂,其产品收率的方差分别为,现甲工厂测得25个数据,,乙工厂测得30个数据,,问它们的收率是否相同?解:分析:由于方差已知,应采用u检验。根据题意,应进行双侧检验。H0:μx=μy;HA:μx≠μy查正态分布表,得:u0.975=1.960>u。∴差异不显著,接受H0,应认为两工厂收率相同。例3.4新旧两个小麦品系进行对比试验,旧品系共收获25个小区,平均产量为,样本标准差S1=2.77kg;新品系收获20个小区,平均产量=40.35kg,S2=1.56kg,问新品系是否值得推广?解:由于方差未知,为了选择统计量首先须检验方差是否相等:查F分布表,得:F0.975(24,19)=2.45,F0.995(24,19)=2.92;F>F0.995,∴差异极显著,拒绝H0,两总体方差不相等。再检验均值是否相等:由于方差不等,应使用近似t检验,且新品系必须优于旧品系才值得推广,因此应进行单侧检验。再求t的自由度:\n查表:t0.05(39)≈t0.05(40)=-1.684t0.01(39)≈t0.01(40)=-2.423tF,∴接受H0,可认为方差相等。检验均值是否相等:H0:μx=μy;HA:μx≠μy查表,得t0.975(17)=2.110>t,∴接受H0,两种饲料效果无明显差异。三、配对数据检验步骤以上介绍的双样本检验又称为成组数据检验,两个样本间是相互独立的。有时为提高检验准确度,把试验材料分成一些对子,每对材料各种条件尽可能一致,然后分别作不同处理,以检验处理的效果。这样的数据称为配对数据。例如:同一个人服药前后的数据,同一窝动物的不同处理,同样体重、性别、年龄的一对对动物,等等。此时的检验方法为取每对材料测量值的差为统计对象,进行单样本检验。即:令di=x1i–x2i,i=1,2,…n,然后对di作单样本检验。H0取为μd=0。配对法与成组法的比较:由于\n所以有:其中为差值的子样方差,分别为每对中作第一处理与第二处理材料的测量值的子样方差,是两种处理测量值的子样协方差,r是它们的相关系数。显然若r>0,则有,即差值的方差小于两组数据方差的和,此时采用配对检验可提高检验精度;反之若r<0,则有,即差值的方差反而大于两组数据方差的和,此时采用配对检验会降低检验精度。因此采用配对检验时必须保证各对数据的正相关性。需要特别注意的是我们实际要求的是总体间的正相关性,这就意味着要求我们可以从专业知识保证这一点。例如同一个人服药前后的某种指标测量值,精心挑选的一对对各方面都尽量相同的实验动物,等等;要末就要经过相关性检验,证实总体相关系数ρ确实大于0。因此,如果实验设计时未做任何特殊考虑,只是两样本含量相等,那么即使计算出的样本相关系数r>0也不能轻易使用配对检验,因为此时r>0完全可能是个偶然事件。例3.610名病人服药前后血红蛋白含量如下:病人号12345678910服药前(x)11.315.015.013.512.810.011.012.013.012.3服药后(y)14.013.814.013.513.512.014.711.413.812.0d=(x-y)-2.71.21.00-0.7-2.0-3.70.6-0.80.3问该药是否引起血红蛋白含量变化?分析:由于是同一名病人服药前后的血红蛋白含量测定值,它们应是正相关的。因此应使用配对检验。题目中未说明是何药物,也未说明这种药物的作用是增加血红蛋白含量还是减低含量,因此只能做双侧检验。解:算得H0:μd=0;HA:μd≠0查表,得t0.975(9)=2.262∵(9),∴接受H0,该药对血红蛋白含量无明显影响。\n一般来说,若测量的数据是同一病人服药前后的变化,则数据都应是正相关,也就都可以采用配对法进行统计检验。但有时也会有例外的情况,例如现在有些药物特别是一些中药常常号称能调节血压或血脂等指标。如果这是真的,那就意味着血压或血脂低的病人服药后升高,而高的服后会降低。若病人中原来偏高偏低的都有,则服药后的数据就不应是正相关,也就不能采用配对法检验了。如果待测药物真有这样的调节作用,显然就应把病人按偏低偏高分为两组分别检验,只有这样才能确定药物是否有效。当然另一种可能的检验方法是检验服药后血压或血脂值的方差是否缩小。如果效果真是低的升高高的降低,显然服药后测量值的方差应减小。注意此时应要求病人中偏高偏低的都要有。总之,希望同学们要抓住各种检验方法所要求的核心条件(例如配对检验最关键的就是要求数据正相关),然后结合所研究的具体问题进行细致的分析,这样才能保证正确地使用统计学这一有力工具。如果只是记住象“同一人服药前后就应配对检验”这一类例子而生搬硬套,很可能就会由于误用方法而得不到正确结论。四、百分数的检验实际工作中常常碰到这样一些问题:检验两批种子发芽率是否相同;检验两种杀虫剂造成的死亡率是否相同;检验两批产品合格率是否相同,等等。这一类问题的数学背景是相同的,实际都是检验两点分布总体中概率p是否相同。在生物学实验中,象发芽率,死亡率等常不难得到大样本,对这一类大样本我们可以进行如下的近似检验。前已证明,对两点分布来说,E(x)=p,D(x)=pq。若从两个总体中各抽取容量为n1,n2的样本,其中有指定特性的个数为x1,x2,则有:(见§3.4例3.9)。现欲检验H0:p1=p2。由于实际是样本均值,若n1,n2足够大,则由中心极限定理,它们均应近似服从正态分布。若H0成立,它们总体的期望方差都相等,实际可视为同一总体。因此有近似服从N,且。因此在大样本下有统计量(3.18)近似服从N(0,1)。例3.7杀虫剂A在600头虫子中杀死465头,杀虫剂B在500头中杀死374头,问它们的效果是否相同?解:设p为死亡率。H0:PA=PB;HA:PA≠PB∵,∴差异不显著,接受H0,两种杀虫剂效果相同。§3.4参量估计\n本节中我们进一步介绍对总体分布中某些重要参数进行统计估计的方法。参数估计的方法主要适用于我们知道总体分布的类型,但其中一个或几个重要参数未知的情况。这样,只要我们通过抽取样本得到了这几个参数的估计值,也就确定了总体的分布。例如血球计数或水样中细菌计数,我们知道它的分布应是泊松分布,因此问题就是要通过样本确定其参数λ;再比如我们要研究某一人群的身高,一般来说身高服从正态分布,因此我们就需要从样本中确定两个参数μ和σ2。当然也有些情况我们对总体究竟服从什么分布不感兴趣,只要知道它的一两个重要参数如均值,方差就可以了,此时当然也可使用参数估计。参数估计主要可分为两种,一种叫点估计,也就是利用样本构造一个统计量,用它来作为总体参数的估计值。这样,只要测定了一组样本的取值,代入统计量公式中就可得到总体参数的估计值。另一种方法叫区间估计,它是给出一个取值范围,并给出我们所关心的总体参数落入这一范围中的概率。这一取值范围就称为置信区间,而总体参数落入这一区间中的概率称为置信水平。区间估计与上一节的假设检验有密切的关系。一、点估计:用统计量对总体参数进行估计。1.估计量所需满足的条件:为进行参数估计所构造的统计量也可称为估计量。显然为了估计同一个参数我们可能构造出许多各不相同的估计量,例如估计平均数,就可能有算术平均,几何平均,加权平均,调和平均……等许多算法。为了能从其中选出一种应用,我们必须对估计量建立一些评价的标准,这样才能说我们的选择是有道理的。这种标准主要有以下几个:1°无偏性。即要求估计量的数学期望应等于所求的总体参数。2°有效性。当样本含量n相同时,方差小的估计量称为更有效。3°一致性。设Tn(x1,x2,…xn)为参数θ的估计量,若对任意ε>0,有,则称Tn为θ的一致估计量。前两条标准都容易理解,第三条标准实际是说随着样本含量n的增大,绝大多数Tn都要离θ越来越近,剩下的不以θ为极限的Tn可以忽略不计(因为其出现概率为0)。有时还会提出第4条标准,那就是均方误差要小。均方误差就是估计量对真值的偏离程度,定义为:E(Tn-θ)2。一般来说,在所有标准下都表现最优的估计量是很少的,常常是在这个标准下这个估计量好,在另一个标准下又是另一个估计量好。就拿前边介绍过的以估计μ,以S2估计σ2来说,它们在前三条标准下都是最优的,但S2的均方误差就大于估计量,而Sn2又不是无偏估计(见§3.1)。2.点估计常用方法:矩估计与最大似然估计。a)矩估计:在§2.4中,我们曾介绍过随机变量的K阶原点矩定义为:。在§3.1中,又介绍过样本的K阶原点矩为:,这样得到一个样本x1,x2,…xn后就可以计算各个ak。一个自然的想法就是我们可以用ak来估计mk,从而可得到各参数的估计值。这种方法就称为矩估计。具体方法为:如果我们知道随机变量的分布类型,那末就可把\n视为参数θ1,θ2,…θr的函数。设有r个要估计的参数,我们用前r阶样本原点矩作为相应的总体原点矩的估计值,则有:(3.19)这样就得到了r个方程组成一个方程组,它的解就可以作为所求的r个总体参数的估计值。以上是对连续型分布进行推导,如果是离散型分布,只需将积分换为求和即可。另外,上述推导使用的是原点矩,全部换成中心矩也是可以的。这种方法就称为矩法。所得估计值称为矩估计值。例3.8设总体X的期望μ和方差σ2存在,X1,X2,…Xn为从这总体中抽取的简单随机样本,求μ和σ2的矩估计值。解:由于μ就是总体的一阶原点矩,显然有:由方差的性质,有:σ2=E(X2)-[E(X)]2=m2-μ2。∴m2=σ2+μ2。根据矩法,有:,即:把的表达式代入,得:∴总体期望的矩估计值为,方差的矩估计值为。例3.9设x1,x2,…xn为抽自均匀分布\n的简单随机子样,试求θ1,θ2的矩估计。解:由原点矩定义,有:令分别代表子样一,二阶原点矩。由矩法,有:解上述方程组,由(1):(3)把(3)代入(2):注意,则有:即:(4)把(4)代入(3):由题意,且Sn>0,∴矩法估计值为:\n区间长度的估计值为:b)极大似然估计。所谓“极大似然”,从字面上看,应该是“看起来最像”“最可能”之类的意思。那么,从数学上又是怎样来定义这个极大似然估计呢?我们可以这样分析:设总体X的分布密度为f(X,θ),其中θ是需要估计的未知参数。对于从这个总体中抽取的样本X1,X2,…Xn来说,f(xi,θ)代表了样本中一个子样取值为xi的相对可能性。定义函数:L(x1,x2,…xn;θ)=f(x1,θ)f(x2,θ)…f(xn,θ)称为样本似然函数,显然它是x1,x2,…xn和θ的函数。对于一组固定的样本观测值x1,x2,…xn来说,L就变成了θ的函数。这样一组观测值最可能来自哪个总体呢?显然可能来自那个能使L取值达到最大的总体,即选取这样的一个作为θ的估计值,它所决定的总体分布使我们所观察到的这组样本取值x1,x2,…xn出现的可能性达到极大。这就是极大似然估计的基本思想。要选择使L达到极大的θ在数学上不难做到,这样的θ一定会满足方程(3.21)自然对数Ln(x)是x的单调函数,这就保证了LnL(θ)的极大值一定也是L(θ)的极大值。由于L是连乘的形式,取对数后就变成了相加,有时会简化计算。因此求θ的极大似然估计常常可求解下述似然方程:(3.22)如果要估计的参数不只一个,例如r个,则似然方程变为如下的方程组:(3.23)它的解就是我们所要求的极大似然估计。以上讨论是针对连续型分布,若为离散分布需解决求L(θ)极大值的问题,因为离散型可能不能微分。但从整体上说,只要能求出L(θ)的极大值,极大似然估计的思想就仍可用。例3.90取n粒种子作发芽试验,其中有m粒发芽,求发芽率p的极大似然估计。解:每粒种子发芽与否可视为两点分布:发芽,则X=1,其概率为p\n不发芽,则X=0,其概率为1-p由似然函数的构造,有:L(p)=P(X=x1,p)·P(X=x2,p)…P(X=xn,p)由于共有m粒发芽,(n-m)粒不发芽,∴L(p)=pm(1-p)n-m令上式等于0,由于,有:即:发芽率p的极大似然估计为例3.11设x1,x2,…xn是取自正态总体N(μ,σ2)的简单随机子样,μ与σ2是未知参数,求μ和σ的极大似然估计。解:由于故有似然函数取对数,有:∴似然方程为:由(1)解得:代入(2),得:\n即:μ和σ2的极大似然估计分别为和。例3.12设x1,x2,…xn为抽自均匀分布的简单随机子样,求θ1,θ2的极大似然估计。解:此时每个取值为xi之点的概率密度函数均为,因此似然函数为:其中θ1,θ2的取值范围为:显然当θ1,θ2取任何有限值时,都不可能使L(θ1,θ2)的导数为0,这说明L(θ1,θ2),没有数学意义上的极值。但同样明显的是,θ2越小,θ1越大,则L(θ1,θ2)的值也就越大。由于它们的取值范围为,,因此在它们可能的取值范围内当时,L(θ1,θ2)有最大值。这也就是θ1,θ2的极大似然估计。从这几道例题可见,当我们采用不同的估计方法时,有时能得到相同的估计量(如正态分布的μ,σ2的估计),有时得到不同的估计量(如均匀分布中θ1,θ2的估计)。总的来说,矩估计是一种古老的方法,它使用较方便,但当样本含量n较大时,它的估计精度一般不如极大似然估计高。极大似然估计法则较新,在大样本的情况下,极大似然估计量一般是一致的,而且是有效的。因此从理论上看极大似然估计优于矩法估计。常用的点估计除已介绍的几种外,还有标记一重捕法中以来估计N等(N:种群总数;M:标记个体数;n:重捕数;m:重捕样本中有标记个体数)。二、区间估计:确定一个区间,并给出该区间包含总体参数的概率。点估计的最大缺点就是由于估计量也是统计量,它必然带有一定误差。换句话说估计值不可能正好等于真值。但估计值与真值到底差多少,点估计中没有给我们任何信息。而区间估计正好弥补了这个缺点,它不仅给出了真值的范围,而且给出了真值落入这一范围的概率。因此区间估计给出的信息显然多于点估计。\n1.正态总体μ与σ2的置信区间我们主要针对正态分布讨论μ与σ2的置信区间。这一方面是因为正态分布确实是最常见的分布,另一方面是因为中心极限定理保证了当样本足够大时,不管总体服从什么分布,我们都可以把看作近似服从正态分布。因此只有当样本含量较小时,我们才需要对总体是否服从正态分布加以考虑。求μ与σ2的置信区间时,选择统计量和理论分布的方法与§3.3假设检验中完全相同,然后根据所得到的接受域对未知参量解不等式,即得到所求的置信区间。若所选择的显著性水平为α,则该区间包含总体参数的概率即为1-α,称为置信水平。例3.13求σ已知时μ的95%置信区间。解:σ已知时取α=0.05,则:解不等式,得:即:μ的95%置信区间为:例3.13求两样本,标准差σi未知但相等时μ1-μ2的1-α置信区间。解:两样本,标准差未知但相等时的统计量为:显著性水平为α的接受域为:把t表达式代入,解得μ1-μ2的1-α置信区间为:例3.15求正态总体σ2的1-α置信区间解:设样本方差为S2。根据(3.6)式,有:∴对未知参数σ2解不等式,得:\n∴σ2的1-α置信区间为:上述几道题我们都只进行了公式的推导,而没有代入具体的数字。当需要解决具体问题时,只须将数字代入即可。同时,我们并不希望同学们死记上述公式,而是要搞清楚在各种情况下什么是接受域,应当对哪个变量求解不等式,这样才能针对不同情况灵活使用公式。也有几种情况例题中未涉及,如σ2已知时的双样本u检验,σ2未知且不等的近似t检验,两方差是否相等的F检验等。相信同学们只要真正理解、掌握了上述几道例题的思想与方法,这些问题是不难解决的。另外,在某些情况下也会要求单侧置信区间,此时只要用单侧分位数代替双侧分位数即可。2.二项分布中P的置信区间。(参见国标GB4087.2–83)二项分布的概率函数为:x=0,1,2,……n参数p的点估计为:。(n:样本含量。x:样本中具有某种属性的个体数)置信区间的求法如下(Pu,PL分别为区间的上下限):1°n<10时,置信区间一般太宽,无实用价值。2°n≥10时,采用下述公式:(3.24)其中γ1=2(n-x+1),γ2=2x;(3.25)其中γ1=2(n-x),γ2=2(x+1)。例3.16取n=20,x=8,1-α=0.95,求上单侧,下单侧,双侧置信区间。解:上单侧:n=20,x=8,γ1=2(20-8)=24,γ2=2(8+1)=18查F分布表,取F0.95(15,24)与F0.95(20,24)的平均数:代入公式,得:∴所求区间为:[0,0.608)。下单侧:n=20,x=8,γ1=2(20-8+1)=26,γ2=2x=16查F分布表,取F0.95(24,16)与F0.95(30,16)的平均数:代入公式,得:\n∴所求区间为:(0.217,1]。双侧:n=20,x=8PL:γ1=2(20-8+1)=26,γ2=2·8=16查F分布表,取F0.975(24,16)与F0.975(30,16)的平均数:,代入公式,得:;Pu:γ1=2(20-8)=24,γ2=2(8+1)=18,查表,取F0.975(15,24)与F0.975(20,24)的平均数:,代入公式,得:∴所求区间为:(0.191,0.641)。3°n>30,且0.1<<0.9时,可使用下述近似公式:(3.26)(3.27)式中,u为正态分布的分位数,d为常数,取值见表3.1。表3.1d与uα的取值置信水平1-α单侧uαd双侧uαd0.901.2820.71.6451.00.951.64511.9601.50.992.32622.5762.5例3.17取n=40,x=12,1-α=0.95,求双侧置信区间(PL,Pu)。解:查表,得d=1.5,uα=1.960代入公式,得:\n∴所求置信区间为:(0.1650,0.4657)。4°当n>30,且或时,可采用泊松近似。近似公式为:(3.28)式中,为分布的分位数,依单侧或双侧区间a可取值α或。括号中为自由度。式中,同上。例3.18取n=50,x=5,1-α=0.95,求双侧置信区间。解:,用接近于0的公式。∴所求置信区间为(0.03396,0.2188)。三、正态总体区间估计与显著性检验的关系:1°来自于同一不等式,结果是一致的。因此必要时也可使用置信区间进行假设检验:只要看看H0中的理论值是否落在置信区间中就可以了。2°直观上有一定差异。显著性检验是把H0:μ=μ0视为固定常数,依据它建立理论分布,再来判断实际观察值是否小概率事件;区间估计则是把观察值视为最可能的μ的取值(点估计),再以它为中心建立一个区间,并给出母体参数μ落入这一区间的概率(置信水平)。\n§3.5非参数检验I:χ2检验前边我们介绍的假设检验都属于参数检验,也就是说检验目标是判断总体参数是否等于某一指定值,或两个总体的某一参数是否相等。本节主要介绍另一类检验,这就是非参数检验。它检验的目标一般与参数无关,而是总体分布的某种性质,例如是否服从某种指定的分布,两个事件是否独立等等。χ2检验在非参数检验中应用相当广泛。在以前的检验中我们也用过χ2分布,当时用于检验总体的方差σ2是否等于某一指定值。而本节的用法与上述用法不同,它主要基于以下的Pearson定理。Pearson定理:当(P1,P2,…Pr)是总体的真实概率分布时,统计量(3.30)随n的增加渐近于自由度为r-1的χ2分布。(3.30)式的统计量也被称为Pearson计量。其中P1,P2,…Pr为r种不同属性出现的概率,n为样本含量,ni为样本中第i种属性出现的次数。由于ni是样本中第i种属性出现的次数,是观察值;而pi是第i种属性出现的概率,因此npi可被看作是理论上该样本中第i种属性应出现的次数。这样我们就可以换一种写法,把ni视为观察值Oi,npi视为理论值Ti,则(3.30)式可写成:(3.31)这样一来,Pearson定理实际是说如果样本确实抽自由(P1,P2,…Pr)代表的总体,Oi和Ti之间的差异就只是随机误差,则Pearson统计量可视为服从χ2分布;反之若样本不是抽自由(P1,P2,…Pr)代表的总体,Oi和Ti之间的差异就不只是随机误差,从而使计算出的统计量有偏大的趋势。因此对上述Pearson统计量进行上单尾检验可用于判断离散型数据的观察值与理论值是否吻合。此时统计假设为:H0:Oi=Ti;HA:Oi≠TI,但检验是上单尾检验。显然,上述数据应满足:。另外,为了使Pearson统计量近似服从χ2(r–1)分布,还要求:1°各理论值均大于5。即:Ti≥5,i=1,2,…,r。如果有一个或多个Ti<5,会使Pearson统计量明显偏离χ2分布,可能导致错误检验结果。2°若自由度为1,则应作连续性矫正,即把统计量改为:(3.32)还应注意由于Pearson统计量的H0为Oi=Ti,所以统计量值为0意味着H0严格成立,即它不会有下侧拒绝域,永远只用上单侧检验。Pearson统计量的应用主要有以下两个方面:一、吻合度检验。用于检验总体是否服从某个指定分布。方法为:设给定分布函数为F(x)。首先把x的值域分为r个不相重合的区间,并统计样本含量为n的一次抽样中,观察值落入各区间的次数,把落入区间i的次数记为Oi,i=1,2,…\nr;再算出在指定的分布下,x落入每一区间的概率pi,i=1,2,…r。由于样本含量为n,因此理论上落入每一区间的次数应为Ti=n·pi;从而可用Pearson统计量进行检验。需要特别注意的是,在做吻合度检验时,Pearson统计量的自由度可能发生变化。一般来说,如果给定的分布函数F(x)中不含有未知参数,则Pearson统计量的自由度就是r–1;但如果F(x)中含有一个或几个未知参数,需要用从样本中计算出的估计量代替,则使用了几个估计量自由度一般就应在r–1的基础上再减去几。如例3.19,观测值共分了9组,自由度本应为9–1=8,但由于理论分布的μ和σ2未知,使用估计量代替,因此自由度应为8–2=6。例3.19调查了某地200名男孩身高,得,分组数据见下表。男孩身高是否符合正态分布?表3.2男孩身高分布表组号区间OiPiTi(Oi-Ti)2/Ti1(-∞,126)80.03446.880.18062[126,130)130.065813.160.00193[130,134)170.129125.813.00814[134,138)370.190638.120.03325[138,142)550.212042.403.74206[142,146)330.177635.510.17817[146,150)180.112022.400.86378[150,154)100.053210.640.03809[154,+∞)90.02535.073.0506表中前三列是观察数据,后三列是计算所得。计算公式为:设区间为[xi-1,xi),则,其中Ф为N(0,1)的分布函数,可查表得到。Ti=200·Pi自由度df=9-1-2=6(∵用,S2作为μ,σ2的估计量,∴应再减去二个自由度)。查χ2分布表,得:。由于χ2<(6),故可认为男孩身高分布与正态分布无明显差异。例3.20以红米非糯稻和白米糯稻杂交,子二代检测179株,数据如下:属性(x)红米非糯(0)红米糯(1)白米非糯(2)白米糯(3)合计株数96373115179问子二代分离是否符合9:3:3:1的规律?解:若符合9:3:3:1的规律,则应有:\n查表,,∴差异不显著,接受H0,子二代分离规律符合9:3:3:1。本题理论分布中没有未知参数,因此χ2统计量自由度仍为3。例3.21用血球计数板计数每微升培养液中的酵母细胞,得数据如下表中的前两列:细胞数i出现次数Oi概率piTi(Oi–Ti)2/Ti02130.5054202.160.58111280.3449137.960.7192370.117747.082.1583180.026810.726.613430.00461.84510.00060.24合计400140010.17问此细胞计数数据是否符合Poisson分布?解:Poisson分布的概率函数:。其中只有唯一参数λ,既是期望又是方差。∴可用估计。令,代入概率函数可求出i=0,1,…5的概率pi,填入表中第三列。令Ti=n·pi=400·pi,填入表中第四列。由于i=4,5时Ti值太小,所它们与i=3合并。即令O3=18+3+1=22,T3=10.72+1.84+0.24=12.80计算,填入第五列。将第五列各数字相加,得:χ2=10.71由于计算理论分布时使用了一个估计量,因此自由度df=4-2=2。查表:,∴差异极显著,拒绝H0,观测数据不符合Poisson分布。一般来说细胞计数应服从Poisson分布,其前提条件就是各细胞之间既不能互相吸引,也不能互相排斥,必须是互不影响。本例中差异主要表现在出现3个以上细胞的次数明显偏多,也许说明细胞间有某种吸引力,有聚在一起的趋势。二、列联表的独立性检验列联表独立性检验是Pearsson统计量的又一重要应用。它主要用于检验两个事件是否独立,例如处理方法和效果是否独立。问题可以这样提出:\n设实验中可采用r种处理方法,可能得到C种不同的实验结果。一个常见的问题就是:这r种方法的效果是否相同?或改一种问法:方法与效果是否独立?例3.22下表是对某种药的试验结果:表3.3给药方式与药效试验结果给药方式有效(A)无效()总数有效率口服(B)58409859.2%注射()64319567.4%总数12271193问给药方式对药效果是否有影响?分析:表中各行、各列总数分别为口服与注射、有效与无效的总数。若A代表有效,B代表口服,则应有:P(A)=第一列总数/总数;P(B)=第一行总数/总数。这样,若我们保持表中各行各列总数不变,即保持口服与注射、有效与无效的总数不变,也就是保持了P(A)、P(B)等概率不变。在这样的条件下,若再有H0成立,即药效与给药方式无关,A与B互相独立,则有:P(AB)=P(A)·P(B)。此时总数×P(AB)就应是口服且有效的理论值。与此类似,可用以下方法计算出各格的理论值Ti:Ti=(行总数×列总数)/总数,从而可使用Pearson统计量对H0:O-T=0(或A与B独立)进行检验。这种方法就称为列联表独立性检验。设表有r行c列,由于在这种方法中使用了各行、各列总数作为常数,自由度也应相应减少。若各行总数都确定了,总数当然也就确定了;此时列总数只要确定c-1个即可,最后一个可用解方程的方法算出来。因此实际使用的常数不是r+c个,而是r+c-1个。这样一来,自由度应为:df==(行总数-1)×(列总数-1)解:在保持各行、列总数不变,且A与B独立的条件下,计算各格理论值Ti:有效(A)无效()行总数口服(B)O1=58O2=4098注射()O3=64O4=3195列总数12271总数:193Df=(2-1)×(2-1)=1查χ2分布表,得:。,∴接受H0,给药方式与药效无关。几点说明:\n1°由于保持各列、行总数不变,相当每行、每列均加了一个约束,因此对r行c列列联表,自由度为df=(r–1)·(c–1)。2°由于A与B独立,有:P(AB)=P(A)·P(B);这样在保持各行各列总数不变的条件下,可得Ti的计算公式为:Ti=n·pI=n·P(AB)=n·P(A)·P(B)=总数×(3.33)3°由于常用的2×2列联表自由度为1,因此一般应加连续性矫正,即使用公式(3.32)代替(3.31)。4°对于2×2列联表还可能有一种特殊的单侧检验。例如在例3.22中,若已知该药注射效果只会比口服好,不会比口服差;或问题改为:“问注射效果是否优于口服?”此时相当于专业知识或实际问题要求只检验注射效果偏好的一个单侧。前已述及,由于Pearson统计量自身的构造,它只能有上单尾检验,现在却又出来一个单侧。关于这个问题可进行如下分析:2×2列联表自由度只有1,在它的4个格中只要有一个格的值确定了,其他3个格的值也就都定下来。因此Oi偏离Ti的情况只有某格Oi偏大和偏小两种。这里所说的特殊的单侧检验,实际就是在这两种中检验一种。若行或列不只2,则自由度多于1,Oi偏离Ti的情况就会复杂得多,不能只归结为两种了。由于Pearsson统计量的分子为(Oi–Ti)2,对某一个格来说,Oi偏大偏小都会使统计量的值偏大。这说明在χ2上单尾的拒绝域中,本来就包含了某一格偏大或偏小两种情况,而且这两种情况是对称的,即它们出现的可能相等。在2×2列联表中,又只有这两种情况。这样一来,我们可以认为原来上单尾包含的值为α的概率中,有α/2是属于某格Oi偏大,α/2属于这一Oi偏小。具体到例3.21,就是有α/2属于注射优于口服,α/2属于注射劣于口服。因此此时Pearsson统计量的上单尾检验对注射效果来说,相当一种双尾检验;而如果要对注射效果进行单尾检验,同时又要保持α不变的话,则查表时不应查,而要查,即对α=0.05来说,应查。此时拒绝域对应的概率为2α,但只有一半即α是属于要检验的单尾。要注意由于统计量不能区分Oi偏大还是偏小,因此计算统计量之前应先检查一下注射有效的数据是否大于相应的Ti,如果不大于,则不必进行任何检验,直接得出结论“注射不明显优于口服”;若大于Ti,再按上述方法与比较进行检验。例3.23为检验某种血清预防感冒的作用;将用了血清的500人与未用血清的另500人在一年中的医疗记录进行比较,统计他们是否曾患感冒,得如下数据:未感冒曾感冒合计用血清254(236.5)246(263.5)500未用血清219(236.5)281(263.5)500合计4735271000问这种血清对预防感冒是否有效?解:由于血清不会使人更易患感冒,因此本题应为单侧检验。同时由于用血清的人未感冒的多,感冒的少,因此血清可能有效,应检验。\n按公式计算各格理论值,填于各格括号中。再计算Pearsson统计量:由于是对血清有效这一单侧进行检验,对于α=0.05,应查分位数,对α=0.01,应查,∴差异显著,但未达极显著,即应拒绝H0,血清对预防感冒有效。例3.24为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料:表3.4水稻叶片衰老情况灌溉方式绿叶数黄叶数枯叶数总计深水浅水湿润146(140.69)183(180.26)152(160.04)7(8.78)9(11.24)14(9.98)7(10.53)13(13.49)16(11.98)160205182总计4813036547问叶片衰老是否与灌溉方式有关?解:根据公式计算各格理论值,放在相应格的括号中。例如第一行第一列为:,第一行第二列为:,等等。由于该表有三行三列,∴自由度df=(3-1)×(3-1)=4。不须连续性矫正。查表:,∴差异不显著,接受H0,叶片衰老与灌溉方式无关。三、2×2列联表的精确检验及离散分布尾区的建立。\n列联表中某一格的理论数少于5时,不能用检验。对于2×2列联表来说,此时可使用精确检验法,即用古典概型的方法求出尾区的概率,然后与给定的显著性水平α相比,大于α则接受H0,反之则拒绝。采用这种方法,需要解决两个问题:用古典概型求2×2列联表出现某一组数值的概率和离散分布尾区建立的方法。现在我们先来讨论后者。离散分布尾区建立原则:从实际观察值开始,把对H0成立不利的方向上的概率全加起来,作为尾区的概率。为了更好地理解这一原则,我们可以回想一下正态总体尾区建立的方法:确定尾区边界Uα以后,并不是以X=Uα为尾区,而是以X≥Uα为尾区(上单尾)。X≥Uα的区域实际是远离H0:μ=μ0的区域,即X的取值比Uα更不利于H0成立的区域。因此在离散分布中我们也不能认为尾区中只有一个观察值,而应包括整个取值比观察值更不利于H0成立的区域。这一建立尾区的原则适用于所有离散分布,如二项分布,泊松分布等。2×2列联表概率的计算方法:设4个格的取值分别为:a,b,c,d。令N=a+b+c+d,事件E为保持各行,列总数不变,事件F为各格取值为a,b,c,d,则有:前已述及,保持各行、各列总数不变实际是保持各种方法及各种结果的总数不变,即保证实验的外部条件不变。上式中的分子是出现a,b,c,d的有利场合,分母是保持行,列总数不变的有利场合。因此上式是保持条件不变的前提下出现a,b,c,d的概率。尾区建立方法:若a,b,c,d中任何一个为0,则可用上式算出的P直值与α或比较。这是因为该格理论值一定是大于0的,比0更小的值又不可能出现,因此这时的概率P就是尾区概率。若各格取值均不为0,一般可取其中最接近于0的一个,求出它取值在0与当前值之间的所有概率P,并把它们都加起来,用其和与α或比较。这样做的前提是该格的理论值比观测值大,否则尾区的方向就不对了。例如:8010156这样一个2×2列联表,它的d格理论值为:,应使用精确检验法。但若使d降到0建立尾区,总概率为0.9877。这是因为d的理论值为3,观察值为6,如果是双侧检验,对理论值成立不利的方向应为d增加,而不是减小,所以应取d=6~16所有的概率之和为尾区。此时尾区概率为0.0504。例3.25观察性别对某药物的反应,结果如下:有无合计男415女369合计7714\n问男女对该药反应是否相同?解:b的值为1,在4个格中最小。如果H0成立,b的理论值应为:5´7/14=2.5。从现在的值1出发,对H0成立不利的方向应是离理论值而去,即尾区应包括1和0。∴应求b=1,b=0的概率。若b=0,行、列总和不变,则a,b,c,d的值分别为:5,0,2,7。尾区概率P=P1+P0=0.122+0.010=0.132。由于不知什么性别对药物反应强烈;∴应进行双侧检验,即与=0.025比较。,∴接受H0,男女对该药反应无显著不同。本题中P1=0.122,显然尾区概率P>P1>α,∴也可不必计算P0。本题直观上看应有差异,但检验结果为没有,主要原因是样本量太少,应该继续观察。例3.26某种产品废品率p≤0.05为合格。抽检20个样品,发现二个废品,该批产品是否合格?若发现4个废品呢?解:H0:p≤0.05(合格);HA:p>0.05(不合格),由于废品越多时HA成立越有利,尾区应从观察值向多的方向累加。发现二个废品:尾区概率为:P=P2+P3+…+P20=1–P0–P1==1–0.358–0.377=0.265>α=0.05∴接受H0,该批产品可认为合格。若发现4个废品,则尾区概率为:P=P4+P5+…+P20=1-P0-P1-P2-P3=1-0.358-0.377-0.189-0.060=0.016<α=0.05∴拒绝H0,该批产品可认为不合格。例3.27若废品率p<0.05为合格,抽检20个样品有2个废品,该批产品是否合格?解:H0:p≥0.05(不合格);HA:p<0.05(合格),此时尾区应从观察值向下累加。尾区概率为:P=P0+P1+P2=0.924>α∴接受H0,产品应认为不合格。实际上,P0=0.358>α,即20个样品全合格也不能认为该批产品合格。此时应增加样本量。当n=59时,0.9559≈0.048,即只有抽取59个样品且都合格时才能拒绝H0,此时才可认为该批产品合格。从这两道例题可看出,合格标准为≤0.05与<0.05是非常不同的。这是因为显著性检验是对H0的“保护性”检验,即只有当观察到的样本取值与H0有相当显著的差异时才会拒绝。拒绝时一般比较可靠,而且可以选择犯第一类错误的概率。反之,犯第二类错误的概率β\n则不那么容易确定,而且当较小时,β常常是很大的。不过此时真值μ接近于H0中的假设值μ0,所以犯了第二类错误也不很严重。§3.6非参数检验II上节主要介绍了χ2检验和与它有关的一些检验法。本节介绍其他一些常用的非参数检验,它们共同的特点是:1°不要求总体服从正态分布。2°常可用于定性数据。一、秩和检验:用途:检验两组或多组数据平均数是否相等。与t检验的不同点:不要求正态母体,只要求样本互相独立。方法:把全部数据放在一起,从小到大排列,每个数据的位置编号就称为秩。然后再把数据按处理的不同分开,分别计算各处理的秩和,并以它为统计量。1°两总体秩和检验。秩和检验的H0为:各处理效应相同。显然此时各处理的秩和也应差不多。选用样本含量较小的处理的秩和为统计量。若H0成立,则每个秩属于各个处理的可能性均相等。根据古典概型,应有:P(n个秩的和为某值)=利用这个公式,可计算出给定α下的秩和T的上下限,结果已制成表备查(见书后附表12)。当n→∞时,T渐近正态分布∴n1,n2充分大时(通常要求有一个大于10),可使用u检验:(3.35)例3.28两窝20日龄仔鼠体重分别为:(g)A:55,60,49,66,53B:61,58,70,63,55,59它们的体重是否有差异?解:把体重从小到大排列:4953555558596061636670秩:1(A)2(A)3.5(A)3.5(B)5(B)6(B)7(A)8(B)9(B)10(A)11(B)由于A样本含量小,选它的秩和作统计量:TA= 23.5查表,n1=5,n2=6,α=0.05,得:T1=20,T2=40∵T15,总样本含量N>15。H0:各总体均值无显著差异。统计量:(3.36)其中ni,Ti分别为各样本含量和秩和,k为总体数,,为总样本含量。可证明,在上述条件(ni>5,N>15)下,H近似服从自由度为(k-1)的χ2分布。例3.30四条河流含某种微量元素值为:(PPm)a:0.54,0.70,0.710.52,0.75,0.78,0.61b:0.75,0.80,0.72,0.71,0.56,0.68,0.660.61c:0.63,0.61,0.59,0.56,0.42,0.40,0.530.55d:0.85,0.87,0.72,0.78,0.63,0.90其含量是否有显著差异?解:混合排序,得:a:0.520.540.610.700.710.750.78n1=7秩:35111718.522.524.5T1=101.5b:0.560.610.660.680.710.720.750.80n2=8秩:7.511151618.520.522.526T2=137c:0.400.420.530.550.560.590.610.63n3=8秩:12467.591113.5T3=54d:0.630.720.780.850.870.90n4=6秩:13.520.524.5272829T4=142.5,代入(3.36)式,得:\ndf=4–1=3,查χ2分布表,得:∵H>(3),∴差异极显著,拒绝H0,即:这四条河该种微量元素含量差异极显著。秩和检验的几点注意事项:a)若有几个观察值相同,它们的秩都应取为平均数,因此都相等。例如例3.30中的0.56有两个,它们应排在第7,8位,因此秩都取为7.5。b)一般来说,成组数据的t检验和下面要学的用于多总体均值检验的方差分析比秩和检验更准确,这是因为秩和检验只利用了部分信息,即只利用了排序的位置,没有利用差值的大小。但秩和检验可用于更广的范围,如总体非正态,定性数据等。一、符号检验本检验相当于对配对数据的检验,但只考虑每对数据差值的符号,而不管其绝对值大小。H0:两处理无差异。显然若H0成立,则“+”与“-”出现概率均为1/2,令n+,n_分别代表“+”与“-”出现次数,则n+,n_均应服从p=0.5的二项分布。令k=min(n+,n_),则有:其中n=n++n_。将尾区概率P与α或相比,可作出统计推断。n较小时,符号检验的分位数也有专门表格可查;n较大时,k渐近正态分布:N(np,npq)。由于,有:符号检验的优点与秩和检验类似,主要是不要求总体服从正态分布,可用定性资料,计算简单。缺点是利用信息较少,不够准确。注意事项为:a)若有差值为0则舍去,样本含量n相应减1。b)n≤4时,由于(1/2)4>0.05,永无拒绝H0的可能。此时不能用符号检验。例3.31用两种方法处理后污水含量如下:表3.5两种方法处理后污水含量(PPm)A方法11.3410.219.177.6711.1412.038.919.72B方法10.5611.139.237.2110.5910.158.459.03差值符号:+--+++++A方法9.8510.3010.3810.229.1110.5111.01B方法9.3310.4510.269.409.048.6810.05差值符号:+-+++++处理效果是否相同?解:用符号检验:n+=12,n_=3。查表,n=15,α=0.05双侧检验临界值为:3;α=0.01为:2。本题中n_=3,∴差异显著,但未达极显著水平。应拒绝H0,可以认为两种方法效果有明显差异。用配对数据t检验:\n差值d:0.78,-0.92,-0.06,0.46,0.55,1.88,0.46,0.69,0.52,-0.15,0.08,0.82,0.07,1.83,0.96。查表,t0.975(14)=2.145,t0.995(14)=2.977,∴t0.975σ2,令(4.5)\n则当H0成立时,F~F(a-1,na-a);否则F值有偏大的趋势。因此可用F分布表对H0是否成立进行上单尾检验。方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为:(4.6)(4.7)现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为:1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即。2°把所有视为一个样本,求出它的样本方差,则(4.8)3°,或,(4.9)现在我们来计算例4.1(使用带统计功能的计算器):例4.1解:用计算器求出各处理的平均数和子样方差及平均数的子样方差:饲料123452.461.864.879.6127.2441.854.254.266.3216.5代入(4.8)、(4.9)式,得:MSA=5×127.24=636.2,MSe=216.5/4=54.125,查F分布表,得:F0.95(3,16)=3.24,F0.99(3,16)=5.29∵F>F0.99,∴拒绝H0,差异极显著。即:这4种饲料的增重效果差异极显著。这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解,首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显差异;否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响。一、随机因素模型\n例4.2随机选取4窝动物,每窝均有4只幼仔,其出生重见表4.2。不同窝出生重差异是否显著?表4.2动物出生重(g)窝别出生重Xij134.733.326.231.6233.226.028.632.3327.123.327.826.7432.931.425.728.0例4.2是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为:xij=m+ai+eij,i=1,2,……a,j=1,2,……n但由于各水平的效应无法预料,现在ai不再能视为常数,而是随机变量了。即:(NID意为独立正态分布)此时一般Σai=0不再成立,统计假设相应变为:H0:=0HA:>0这样,当H0成立时,自然有ai=0,i=1,2,……a;若不成立,则作为从N()中抽取的样本,各ai不可能都相同,当然也不可能均为0。此时它们的和一般也不会是0。对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe的期望也没有变,因为这些推导过程中也没有使用ai的性质。但MSA的期望变了,因为ai不再是常数,也不再为0。由于各ai与各εij相互独立,上式的交叉项期望为零。因此有:原式从上述均方期望可看出,若H0成立,仍有:\n而当HA成立时,F值仍有偏大的趋势。因此仍可用F分布表作上单尾检验。但这时对结果的解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是=0,因此结论可推广到这一因素的一切水平。现在来计算例4.2:例4.2解:计算各处理平均数和方差,以及平均数的方差,填入下表:窝别123431.4530.02526.22529.504.8813.8611.164.0110.6239.65代入(4.8),(4.9)式,得查F分布表,得:F0.95(3,12)=3.490∵F2的Duncan法临界值变大,但对本题来说,这种变大尚不足以改变最终的结果。(3)Newman-Q法:仍有:df=16。利用公式求各临界值:表4.6Newman-Q法临界值表Kq0.05(k,16)Q0.05q0.01(k,16)Q0.012343.003.654.059.8712.0113.324.134.795.1913.5915.7617.08列出差值表,并与相应临界值比较:43212327.2**17.8**14.8**12.4*3.09.4\n与Duncan法同样,最长的对角线使用k=2的两个临界值,即9.87和13.59比较,大于前者加“*”,大于后者再加一个“*”;右上次长对角线用k=3,即临界值12.01和15.76;最后一条用k=4,即13.32和17.08比较。最终结果与前两种方法仍相同,但与的差12.4已接近临界值12.01。比较三种方法,当k=2时临界值均相同,当k>2时临界值依次增大;但对本例题来说,这种增大还不足以影响最终结果。§4.2多因素方差分析上一节我们讨论了最简单的方差分析——单因素方差分析的原理与方法。在实际工作中,问题常常比较复杂,要求我们同时考虑两种甚至更多因素,以及这些因素共同作用的影响。此时单因素方差分析就无能为力了,需采用两因素或更多因素方差分析。进行多因素方差分析从理论上说并无任何困难,但随着因素数的增加,普通方差分析的复杂性迅速增加,这种复杂性不仅表现在分析计算的繁复,更表现在所需实验次数呈现出几何级数的增加上。这样一来,当因素数增加到三个或三个以上时,其工作量之大常常是令人望而生畏。因此三或三因素以上方差分析较少用到;当确实需要考虑这样多因素时,我们常常转而采用一些特殊的方差分析方法,例如正交实验设计方法,有关内容我们将在第九章中介绍。由于以上原因,本节内容将主要集中在讨论两因素方差分析上。一、模型类型及交互作用概念。与单因素方差分析相比,交互作用是多因素方差分析中新的概念之一。当一个因素的效应明显地依赖于其他因素的水平时,我们称这些因素间有交互效应。例如,由于人的体质不同,药物的疗效也可能会有不同;不同的地施用同样的肥料,增产效果也有不同,等等。交互效应的有无可用一些直观方法粗略估计,例如可用图形来估计:B1B2B3A1A2A3B1B2B3A1A2A3(a)无交互效应(b)有交互效应图4.1交互效应示意图图中每条曲线代表B因素的一个水平。若各曲线平行或近似平行,可认为无交互效应,否则为有交互效应。以上只是一种直观的判断,在多因素方差分析的过程中,我们对交互作用的有无也可进行统计检验。具体原理与方法我们将在下文中详细介绍。多因素方差分析可按照不同标准分成不同类别,而不同类别需要采用不同的分析方法。因此在进行多因素方差分析之前必须正确判断问题所属类型,否则就可能采用错误的分析方法。按因素类型进行分类,多因素方差分析可分为固定模型,随机模型及混合模型三类。这几类模型的计算公式基本相同,但其数学模型,假设,统计量,结果的解释等方面均有相当大的差异,我们将在下文中详细介绍,使用时应注意根据实际情况选用适当的模型。\n按实验设计分类,多因素方差分析可分为交叉分组和系统分组两大类。这两类计算公式也有些差别,下面我们以两因素方差分析为例,介绍它们试验设计方面的不同点。交叉分组:实验中,A因素的每个水平都会和B因素的每个水平相遇,因此A,B的地位是完全对称的。这是最常见的实验设计方法。系统分组:先按A因素的a个水平分为a组,在每一组内再按B的水平细分。一般A因素不同水平的组内B因素的水平可取不同值。例如研究PH值对酶活性的影响,不同的酶可能有不同的最适PH值,因此应对每种酶设置PH值偏高、合适、偏低三个水平,而不同的酶(因素A的不同水平)PH值(因素B)的水平可能是不相同的。从上面的介绍看出这两种方法适用于不同的问题,必须在实验设计阶段选取适当的方法,才能取得正确的结果。它们的计算方法和公式都是不同的。使用时应加以注意。下面我们具体介绍各种类型的分析方法。一、两因素交叉分组方差分析1.固定效应模型。首先考虑有重复的情况。线性统计模型为:xijk=m+ai+bj+(ab)ij+eijk,i=1,2,……a,j=1,2,……b;k=1,2,……n其中:m:总平均值;ai:A因素i水平主效应;bj:B因素j水平主效应;(ab)ij:A因素i水平与B因素j水平的交互效应;eijk:随机误差。对固定效应模型,应有:,,零假设为:H01:ai=0,i=1,2,……aH02:βj=0,j=1,2,……bH03:(ab)ij=0,i=1,2,……a,j=1,2,……b备择假设为:HA:上述各参数中至少有一个不为0。(这实际上是三个备择假设。)方差分析的基本思想仍是总变差分解:即:SST=SSA+SSB+SSAB+SSe自由度:abn-1a-1b-1(a-1)(b-1)ab(n-1)均方数学期望分别为:\n上述MSA,MSB的均方期望中均不含有交互作用项,这是因为对固定模型来说,交互作用满足:这说明观测值x只要对i或j中的一个下标求和或求平均,就可以保证交叉项为0。由于,公式中的x均为平均数,因此上述条件实际保证了在它们的均方期望中不会含有交互作用项。这样,检验两个主效应及一个交互效应的下述三个统计量中,分母全部采用MSe即可。检验H01,H02,H03的统计量分别为:(4.17),(4.18)(4.19)从前述的各均方期望可知,只有当各H0成立时,上述三个分子才是s2的无偏估计量,此时各统计量均服从F分布;若某个H0不成立,则相应的分子将有偏大的趋势,从而使对应的统计量也有偏大的趋势,因此可用F分布上单尾分位数进行检验。各效应的估计值为:其中i=1,2……a,j=1,2,……b。实际计算公式为:(4.20)(4.21)\n(4.22)(4.23)或计算:,(4.24)则:若使用带统计功能的计算器,可按以下步骤计算:1°计算排列如下表:ji12………b12a………表中最下一行是各列的平均,最右一列是各行的平均。2°把所有原始数据放在一起,计算样本方差S2,则SST=(abn-1)S2(4.25)3°用上表中计算样本方差,则SSST=n(ab-1)(4.26)4°用上表中计算样本方差,则SSA=bn(a-1)(4.27)5°用上表中计算样本方差,则SSB=an(b-1)(4.28)6°SSe=SST-SSST,(4.29)SSAB=SSST-SSA-SSB(4.30)完成上述计算后,则可列出以下的方差分析表:变差来源平方和自由度均方统计量F主效应A主效应B交互效应AB误差总和把计算所得结果填入上表后,再根据各F统计量的自由度查出其F0.95及F0.99分位数,并将F计算值与相应分位数相比,大于F0.95则在统计量F右上角标一个“*”号;大于F0.99\n则再加一个“*”号。最后用一句话对上述方差分析的结果加以总结,即哪些主效应或交互效应达到显著或极显著水平,哪些不显著。如果MSAB小于或约等于MSe,即FAB小于或约等于1,说明此时交互作用不存在,在这种情况下也可把MSAB和MSe合并在一起(即把平方和和自由度都合并)作为σ2的估计量,这样可以提高检验的精确度。具体计算公式如下:(4.31)然后可用作统计量FA和FB的分母,对两个主效应进行统计检验(见例题4.7)。注意查表时分母自由度要相应改变。原料种类(A)温度(B)30℃35℃40℃1414923251113252462226182475950404338333682214183355350433847445533262930例4.3为选择最适发酵条件,用三种原料、三种温度进行了实验,得结果如表4.5。请进行统计分析。表4.5不同条件下发酵的酒精产量解:本题中显然温度是一个因素,原料种类是另一个因素。这两个因素各有三个水平。由于它们的影响都是可控制、可重复的,因此都是固定因素。在同样温度、原料下所做的几次实验应视为重复,它们之间的差异是由随机误差所造成的。具体计算过程如下:用带统计功能的计算器计算。首先计算各处理的平均数,填入下表:表4.6各处理平均数表ji123134.518.251823.5824937.515.534345.25462739.4242.9233.9220.12根据(4.25)~(4.30)式,有:把所有原始数据输入计算器,得样本方差S2=204.8571,∴SST=(36-1)×S2=7170.00把表4.6中间部分9个输入计算器,得样本方差=172.2969∴SSST=n(ab-1)=4×(3×3-1)×172.2969=5513.50把表4.6中各输入,得样本方差=64.7575,∴SSA=bn(a-1)=3×4×(3-1)×64.7575=1554.18\n把表4.6中各输入,得=131.2708∴SSB=an(b-1)=3×4×(3-1)×131.2708=3150.50SSe=SST-SSST=1656.50∴SSAB=SSST-SSA-SSB=808.82列成方差分析表,得:表4.7发酵实验方差分析表变差来源平方和自由度均方F原料A温度BAB误差1554.183150.50808.821656.5022427777.091575.25202.2161.3512.67**25.68**3.30*总和7170.0035查F分布表,得:F0.95(2,27)≈F0.95(2,30)=3.316,F0.99(2,27)≈F0.99(2,30)=5.390,F0.95(4,27)≈F0.95(4,30)=2.690,F0.99(4,27)≈F0.99(4,30)=4.018,∴FA,FB均达极显著,标上“**”,FAB只达显著,标上“*”。因此酒精产量不仅与原料和温度的关系极显著,与它们的交互作用也有显著关系。即对不同原料应选用不同的发酵温度。在固定效应模型中,若各F统计量有达到显著或极显著水平时,常常还需要在各处理间进行多重比较,以选出所需要的条件组合。例如在例4.3中,我们已经发现原料,温度以及它们的交互作用都对酒精的产量有影响,显然我们应进一步找出最优的条件组合以用于生产。这就需要进行多重比较了。如果没有交互作用,可以固定B因素的一个水平,例如取j=1,比较A因素各水平的平均数,得到最优值i*。再固定i,例如仍取为1,比较B因素各水平均值,得到最优值j*。则条件组合A因素i*水平,B因素j*水平就应是所有参加实验的水平组合中最优的。如果有交互作用存在,则一般需要把所有ab个水平组合放在一起比。比较的方法仍与单因素方差分析相同,最常用Duncan法。例4.4对例4.3中各处理作多重比较。解:把各处理平均数从大到小排列(记为x1~x9):49,46,45.25,37.5,34.5,27,18.25,18,15.5求出各对差值,列成下表:x9x8x7x6x5x4x3x2x1x2x3x4x5x6x7x833.5**30.5**29.75**22**19**11.52.752.531**28**27.25**19.5**16.5**90.2530.75**27.75**27**19.25**16.25**8.7522**19**18.25**10.57.514.5*11.510.75311.58.57.753.750.753根据公式(4.15),求得:,df=27查Duncan检验的r值表,求出df=27,k=2~9,α=0.05和α=0.01的r值,并求出临界值R=r,列成下表:\nKr0.05R0.05r0.01R0.01234567892.913.053.143.213.273.303.343.3611.4011.9412.3012.5712.8112.9213.0813.163.924.104.204.294.354.404.454.4915.3516.0616.4516.8017.0417.2317.4317.58将差值表中的数与临界值比较,超过R0.05的标一个“*”号,超过R0.01的标“**”号,一次可核对一条对角线(从左下到右上),因为它们有共同的k值。在第一条最长的对角线上,k=2;其左上相邻的一条k=3;余类推,直到左上角最后一个数字,在本题中它的k应取为9。分析:从这一差值表中可见,x1至x5,除x1至x5外相互间都没有显著差异。但x4,x5与其他3个值差异相对大一些。x6至x9差异均不显著。而x1,x2,x3与x6~x9差异均达极显著。另外,x1,x2,x3以及x7,x8,x9之间的差异都很小。由于现在的数据是发酵产量,显然是越高越好,因此我们主要关心x1,x2,x3。从以上分析中可知,基本上可把x1,x2,x3视为无差异,可在这三组条件组合中,进一步考虑原料成本,原料来源稳定性等其他条件,选一组投入生产。也可对这三组条件增加重复数,进一步检验它们间是否仍有差异。如果实际问题不是要求选最大的数,而是选最小的数,那么根据类似的分析,我们应在x7,x8,x9对应的三组数中选择。总之,多重比较的结果分析比较复杂,也比较灵活,需要结合具体数据以及实际问题的要求来进行。这一点请同学们务必注意。几点注意事项:1°当交互作用存在时,对固定模型若不设置重复,则无法把SSAB与SSe分开,这样将无法进行任何统计检验。因此在固定模型中有交互作用时,不设置重复的试验是无意义时。2°对固定模型来说,结论只能适用于参加实验的几个水平,不能任意推广到其他水平上去。1.无重复的情况:刚才我们强调了重复对固定模型方差分析的重要意义,其实重复对所有的方差分析都是相当重要的,这一点我们在后边还会提到。但是重复数每增加1,全部处理的实验就都要多做一次,在工作量方面付出代价也是相当大的。因此,若由经验或专业知识可以断定两因素间确实无交互作用,也可以不设重复,这样可以大大减少工作量。此时线性统计模型变为:i=1,2,……a,j=1,2,……b其中零假设:H01:ai=0,i=1,2,……aH02:bj=0,j=1,2,……b均方数学期望:\n统计量:其他如结果的解释,计算公式等均与以前一样,只是令n=1即可。例4.5在1976-1979四年间四个生产队的小麦亩产量如表4.8所示。各年,各生产队产量是否有显著差异?表4.8四个生产队四年小麦田产量(斤)年度(A)平均()1976197719781979队别(B)15465788138156882600703861854754.53548682815852724.254551690831853731.25平均561.25663.25830843.5724.5解:本题显然是两因素无重复方差分析。其中生产队和年份各是一个因素。由于生产队对产量的影响主要表现在土地肥沃程度,灌溉条件好坏,耕作习惯差异等方面,在几年内可视为稳定不变的,因此可视为固定因素;而年份对产量的影响则主要体现在气候方面,这是不可重复的,因此应视为随机因素。这样一来,本题实际上成为两因素混合模型方差分析。但由于没有交互效应(这一点最好由专业知识判断,但在本题中专业知识很难判断不同的气候类型对各生产队的影响是否一致,因此我们这里先假设交互作用不存在,后文会提供检验方法),统计计算和检验方法都变得与固定模型完全相同,只是在最后结果的解释上有不同,即固定因素的结果不能推广到其他水平,而随机因素的结果可推广到其他水平。这些差异的原因我们将在随机和混合模型中详细介绍。先把全部数据输入计算器,得:∴再输入各,得再输入各,得列成方差分析表:变差来源平方和自由度均方F队别年度误差9111.5222773.55379.03393037.1774257.83597.6675.082*124.246**总和237264.015\n查F分布表,得:F0.95(3,9)=3.863,F0.99(3,9)=6.992,∴FA达显著,FB达极显著,分别标以“*”和“**”。即,生产队间产量差异显著,年度间差异极显著。3.两因素无重复模型中交互效应的检验。若由于某种原因不能安排重复,但对是否有交互效应又没有十分把握,则可采用Tukey于1949年提出的一种方法作判断。方法是把残余项(SST-SSA-SSB)再分解,得:(4.32)(4.33)令若有交互作用,F有偏大的趋势。∴可用上单尾分位数进行检验。例4.6判断例4.5中队别与年度间是否有交互作用。解:查表,F0.95(1,8)=5.32,∴接受H0,可以认为无交互作用。需要注意的是上述方法虽理论上可行,但在实用中却有很大问题。从(4.32)式可知,SSN的分子实际是两大串数字分别相乘相加再相减,然后再平方。这种计算公式从误差传递的角度看,实在是犯了大忌。因为根据误差传递理论,在相加,相乘过程中,有效数字(即未受误差影响,可以信任的数字)不会增加,而且会集中在头几位非零数字中。而在接下来的相减中,最大的几个非零数字常常是相同的,一减都变成了零,因此有效数字常常会大大减少。在例4.6中,前4位有效数字都损失了,而一般实验中测定的数据有效位数很少有能达到4位以上的。从这一角度说,这种检验方法是非常不可靠的。上述计算只能看作一个计算方法的例子。综合有关分析,我们可得到以下几点结论:1°在可能的情况下不采用无重复方差分析;2°如果必须采用,最好由专业知识保证交互作用不存在;3°最后没有办法再采用Tukey法进行统计检验,此时应注意计算过程的有效数字位数,尽可能保证结果的可靠性。4.无重复方差分析中缺失数据的弥补\n方差分析的数据都是按照事先作好的实验设计收集的。但有时由于某种意外的原因,如不可抗拒的自然灾害,实验动物的死亡,操作失误等等,都可能失去一两个实验数据。此时最好的办法当然是重做有关实验来补充,但这有时是办不到的。例如农时一过即不可再种作物,明年气候条件又变化了,无法比较等等。此时如果把整组实验都废弃掉显然是非常可惜的,因此我们需要某种补救的方法。对于有重复的方差分析来说,丢失一两个数据一般不会造成问题,只要改为按不等重复的方式处理即可。对于无重复的实验设计则必须弥补失去的数据。常用的方法是按照使误差平方和最小的原则来估计缺失的数据。下面以两因素无重复方差分析为例,介绍具体的计算方法。设缺失的数据为,把它代入SSe的计算公式:SSe=SST-SSA-SSB根据最小二乘法,使SSe最小的xij应满足:0若用x¢i.,x¢.j,x¢..分别代表去掉未知的xij后的各有关和数,则上式变为:可解得:(4.34)上述公式也可从另一思路获得:由线性统计模型有:xij=m+aI+bj+eij,其中m,ai,bj的估计值分别为:代入线性统计模型,可得xij的估计值为:仍用x¢i.,x¢.j,x¢..分别代表去掉未知的xij后的各有关和数,则可得:这与根据最小二乘法得到的方程是完全一样的,解当然也相同。若丢失两个数据x,y,仍可采用最小二乘法,令\n解上述方程组即可得到x,y的估计值。也可采用迭代法:令,代入(4.34)式,可求出,再把代入(4.34)式,求出y2,……,这样反复迭代,直到xi-1与xi和yi-1与yi的差很小为止。几点说明:1°缺失数据估计出以后,把它填入相应的位置,按一般方差分析的方法计算即可。但自由度会有变化,总自由度应减去缺失的数据个数,SSA;SSB的自由度不变,误差项自由度也相应减小。2°缺失数据的估计只是一种技术上的处理,它使计算可以进行下去。但是原来的实验数据所应提供的信息却再也找不回来了。因此若缺失数据较多,只好把全部结果报废,勉强分析会得出错误的结论。因此实验时一定要认真,尽量不丢失数据,不能把希望寄托在用计算方法弥补上。3°弥补的原则是使误差平方和最小,因此处理平方和有偏大的趋势。这相当于引入了一个额外的误差,降低了结论的可靠性。若缺失数据不多,对总的检验结果尚不起太大影响;若缺失数据较多,则应放弃这批数据。4°在有重复的方差分析中,一般不必进行弥补,只需改用不等重复的计算方法即可。5.随机效应模型与固定效应模型相比,线性统计模型本身无变化:但主效应与交互效应变成了随机变量,它们应满足的条件变为:因此观察值的方差变为:。零假设:总变差的分解仍同固定模型一样,自由度也不变:SST=SSA+SSB+SSAB+SSedf:abn-1a-1b-1(a-1)(b-1)ab(n-1)均方数学期望变为:\n注意上述MSA,MSB的均方期望中,均含有交互作用项,这一点与固定模型是完全不同的。其原因就在于现在是随机模型,交互作用应满足的条件变为。由于现在是随机变量,不再能保证。这样一来,MSA,MSB表达式中均不可能把交互作用项完全消掉,从而也就出现在它们的均方期望中。由于MSA,MSB的均方期望含有交互作用项,检验主效应的统计量也就不能再用MSe做分母,而需要改用MSAB了。因此,检验各假设的统计量变为:对检验结果的解释现在也不局限于参加实验的水平,而是可推广到一切水平上。如果有必要的话,可以根据均方数学期望算出各方差的估计值:实际计算公式不变,不再重复。对于随机效应模型多重比较是无意义的,因为一般来说处理的效果是无法严格重复的。与固定模型相同,若FAB的值小于或约等于1,说明交互作用不存在,则可把SSe与SSAB合并。合并方法也与固定模型相同,即为:(4.31)然后用作分母构造统计量FA与FB。注意查表时分母自由度也要变为。6.混合模型:不失一般性,我们可假设A因素是固定型,B因素是随机型。线性统计模型仍不变:xijk=m+aI+bj+(ab)ij+eijk,eijk~NID(0,s2)条件变为:\n但各不是完全独立的,它满足:即在随机因素的任一水平上均不是独立的。均方期望:注意上述均方期望中,固定因素A的均方期望含有交互作用项,而随机因素B反而不含,这跟固定模型和随机模型正好是相反的。造成这种差异的原因还是在满足的条件上:对任意固定,有:,而对固定的i,。这样一来,在MSB的表达式中,和都可保证交互作用被消除掉,从而MSB的均方期望中也就不会有项;但MSA中的却不能使被彻底消去,从而均方期望中也就会出现项。这种均方期望的差异当然会反映在统计量中,即统计量相应变为:\n注意上述统计量中由于固定因素的均方期望中有项,要用MSAB作F统计量的分母;而随机因素的均方期望中没有项,要用MSe作F统计量的分母。这正是,而的结果。固定因素效应估计:,i=1,2,……a。方差分量的估计为:在结果解释方面,固定因素的结论只能适用于参加试验的几个水平,不能推广;而随机因素的结论可推广到它的一切水平上去。其他如变差分解,自由度分解,计算公式,FAB小于或约等于1的处理等均不变,不再重复。例4.7为检验三种配合饲料的效果,从三窝仔猪中各选9只,随机分成三组,分别喂以三种饲料。日增重值见表4.9,请对结果作统计分析。表4.9仔猪日均增重表饲料(A)窝别(B)1231231.381.301.251.261.231.301.191.231.251.291.321.231.221.281.251.231.181.171.351.401.361.321.281.351.271.311.26解:饲料是固定因素,窝别是随机因素,这是一个两因素交叉分组混合模型。首先把原始数据改写成以下的处理均值ji12311.311.2631.2231.26621.281.251.1931.24131.371.3171.281.3221.321.2771.2321.2761ْ把各输入计算器,算得它们的子样方差为根据(4.26)式,;\n2ْ把各输入,得其子样方差,根据(4.27)式,得:;3ْ把各输入,得子样方差,根据(4.28)式,得:4ْ把各原始数据输入,得子样方差S2=0.003563,根据(4.25)式,得:SST=(abn-1)S2=(3×3×3-1)×0.003563=0.092645ْ由(4.29)式,得:SSe=SST-SSST=0.09264-0.06636=0.026266ْ由(4.30)式,得:SSAB=SSST-SSA-SSB=0.06636-0.03116-0.03467=0.000537ْ由于a=b=n=3,各自由度分别为:dfA=a–1=2dfB=b–1=2dfT=abn–1=27–1=26dfAB=(a-1)(b-1)=2×2=4dfe=ab(n-1)=3×3×2=188ْ把上述计算结果列成方差分析表:变差来源平方和自由度均方F饲料(A)窝别(B)AB误差(e)0.031160.034670.000530.02626224180.015580.017340.0001330.00146117.1**11.88**0.091总和0.0926426查表,得:F0.95(2,4)=6.94,F0.99(2,4)=18.0F0.95(2,18)=3.55,F0.99(2,18)=6.01F0.95(4,18)=2.93由于FA=117.1>F0.99(2,4),因此A因素(饲料)主效应达极显著;由于FB=11.83>F0.99(2,18),因此B因素(窝别)主效应也达极显著;由于FAB=0.091F0.99(2,22),FB=14.21>F0.99(2,22),因此两因素(饮料与窝别)的主效应均达极显著水平。交互效应显然不显著。几点注意事项:\n1°由于MSAB一般要大于MSe,尤其是交互作用存在时更是显著地偏大,因此若不注意区分是随机因素还是固定因素,就有可能错用统计量,导致错误的结论。因此在两个以上因素的方差分析中,区分因素类型显得更为重要。2°在随机模型和混和模型中若不设置重复,同样会导致无法把SSAB与SSe分开。此时随机模型仍可对主效应进行检验,混合模型中也可以对固定因素的主效应进行检验。但当交互作用存在时,仅检验主效应是意义不大的,因为很可能是交互作用在起主要作用。因此只要条件容许,不论哪一类模型都应设置重复,除非有可靠的证据证明交互作用不存在。7.总结:两因素方差分析表(见表4.10)表4.10两因素交叉分组方差分析表变差来源平方和自由度固定模型均方期望FABAB误差a-1b-1(a-1)(b-1)ab(n-1)续表4.10变差来源随机模型混合模型(A固定,B随机)均方期望F均方期望FABAB误差三、两因素系统分组实验的方差分析。前面介绍的方法都只适用于交叉分组的实验设计,即A因素的每个水平与B因素的每个水平都会遇到,因此A因素与B因素的地位是完全对称的。但在某些情况下无法采用这样的实验设计。比如进行某种农作物的产量对比实验,A为品种,B为播种期。由于不同品种的最适播期也不一样,采用交叉分组就不太合适,比较理想的方法是根据各自的最适播期分别安排B的水平。这样,先按不同品种分组,然后在每一组内安排自己的播期,这种实验设计方法称为系统分组。其他例如要比较不同菌种的发酵产量,不同酶对同一底物的利用速率等实验中,比较对象对环境条件的要求都是可能有差异的,显然只有让它们各自在自己的最佳条件下工作才能得出正确的结论,因此在这类情况下都需要有系统分组的实验设计方法。\n在系统分组实验设计中,首先分组的因素如上述的品种,菌种等称为一级因素,其次分组的(如播期,温度,PH值等)称为二级因素。显然此时两因素不再是对称的,我们的实验目标一般更侧重于测定一级因素的差异。此时的计算方法与分析方法同交叉分组相比均有所不同。为叙述简单,我们下面假定对一级因素A的各个水平,二级因素B的水平数均相同。线性统计模型:其中不仅有下标j,还有下标i;表示对于相同的j,不同的i,所代表的二级因素的水平也是不同的。在这里代表二级因素主效应与交互效应之和。由于i不同时二级因素水平j的意义不同,这两个效应已不可能再分开。其他各符号意义同前。与交叉分组类似,A、B两因素可为固定型,也可为随机型。其应满足的条件与H0也是类似的:固定型:,i=1,2,…a,i=1,2,…a,i=1,2,…a;j=1,2,…b随机型:总变差分解为:SST=SSA+SSB+SSe相应的自由度分解为:abn-1=(a-1)+a(b-1)+ab(n-1)这里与交叉分组的不同点是SSB代表B因素的主效应与交互效应之和,已无法再分开。计算公式为:(4.35)(4.36)(4.37)\n(4.38)将上述各式与交叉分组的(4.20)至(4.24)各式加以比较,即可知SST,SSA的计算公式没有改变,而SSB的(4.37)式其实是交叉分组中的SSST-SSA,因为现在已不需分解B因素的主效应与交互效应。SSe的(4.38)式与交叉分组的(4.24)式相同。由于系统分组与交叉分组的差别就是前者不需分解B因素的主效应与交互效应,因此采用计算器进行计算时,仍可采用与交叉分组相同的方法计算SST,SSST,SSA,即先计算处理平均数,i水平平均数,然后计算:1°把所有原始数据放在一起,计算样本方差S2,则SST=(abn-1)S2(4.25)2°用处理平均数计算样本方差,则SSST=n(ab-1)(4.26)3°用i水平平均数计算样本方差,则SSA=bn(a-1)(4.27)4°令SSB=SSST-SSA(4.39)SSe=SST–SSST(4.40)以下各步骤,如列方差分析表、查表、比较、解释等均与交叉分组相同,不再重复。统计量按以下方法构建:均方期望及统计量:对二级因素B来说没有变化:(4.41)对一级因素A来说,依B的类型不同而不同:B固定:(4.42)B随机:(4.43)上式中,若因素类型为随机型,则和为方差;若因素类型为固定型,则它们都代表平方和,即:\n例4.8比较4种酶在不同温度下的催化效率,特设计如下实验:由于文献记载各酶最适温度分别为30℃,25℃,37℃,40℃,现设定温度水平如下,最适温-5℃,最适温,最适温+5℃。其他条件均保持一致。保温2小时后,测定底物消耗量(毫克)。全部实验重复三次,得结果如下:温度酶种类A1A2A3A4偏低适宜偏高14.4,15.2,13.515.9,15.1,14.413.8,12.9,14.613.5,14.4,15.215.1,16.4,15.815.7,14.8,16.014.5,16.3,15.416.4,18.1,16.715.8,14.7,14.111.2,9.8,10.512.5,10.9,11.610.3,11.4,9.9请进行统计分析解:由于各种酶的最适温度不同,上述温度水平偏低、适宜、偏高所代表的实际温度是不同的,应采用两因素系统分组方差分析。酶的种类与温度都应为固定因素。酶为一级因素,温度为二级因素。首先计算各平均值,并列成下表:酶种类温度偏低温度适宜温度偏高平均()A1A2A3A414.3714.3715.4010.5015.1315.7717.0711.6713.7715.5014.8710.5314.4215.2115.7810.90首先把各处理平均数,即上表中间的12个数输入计算器,得它们的子样方差为:由(4.26)式,得:再把各酶的平均数输入,得子样方差为=4.7971由(4.27)式,得:再把全部原始数据xijk输入,得子样方差=4.6149由(4.25)式,得:由(4.39)式:由(4.40)式:\n由于a=4,b=n=3,各自由度分别为:dfA=a-1=3dfB=a(b-1)=8dfe=ab(n-1)=24把上述计算结果列成方差分析表:变差来源平方和自由度均方F酶种(A)129.522343.17467.64**温度(B)16.68182.0853.266*误差(e)15.319240.6383总和(T)161.52235其中均方=平方和/自由度,FA=MSA/MSe(4.42式),FB=MSB/MSe(4.41式)。查表,得:F0.95(3,24)=3.01,F0.99(3,24)=4.72F0.95(8,24)=2.36,F0.99(8,24)=3.36由于FA>>F0.99,因此酶种差异极显著;F0.99>FB>F0.95,因此温度(包括交互作用)造成的差异显著,但未达极显著水平。如有必要,可对四种酶的四个平均数进行多重比较,也可对同一种酶的三个温度数据进行比较。由于各酶的温度设定不同,对三种温度的总平均数进行比较没有意义。表4.11总结:两因素系统分组方差分析表方差来源自由度固定模型随机模型均方期望F均方期望FAa-1Ba(b-1)误差ab(n-1)续表4.11A固定、B随机A随机、B固定均方期望F均方期望F上表中:注意:对B因素的检验实际包括主效应和交互效应,它的自由度与交叉分组不同。四、两个以上因素的方差分析\n把两因素方差分析的方法推广到三个或更多个因素理论上不存在问题,但不仅相应的计算过程明显复杂化,更主要的是所需进行的总实验次数也大大增加,因此一般使用较少。当因素多时,实验设计一般改用正交设计的方法,那样可以大大减少实验次数,分析起来也更为方便。正交设计的方法详见实验设计一章。现以三因素交叉分组固定效应模型为例,给出其计算公式及方差分析表。线性统计模型为:其中i=1,2……a,j=1,2,……b,k=1,2,……c,l=1,2,……n.总变差的分解为:SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSe计算公式和自由度为:df=(a-1)(b-1)(c-1)df=abc(n-1)\n统计量及均方期望见表4.12。表4.12三因素交叉分组固定效应方差分析表变差来源平方和自由度均方数学期望FASSAa-1BSSBb-1CSSCc-1ABSSAB(a-1)(b-1)BCSSBC(b-1)(c-1)ACSSAC(a-1)(c-1)ABCSSABC(a-1)(b-1)(c-1)误差SSeAbc(n-1)总和SSTAbcn-1§4.3方差分析需要满足的条件一、方差分析应满足的条件要使方差分析达到预期的效果,实验数据必须满足某些先决条件,主要包括以下三点:1.可加性。方差分析的每一次观察值都包含了总体平均数、各因素主效应、各因素间的交互效应、随机误差等许多部分,这些组成部分必须以叠加的方式综合起来,即每一个观察值都可视为这些组成部分的累加和。在对每种模型进行讨论前我们都给出了适合这种模型的线性统计模型,这正是可加性的数学表达式。以后的理论分析都是建立在线性统计模型的基础上的,这正说明可加性是方差分析的重要先决条件。在某些情况下,例如数据服从对数正态分布(即数据取对数后才服从正态分布)时,各部分是以连乘的形式综合起来,此时就需要先对原始数据进行对数变换,一方面保证误差服从正态分布,另一方面也可保证数据满足可加性的要求。2.正态性。即随机误差ε必须为相互独立的正态随机变量。这也是很重要的条件,如果它不能满足,则均方期望的推导就不能成立,采用F统计量进行检验也就失去了理论基础。如果只是实验材料间有关联,可能影响独立性时,可用随机化的方法破坏其关联性,详见实验设计一章第二节;如果是正态性不能满足,即误差服从其他分布,则应根据误差服从的理论分布采取适当的数据变换,具体方法将在本节后边介绍。3.方差齐性。即要求所有处理随机误差的方差都要相等,换句话说不同处理不能影响随机误差的方差。由于随机误差的期望一定为0,这实际是要求随机误差有共同的分布。如果方差齐性条件不能满足也可采用数据变换的方法加以弥补。条件1的数学表达式是方差分析的线性统计模型,而条件2,3的数学表达式为ε~NID(0,σ2)\n。在实用中,条件1,2的满足主要靠理论分析,即如果我们没有理由怀疑数据的正态性,则认为它们是满足的;而条件3则可用一些统计方法进行检验。下面就对具体的检验方法进行介绍。一、方差齐性的检验。在第三章中,我们介绍过两个总体方差是否相等的检验:F检验。但在方差分析中若要对方差齐性进行检验,必然要涉及多个总体方差进行比较的问题。如果一对对进行多次比较,就会像进行多总体均值检验时一样,引起犯第一类错误的可能性大大增高,因此必须采用专门的方法对多个总体的方差一次进行比较。本节中我们介绍三种多总体方差齐性的检验方法,并对它们进行简单比较,同学们可根据需要选用。1.对数方差分析。对数方差分析主要优点是它针对性很强,即只有当各总体方差有差异时才会出现检验通不过的情况;而对其他一些条件,如总体分布是否正态等并不敏感。它的基本思想是把每个要检验的总体即每个不同处理取出的样本再随机地分解成若干子样本,然后分别计算每个子样本的方差并取对数,最后对这些数据进行单因素方差分析。在方差分析中,各处理被视为因素的不同水平,而同一处理的几个子样本的对数方差则被视为重复。由于需要对每个处理的重复观察值都进一步分解成子样本,这种方法要求重复数很多,而这在处理数也较多的情况下是很难实现的,这一点限制了这种方法的应用。对数方差分析的统计假设为:H0:各处理方差相同;HA:各处理方差不完全相同。具体做法为:设共有a个不同处理,每个处理的重复数为ni,则全部观察值可表示为:xij,i=1,2,…a;j=1,2,…ni在对上述的不同处理的样本进一步分割时,应使各子样本的样本含量尽可能接近,且每个处理分割成的子样本组数mi应满足:(4.44)各子样本的样本含量记为:显然应有:分割后的数据可表示为:每个子样本的均值和方差分别为:令(4.45)(4.46)\n称vij为yij的自由度。然后对yij作方差分析,但要以其自由度vij为权重。具体公式为:(4.47)(4.48)(4.49)(4.50)统计量为:(4.51)当H0成立时,上述统计量F服从自由度为的F分布。当H0不成立时,它有偏大的趋势,因此可用分位数对它进行上单尾检验。总之,对数方差分析方法的优点是比较严谨,针对性也强,检验目标集中在各总体方差是否相等上;缺点是由于要把各样本进一步分为子样本,需要较大的样本容量。例4.9用4种方法测定一个沉积的样本中的重金属含量,得结果如下:方法测定结果1372,380,382,368,374,366,360,3762364,358,362,372,338,344,350,376,366,3503348,351,362,372,344,352,360,362,366,354,342,358,3484342,372,374,376,344,360这四种测定方法的方差是否相等?解:各样本平均样本含量为:(8+10+13+6)/4=9.125即每个样本大约应分为3个子样本。考虑到各子样本含量应尽量相等,取子样本含量为3。由于原数据应是随机的,分割时不再进行随机化。分组结果如下:方法分组结果mi1(372,380,382),(368,374,366),(360,376)32(364,358,362),(372,338,344),(350,376,366,350)33(348,351,362),(372,344,352),(360,362,366),(354,342,358,348)44(342,372,374),(376,344,360)2根据(4.45),(4.46)式计算各组的对数方差(yij)及自由度(vij)\n样本yijmivijni13.332,2.853,4.85232,2,1824.862,4.431,5.09832,2,31033.995,5.338,2.234,3.89242,2,2,31345.772,5.54522,26以各组自由度为权重,求各组平均数:由(4.47)式:令(4.52)则有:v1=5,v2=7,v3=9,v4=4则(4.48)式可改写为:(4.53)由(4.53)式,得:由(4.49)式,得:由(4.50)式,得:由(4.51)式,得:F=4.906/1.624=3.021查表,得F0.95(3,8)=4.07>F,因此接受H0,认为各测量方法的方差相等。2.巴勒特(Bartlett)检验这种方法实际是检验各样本分布的“拖尾”情况是否相同,因此它不仅对各样本方差是否相等敏感,也对各样本是否都服从正态分布敏感。一般来说这是一个缺点,因为当拒绝H0\n时,我们无法确定是由于方差不全相等引起的,还是由于不全服从正态分布引起的。因此如果我们检验的目标只是各方差是否相等,则应首先检验各总体分布是否均服从正态分布,通过后再做巴勒特检验才比较有把握。但在方差分析中检验方差齐性时,由于我们既需要保证各总体均是正态的(条件2),也需要保证方差齐性(条件3),因此巴勒特检验的这一缺点反而变成了优点。即只要通过了巴勒特检验,正态性和方差齐性就都有了较好的保证,可以不经数据变换直接进行方差分析。反之,若通不过巴勒特检验,则应找出原因并排除,例如排除异常值或进行适当的数据变换。巴勒特检验的统计假设为:,(且各总体分布类型相同);:至少有,(或各总体分布类型不同)。统计量为:(4.54)其中为各子样方差以其自由度为权重的加权平均,即:(4.55)(4.56)其他符号意义同前,例如N为总样本含量,α为方差分析的处理数即巴勒特检验的总体数,为各总体样本的子样方差,ni为各总体样本的样本含量。巴勒特证明了上述统计量K2近似服从χ2分布,其自由度为a-1。从(4.54)式易知,当各相等时,K2=0;当各差异增大时,K2也增大。因此可用χ2分布对K2进行上单尾检验,即当时,拒绝H0。当各总体样本含量相等时,上述统计量可简化为:(4.57)其中(4.58)a仍为总体数,即方差分析中的处理数;n为各总体样本共同的样本含量,即方差分析中的重复数,为各子样方差的算术平均数。注意:当进行巴勒特检验时,一般要求各总体样本含量ni均大于3。例4.10调查不同渔场马面鲀体长,结果如下表。请检验方差齐性。渔场马面鲀体长(cm)ABC22.2,19.1,20.0,18.5,21.4,19.521.6,22.3,23.0,19.2,20.6,21.717.6,16.5,18.7,19.0,18.2,19.4\n解:由于各样本含量相等,可使用简化的(4.57),(4.58)式。由所给数据,可算得:a=3,n=6由(4.58)式,得:由(4.57)式,得K2的自由度为a–1=2,查表,得:,因此接受H0,各渔场马面鲀体长具有方差齐性。3.检验这种方法不如前两种方法严格,它最大的优点是计算简便,只须选取各子样方差中最大的与最小的作一比值,然后再查专门的表格即可。如果只作为方差分析的预备性检验,即检验各处理是否具有方差齐性,它基本上可满足使用要求。本方法统计量为多个子样方差中最大与最小者的比值,H0为各子样方差相等,HA为至少有一对方差不等。即使在H0成立的条件下,本统计量也不服从任何理论分布,因此必须使用专门编制的临界值表。注意此临界值表与一般F分布表不同,它的相当于普通F分布第一自由度即分子自由度位置的参数是总体数a,而相当于第二自由度即分母自由度位置的则是分子分母自由度中小的一个。具体方法为:设有取自不同总体的a个子样方差。令且记它们的自由度分别为Vmax和Vmin。则(4.59)(4.60)\n查专用临界值表(附表16),得。若>,则拒绝H0,认为各子样方差不具有方差齐性;否则则接受H0,认为它们具有方差齐性。例4.11用法检验例4.9数据的方差齐性。解:例4.9中,a=4,n1=8,n2=10,n3=13,n4=6计算可得:显然:由(4.59)式,得:=233.067/54.214=4.299由(4.60)式,得:V=min(5,7)=5查表,=16.3>因此应接受H0,可认为各子样方差相等。总结:几种检验方差齐性方法的比较。表4.13几种检验方差齐性方法的比较检验方法优缺点对数方差分析巴勒特检验检验针对性强,方法严谨,计算较复杂,所需样本量大除方差齐性外也对偏态敏感,可较好保证正态性及方差齐性。计算简单,不够严格,需用专门表格。三、数据变换前边曾提到方差分析应满足的三个条件:可加性,正态性,方差齐性。若在这三个条件不满足的情况下进行方差分析,很可能会导致错误的结论。其中第二、第三两条件是互相关联的,因为有些非正态分布,其方差与期望间常有一定的函数关系,如Poisson分布的数据,其期望与方差相等,指数分布的数据,期望的平方等于方差等等。此时显然若均值不等,则方差也不会相等,因此H0不成立时也就不会满足方差分析的条件。在这种情况下,应在进行方差分析之前对数据进行变换,变换主要是针对方差齐性设计的,但对其他两个条件常也可有所改善。由于本课程的特点,我们不介绍变换的数学原理,只介绍常用的变换方法及适用的条件。1.平方根变换用于服从泊松(Poisson)分布的数据。它的方差与均值相等,因此H0不成立时不能满足方差齐性的要求。常见的例子如血球计数值,一定面积内的菌落数,一定体积溶液中的细胞数或细菌数,单位时间内的自发放射数,一定区域内的植物、动物、昆虫数,等等。其特点是每个个体出现在哪里完全是随机的,与其邻居无关。符合这一特点的现象通常服从泊松分布。方法:把数据换成其平方根,即用代替xij\n,然后再进行计算。若大多数据值为10左右,个别接近0,可用代替xij。2.反正弦变换用于以百分数形式给出的二项分布数据。即把原二项分布数据乘以100后作为xij,因此数据一般在0~100之间。如果数据集中于30~70之间二项分布本就接近正态分布,此时也可不做变换。但若变化超出上述范围很大则应变换。方法:令。即先开平方,再取反正弦。也可直接查表得到yij.变化范围大实际是指p与q相差很大,此时有相当部分观察值大于70或小于30。此时分布是偏的,与正态分布差别很大。若p与q很接近,则数据多在30~70之间,与正态分布差别不大,就可以不变换。3.对数变换主要用于指数分布或对数正态分布数据。这些数据的特点是不能取负值,且其标准差σ常与期望μ接近。例如一些描述寿命的数据。方法:令yij=lg(xij),若大部分数据小于10,个别接近0,可采用yij=lg(xij+1)的变换。然后对yij作方差分析。4.Box-Cox幂变换。前三种变换方法都要求我们对总体分布有一种理论上的了解,即知道总体分布的许多特征,从而知道它们服从什么分布。如果对理论分布一无所知,经检验又不是正态分布,则对它的变换常采用幂变换的方法。只要能找到适当的幂值,常常就能成功地将数据正态化。Box-Cox变换就是常用的一种方法。它的一般形式为:(4.61)(4.62)显然这一方法的关键是确定λ的值。理论证明,使以下对数似然函数L取最大值的λ就是使原始数据正态化的最佳值:(4.63)其中n为样本含量,v为自由度。如果xi是一维数据,则v=n-1;如果是二维数据,则v=n-2;依此类推。为变换后数据的子样方差,而xi则为原始数据。显然使(4.63)式取最大值的λ不可能用解方程的方法解出,只能用一维搜索计算机程序找出。这是一个典型的优化问题,可使用任何搜索程序对它求解。一般情况下,λ取整数即可。若求出的λ=0,则使用(4.62)式进行变换;若λ不为0,则用(4.61)式进行变换。需要注意的是并非所有分布形式的数据都可通过数据变换的方法正态化。例如当数据呈双峰状分布(即密度函数有两个峰值)时,就不可能找到一种使它正态化的变换方法。因此变换后的数据仍需要对它是否服从正态分布进行统计检验。还需要注意一点,即作了变换以后,接着的分析、比较都是对新变量作的。如果希望回到原来的数据上,由于方差、标准差等不能变换回去,因此不能对原数据进行多重比较。\n作业1.下表是6种溶液及对照的雌激素活度鉴定。指标是小鼠子宫重量。做方差分析,若差异显著则进一步作多重比较。溶液鼠号对照IIIIIIIVVVI123489.993.888.4112.684.4116.084.068.664.479.888.069.475.262.462.473.888.490.273.287.856.483.290.485.665.679.465.670.22.为了调查三块小麦田的出苗情况,在每块麦田中按均匀分布原则设立了一些取样点,每取样点记录30cm垅长的基本苗数。得结果如下表。三块田的出苗情况是否有差异?田块基本苗数1232129242225302726202525232931242620212422282521263.为选择合理施肥方式,特设计6种施肥方案,各方案施肥成本相同。小区产量如下表。请选择最好的施肥方法。施肥方案ABCDEF小区产量(kg)12.9,13.112.2,12.513.7,11.214.0,13.815.1,13.114.6,15.512.6,13.213.4,15.012.8,14.310.5,11.610.4,9.912.3,10.814.5,15.617.0,15.016.2,16.515.5,14.813.2,14.413.9,15.64.随机选取4个小麦品种,施以三种肥料,小区产量如下:肥料种类品种(NH4)2SO4NH4NO3Ca(NO3)2123421.124.014.231.518.022.013.331.419.421.712.327.5该问题属于哪种模型?从方差分析的结果可得出什么结论?5.用两种不同的饲料添加剂A和B,以不同比例搭配饲养大白鼠,每一种饲料添加剂取4个水平,每一处理设两个重复。增重结果如下:(g)添加剂B添加剂A1234123432,3626,2433,3939,4328,2229,3330,2431,3518,1627,2333,3728,3223,2117,1923,2736,34(1)该实验有可能属于哪几种模型?前提是什么?(2)如果认为是随机模型,设置重复与不设重复对分析结果有无影响?(3)若实验本身是固定模型,但分析时误认为随机模型,对结论有何影响?若不设重复,又有何影响?\n6.证明无重复两因素固定效应模型中7.品种对比实验中希望同时选择适宜的播种量。由于已知的4个参试品种小麦中有一个分孽力强,一个中等,两个偏弱。因此分孽力强的品种选择了播种量为20,25,30斤/亩,分孽力中等的选择了25,30,35斤/亩,分孽力弱的选择30,35,40斤/亩。小区产量如下表。请进行统计分析。播种量品种A品种B品种C品种D202530354025.4,20.9,23.728.6,27.2,24.827.8,24.2,23.930.4,29.8,24.532.4,28.9,29.126.8,29.4,29.120.2,24.1,23.821.8,23.7,23.524.3,22.6,20.526.4,30.1,25.829.6,27.5,26.424.7,26.1,30.78.某化工厂用细胞毒理学方法分别检测了接触苯和不接触苯的工人及附近农民的染色体畸变率,结果如下表。请进行统计分析。组别结构畸变(%)数目畸变(%)两者均发生(%)接触工人不接触工人农民5.731.400.909.274.603.552.110.190.079.某城市从4个排污口取水,经两种不同方法处理后,检测大肠杆菌数量,单位面积内菌落数如下表。请检验它们是否有差别。排污口ABCD处理方法1处理方法29,12,7,513,7,10,820,14,18,1217,10,9,1512,7,6,1011,5,7,623,13,16,2118,14,19,11第四章方差分析方差分析是一种特殊的假设检验,是判断多组数据之间平均数差异是否显著的。对多组数据若仍用前一章中的t检验一对对比较,会大大增加犯第一类错误的概率。例如有5组数据要比较,则共需比次。若H0正确,每次接受的概率为1-α=0.95,10次都接受为0.9510≈0.60,因此α′=1-0.60=0.40,即全部比较中至少犯一次第一类错误的概率为0.40,这显然是不能接受的。方差分析则是把所有这些组数据放在一起,一次比较就对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有差异,再进一步比较是哪组数据与其他数据不同。这样,就避免了使α大大增加的弊病。下面我们先介绍一些方差分析中要用到的术语。1.因素可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。例如温度、湿度、药物种类等。2.水平因素在试验或观测中所处的状态。例如温度的不同值,药物的不同浓度等。\n3.主效应反映一个因素各水平的平均响应之差异的一种度量。一个因子第i水平上所有数据的平均与全部数据的平均之差,称为该因子第i水平的主效应4.交互效应由两个或更多因素之间水平搭配而产生的差异的一种度量。5.处理实验中实施的因子水平的一个组合。6.固定因素该因素的水平可准确控制,且水平固定后,其效应也固定。例如温度,化学药物的浓度,动植物的品系,等等。7.随机因素该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。例如动物的窝别(遗传因素的组合),农家肥的效果,等等。8.误差除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统误差和随机误差:系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变化。它的原因可为已知,也可为未知,但均应尽量消除。随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不可预知的方式变化。它无法消除或修正。§4.1单因素方差分析单因素方差分析是指我们需要研究的因素只有一个,这一因素可以有几个不同的水平,我们的目标就是要看看这些水平的影响是否相同。为了在有随机误差的情况下进行比较,各水平都应有一定数量的重复。为方便表述,我们对数据给出一种固定的表示法:a:因素的水平数n:每一水平的重复数xij:第i水平的第j次观察值。1≤i≤a,1≤j≤n,第i水平所有观察值的和,第i水平均值全部观察值的和,总平均值,第i水平上的子样方差。方差分析中,我们用以下的线性统计模型描述每一观察值:xij=m+ai+eij,i=1,2……a,j=1,2,……n(4.1)其中m:总平均数;ai:i水平主效应;eij:随机误差。要求eij~N(0,σ2),且互相独立。注意这里要求各水平有共同的方差σ2。单因素方差分析的目的就是检验各ai是否均相同。由于因素可分为固定因素和随机因素,它们会对方差分析的过程产生不同的影响,我们分别加以讨论。一、固定因素模型:例4.1用4种不同的配合饲料饲养30日令的小鸡,10天后计算平均日增重,得以下数据:\n表4.1不同饲料日增重值饲料日增重值Xij155496245512615852687037165567359485907678694种饲料的效果是否相同?例4.1是固定因素模型,因为在配合饲料中,每种饲料的营养成份是固定的,它的效果也应是固定的。反映到线性模型中,就是ai是常数,且可要求,(4.2)这种对ai的限制并没有失去一般性,这是因为根据(4.1)式,如果各ai之和H不为0,则我们可把其和数移到总平均数m中去,即令ai′=ai–H,从而使新的ai′之和为0。同时,也只有新的ai′才符合前述主效应的定义。固定模型的统计假设为:H0:αi=0,i=1,2……aHA:αi≠0,至少对某一i方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。即:由于∴(4.3)用符号表示,上式可写成:SST=SSA+SSe(4.4)其中符号的意义为:\nSST:总平方和;SSA处理间平方和;SSe:误差平方和,或处理内平方和。它们的自由度分别为an–1,a–1和a(n–1),即自由度也作了相应分解:an–1=a–1+a(n–1)令,称为误差均方;,称为处理间均方;则它们的数学期望分别为:\n∵E(eij)=0,ai为常数,且∴原式=从这两个数学期望来看,我们给MSe和MSA起的名字是有道理的。MSe的期望是σ2,即随机误差ε的方差,说明它就是随机误差的一个估计量;而MSA的期望是,除了有代表随机误差的σ2外,还有一项是各水平主效应的平方和,即它代表了各处理间差异的大小。若H0成立,则有:αi=0,i=1,2,……a;此时E(MSA)=σ2;若H0不成立,则E(MSA)>σ2,令(4.5)则当H0成立时,F~F(a-1,na-a);否则F值有偏大的趋势。因此可用F分布表对H0是否成立进行上单尾检验。方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为:(4.6)(4.7)现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为:1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即。2°把所有视为一个样本,求出它的样本方差,则(4.8)3°,或,(4.9)\n现在我们来计算例4.1(使用带统计功能的计算器):例4.1解:用计算器求出各处理的平均数和子样方差及平均数的子样方差:饲料123452.461.864.879.6127.2441.854.254.266.3216.5代入(4.8)、(4.9)式,得:MSA=5×127.24=636.2,MSe=216.5/4=54.125,查F分布表,得:F0.95(3,16)=3.24,F0.99(3,16)=5.29∵F>F0.99,∴拒绝H0,差异极显著。即:这4种饲料的增重效果差异极显著。这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解,首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显差异;否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响。一、随机因素模型例4.2随机选取4窝动物,每窝均有4只幼仔,其出生重见表4.2。不同窝出生重差异是否显著?表4.2动物出生重(g)窝别出生重Xij134.733.326.231.6233.226.028.632.3327.123.327.826.7432.931.425.728.0例4.2是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为:xij=m+ai+eij,i=1,2,……a,j=1,2,……n但由于各水平的效应无法预料,现在ai不再能视为常数,而是随机变量了。即:(NID意为独立正态分布)此时一般Σai=0不再成立,统计假设相应变为:H0:=0HA:>0这样,当H0成立时,自然有ai=0,i=1,2,……a;若不成立,则作为从N()中抽取的样本,各ai不可能都相同,当然也不可能均为0。此时它们的和一般也不会是0。\n对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe的期望也没有变,因为这些推导过程中也没有使用ai的性质。但MSA的期望变了,因为ai不再是常数,也不再为0。由于各ai与各εij相互独立,上式的交叉项期望为零。因此有:原式从上述均方期望可看出,若H0成立,仍有:而当HA成立时,F值仍有偏大的趋势。因此仍可用F分布表作上单尾检验。但这时对结果的解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是=0,因此结论可推广到这一因素的一切水平。现在来计算例4.2:例4.2解:计算各处理平均数和方差,以及平均数的方差,填入下表:窝别123431.4530.02526.22529.504.8813.8611.164.0110.6239.65代入(4.8),(4.9)式,得\n查F分布表,得:F0.95(3,12)=3.490∵F2的Duncan法临界值变大,但对本题来说,这种变大尚不足以改变最终的结果。(3)Newman-Q法:仍有:df=16。利用公式求各临界值:表4.6Newman-Q法临界值表Kq0.05(k,16)Q0.05q0.01(k,16)Q0.012343.003.654.059.8712.0113.324.134.795.1913.5915.7617.08列出差值表,并与相应临界值比较:43212327.2**17.8**14.8**12.4*3.09.4与Duncan法同样,最长的对角线使用k=2的两个临界值,即9.87和13.59比较,大于前者加“*”,大于后者再加一个“*”;右上次长对角线用k=3,即临界值12.01和15.76;最后一条用k=4,即13.32和17.08比较。最终结果与前两种方法仍相同,但与的差12.4已接近临界值12.01。比较三种方法,当k=2时临界值均相同,当k>2时临界值依次增大;但对本例题来说,这种增大还不足以影响最终结果。§4.2多因素方差分析上一节我们讨论了最简单的方差分析——单因素方差分析的原理与方法。在实际工作中,问题常常比较复杂,要求我们同时考虑两种甚至更多因素,以及这些因素共同作用的影响。此时单因素方差分析就无能为力了,需采用两因素或更多因素方差分析。进行多因素方差分析从理论上说并无任何困难,但随着因素数的增加,普通方差分析的复杂性迅速增加,这种复杂性不仅表现在分析计算的繁复,更表现在所需实验次数呈现出几何级数的增加上。这样一来,当因素数增加到三个或三个以上时,其工作量之大常常是令人望而生畏。因此三或三因素以上方差分析较少用到;当确实需要考虑这样多因素时,我们常常转而采用一些特殊的方差分析方法,例如正交实验设计方法,有关内容我们将在第九章中介绍。由于以上原因,本节内容将主要集中在讨论两因素方差分析上。一、模型类型及交互作用概念。\n与单因素方差分析相比,交互作用是多因素方差分析中新的概念之一。当一个因素的效应明显地依赖于其他因素的水平时,我们称这些因素间有交互效应。例如,由于人的体质不同,药物的疗效也可能会有不同;不同的地施用同样的肥料,增产效果也有不同,等等。交互效应的有无可用一些直观方法粗略估计,例如可用图形来估计:B1B2B3A1A2A3B1B2B3A1A2A3(a)无交互效应(b)有交互效应图4.1交互效应示意图图中每条曲线代表B因素的一个水平。若各曲线平行或近似平行,可认为无交互效应,否则为有交互效应。以上只是一种直观的判断,在多因素方差分析的过程中,我们对交互作用的有无也可进行统计检验。具体原理与方法我们将在下文中详细介绍。多因素方差分析可按照不同标准分成不同类别,而不同类别需要采用不同的分析方法。因此在进行多因素方差分析之前必须正确判断问题所属类型,否则就可能采用错误的分析方法。按因素类型进行分类,多因素方差分析可分为固定模型,随机模型及混合模型三类。这几类模型的计算公式基本相同,但其数学模型,假设,统计量,结果的解释等方面均有相当大的差异,我们将在下文中详细介绍,使用时应注意根据实际情况选用适当的模型。按实验设计分类,多因素方差分析可分为交叉分组和系统分组两大类。这两类计算公式也有些差别,下面我们以两因素方差分析为例,介绍它们试验设计方面的不同点。交叉分组:实验中,A因素的每个水平都会和B因素的每个水平相遇,因此A,B的地位是完全对称的。这是最常见的实验设计方法。系统分组:先按A因素的a个水平分为a组,在每一组内再按B的水平细分。一般A因素不同水平的组内B因素的水平可取不同值。例如研究PH值对酶活性的影响,不同的酶可能有不同的最适PH值,因此应对每种酶设置PH值偏高、合适、偏低三个水平,而不同的酶(因素A的不同水平)PH值(因素B)的水平可能是不相同的。从上面的介绍看出这两种方法适用于不同的问题,必须在实验设计阶段选取适当的方法,才能取得正确的结果。它们的计算方法和公式都是不同的。使用时应加以注意。下面我们具体介绍各种类型的分析方法。一、两因素交叉分组方差分析1.固定效应模型。首先考虑有重复的情况。线性统计模型为:xijk=m+ai+bj+(ab)ij+eijk,i=1,2,……a,j=1,2,……b;k=1,2,……n其中:m:总平均值;ai:A因素i水平主效应;bj:B因素j水平主效应;(ab)ij:A因素i水平与B因素j水平的交互效应;eijk:随机误差。对固定效应模型,应有:,,\n零假设为:H01:ai=0,i=1,2,……aH02:βj=0,j=1,2,……bH03:(ab)ij=0,i=1,2,……a,j=1,2,……b备择假设为:HA:上述各参数中至少有一个不为0。(这实际上是三个备择假设。)方差分析的基本思想仍是总变差分解:即:SST=SSA+SSB+SSAB+SSe自由度:abn-1a-1b-1(a-1)(b-1)ab(n-1)均方数学期望分别为:上述MSA,MSB的均方期望中均不含有交互作用项,这是因为对固定模型来说,交互作用满足:这说明观测值x只要对i或j中的一个下标求和或求平均,就可以保证交叉项为0。由于,公式中的x均为平均数,因此上述条件实际保证了在它们的均方期望中不会含有交互作用项。这样,检验两个主效应及一个交互效应的下述三个统计量中,分母全部采用MSe即可。检验H01,H02,H03的统计量分别为:(4.17),(4.18)\n(4.19)从前述的各均方期望可知,只有当各H0成立时,上述三个分子才是s2的无偏估计量,此时各统计量均服从F分布;若某个H0不成立,则相应的分子将有偏大的趋势,从而使对应的统计量也有偏大的趋势,因此可用F分布上单尾分位数进行检验。各效应的估计值为:其中i=1,2……a,j=1,2,……b。实际计算公式为:(4.20)(4.21)(4.22)(4.23)或计算:,(4.24)则:若使用带统计功能的计算器,可按以下步骤计算:1°计算排列如下表:ji12………b12a\n………表中最下一行是各列的平均,最右一列是各行的平均。2°把所有原始数据放在一起,计算样本方差S2,则SST=(abn-1)S2(4.25)3°用上表中计算样本方差,则SSST=n(ab-1)(4.26)4°用上表中计算样本方差,则SSA=bn(a-1)(4.27)5°用上表中计算样本方差,则SSB=an(b-1)(4.28)6°SSe=SST-SSST,(4.29)SSAB=SSST-SSA-SSB(4.30)完成上述计算后,则可列出以下的方差分析表:变差来源平方和自由度均方统计量F主效应A主效应B交互效应AB误差总和把计算所得结果填入上表后,再根据各F统计量的自由度查出其F0.95及F0.99分位数,并将F计算值与相应分位数相比,大于F0.95则在统计量F右上角标一个“*”号;大于F0.99则再加一个“*”号。最后用一句话对上述方差分析的结果加以总结,即哪些主效应或交互效应达到显著或极显著水平,哪些不显著。如果MSAB小于或约等于MSe,即FAB小于或约等于1,说明此时交互作用不存在,在这种情况下也可把MSAB和MSe合并在一起(即把平方和和自由度都合并)作为σ2的估计量,这样可以提高检验的精确度。具体计算公式如下:(4.31)然后可用作统计量FA和FB的分母,对两个主效应进行统计检验(见例题4.7)。注意查表时分母自由度要相应改变。原料种类(A)温度(B)30℃35℃40℃1414923251113252462226182475950404338333682214183355350433847445533262930例4.3为选择最适发酵条件,用三种原料、三种温度进行了实验,得结果如表4.5。请进行统计分析。表4.5不同条件下发酵的酒精产量\n解:本题中显然温度是一个因素,原料种类是另一个因素。这两个因素各有三个水平。由于它们的影响都是可控制、可重复的,因此都是固定因素。在同样温度、原料下所做的几次实验应视为重复,它们之间的差异是由随机误差所造成的。具体计算过程如下:用带统计功能的计算器计算。首先计算各处理的平均数,填入下表:表4.6各处理平均数表ji123134.518.251823.5824937.515.534345.25462739.4242.9233.9220.12根据(4.25)~(4.30)式,有:把所有原始数据输入计算器,得样本方差S2=204.8571,∴SST=(36-1)×S2=7170.00把表4.6中间部分9个输入计算器,得样本方差=172.2969∴SSST=n(ab-1)=4×(3×3-1)×172.2969=5513.50把表4.6中各输入,得样本方差=64.7575,∴SSA=bn(a-1)=3×4×(3-1)×64.7575=1554.18把表4.6中各输入,得=131.2708∴SSB=an(b-1)=3×4×(3-1)×131.2708=3150.50SSe=SST-SSST=1656.50∴SSAB=SSST-SSA-SSB=808.82列成方差分析表,得:表4.7发酵实验方差分析表变差来源平方和自由度均方F原料A温度BAB误差1554.183150.50808.821656.5022427777.091575.25202.2161.3512.67**25.68**3.30*总和7170.0035查F分布表,得:F0.95(2,27)≈F0.95(2,30)=3.316,F0.99(2,27)≈F0.99(2,30)=5.390,F0.95(4,27)≈F0.95(4,30)=2.690,F0.99(4,27)≈F0.99(4,30)=4.018,∴FA,FB均达极显著,标上“**”,FAB只达显著,标上“*”。因此酒精产量不仅与原料和温度的关系极显著,与它们的交互作用也有显著关系。即对不同原料应选用不同的发酵温度。在固定效应模型中,若各F统计量有达到显著或极显著水平时,常常还需要在各处理间进行多重比较,以选出所需要的条件组合。例如在例4.3中,我们已经发现原料,温度以及它们的交互作用都对酒精的产量有影响,显然我们应进一步找出最优的条件组合以用于生产。这就需要进行多重比较了。如果没有交互作用,可以固定B因素的一个水平,例如取j=1\n,比较A因素各水平的平均数,得到最优值i*。再固定i,例如仍取为1,比较B因素各水平均值,得到最优值j*。则条件组合A因素i*水平,B因素j*水平就应是所有参加实验的水平组合中最优的。如果有交互作用存在,则一般需要把所有ab个水平组合放在一起比。比较的方法仍与单因素方差分析相同,最常用Duncan法。例4.4对例4.3中各处理作多重比较。解:把各处理平均数从大到小排列(记为x1~x9):49,46,45.25,37.5,34.5,27,18.25,18,15.5求出各对差值,列成下表:x9x8x7x6x5x4x3x2x1x2x3x4x5x6x7x833.5**30.5**29.75**22**19**11.52.752.531**28**27.25**19.5**16.5**90.2530.75**27.75**27**19.25**16.25**8.7522**19**18.25**10.57.514.5*11.510.75311.58.57.753.750.753根据公式(4.15),求得:,df=27查Duncan检验的r值表,求出df=27,k=2~9,α=0.05和α=0.01的r值,并求出临界值R=r,列成下表:Kr0.05R0.05r0.01R0.01234567892.913.053.143.213.273.303.343.3611.4011.9412.3012.5712.8112.9213.0813.163.924.104.204.294.354.404.454.4915.3516.0616.4516.8017.0417.2317.4317.58将差值表中的数与临界值比较,超过R0.05的标一个“*”号,超过R0.01的标“**”号,一次可核对一条对角线(从左下到右上),因为它们有共同的k值。在第一条最长的对角线上,k=2;其左上相邻的一条k=3;余类推,直到左上角最后一个数字,在本题中它的k应取为9。分析:从这一差值表中可见,x1至x5,除x1至x5外相互间都没有显著差异。但x4,x5与其他3个值差异相对大一些。x6至x9差异均不显著。而x1,x2,x3与x6~x9差异均达极显著。另外,x1,x2,x3以及x7,x8,x9之间的差异都很小。由于现在的数据是发酵产量,显然是越高越好,因此我们主要关心x1,x2,x3。从以上分析中可知,基本上可把x1,x2,x3视为无差异,可在这三组条件组合中,进一步考虑原料成本,原料来源稳定性等其他条件,选一组投入生产。也可对这三组条件增加重复数,进一步检验它们间是否仍有差异。如果实际问题不是要求选最大的数,而是选最小的数,那么根据类似的分析,我们应在x7,x8,x9对应的三组数中选择。总之,多重比较的结果分析比较复杂,也比较灵活,需要结合具体数据以及实际问题的要求来进行。这一点请同学们务必注意。\n几点注意事项:1°当交互作用存在时,对固定模型若不设置重复,则无法把SSAB与SSe分开,这样将无法进行任何统计检验。因此在固定模型中有交互作用时,不设置重复的试验是无意义时。2°对固定模型来说,结论只能适用于参加实验的几个水平,不能任意推广到其他水平上去。1.无重复的情况:刚才我们强调了重复对固定模型方差分析的重要意义,其实重复对所有的方差分析都是相当重要的,这一点我们在后边还会提到。但是重复数每增加1,全部处理的实验就都要多做一次,在工作量方面付出代价也是相当大的。因此,若由经验或专业知识可以断定两因素间确实无交互作用,也可以不设重复,这样可以大大减少工作量。此时线性统计模型变为:i=1,2,……a,j=1,2,……b其中零假设:H01:ai=0,i=1,2,……aH02:bj=0,j=1,2,……b均方数学期望:统计量:其他如结果的解释,计算公式等均与以前一样,只是令n=1即可。例4.5在1976-1979四年间四个生产队的小麦亩产量如表4.8所示。各年,各生产队产量是否有显著差异?表4.8四个生产队四年小麦田产量(斤)年度(A)平均()1976197719781979队别(B)15465788138156882600703861854754.53548682815852724.254551690831853731.25平均561.25663.25830843.5724.5\n解:本题显然是两因素无重复方差分析。其中生产队和年份各是一个因素。由于生产队对产量的影响主要表现在土地肥沃程度,灌溉条件好坏,耕作习惯差异等方面,在几年内可视为稳定不变的,因此可视为固定因素;而年份对产量的影响则主要体现在气候方面,这是不可重复的,因此应视为随机因素。这样一来,本题实际上成为两因素混合模型方差分析。但由于没有交互效应(这一点最好由专业知识判断,但在本题中专业知识很难判断不同的气候类型对各生产队的影响是否一致,因此我们这里先假设交互作用不存在,后文会提供检验方法),统计计算和检验方法都变得与固定模型完全相同,只是在最后结果的解释上有不同,即固定因素的结果不能推广到其他水平,而随机因素的结果可推广到其他水平。这些差异的原因我们将在随机和混合模型中详细介绍。先把全部数据输入计算器,得:∴再输入各,得再输入各,得列成方差分析表:变差来源平方和自由度均方F队别年度误差9111.5222773.55379.03393037.1774257.83597.6675.082*124.246**总和237264.015查F分布表,得:F0.95(3,9)=3.863,F0.99(3,9)=6.992,∴FA达显著,FB达极显著,分别标以“*”和“**”。即,生产队间产量差异显著,年度间差异极显著。3.两因素无重复模型中交互效应的检验。若由于某种原因不能安排重复,但对是否有交互效应又没有十分把握,则可采用Tukey于1949年提出的一种方法作判断。方法是把残余项(SST-SSA-SSB)再分解,得:(4.32)(4.33)令若有交互作用,F有偏大的趋势。∴可用上单尾分位数进行检验。例4.6判断例4.5中队别与年度间是否有交互作用。解:\n查表,F0.95(1,8)=5.32,∴接受H0,可以认为无交互作用。需要注意的是上述方法虽理论上可行,但在实用中却有很大问题。从(4.32)式可知,SSN的分子实际是两大串数字分别相乘相加再相减,然后再平方。这种计算公式从误差传递的角度看,实在是犯了大忌。因为根据误差传递理论,在相加,相乘过程中,有效数字(即未受误差影响,可以信任的数字)不会增加,而且会集中在头几位非零数字中。而在接下来的相减中,最大的几个非零数字常常是相同的,一减都变成了零,因此有效数字常常会大大减少。在例4.6中,前4位有效数字都损失了,而一般实验中测定的数据有效位数很少有能达到4位以上的。从这一角度说,这种检验方法是非常不可靠的。上述计算只能看作一个计算方法的例子。综合有关分析,我们可得到以下几点结论:1°在可能的情况下不采用无重复方差分析;2°如果必须采用,最好由专业知识保证交互作用不存在;3°最后没有办法再采用Tukey法进行统计检验,此时应注意计算过程的有效数字位数,尽可能保证结果的可靠性。4.无重复方差分析中缺失数据的弥补方差分析的数据都是按照事先作好的实验设计收集的。但有时由于某种意外的原因,如不可抗拒的自然灾害,实验动物的死亡,操作失误等等,都可能失去一两个实验数据。此时最好的办法当然是重做有关实验来补充,但这有时是办不到的。例如农时一过即不可再种作物,明年气候条件又变化了,无法比较等等。此时如果把整组实验都废弃掉显然是非常可惜的,因此我们需要某种补救的方法。对于有重复的方差分析来说,丢失一两个数据一般不会造成问题,只要改为按不等重复的方式处理即可。对于无重复的实验设计则必须弥补失去的数据。常用的方法是按照使误差平方和最小的原则来估计缺失的数据。下面以两因素无重复方差分析为例,介绍具体的计算方法。设缺失的数据为,把它代入SSe的计算公式:SSe=SST-SSA-SSB根据最小二乘法,使SSe最小的xij应满足:0若用x¢i.,x¢.j,x¢..分别代表去掉未知的xij后的各有关和数,则上式变为:\n可解得:(4.34)上述公式也可从另一思路获得:由线性统计模型有:xij=m+aI+bj+eij,其中m,ai,bj的估计值分别为:代入线性统计模型,可得xij的估计值为:仍用x¢i.,x¢.j,x¢..分别代表去掉未知的xij后的各有关和数,则可得:这与根据最小二乘法得到的方程是完全一样的,解当然也相同。若丢失两个数据x,y,仍可采用最小二乘法,令解上述方程组即可得到x,y的估计值。也可采用迭代法:令,代入(4.34)式,可求出,再把代入(4.34)式,求出y2,……,这样反复迭代,直到xi-1与xi和yi-1与yi的差很小为止。几点说明:1°缺失数据估计出以后,把它填入相应的位置,按一般方差分析的方法计算即可。但自由度会有变化,总自由度应减去缺失的数据个数,SSA;SSB的自由度不变,误差项自由度也相应减小。2°缺失数据的估计只是一种技术上的处理,它使计算可以进行下去。但是原来的实验数据所应提供的信息却再也找不回来了。因此若缺失数据较多,只好把全部结果报废,勉强分析会得出错误的结论。因此实验时一定要认真,尽量不丢失数据,不能把希望寄托在用计算方法弥补上。3°弥补的原则是使误差平方和最小,因此处理平方和有偏大的趋势。这相当于引入了一个额外的误差,降低了结论的可靠性。若缺失数据不多,对总的检验结果尚不起太大影响;若缺失数据较多,则应放弃这批数据。4°在有重复的方差分析中,一般不必进行弥补,只需改用不等重复的计算方法即可。5.随机效应模型\n与固定效应模型相比,线性统计模型本身无变化:但主效应与交互效应变成了随机变量,它们应满足的条件变为:因此观察值的方差变为:。零假设:总变差的分解仍同固定模型一样,自由度也不变:SST=SSA+SSB+SSAB+SSedf:abn-1a-1b-1(a-1)(b-1)ab(n-1)均方数学期望变为:注意上述MSA,MSB的均方期望中,均含有交互作用项,这一点与固定模型是完全不同的。其原因就在于现在是随机模型,交互作用应满足的条件变为。由于现在是随机变量,不再能保证。这样一来,MSA,MSB表达式中均不可能把交互作用项完全消掉,从而也就出现在它们的均方期望中。由于MSA,MSB的均方期望含有交互作用项,检验主效应的统计量也就不能再用MSe做分母,而需要改用MSAB了。因此,检验各假设的统计量变为:对检验结果的解释现在也不局限于参加实验的水平,而是可推广到一切水平上。\n如果有必要的话,可以根据均方数学期望算出各方差的估计值:实际计算公式不变,不再重复。对于随机效应模型多重比较是无意义的,因为一般来说处理的效果是无法严格重复的。与固定模型相同,若FAB的值小于或约等于1,说明交互作用不存在,则可把SSe与SSAB合并。合并方法也与固定模型相同,即为:(4.31)然后用作分母构造统计量FA与FB。注意查表时分母自由度也要变为。6.混合模型:不失一般性,我们可假设A因素是固定型,B因素是随机型。线性统计模型仍不变:xijk=m+aI+bj+(ab)ij+eijk,eijk~NID(0,s2)条件变为:但各不是完全独立的,它满足:即在随机因素的任一水平上均不是独立的。均方期望:\n注意上述均方期望中,固定因素A的均方期望含有交互作用项,而随机因素B反而不含,这跟固定模型和随机模型正好是相反的。造成这种差异的原因还是在满足的条件上:对任意固定,有:,而对固定的i,。这样一来,在MSB的表达式中,和都可保证交互作用被消除掉,从而MSB的均方期望中也就不会有项;但MSA中的却不能使被彻底消去,从而均方期望中也就会出现项。这种均方期望的差异当然会反映在统计量中,即统计量相应变为:注意上述统计量中由于固定因素的均方期望中有项,要用MSAB作F统计量的分母;而随机因素的均方期望中没有项,要用MSe作F统计量的分母。这正是,而的结果。固定因素效应估计:,i=1,2,……a。方差分量的估计为:在结果解释方面,固定因素的结论只能适用于参加试验的几个水平,不能推广;而随机因素的结论可推广到它的一切水平上去。其他如变差分解,自由度分解,计算公式,FAB小于或约等于1的处理等均不变,不再重复。\n例4.7为检验三种配合饲料的效果,从三窝仔猪中各选9只,随机分成三组,分别喂以三种饲料。日增重值见表4.9,请对结果作统计分析。表4.9仔猪日均增重表饲料(A)窝别(B)1231231.381.301.251.261.231.301.191.231.251.291.321.231.221.281.251.231.181.171.351.401.361.321.281.351.271.311.26解:饲料是固定因素,窝别是随机因素,这是一个两因素交叉分组混合模型。首先把原始数据改写成以下的处理均值ji12311.311.2631.2231.26621.281.251.1931.24131.371.3171.281.3221.321.2771.2321.2761ْ把各输入计算器,算得它们的子样方差为根据(4.26)式,;2ْ把各输入,得其子样方差,根据(4.27)式,得:;3ْ把各输入,得子样方差,根据(4.28)式,得:4ْ把各原始数据输入,得子样方差S2=0.003563,根据(4.25)式,得:SST=(abn-1)S2=(3×3×3-1)×0.003563=0.092645ْ由(4.29)式,得:SSe=SST-SSST=0.09264-0.06636=0.026266ْ由(4.30)式,得:SSAB=SSST-SSA-SSB=0.06636-0.03116-0.03467=0.000537ْ由于a=b=n=3,各自由度分别为:dfA=a–1=2dfB=b–1=2dfT=abn–1=27–1=26dfAB=(a-1)(b-1)=2×2=4dfe=ab(n-1)=3×3×2=188ْ把上述计算结果列成方差分析表:变差来源平方和自由度均方F饲料(A)0.031160.03467220.015580.01734117.1**11.88**\n窝别(B)AB误差(e)0.000530.026264180.0001330.001460.091总和0.0926426查表,得:F0.95(2,4)=6.94,F0.99(2,4)=18.0F0.95(2,18)=3.55,F0.99(2,18)=6.01F0.95(4,18)=2.93由于FA=117.1>F0.99(2,4),因此A因素(饲料)主效应达极显著;由于FB=11.83>F0.99(2,18),因此B因素(窝别)主效应也达极显著;由于FAB=0.091F0.99(2,22),FB=14.21>F0.99(2,22),因此两因素(饮料与窝别)的主效应均达极显著水平。交互效应显然不显著。几点注意事项:1°由于MSAB一般要大于MSe,尤其是交互作用存在时更是显著地偏大,因此若不注意区分是随机因素还是固定因素,就有可能错用统计量,导致错误的结论。因此在两个以上因素的方差分析中,区分因素类型显得更为重要。2°在随机模型和混和模型中若不设置重复,同样会导致无法把SSAB与SSe分开。此时随机模型仍可对主效应进行检验,混合模型中也可以对固定因素的主效应进行检验。但当交互作用存在时,仅检验主效应是意义不大的,因为很可能是交互作用在起主要作用。因此只要条件容许,不论哪一类模型都应设置重复,除非有可靠的证据证明交互作用不存在。7.总结:两因素方差分析表(见表4.10)表4.10两因素交叉分组方差分析表变差来源平方和自由度固定模型均方期望FABAB误差a-1b-1(a-1)(b-1)ab(n-1)续表4.10变差来源随机模型混合模型(A固定,B随机)均方期望F均方期望F\nABAB误差三、两因素系统分组实验的方差分析。前面介绍的方法都只适用于交叉分组的实验设计,即A因素的每个水平与B因素的每个水平都会遇到,因此A因素与B因素的地位是完全对称的。但在某些情况下无法采用这样的实验设计。比如进行某种农作物的产量对比实验,A为品种,B为播种期。由于不同品种的最适播期也不一样,采用交叉分组就不太合适,比较理想的方法是根据各自的最适播期分别安排B的水平。这样,先按不同品种分组,然后在每一组内安排自己的播期,这种实验设计方法称为系统分组。其他例如要比较不同菌种的发酵产量,不同酶对同一底物的利用速率等实验中,比较对象对环境条件的要求都是可能有差异的,显然只有让它们各自在自己的最佳条件下工作才能得出正确的结论,因此在这类情况下都需要有系统分组的实验设计方法。在系统分组实验设计中,首先分组的因素如上述的品种,菌种等称为一级因素,其次分组的(如播期,温度,PH值等)称为二级因素。显然此时两因素不再是对称的,我们的实验目标一般更侧重于测定一级因素的差异。此时的计算方法与分析方法同交叉分组相比均有所不同。为叙述简单,我们下面假定对一级因素A的各个水平,二级因素B的水平数均相同。线性统计模型:其中不仅有下标j,还有下标i;表示对于相同的j,不同的i,所代表的二级因素的水平也是不同的。在这里代表二级因素主效应与交互效应之和。由于i不同时二级因素水平j的意义不同,这两个效应已不可能再分开。其他各符号意义同前。与交叉分组类似,A、B两因素可为固定型,也可为随机型。其应满足的条件与H0也是类似的:固定型:,i=1,2,…a,i=1,2,…a,i=1,2,…a;j=1,2,…b随机型:\n总变差分解为:SST=SSA+SSB+SSe相应的自由度分解为:abn-1=(a-1)+a(b-1)+ab(n-1)这里与交叉分组的不同点是SSB代表B因素的主效应与交互效应之和,已无法再分开。计算公式为:(4.35)(4.36)(4.37)(4.38)将上述各式与交叉分组的(4.20)至(4.24)各式加以比较,即可知SST,SSA的计算公式没有改变,而SSB的(4.37)式其实是交叉分组中的SSST-SSA,因为现在已不需分解B因素的主效应与交互效应。SSe的(4.38)式与交叉分组的(4.24)式相同。由于系统分组与交叉分组的差别就是前者不需分解B因素的主效应与交互效应,因此采用计算器进行计算时,仍可采用与交叉分组相同的方法计算SST,SSST,SSA,即先计算处理平均数,i水平平均数,然后计算:1°把所有原始数据放在一起,计算样本方差S2,则SST=(abn-1)S2(4.25)2°用处理平均数计算样本方差,则SSST=n(ab-1)(4.26)3°用i水平平均数计算样本方差,则SSA=bn(a-1)(4.27)4°令SSB=SSST-SSA(4.39)SSe=SST–SSST(4.40)以下各步骤,如列方差分析表、查表、比较、解释等均与交叉分组相同,不再重复。统计量按以下方法构建:均方期望及统计量:对二级因素B来说没有变化:(4.41)对一级因素A来说,依B的类型不同而不同:\nB固定:(4.42)B随机:(4.43)上式中,若因素类型为随机型,则和为方差;若因素类型为固定型,则它们都代表平方和,即:例4.8比较4种酶在不同温度下的催化效率,特设计如下实验:由于文献记载各酶最适温度分别为30℃,25℃,37℃,40℃,现设定温度水平如下,最适温-5℃,最适温,最适温+5℃。其他条件均保持一致。保温2小时后,测定底物消耗量(毫克)。全部实验重复三次,得结果如下:温度酶种类A1A2A3A4偏低适宜偏高14.4,15.2,13.515.9,15.1,14.413.8,12.9,14.613.5,14.4,15.215.1,16.4,15.815.7,14.8,16.014.5,16.3,15.416.4,18.1,16.715.8,14.7,14.111.2,9.8,10.512.5,10.9,11.610.3,11.4,9.9请进行统计分析解:由于各种酶的最适温度不同,上述温度水平偏低、适宜、偏高所代表的实际温度是不同的,应采用两因素系统分组方差分析。酶的种类与温度都应为固定因素。酶为一级因素,温度为二级因素。首先计算各平均值,并列成下表:酶种类温度偏低温度适宜温度偏高平均()A1A2A3A414.3714.3715.4010.5015.1315.7717.0711.6713.7715.5014.8710.5314.4215.2115.7810.90首先把各处理平均数,即上表中间的12个数输入计算器,得它们的子样方差为:由(4.26)式,得:再把各酶的平均数输入,得子样方差为\n=4.7971由(4.27)式,得:再把全部原始数据xijk输入,得子样方差=4.6149由(4.25)式,得:由(4.39)式:由(4.40)式:由于a=4,b=n=3,各自由度分别为:dfA=a-1=3dfB=a(b-1)=8dfe=ab(n-1)=24把上述计算结果列成方差分析表:变差来源平方和自由度均方F酶种(A)129.522343.17467.64**温度(B)16.68182.0853.266*误差(e)15.319240.6383总和(T)161.52235其中均方=平方和/自由度,FA=MSA/MSe(4.42式),FB=MSB/MSe(4.41式)。查表,得:F0.95(3,24)=3.01,F0.99(3,24)=4.72F0.95(8,24)=2.36,F0.99(8,24)=3.36由于FA>>F0.99,因此酶种差异极显著;F0.99>FB>F0.95,因此温度(包括交互作用)造成的差异显著,但未达极显著水平。如有必要,可对四种酶的四个平均数进行多重比较,也可对同一种酶的三个温度数据进行比较。由于各酶的温度设定不同,对三种温度的总平均数进行比较没有意义。表4.11总结:两因素系统分组方差分析表方差来源自由度固定模型随机模型均方期望F均方期望FAa-1Ba(b-1)误差ab(n-1)续表4.11\nA固定、B随机A随机、B固定均方期望F均方期望F上表中:注意:对B因素的检验实际包括主效应和交互效应,它的自由度与交叉分组不同。四、两个以上因素的方差分析把两因素方差分析的方法推广到三个或更多个因素理论上不存在问题,但不仅相应的计算过程明显复杂化,更主要的是所需进行的总实验次数也大大增加,因此一般使用较少。当因素多时,实验设计一般改用正交设计的方法,那样可以大大减少实验次数,分析起来也更为方便。正交设计的方法详见实验设计一章。现以三因素交叉分组固定效应模型为例,给出其计算公式及方差分析表。线性统计模型为:其中i=1,2……a,j=1,2,……b,k=1,2,……c,l=1,2,……n.总变差的分解为:SST=SSA+SSB+SSC+SSAB+SSAC+SSBC+SSABC+SSe计算公式和自由度为:\ndf=(a-1)(b-1)(c-1)df=abc(n-1)统计量及均方期望见表4.12。表4.12三因素交叉分组固定效应方差分析表变差来源平方和自由度均方数学期望FASSAa-1BSSBb-1CSSCc-1ABSSAB(a-1)(b-1)BCSSBC(b-1)(c-1)ACSSAC(a-1)(c-1)ABCSSABC(a-1)(b-1)(c-1)误差SSeAbc(n-1)总和SSTAbcn-1§4.3方差分析需要满足的条件一、方差分析应满足的条件要使方差分析达到预期的效果,实验数据必须满足某些先决条件,主要包括以下三点:1.\n可加性。方差分析的每一次观察值都包含了总体平均数、各因素主效应、各因素间的交互效应、随机误差等许多部分,这些组成部分必须以叠加的方式综合起来,即每一个观察值都可视为这些组成部分的累加和。在对每种模型进行讨论前我们都给出了适合这种模型的线性统计模型,这正是可加性的数学表达式。以后的理论分析都是建立在线性统计模型的基础上的,这正说明可加性是方差分析的重要先决条件。在某些情况下,例如数据服从对数正态分布(即数据取对数后才服从正态分布)时,各部分是以连乘的形式综合起来,此时就需要先对原始数据进行对数变换,一方面保证误差服从正态分布,另一方面也可保证数据满足可加性的要求。2.正态性。即随机误差ε必须为相互独立的正态随机变量。这也是很重要的条件,如果它不能满足,则均方期望的推导就不能成立,采用F统计量进行检验也就失去了理论基础。如果只是实验材料间有关联,可能影响独立性时,可用随机化的方法破坏其关联性,详见实验设计一章第二节;如果是正态性不能满足,即误差服从其他分布,则应根据误差服从的理论分布采取适当的数据变换,具体方法将在本节后边介绍。3.方差齐性。即要求所有处理随机误差的方差都要相等,换句话说不同处理不能影响随机误差的方差。由于随机误差的期望一定为0,这实际是要求随机误差有共同的分布。如果方差齐性条件不能满足也可采用数据变换的方法加以弥补。条件1的数学表达式是方差分析的线性统计模型,而条件2,3的数学表达式为ε~NID(0,σ2)。在实用中,条件1,2的满足主要靠理论分析,即如果我们没有理由怀疑数据的正态性,则认为它们是满足的;而条件3则可用一些统计方法进行检验。下面就对具体的检验方法进行介绍。一、方差齐性的检验。在第三章中,我们介绍过两个总体方差是否相等的检验:F检验。但在方差分析中若要对方差齐性进行检验,必然要涉及多个总体方差进行比较的问题。如果一对对进行多次比较,就会像进行多总体均值检验时一样,引起犯第一类错误的可能性大大增高,因此必须采用专门的方法对多个总体的方差一次进行比较。本节中我们介绍三种多总体方差齐性的检验方法,并对它们进行简单比较,同学们可根据需要选用。1.对数方差分析。对数方差分析主要优点是它针对性很强,即只有当各总体方差有差异时才会出现检验通不过的情况;而对其他一些条件,如总体分布是否正态等并不敏感。它的基本思想是把每个要检验的总体即每个不同处理取出的样本再随机地分解成若干子样本,然后分别计算每个子样本的方差并取对数,最后对这些数据进行单因素方差分析。在方差分析中,各处理被视为因素的不同水平,而同一处理的几个子样本的对数方差则被视为重复。由于需要对每个处理的重复观察值都进一步分解成子样本,这种方法要求重复数很多,而这在处理数也较多的情况下是很难实现的,这一点限制了这种方法的应用。对数方差分析的统计假设为:H0:各处理方差相同;HA:各处理方差不完全相同。具体做法为:设共有a个不同处理,每个处理的重复数为ni,则全部观察值可表示为:xij,i=1,2,…a;j=1,2,…ni在对上述的不同处理的样本进一步分割时,应使各子样本的样本含量尽可能接近,且每个处理分割成的子样本组数mi应满足:(4.44)各子样本的样本含量记为:\n显然应有:分割后的数据可表示为:每个子样本的均值和方差分别为:令(4.45)(4.46)称vij为yij的自由度。然后对yij作方差分析,但要以其自由度vij为权重。具体公式为:(4.47)(4.48)(4.49)(4.50)统计量为:(4.51)当H0成立时,上述统计量F服从自由度为的F分布。当H0不成立时,它有偏大的趋势,因此可用分位数对它进行上单尾检验。总之,对数方差分析方法的优点是比较严谨,针对性也强,检验目标集中在各总体方差是否相等上;缺点是由于要把各样本进一步分为子样本,需要较大的样本容量。例4.9用4种方法测定一个沉积的样本中的重金属含量,得结果如下:\n方法测定结果1372,380,382,368,374,366,360,3762364,358,362,372,338,344,350,376,366,3503348,351,362,372,344,352,360,362,366,354,342,358,3484342,372,374,376,344,360这四种测定方法的方差是否相等?解:各样本平均样本含量为:(8+10+13+6)/4=9.125即每个样本大约应分为3个子样本。考虑到各子样本含量应尽量相等,取子样本含量为3。由于原数据应是随机的,分割时不再进行随机化。分组结果如下:方法分组结果mi1(372,380,382),(368,374,366),(360,376)32(364,358,362),(372,338,344),(350,376,366,350)33(348,351,362),(372,344,352),(360,362,366),(354,342,358,348)44(342,372,374),(376,344,360)2根据(4.45),(4.46)式计算各组的对数方差(yij)及自由度(vij)样本yijmivijni13.332,2.853,4.85232,2,1824.862,4.431,5.09832,2,31033.995,5.338,2.234,3.89242,2,2,31345.772,5.54522,26以各组自由度为权重,求各组平均数:由(4.47)式:令(4.52)则有:v1=5,v2=7,v3=9,v4=4则(4.48)式可改写为:(4.53)由(4.53)式,得:由(4.49)式,得:\n由(4.50)式,得:由(4.51)式,得:F=4.906/1.624=3.021查表,得F0.95(3,8)=4.07>F,因此接受H0,认为各测量方法的方差相等。2.巴勒特(Bartlett)检验这种方法实际是检验各样本分布的“拖尾”情况是否相同,因此它不仅对各样本方差是否相等敏感,也对各样本是否都服从正态分布敏感。一般来说这是一个缺点,因为当拒绝H0时,我们无法确定是由于方差不全相等引起的,还是由于不全服从正态分布引起的。因此如果我们检验的目标只是各方差是否相等,则应首先检验各总体分布是否均服从正态分布,通过后再做巴勒特检验才比较有把握。但在方差分析中检验方差齐性时,由于我们既需要保证各总体均是正态的(条件2),也需要保证方差齐性(条件3),因此巴勒特检验的这一缺点反而变成了优点。即只要通过了巴勒特检验,正态性和方差齐性就都有了较好的保证,可以不经数据变换直接进行方差分析。反之,若通不过巴勒特检验,则应找出原因并排除,例如排除异常值或进行适当的数据变换。巴勒特检验的统计假设为:,(且各总体分布类型相同);:至少有,(或各总体分布类型不同)。统计量为:(4.54)其中为各子样方差以其自由度为权重的加权平均,即:(4.55)(4.56)其他符号意义同前,例如N为总样本含量,α为方差分析的处理数即巴勒特检验的总体数,为各总体样本的子样方差,ni为各总体样本的样本含量。\n巴勒特证明了上述统计量K2近似服从χ2分布,其自由度为a-1。从(4.54)式易知,当各相等时,K2=0;当各差异增大时,K2也增大。因此可用χ2分布对K2进行上单尾检验,即当时,拒绝H0。当各总体样本含量相等时,上述统计量可简化为:(4.57)其中(4.58)a仍为总体数,即方差分析中的处理数;n为各总体样本共同的样本含量,即方差分析中的重复数,为各子样方差的算术平均数。注意:当进行巴勒特检验时,一般要求各总体样本含量ni均大于3。例4.10调查不同渔场马面鲀体长,结果如下表。请检验方差齐性。渔场马面鲀体长(cm)ABC22.2,19.1,20.0,18.5,21.4,19.521.6,22.3,23.0,19.2,20.6,21.717.6,16.5,18.7,19.0,18.2,19.4解:由于各样本含量相等,可使用简化的(4.57),(4.58)式。由所给数据,可算得:a=3,n=6由(4.58)式,得:由(4.57)式,得\nK2的自由度为a–1=2,查表,得:,因此接受H0,各渔场马面鲀体长具有方差齐性。3.检验这种方法不如前两种方法严格,它最大的优点是计算简便,只须选取各子样方差中最大的与最小的作一比值,然后再查专门的表格即可。如果只作为方差分析的预备性检验,即检验各处理是否具有方差齐性,它基本上可满足使用要求。本方法统计量为多个子样方差中最大与最小者的比值,H0为各子样方差相等,HA为至少有一对方差不等。即使在H0成立的条件下,本统计量也不服从任何理论分布,因此必须使用专门编制的临界值表。注意此临界值表与一般F分布表不同,它的相当于普通F分布第一自由度即分子自由度位置的参数是总体数a,而相当于第二自由度即分母自由度位置的则是分子分母自由度中小的一个。具体方法为:设有取自不同总体的a个子样方差。令且记它们的自由度分别为Vmax和Vmin。则(4.59)(4.60)查专用临界值表(附表16),得。若>,则拒绝H0,认为各子样方差不具有方差齐性;否则则接受H0,认为它们具有方差齐性。例4.11用法检验例4.9数据的方差齐性。解:例4.9中,a=4,n1=8,n2=10,n3=13,n4=6计算可得:显然:由(4.59)式,得:=233.067/54.214=4.299由(4.60)式,得:V=min(5,7)=5查表,=16.3>\n因此应接受H0,可认为各子样方差相等。总结:几种检验方差齐性方法的比较。表4.13几种检验方差齐性方法的比较检验方法优缺点对数方差分析巴勒特检验检验针对性强,方法严谨,计算较复杂,所需样本量大除方差齐性外也对偏态敏感,可较好保证正态性及方差齐性。计算简单,不够严格,需用专门表格。三、数据变换前边曾提到方差分析应满足的三个条件:可加性,正态性,方差齐性。若在这三个条件不满足的情况下进行方差分析,很可能会导致错误的结论。其中第二、第三两条件是互相关联的,因为有些非正态分布,其方差与期望间常有一定的函数关系,如Poisson分布的数据,其期望与方差相等,指数分布的数据,期望的平方等于方差等等。此时显然若均值不等,则方差也不会相等,因此H0不成立时也就不会满足方差分析的条件。在这种情况下,应在进行方差分析之前对数据进行变换,变换主要是针对方差齐性设计的,但对其他两个条件常也可有所改善。由于本课程的特点,我们不介绍变换的数学原理,只介绍常用的变换方法及适用的条件。1.平方根变换用于服从泊松(Poisson)分布的数据。它的方差与均值相等,因此H0不成立时不能满足方差齐性的要求。常见的例子如血球计数值,一定面积内的菌落数,一定体积溶液中的细胞数或细菌数,单位时间内的自发放射数,一定区域内的植物、动物、昆虫数,等等。其特点是每个个体出现在哪里完全是随机的,与其邻居无关。符合这一特点的现象通常服从泊松分布。方法:把数据换成其平方根,即用代替xij,然后再进行计算。若大多数据值为10左右,个别接近0,可用代替xij。2.反正弦变换用于以百分数形式给出的二项分布数据。即把原二项分布数据乘以100后作为xij,因此数据一般在0~100之间。如果数据集中于30~70之间二项分布本就接近正态分布,此时也可不做变换。但若变化超出上述范围很大则应变换。方法:令。即先开平方,再取反正弦。也可直接查表得到yij.变化范围大实际是指p与q相差很大,此时有相当部分观察值大于70或小于30。此时分布是偏的,与正态分布差别很大。若p与q很接近,则数据多在30~70之间,与正态分布差别不大,就可以不变换。3.对数变换主要用于指数分布或对数正态分布数据。这些数据的特点是不能取负值,且其标准差σ常与期望μ接近。例如一些描述寿命的数据。方法:令yij=lg(xij),若大部分数据小于10,个别接近0,可采用yij=lg(xij+1)的变换。然后对yij作方差分析。4.Box-Cox幂变换。\n前三种变换方法都要求我们对总体分布有一种理论上的了解,即知道总体分布的许多特征,从而知道它们服从什么分布。如果对理论分布一无所知,经检验又不是正态分布,则对它的变换常采用幂变换的方法。只要能找到适当的幂值,常常就能成功地将数据正态化。Box-Cox变换就是常用的一种方法。它的一般形式为:(4.61)(4.62)显然这一方法的关键是确定λ的值。理论证明,使以下对数似然函数L取最大值的λ就是使原始数据正态化的最佳值:(4.63)其中n为样本含量,v为自由度。如果xi是一维数据,则v=n-1;如果是二维数据,则v=n-2;依此类推。为变换后数据的子样方差,而xi则为原始数据。显然使(4.63)式取最大值的λ不可能用解方程的方法解出,只能用一维搜索计算机程序找出。这是一个典型的优化问题,可使用任何搜索程序对它求解。一般情况下,λ取整数即可。若求出的λ=0,则使用(4.62)式进行变换;若λ不为0,则用(4.61)式进行变换。需要注意的是并非所有分布形式的数据都可通过数据变换的方法正态化。例如当数据呈双峰状分布(即密度函数有两个峰值)时,就不可能找到一种使它正态化的变换方法。因此变换后的数据仍需要对它是否服从正态分布进行统计检验。还需要注意一点,即作了变换以后,接着的分析、比较都是对新变量作的。如果希望回到原来的数据上,由于方差、标准差等不能变换回去,因此不能对原数据进行多重比较。作业1.下表是6种溶液及对照的雌激素活度鉴定。指标是小鼠子宫重量。做方差分析,若差异显著则进一步作多重比较。溶液鼠号对照IIIIIIIVVVI123489.993.888.4112.684.4116.084.068.664.479.888.069.475.262.462.473.888.490.273.287.856.483.290.485.665.679.465.670.22.为了调查三块小麦田的出苗情况,在每块麦田中按均匀分布原则设立了一些取样点,每取样点记录30cm垅长的基本苗数。得结果如下表。三块田的出苗情况是否有差异?田块基本苗数1232129242225302726202525232931242620212422282521263.为选择合理施肥方式,特设计6种施肥方案,各方案施肥成本相同。小区产量如下表。请选择最好的施肥方法。施肥方案ABCDEF小区产量(kg)12.9,13.114.0,13.812.6,13.210.5,11.614.5,15.615.5,14.8\n12.2,12.513.7,11.215.1,13.114.6,15.513.4,15.012.8,14.310.4,9.912.3,10.817.0,15.016.2,16.513.2,14.413.9,15.64.随机选取4个小麦品种,施以三种肥料,小区产量如下:肥料种类品种(NH4)2SO4NH4NO3Ca(NO3)2123421.124.014.231.518.022.013.331.419.421.712.327.5该问题属于哪种模型?从方差分析的结果可得出什么结论?5.用两种不同的饲料添加剂A和B,以不同比例搭配饲养大白鼠,每一种饲料添加剂取4个水平,每一处理设两个重复。增重结果如下:(g)添加剂B添加剂A1234123432,3626,2433,3939,4328,2229,3330,2431,3518,1627,2333,3728,3223,2117,1923,2736,34(1)该实验有可能属于哪几种模型?前提是什么?(2)如果认为是随机模型,设置重复与不设重复对分析结果有无影响?(3)若实验本身是固定模型,但分析时误认为随机模型,对结论有何影响?若不设重复,又有何影响?6.证明无重复两因素固定效应模型中7.品种对比实验中希望同时选择适宜的播种量。由于已知的4个参试品种小麦中有一个分孽力强,一个中等,两个偏弱。因此分孽力强的品种选择了播种量为20,25,30斤/亩,分孽力中等的选择了25,30,35斤/亩,分孽力弱的选择30,35,40斤/亩。小区产量如下表。请进行统计分析。播种量品种A品种B品种C品种D202530354025.4,20.9,23.728.6,27.2,24.827.8,24.2,23.930.4,29.8,24.532.4,28.9,29.126.8,29.4,29.120.2,24.1,23.821.8,23.7,23.524.3,22.6,20.526.4,30.1,25.829.6,27.5,26.424.7,26.1,30.78.某化工厂用细胞毒理学方法分别检测了接触苯和不接触苯的工人及附近农民的染色体畸变率,结果如下表。请进行统计分析。组别结构畸变(%)数目畸变(%)两者均发生(%)接触工人不接触工人5.731.409.274.602.110.19\n农民0.903.550.079.某城市从4个排污口取水,经两种不同方法处理后,检测大肠杆菌数量,单位面积内菌落数如下表。请检验它们是否有差别。排污口ABCD处理方法1处理方法29,12,7,513,7,10,820,14,18,1217,10,9,1512,7,6,1011,5,7,623,13,16,2118,14,19,11\n第六章协方差分析协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变量Y在一个或几个因素不同水平上的差异,但Y在受这些因素影响的同时,还受到另一个变量X的影响,而且X变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时如果X与Y之间可以建立回归关系,则可用协方差分析的方法排除X对Y的影响,然后用方差分析的方法对各因素水平的影响作出统计推断。在协方差分析中,我们称Y为因变量,X为协变量。也许有人会问随机因素的影响也是不能人为控制的,为什么不能把X作为一种随机因素处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的,但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平处理。最后在进行方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进行比较。这一点可从以下的计算公式中看出来:在上述公式中,如果第一个下标i变化时相同的j所代表的第二个因素的水平都不相同,就没有理由认为下面的(*)式一定会成立,也就不能认为SSA仅是第一个因素的影响了。对于系统分组的方差分析,虽然不同的i中同一个j的取值可以不同,但仍要求(*)这样就保证了在中可以消去第二个因素的影响。如果我们对第二个因素的取值完全无法控制,那就意味着对于不同的i,βj的变化是完全没有规律的,当然也就不可能满足上述的(*)式,此时就没有办法采用方差分析的方法,只能把第二个因素视为另一个变量X,试试用协方差分析的方法排除它的影响了。例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。但若可供试验的动物很少,初始体重又有明显差异,无法选到相同体重的动物,那就只好认为初始体重X与最终体重Y有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他因素例如饲料种类,数量对增重的影响了。消除初始体重影响的另一种方法是对最终体重与初始体重的差值即y-x\n进行统计分析。这种方法与协方差分析的生物学意义是不同的。对差值进行分析是假设初始体重对以后的体重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的大小与初始体重成正比。如果这一比值为1,协方差分析与对差值进行方差分析是相同的。但如果比值不为1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的因素在以后的生长过程中也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发挥作用;这两种生物学假设显然是不同。希望同学们在学习一种统计方法时不仅要注意它与其他方法算法上有什么不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理解有助于我们在今后的工作中选取正确的统计方法。由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。协方差分析的计算是比较复杂的。在本章中我们重点介绍最简单的协方差分析的算法,即一个协变量,单因素的协方差分析。§6.1协方差分析的基本原理我们以最简单的情况:一个协变量,单因素的协方差分析为例对协方差分析的基本原理加以说明。一、统计模型:在协方差分析中,我们认为每一个因变量的观察值可分解为以下各部分的和:(6.1)i=1,2…a,j=1,2…n。其中yij:第i水平的第j次观察值。xij:i水平的j次观察的协变量取值。:xij的总平均数。:yij的总平均数。:第i水平的效应。β:Y对X的线性回归系数。:随机误差。需要满足的条件为:(1)~NID(0,σ2)(2)β≠0,即Y与X存在线性关系,且各水平回归系数相等,即协变量的影响不随水平的变化而改变。(3)处理效应之和为0,即:。上述第三个条件说明该因素为固定因素。若为随机因素,则应该为处理效应的方差为0。模型(6.1)式也可写为:,(6.2)这种写法看起来简单一点,它的缺点是m¢不再是Y的总平均值,因为。我们以后的讨论针对(6.1)式进行。二、协方差分析的统计量:进行协方差分析需计算以下统计量:\n其中S,T,E分别代表总的,处理的和误差的(包括协变量的影响)平方和及交叉乘积和。它们的关系可表示为:S=T+E这实际是平方和的分解。同学们可自行证明其交叉项为0。三、协方差分析的原理:协方差分析的核心思想是通过对因变量Y进行调整,消去协变量X的影响,从而能对另一因素不同水平的影响进行统计检验。在模型中,各参数的估计量为:其中。误差平方和为:它的自由度为:dfe=a(n−1)−1。这是因为Syy的自由度为an−1,Tyy的自由度为a−1,所以Eyy的自由度为an−1−a+1=a(n−1),而b*Exy为一个一元回归平方和,自由度为1,所以SSe的自由度为a(n−1)−1。MSe=SSe/[a(n−1)−1]注意上述计算中用的是E而不是S,即对每一个水平分别计算后再加起来的,因此是排除了影响的回归。\n我们希望检验:。在此假设下,统计模型变为:这是一个一元回归问题,此时和的最小二乘估计为:误差平方和为:df=an−2。其中为Y对X的回归平方和。若H0不成立,则中会有的影响,因此会明显偏大。它们的差就是各对总变差的贡献,自由度为a−1。所以我们可用下述统计量对H0作检验:(6.3)若F大于查表得到的上单尾分位数,则拒绝H0,即各水平效应明显不同。我们可以把协方差分析与方差分析作一比较:若不存在协变量影响,即=0,模型变为:这是单因素方差分析。总变差为Syy,误差平方和为Eyy,处理平方和Tyy=Syy−Eyy,我们用作统计检验。若b¹0,我们用它对Syy和Eyy作调整:把Eyy调整为SSe作为误差估计,由于又用了一个估计量b*,又减少了一个自由度,SSe的自由度变为a(n−1)−1;Syy调整为,它与SSe的差作为处理平方和的估计,它的自由度仍为a−1。因此,调整后的统计量变为(6.3)式。从上面的分析可见,处理平均数实际上包括了处理效应和协变量的回归效应,经过调整后变为:\n已消去了协变量的影响,只有处理效应了。它是模型中的最小二乘估计。可以证明它的标准误差为:这实际上一元回归中条件均值估计的标准误差。进行协方差分析应满足的条件有:(1)eij~NID(0,s2)(2)b1=b2=…=ba=b(3)b¹0在做协方差分析的过程中应对上述条件进行检验。§6.2协方差分析的计算过程本节中我们给出较详细的协方差分析计算过程,包括全部应进行的条件检验。(1)对各处理水平,分别计算协变量与因变量的回归方程,并求出各处理内的剩余平方和,令,称为组内剩余平方和,其自由度。(2)令,并利用它们检验方差齐性。可选取差异最大的两个的比值作Fmax统计检验,若无显著差异,则可认为具有方差齐性。(3)把各处理水平的平方和及交叉乘积和合并得到Eyy,Exx,Exy;并求得公共回归系数,及,称为误差平方和,它的自由度为dfe=a(n−1)−1。(4)检验各处理水平的回归线是否平行:H0:b1=b2=…=ba=b。由于组内剩余平方和完全是由随机误差引起,而用共同的b*计算出的SSe则包含了随机误差及各水平回归系数bi的差异的影响,而且可证明它是可以分解的,所以有:其自由度,令然后用作检验。若差异不显著,则可认为各相等。\n(5)检验回归是否显著:H0:b=0。利用(2)的结果,。SSe=Eyy−SSR,dfe=a(n−1)−1。令MSe=SSe/(a(n−1)−1),可用对上述H0作检验。若差异显著则作协方差分析,若差异不显著则直接作单因素方差分析。(6)协方差分析:计算:令,利用上述统计量F对作上单尾检验。若差异显著,则认为各处理水平间效果有显著差异。(7)计算调整平均数,即的估计值。其标准差为:必要时可用它对上述估计值间差异是否显著作检验。总结:协方差分析的原理及步骤(设a=3)(1)检验条件:先作三条回归线,求出各组的误差估计并检验是否相等(方差齐性),通过检验后合并各求出为误差估计。再假设三线平行(有共同的b*),在此假设下求出SSe,用对检验上述假设。通过检验后用MSe代替。\n再检验b*是否为0。令;通过检验则直接作方差分析,否则做协方差分析。(2)协方差分析:检验各水平效应是否均为0:。在此假设下,可把三组数据合并,作一个回归方程,它的剩余平方和包含了的影响。令,检验影响是否明显比随机误差大。(3)对平均数进行调整,即对作出估计,必要时进行多重比较。例6.1比较三种猪饲料A1,A2,A3的效果。X为初始重量,Y为增重量,数据见下表。A1X1513111212161417Y8583657680918490A2X1716181821221918Y9790100951031069994A3X2224202325273032Y89918395100102105110解:首先进行条件的检验。(1)对每一种饲料分别作回归分析,得:Syy1=487.5,Sxy1=110.5,Sxx1=31.5,a1=33.516,b1=3.506,Syy2=184,Sxy2=65,Sxx2=27.875,a2=54.570,b2=2.332,Syy3=566.875,Sxy3=245.375,Sxx3=115.875,a3=43.131,b3=2.118,组内剩余平方和:(2)检验方差齐性:由于各水平重复数均为8,误差自由度均为6。可选差异最大的和作检验:Fmax=99.873/32.431=3.080由于共有3组,因此a=3;各组自由度均为6,因此v=6。查Fmax,临界值表。得:Fmax,0.05(3,6)=8.38>Fmax,可认为具有方差齐性。(3)合并各水平的平方和及交叉乘积和:\nEyy=1238.375,Exy=420.875,Exx=175.25b*=Exy/Exx=2.402,SSe=Eyy−=227.615(4)检验回归线是否平行:H0:b1=b2=b3=b*SSb=SSe−=48.038查表,F0.95(2,18)=3.55>F,∴接受H0,可认为三回归线平行,即有公共回归系数b*。(5)检验回归是否显著:H0:β=0查表,F0.99(1,20)=8.09630,此时可取t0.975(29)=2.0,代入(7.1)式:n=4×2.62/22=6.76≈7由于7与先前估计的n>30相差甚远,应重新计算。考虑到n减小后t0.975变大,可采用n=8或n=9进一步试算。取n=9,查表得t0.975(8)=2.306,重新代入(7.1)式:\nn=2.3062×2.62/4=8.987≈9∴需要至少调查9位病人服药前后的血红蛋白差值才能以95%的把握检测出2mg/100ml的变化。2.双样本:当两总体标准差σ1,σ2已知时,其平均值之差的标准差为:。因此有:令(7.2)则有:N=n1+n2,且(7.3)即:总样本容量N由(7.3)式决定,而两总体抽样数n1和n2由(7.2)式决定。当两总体标准差未知时,仍需先得到它们的估计值s1和s2,经F检验后若相等,则可用s代替σ,用t0.975(N-2)代替u0.975,并采用例7.1的方法代入公式(7.3)求得N,再令即可。若F检验表明,仍可用上法求得N后,再用S代替σ,按(7.2)式求n1和n2即可。例7.2从两总体各抽容量为15的预备样本,得,希望当两总体均值差异大于等于3时,能以95%的把握被检测出来,问各应抽取多大样本?解:首先检验方差是否相等:查表,得:F0.975(14,14)≈F0.975(15,14)=2.9530,可认为t0.975≈2,因此有:V=0.52/22=0.0625\n把每个学校视为一个区层,利用(7.6)式,计算各校的权重Wi。把上次调查的标准差记为Si,计算,,以及,填入下表。再把、、代入(7.20)式,求得比例分配的总样本含量n:再利用公式ni=Wi×n,求出各校的比例分配抽样数ni,并也填入表中。再把,,,的值代入(7.27)式,求得最优分配的总样本含量n*:利用(7.25)式,求出各校的最优分配抽样数,也填入表中。结果如下:学校人数标准差SiWiWiSi比例抽样数最优抽样数A1053.30.25300.83492.75532528B862.60.20720.53881.40092118C741.50.17830.26750.4012189D942.80.22650.63421.77582322E563.70.13490.49931.84731317总和4152.77478.180510094从上述结果可知,若各区层标准差不同,则最优分配的抽样数确实与比例分配不同;且抽样精度相同时,最优分配的总抽样数小于比例分配。三、分级抽样1.分级抽样的概念与数学表示与分层抽样类似,现在我们要考虑的总体仍然可以被分为一些亚总体。在分层抽样中,我们是从每一个亚总体中都抽取一些个体组成样本;而在分级抽样中,则是先随机抽取一些亚总体,然后再从每个抽中的亚总体中进一步随机抽取一些个体组成样本。这种在不同级别上进行多次抽样的方法就称为分级抽样。显然当亚总体数目很多,彼此间又很相似时,这种方法可以大大减少抽样成本或工作量。它的缺点是由于我们没有抽取全部的亚总体,这样就又引入了一个由于抽取不同亚总体而带来的不确定性,从而增加了抽样的误差。在本节中我们将只讨论一种最简单的情况,即只有两级,且每个亚总体所包含个体数与抽样比例均相同的情况。设共有N个亚总体,抽取其中几个进一步抽样;每个亚总体含M个个体,抽取m个为样本。令为第i个亚总体中第j个个体的观测值;为第i个亚总体的均值;为总平均值;\n亚总体间的样本方差;为亚总体内样本方差的平均。由于是有限总体,只需将以上各式中的m,n从小写改为大写即可得到总体均值m的表达式。若要求总体方差s2,则除把m,n从小写改为大写外,还须把分母中的“−1”去掉。记,,分别为一级和二级抽样比例,则对于亚总体大小和抽样比例均相同的二级抽样,我们有以下定理:定理7.5若二级抽样都是随机的,则为总体均值m的无偏估计,且其方差为:(7.28)其中为亚总体间的方差,为亚总体内方差的平均值。的无偏估计为:(7.29)注意定理7.5中式(7.28)与(7.29)中第二项系数是不同的,它们相差一个因子f1。其原因在于根据s2与S2的定义,只与各亚总体平均数间的差异有关,与亚总体内的方差无关;但则不只受亚总体平均数间差异的影响,而且也受到亚总体内抽到哪些个体的影响,因此与亚总体内的方差也有关系。实际上,可证明的期望分别为:(7.30)(7.31)因此的无偏估计不是,而是。当m=M,即f2=1时,抽中的亚总体中每一个个体都将被测量。此时的两级抽样称为整群抽样。在这种情况下,计算出的样本均值当然就不再受亚总体内方差的影响,即(7.28),(7.29)式中都只剩下了第一项。当n=N,即f1=1时,所有亚总体都被抽中,分级抽样变成了分层抽样。由于各亚总体所含个体数及抽样比例均相同,实际是分层抽样的比例分配。此时(7.28)与(7.29)式都只剩下第二项,容易验证(7.29)的第二项与(7.15)式是完全一样的。1.最优分级抽样这里最优的标准仍与以前一样,即在费用固定时使方差最小,或方差固定时使费用最小。仍使用线性费用函数:C=C1n+C2nm(7.32)\n其中第一项正比于抽中的亚总体数,第二项正比于抽中的个体总数。这理7.6在定理7.5的条件下,当时,各亚总体内的最优抽样量mopt为:(7.33)若(7.33)式给出的不是整数,记其值为,令为的整数部分,则:(7.34)若或(7.33)式得到的,则令即按整群抽样处理。得到mopt后,可用解费用方程(7.32)式或方差方程(7.28)式的方法求得最优的亚总体抽样数nopt,使用哪个方程取决于事先给定的是费用还是方差。使用定理7.6需知道总体参数和。若和未知,而是通过预实验得到样本方差和,则可用由(7.30)和(7.31)式得到的(7.35)(7.36)代入(7.33)式求mopt的估计值。注意,不难求得:(7.37)其中为预实验中从各亚总体中抽取的个体数。四、序贯抽样根据假设检验的基本原理可知,如果统计量的值恰好落在选定的分位数附近,则我们作出的统计判断的可靠性就会较低,换句话说就是犯错误的可能性较大;反之若统计量的值离分位数很远,作出的统计判断就比较可靠。因此在前边介绍各种统计方法时,如果例题计算出的统计量值接近分位数,我们常常劝告大家最好不要匆忙下结论,而是要增加样本含量,即进行补充实验,以便用更多的数据作出较可靠的判断。受这种现象的启发,我们很自然地想到能否建立这样一种抽样方法:先抽少量样品进行检验,为弥补样品量少检验精度差的缺点,我们不是设置一个阈值并根据统计量大于或小于它决定接受H0还是HA,而是根据犯两类错误的可能性和分别建立两个阈值和(),当统计量时,接受H0;当\n时,接受HA;而当时暂不作出判断,而是增加样本含量,即进行补充抽样,得到新的数据后与原数据一起计算新的统计量u,并建立新的阈值和,再重复上述过程,直到最后能作出判断为止。这就是序贯抽样的基本思想。要使这一思想变成一种可行的抽样方法,还需解决以下几个问题:1)构造适当的统计量,并确定计算两个阈值的公式;2)证明这种抽样过程一定会终止;3)证明这一抽过程所需的总样本容量比同样精度的固定容量抽样要少。本节的主要内容就是对以上问题作出回答,但对许多问题我们将只给出答案,而略去了较复杂的证明。1.序贯抽样统计量的构造:似然比序贯抽样一般采用似然比为统计量。似然比是这样定义的:定义设总体X的分布依赖于某个参数θ。以函数f(x,θ)表示它的分布密度或概率分布,以(x1,x2,…xn)表示从总体X中抽取的一个容量为n的样本的测量值。考虑对零假设:H0:θ=θ0和备择假设:HA:θ=θ1进行统计检验,令(7.38)则λn称为似然比;若有数k,使λn≤k则接受H0,λn>k则拒绝H0,那么这种统计检验就称为似然比检验。例7.5设X~N(μ,1),为正态总体;x1,x2,…xn为从总体X中抽取的样本。现在要用似然比检验H0:μ=0与HA:μ=1,且希望犯两类错误的概率均为0.05,问需要多大样本,且应如何选定阈值?解:设n为所需样本容量。由似然比定义(7.38)式,有:\n由于自然对数为单调递增函数,设k为所需的阈值,则等价于,即,又由于,且犯第一类错误就是H0成立但,所以要求犯第一类错误的概率为0.05即把标准化,可得:(7.39)与上述类似,由于犯第二类错误就是HA成立,但λnk等价于,因此可取样本含量为11,阈值为,当观测到的时,接受H0:μ=0;当观测到时,接受HA:μ=1。此时犯两类错误的概率平均为0.05。从上述例题可看到似然比统计量表达式比较复杂,但代入f的具体表达式后,常可采用不同方法进行简化,最后使用时常常还是很方便的。2.序贯抽样阈值的选取。\n在例7.5中,我们只使用了一个阈值。但在序贯抽样中,我们要使用两个阈值,这是因为若只用一个阈值,而统计量又恰好落在阈值附近,此时实际上两个统计假设为真的概率都不高,而且相差不大,因此判定哪个为真理由均不充分。如果采用两个阈值A,B(AB时,接受HA;否则就继续抽样。这样就保证了当判定某个假设为真时它发生的概率明显大于另一个,从而保证了结果有较高的可靠性。但如何确定A,B的值呢?显然A,B的取值是与a,b是有关的。由于序贯抽样中每次计算出来的ln都会有变化,我们不妨把ln视为一个动点的一维随机游动,而A和B可视为两个吸收壁,即动点一但碰到其中之一就不能继续游动,抽样也就停止了。这样一来,犯第一类错误的概率a就是动点在H0成立的条件下游动时,首先碰到的是B的概率;而b则是动点在HA成立的条件下游动,首先碰到A的概率。它们的数学表达式为:在给定分布密度f的表达式的情况下,上述两式在理论上是可以计算的,即可以在给定a,b时解出A,B。但这种计算显然是十分复杂的。因此,在实践中我们使用的是两个简单的近似公式:(7.41)(7.42)当然使用A¢,B¢为阈值时,犯两类错误的概率也不再是a和b,不妨记为a¢与b¢。在理论上可以证明:a¢+b¢£a+b(7.43)换句话说,使用近似公式后犯两类错误的概率之和不会增大,因此这是一组很不错的近似公式。3.序贯抽样的可行性与优越性。序贯抽样的可行性是指这种抽样过程一定会终止;而优越性则是指在同样精度下序贯抽样所需的总样本容量比固定样本容量的抽样方法要少。这两个问题,即序贯抽样是否可行与优越,答案都是肯定的。这里我们不再给出详细的证明,而是给出这两个结论。结论1:不论总体X有何种概率分布,只要采用似然比为统计量,且阈值A,B满足:01,则序贯抽样进行有限次就能作出判断的概率为1。结论2:序贯抽样所需的总样本含量n实际是一个随机变量,相对于a,b相同的固定样本含量随机抽样所需样本数N,我们不能保证每次都有nF0.99,因此品种间差异极显著。一般情况下,行效应和列效应都是我们希望排除的干扰,通常并不对它们进行检验;而品种间的差异才是我们所关心的,只需对它进行检验就可以了。二、希腊——拉丁方设计若在一个用拉丁字母表示的n×n拉丁方上,再重合一个用希腊字母表示的n×n拉丁方,并使每个希腊字母与每个拉丁字母都共同出现一次,且仅共同出现一次,此时我们称这两个拉丁方正交。这样的设计称为希腊——拉丁方设计。在这样的设计中,一共可容纳4个因素:行、列、希腊字母和拉丁字母。每个因素都有n个水平,共做n2次实验。这4个因素中常常只有一个代表我们要检测的处理效应,其他均为我们希望排除的外来因素的影响。因此这种方法共可控制三种不需要的变异性。但显然不是任意两个n×n的拉丁方都能满足上述正交条件,因此有必要研究正交拉丁方的存在性。可以证明,除n=6外,所有拉丁方均有与它正交的拉丁方。对于给定的阶数n,最多可以有n-1个互相正交的拉丁方。如果确实存在这样的n-1个正交拉丁方,则称它们为正交拉丁方的完全系。把所有这些拉丁方重叠在一起,共可容纳n+1个因素(因为除每个正交拉丁方都可容纳一个因素外,还有行,列可容纳两个因素)。但如果真安排n+1个因素,就无法再分离出误差项,也就无法进行统计检验了。因此n阶拉丁方最多可安排n个因素进行实验。正交拉丁方已编成专门表格,需要时可查阅。希腊——拉丁方的统计方法与拉丁方极为相似,只是现在又多出了一个希腊字母所代表的因素。它的统计模型为:,i,j,k,l=1,2,……n,其中xijkl是第i行,第j列,第k个拉丁字母和第l个希腊字母的观察值。m为总平均值,ai为行效应,bj为列效应,gk为拉丁字母效应,ql为希腊字母效应。εijkl~NID(0,s2)为随机误差。希腊——拉丁方设计同样要求所有因素间均无交互效应。同时应注意,不是一切i,j,k,l的组合都会出现在x的下标中,只有满足正交条件的那些才会出现。在拉丁方设计中也有类似现象。希腊——拉丁方的变差及自由度分解为:SST=SS行+SS列+SS拉丁+SS希腊+SSe自由度:n2-1=(n-1)+(n-1)+(n-1)+(n-1)+(n-3)(n-1)各平方和计算公式与以前相同,不再重复。采用希腊——拉丁方设计后,从误差项中又分解出了一项系统误差,SSe进一步减小,从而提高了检验的灵敏度。例7.11就是在例7.10的基础上又分离出了不同人管理引入的误差,从而使F使进一步提高。例7.11假设例7.10中的田间管理需由5个不同的人完成,则可按如下的希腊——拉丁方设计进行实验,结果如下(a,b,g,q,j分别代表5个不同的管理人):列行123451Aa=53Bb=44Cg=45Dq=49Ej=402Bg=52Cq=51Dj=44Ea=42Ab=503Cj=50Da=46Eb=43Ag=54Bq=47\n4Db=45Eg=49Aq=54Bj=44Ca=405Eq=43Aj=60Ba=45Cb=43Dg=44试对上述结果进行统计分析。解:计算用希腊字母代表的平均数:田间管理abgqj均值45.245.048.848.847.6把上述均值输入计算器,得:=3.512,SS管理=n(n-1)=70.24因此SSe=SST-SS列―SS行―SS品种―SS管理=62.08其他数据与例7.10相同,不再重复计算。列成方差分析表:变差来源平方和自由度均方F品种342.64485.6611.039管理70.24417.56行13.0443.26列101.84425.46误差62.0887.76总和589.8424查表,得F0..95(4,8)=3.838,F0.99(4,8)=7.006F0.99(3,6),即浓度间差异极显著;F3s0或sm0或mB1),而不是分布函数,即P(Xs0:当B2>a时接受H0;若HA为:sa时,接受H0;E1m0,而观测数据平均值却明显小于m0时;或进行下单尾检验,即HA为mm2或m1α则接受H0。3.均值检验方法:需区分几种情况:(1)两总体方差,已知:U检验。1°在空格D1中输入:“=(Average(A1:A10)-Average(B1:B10))/sqrt(/count(A1:A10)+/count(B1:B10))↙”这一步计算统计量的值,用了以下几个函数:Average:计算平均数;sqrt:计算平方根;count:计算指定区域中数字的个数。,应直接输入数值,或存贮该数值的位置。2°在D2中输入:“=Normsdist(D1)↙”这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值(即P(Xx))。注意在Excel中函数Normsdist是计算标准正态分布的取值,而Normdist是计算一般正态分布的取值。这里由于D1计算过程中已进行了标准化,因此应使用Normsdist。3°将D2的数值与α比较:双边检验:α/2m2:当D2<1-a时接受H0;下单尾:HA:m1a时接受H0。注意:由于Normsdist函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接受域与使用Chidist和Ztest函数时正好相反。使用时请特别注意所用函数返回的倒底是分布函数还是尾区概率,否则单边检验时很容易出错误。(2)两总体方差未知:由于Ttest函数中已考虑了方差未知时的各种可能,因此使用中很方便,只需改变一个参数的取值就可以了。1°在空格E1中输入:“=Ttest(A1:A10,B1:B10,tails,type)↙”这一函数中后两个参数的取值与意义为:tails=1:单尾检验;tails=2:双尾检验。type=1:配对检验;type=2:方差相等;type=3:方差不等。使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率,因此可直接与a相比。2°把E1的数值与a比较,E1>a时,接受H0,否则拒绝H0。\n注意:单尾检验中不管两个均值谁大Ttest给出的概率都是相同的。因此在上单尾检验(HA:m1>m2)中第一个样本均值偏小或下单尾检验(HA:m1α时接受H0,即列联表的行与列相互独立;否则拒绝H0,即行与列不独立。由于这一数字大于0.05,因此接受H0,认为给药方式与药效无关。此函数的第一个参数为观测值所在区域,第二个参数为理论值所在区域。这两个矩形区域行列数必须相同。返回值为皮尔逊统计量对应的c2分布的尾区概率,其自由度为(r–1)(c–1),其中r,c分别为数据区的行数和列数。如果数据区只有一行或一列,则自由度为数据个数减1。这正是列联表独立性检验所需的自由度。例6.(即本书例3.24)为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料:灌溉方式绿叶数黄叶数枯叶数深水浅水湿润146183152791471316问叶片衰老是否与灌溉方式有关?\n解:表3.例6的计算结果灌溉方式绿叶数黄叶数枯叶数深水14677Chi-test浅水1839130.229248湿润1521416理论值140.69478.77513710.53016180.265111.2431413.49177160.04029.98171811.97806如表3,原始数据在区域Q3:S5。首先计算理论值:在空格Q7输入:“=SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S$5)”回车后,显示数字140.6947。把Q7复制到区域Q7:S9,得到各理论值。请注意上式中美元符号的位置,只有位置正确才能保证复制结果正确。在U4单元格输入:“=CHITEST(Q3:S5,Q7:S9)”回车后,显示数字0.229248。由于这一数字大于0.05,因此接受H0,认为叶片衰老与灌溉方式无关。3.吻合度检验:对吻合度检验来说,理论值的计算显然与理论分布的类型有关,c2检验的自由度也可能发生变化。例如对正态分布的吻合度检验,如果总体参数m,σ2已知,则统计量自由度为数据个数减1;但若总体参数未知,用样本均值与方差S2代替,则统计量自由度也要再减2。此时直接用Chitest得到的尾区概率就不对了,需要再作一下变换(见例7)。现以正态分布为例介绍吻合度检验计算步骤。例7.(即本书例3.19)调查了某地200名男孩身高,得,分组数据见下表。男孩身高是否符合正态分布?组号区间Oi1(-∞,126)82[126,130)133[130,134)174[134,138)375[138,142)556[142,146)337[146,150)188[150,154)109[154,+∞)9解:计算结果如表4。计算过程为:1°在C3至C11中填入身高区间的上界。最后一个应为无穷大,填入足够大的数即可。2°在D3格中输入:“=NORMDIST(C3,139.5,7.42,1)”这一步是计算正态分布值。第一个参数为区间上限;第二个参数为均值;第三个参数为标准差;第四个参数为0时计算密度函数,为1时计算分布函数。把D3复制到D4:D11。3°计算各区间的概率。在E3中输入“=D3”,在E4中输入“=D4-D3”,并复制E4到E5:E11。4°计算理论值:在G3输入\n“=E3*200”并复制G3到G4至G11。5°计算统计量:在H3输入:“=(F3-G3)∧2/G3”把H3复制到H4至H11,并在H12输入:“=Sum(H3:H11)”另一种计算统计量的方法为:在I3输入:“=Chitest(F3:F11,H3:H11)”在I6输入:“=Chiinv(I3,8)”可见I6的数值与H12是相同的。6°计算统计量对应的尾区概率:在I9输入:“=chidist(I6,6)↙”7°将I9与α相比,当I9>α时,接受H0,所观察数据符合正态分布;当I9≤α时,拒绝H0,数据不符合正态分布。在本题中,I9的数值为0.085446>α,因此应接受H0,可认为男孩身高符合正态分布。计算结果如下表。表4.例7的计算结果组号区间边界正态分布概率观察值理论值(Oi-Ti)2/TiChi-test1<1261260.0344250.03442586.8849240.1805970.1963032[126,130)1300.1002160.0657911313.158230.0019033[130,134)1340.2292740.1290581725.811633.008134统计量4[134,138)1380.4198970.1906233738.124670.03317811.096295[138,142)1420.6319140.2120175542.403363.7420496[142,146)1460.8094880.1775743335.514780.17807P7[146,150)1500.921480.1119921822.398320.8636890.0854468[150,154)1540.974660.053181010.636090.0380419>15410000010.0253495.0680043.050627和11.09629分位数12.59158本来Chitest函数返回的就是尾区概率,但它使用的自由度为数据个数减1,而现在应使用数据个数减3为自由度,因此要使用函数Chiinv先把尾区概率变回统计量的值,然后再用Chidist求出正确自由度下的尾区概率。注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方差代替未知参数,因此自由度比正常的Pearson统计量少2;本书中例3.20,统计模型中没有未知参数,因此自由度没有变化;例3.21有一个参数需用统计量代替,因此自由度需再减一。四、常用离散分布的统计计算:离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对H0成立不利的方向求和。例如水质检验要求大肠杆菌不大于2个/毫升,取2毫升检验,发现5个细菌,问是否判断超标。此时H0为:μ≤4,对H0成立不利的方向应是细菌数增加,因此尾区概率应为:。其中pi为2毫升水样中出现i个细菌的概率。\n尾区建立以后用Excel提供的函数求概率是很容易的。然后根据是单尾或双尾检验与α或α/2比较,若尾区概率大于α或α/2,则接受H0;否则拒绝。我们先介绍一下有关函数所需参数的意义,然后结合例题说明使用方法。1.二项分布有关函数:Binomdist(n,N,p,C)用于计算二项分布的概率或累积概率。其中n:成功次数;N:总实验次数;p:成功概率;C:参数,取值为1时计算从0到n的累积概率,取值为0时计算成功n次的概率。Critbinom(N,p,α)用于求二项分布累积概率大于指定临界概率时的最小成功次数。其中参数意义为:N:总实验次数;p:成功概率,α:临界概率。2.超几何分布有关函数:Hypgeomdist(k,n,M,N)用于计算超几何分布概率。其参数意义为:k:样本中的成功数;n:样本数;M:总体中的成功数;N:总体中个体数。3.负二项分布有关函数:Negbinomdist(x,r,p)用于计算负二项分布概率。其参数意义为:x:失败次数;r:成功次数;p:成功概率。其最后一次实验必定是成功的。4.泊松分布函数:Poisson(x,λ,c)用于计算泊松分布概率或累积概率。参数意义为:x:成功次数;λ:平均数;c:参数,取值为1时计算成功次数小于等于x的累积概率;取值为0时计算成功x次的概率。例8.产品废品率小于等于0.03为合格。抽检20个样品发现2个废品,该批产品是否合格?若发现3个废品呢?解:1°在空格B5格中输入:“=1-Binomdist(1,20,0.03,1)”回车后,显示数字0.119838。由于尾区是从2累加到20,而Binomdist函数是从0累加到指定值,因此这里应指定第一个参数为1。2°将B5与α相比:由于B5>α=0.05,故接受H0,发现2个废品可认为合格。3°在空格B6格中输入:“=1-Binomdist(2,20,0.03,1)”回车后,显示数字0.021008。4°将B6与α相比:由于B6<α=0.05,故拒绝H0,发现3个废品应认为不合格。例9.水质检验要求每毫升水中大肠杆菌不得超过3个。现取1毫升检验,发现6个细菌,水质是否合格?若2毫升发现12个细菌呢?解:1°在空格B12中输入:“=1-Poisson(5,3,1)”回车后,显示数字0.083918。与前一题类似,H0:λ≤3;故尾区应向多的方向累加。对1毫升发现6个细菌,尾区为:。因此第一个参数应取为5。2°将B12与α=0.05相比,由于B12>α,故接受H0,1毫升发现6个细菌应认为合格。\n3°在空格B13中输入:“=1-Poisson(11,6,1)”回车后,显示数字0.020092。由于现改为检测2毫升,故λ应取为6;尾区为:,因此第一个参数应取为11。4°将B13与α相比,由于B13<α,故拒绝H0,2毫升发现11个细菌应认为不合格。§2方差分析方差分析是重要的统计方法之一,它主要用于比较多组数据的平均数是否相同。Excel有一个用于进行方差分析的宏,但必须进行安装才能使用,同时也不太完善,例如不能区分因素类型等。因此本节中既介绍利用Excel的统计函数,手工进行方差分析的方法,也介绍利用宏自动计算,然后根据需要再对结果加以调整的方法。一、统计知识复习:方差分析中的因素可分为固定因素和随机因素,不同因素类型对方差分析的影响主要表现在应选用不同统计量及对结果解释不同。因此进行方差分析应注意区分因素类型。1.单因素方差分析:总平方和及自由度可作如下分解:总平方和:SST=SSA+SSe自由度:an–1=(a–1)+a(n–1)统计量:F=MSA/MSe~F(a–1,a(n–1))当H0不成立,即各水平的平均数有差异时,F统计量有偏大的趋势,因此可进行上单尾检验。若因素为固定因素,结论只适用于参加检验的几个水平;若为随机因素,则可推广到一切水平。2.双因素交叉分组方差分析:平方和及自由度分解为:平方和:SST=SSA+SSB+SSAB+SSe自由度:abn–1=(a–1)+(b–1)+(a–1)(b–1)+ab(n–1)统计量的选择依赖于因素类型:a)固定效应模型:FA=MSA/MSe~F(a–1,ab(n–1))FB=MSB/MSe~F(b–1,ab(n–1))FAB=MSAB/MSe~F((a–1)(b–1),ab(n–1))b)随机效应模型:FA=MSA/MSAB~F(a–1,(a–1)(b–1))FB=MSB/MSAB~F(b–1,(a–1)(b–1))FAB=MSAB/MSe~F((a–1)(b–1),ab(n–1))c)混合模型:(A固定,B随机)FA=MSA/MSAB~F(a–1,(a–1)(b–1))FB=MSB/MSe~F(b–1,ab(n–1))FAB=MSAB/MSe~F((a–1)(b–1),ab(n–1))均为上单尾检验。固定因素的结果不能推广,随机因素则可推广到一切水平。3.双因素系统分组方差分析:系统分组与交叉分组的不同点在于对应于一级因素的不同水平,系统分组的二级因素各水平可取不同值。此时SSB与SSAB无法分离。其平方和与自由度的分解为:平方和:SST=SSA+SSB+SSe\n自由度:abn–1=(a–1)+a(b–1)+ab(n–1)统计量:FB=MSB/MSe~F(a(b–1),ab(n–1))检验因素A的统计量则取决于因素B的类型:B固定:FA=MSA/MSe~F(a–1,ab(n–1))B随机:FA=MSA/MSB~F(a–1,a(b–1))结果解释仍为固定因素不可推广,随机因素可推广。4.多重比较:由于Excel中没有Duncan法,Newman-Q法等所需要的系数表,因此无法使用这些多重比较方法。这里我们只介绍可用的最小显著差数法:统计量:一般为双尾检验。其中,为两个处理的平均数,n为重复数。二、方差分析的手工计算方法:例10.(即本书例4.1)用4种不同的配合饲料饲养30日龄小鸡,10天后计算平均日增重,得以下数据:4种饲料效果是否相同?饲料日增重值Xij15549624551261585268703716556735948590767869解:把数据输入Excel,如表5。表5.例10的计算结果饲料1饲料2饲料3饲料4重复155617185重复249586590重复362525676重复445687378重复551705969平均52.461.864.879.6方差41.854.254.266.3S2146.02895SST2774.55MSA636.18333F11.753965S2xi.127.23667SSA1908.55MSe54.125P0.0002556SSe866计算步骤为:1°计算各饲料日增重平均值:在B8中输入:“=Average(B3:B7)”回车后,显示数字52.4。把B8复制到C8:E8,得到各平均值。2°计算SST:在B11中输入:“=Var(B3:E7)”回车后,显示数字146.02895。这是全部原始数据的样本方差。在D11中输入:“=19*B11”回车后,显示数字2774.55。这就是总平方和SST。公式中19=an-1,在本题中,a=4,n=5。3°计算SSA:在B12中输入:\n“=Var(B8:E8)”回车后,显示数字127.23667。这是各平均值的样本方差。在D12中输入:“=15*B12”回车后,显示数字1908.55。这就是平方和SSA。公式中15=n(a-1)。4°计算SSe:在D13中输入:“=D11-D12”回车后,显示数字866。这就是平方和SSe。5°计算MSA,MSe:在F11中输入:“=D12/3”回车后,显示数字636.18333。这就是MSA,其中3=a-1;在F12中输入:“=D13/16”回车后,显示数字54.125。这就是MSe,其中16=a(n-1)。6°计算统计量及其对应概率:在H11中输入:“=F11/F12”回车后,显示数字11.753965。这就是F统计量。在H12中输入:“=Fdist(H11,3,6)”回车后,显示数字0.0002556。这就是F统计量对应的概率值。其中3为统计量分子自由度a-1,16为分母自由度a(n-1)。由于H12<α=0.01,应拒绝H0,各饲料有极显著差异。本题属于固定模型,因此可进一步进行多重比较。结果见表6。具体步骤为:表6.例10的多重比较饲料4饲料3饲料2饲料179.664.861.852.4饲料152.42.48314E-050.01694340.060429饲料261.80.0014902890.5282252饲料364.80.0058076197°复制平均数,并进行排序:把B8:E8复制到K3:N3,用“选择性粘贴”,“数值”。把B2:E2复制到K2:N2。用鼠标选择K2:N3区域,然后对它进行排序:用“数据”菜单下的“排序”命令,点击“选项”,在出现的菜单中选择“按行排序”,点击“确定”关闭“选项”菜单;并指定关键字为“按行3”,“递减”。点击“确定”后,就完成了对平均数从大到小的排序。排序过程中,平均数和它对应的处理是连在一起排序的,这样有助于判断是那些处理之间有显著差异。再把L2:N3复制到I4:J6,用“选择性粘贴”,“转置”命令。用鼠标选择I4:J6区域,再按列J递增排序。8°计算各平均数间T统计量所对应的概率:在K4中输入:“=Tdist((K$3-$J4)/SQRT(2*$F$12/5),16,2)”上式中有些行或列号前有“$”号,是为了在以后的复制中使相应的行号或列号不变化;SQRT为求平方根函数;$F$12为MSe的存贮地址;它前边的数字2为公式中的常数;后边的数字5为本题中的常数n;再后边的数字16是本题中MSe的自由度;最后的数字2为函数Tdist的参数,表示计算双尾概率。把K4复制到K5,K6,L4,M4;再把K5复制到L5。9°把上面计算出的各概率与0.05相比,小于0.05的为差异显著;再与0.01相比,小于0.01\n的为差异极显著。可用不同颜色分别表示。在本题中,饲料4与饲料1,2,3差异均达极显著;而饲料3与饲料1差异显著;其他差异不显著。从以上结果看,饲料4的增重最大,应是最好的。例11.(即本书例4.3)为选择最适发酵条件,用三种原料、三种温度进行了实验,得结果如下表。请进行统计分析。原料种类(A)温度(B)30℃35℃40℃1414923251113252462226182475950404338333682214183355350433847445533262930解:把数据输入Excel表,并排列如下:表7.例11方差分析结果因素A温度30温度35温度40因素B原料1原料2原料3原料1原料2原料3原料1原料2原料3重复14147352443386833重复2495953253847222226重复3235050133344261419重复4254043113655181830平均34.54945.2518.2537.5461815.527温度平均42.916733.916720.1667原料平均23.58333439.4167SST7170SSST5513.5SSA3150.5MSA1575.25FA5.67E-07SSB1554.17MSB777.083FB0.000132SSAB808.833MSAB202.208FAB0.025322SSE1656.5MSE61.3519按以下步骤进行计算:1°计算各处理平均数:在B8输入:“=Average(B4:B7)”回车后,显示数字34.5。把B8复制到C8:J8,得到各处理的平均数。2°计算因素A,即温度的各水平平均值:在B9输入:“=Average(B8:D8)”回车后,显示数字42.9167。再用鼠标标记B9:D9,点“跨列居中”键。再把B9复制到E9,H9。这样就得到了各温度的平均值。3°计算因素B,即原料各水平的均值:在B10输入:“=Average(B8,E8,H8)”回车后,显示数字23.5833。把B10复制到C10,D10。这样就得到了各原料的平均值。4°计算总平方和SST:在B12输入:“=35*Var(B3:J6)”回车后,显示数字7170。其中35=abn-1,由于本题中a=b=3,n=4,故总自由度为35。5°计算次总平方和SSST:在B13输入:“=32*Var(B8:J8)”回车后,显示数字5513.5。其中32=n(ab-1)。6°计算SSA:在B14输入:“=24*Var(B9,E9,H9)”\n回车后,显示数字3150.5。其中24=bn(a-1)。7°计算SSB:在B15输入:“=24*Var(B10:D10)”回车后,显示数字1554.17。其中24=an(b-1)。8°计算SSAB:在B16输入:“=B13-B14-B15”回车后,显示数字808.8333。9°计算误差平方和SSe:在B17输入:“=B12-B13”回车后,显示数字1656.5。10°计算各个均方:在D14输入:“=B14/2”回车后,显示数字1575.25,为MSA。其中2=a-1。在D15输入:“=B15/2”回车后,显示数字777.0833,为MSB。其中2=b-1。在D16输入:“=B16/4”回车后,显示数字202.2083,为MSAB。其中4=(a-1)(b-1)。在D17输入:“=B17/27”回车后,显示数字61.35185。为MSe,其中27=ab(n-1)。11°计算各统计量对应的尾区概率:在F14输入:“=Fdist(D14/D17,2,27)”回车后,显示数字5.67×107,为统计量FA对应的概率值。其中D14/D17为FA统计量的值,2,27分别为其分子,分母自由度。在F15输入:“=Fdist(D15/D17,2,27)”回车后,显示数字0.000132,为统计量FB对应的概率值。其中D15/D17为FB统计量的值,2,27分别为其分子分母自由度。在F16输入:“=Fdist(D16/D17,4,27)”回车后,显示数字0.025322,为统计量FAB对应的概率值。其中D16/D17为FAB统计量的值,4,27分别为其分子分母自由度。12°将F14,F15,F16中的数值分别与α比较,若大于α,则接受H0,认为该因素影响不显著;否则影响显著。对于本题来说,A,B两因素影响均达极显著水平,它们的交互作用也达到了显著水平。以上是认为A,B均为固定因素的检验方法。若认为有一个或两个因素为随机因素,则应相应改变统计量及自由度:若认为两因素均为随机因素,则应在检验主效应时改用MSAB为分母,即将F14,F15中输入的公式分别改为:“=Fdist(D14/D16,2,4)”“=Fdist(D15/D16,2,4)”其他不变,但现在结果可推广到A,B因素的一切水平。若只有一个因素为随机,设A固定,B随机,则F15公式同固定模型,F14同随机模型,即分别为:“=Fdist(D14/D16,2,4)”,“=Fdist(D15/D17,2,27)”比较方法仍不变,但A因素结果不能推广,B因素则可以。多重比较在各处理的平均数之间进行,方法同单因素方差分析,本例题仅给出结果(见表8),不再重复计算步骤。\n表8中第一列是处理条件,即具体温度和原料种类;第二列是该处理平均数;第三列是平均数排序的序号。从下表可知,X1~X4和X6~X9两组内各平均数之间差异除X1与X4及X6与X9之外均不显著;而这两组间差异大多达到显著或极显著。两组中的X1,X2,X3以及X7,X8,X9更是没有多少差异。因此在实践中可根据实际问题要求选平均数大的还是小的,从这两组中选取一组;再根据其他条件如成本,原料来源,操作方便等从中选取需要的处理。表8.例11多重比较结果温度40原料2温度40原料1温度35原料1温度40原料3温度30原料1温度35原料2温度30原料3温度35原料3温度30原料215.51818.252734.537.545.254649x9x8x7x6x5x4x3x2x1x11.86E-066.15E-066.94E-064.76E-041.43E-024.75E-025.04E-015.92E-01x27.83E-062.62E-052.96E-051.95E-034.75E-021.36E-018.93E-01x31.12E-053.78E-054.26E-052.75E-036.28E-021.73E-01x44.76E-041.55E-031.74E-036.87E-025.92E-01x51.95E-036.05E-036.75E-031.87E-01x64.75E-021.16E-011.26E-01x76.24E-019.64E-01x86.55E-01以上是交叉分组方差分析的做法。系统分组方差分析与交叉分组的最大不同点是SSB与SSAB不可分离,因此计算变得较为简单。下面以例12说明具体计算步骤。例12.(即本书例4.8)为比较4种酶在不同温度下的催化效率,特设计如下实验:由于文献记载各酶最适温度分别为30℃,25℃,37℃,40℃,现设定温度水平如下:最适温-5℃,最适温,最适温+5℃。其他条件均保持一致。保温2小时后,测定底物消耗量(毫克)。全部实验重复三次,得结果如下:温度酶种类A1A2A3A4偏低适宜偏高14.4,15.2,13.515.9,15.1,14.413.8,12.9,14.613.5,14.4,15.215.1,16.4,15.815.7,14.8,16.014.5,16.3,15.416.4,18.1,16.715.8,14.7,14.111.2,9.8,10.512.5,10.9,11.610.3,11.4,9.9请进行统计分析解:把原始数据输入Excel如表9中A2:M6区域,然后计算如下:\n表9.例12计算结果因素A酶A1酶A2酶A3酶A4因素B温度偏低温度适宜温度偏高温度偏低温度适宜温度偏高温度偏低温度适宜温度偏高温度偏低温度适宜温度偏高重复114.415.913.813.515.115.714.516.415.811.212.510.3重复215.215.112.914.416.414.816.318.114.79.810.911.4重复313.514.414.615.215.81615.416.714.110.511.69.9平均14.366715.133313.766714.366715.766715.515.417.066714.866710.511.666710.5333方差0.723330.563330.723330.723330.423330.390.810.823330.743330.490.643330.60333A平均14.422215.211115.777810.9S24.614921SST161.5222Sxij4.43037SSST146.2022Sxi.4.797119SSA129.5222MSA43.17407PA7.504E-12SSB16.68MSB2.085PB0.0116SSe15.32MSe0.638333\n1°计算各处理平均数:在B8输入:“=Average(B4:B6)”回车后,显示数字14.3667。把B8复制到C8:M8,得到各处理平均数。2°计算A因素,即各酶种的平均值:在B10输入:“=Average(B8:D8)”回车后,显示数字14.4222。然后标记B10:D10区域,点“跨列居中”键,再把B10复制到E10,H10,K10。由于不同酶种所需温度不同,再求温度平均数已无意义。3°计算总平方和SST:在B12输入:“=Var(B4:M6)”回车后,显示数字4.614921,为全部原始数据的方差。在B13输入:“=(4*3*3-1)*B12”回车后,显示数字161.5222,为总平方和SST。公式中4,3,3分别为本例题中a,b,n的取值,下同。4°计算次总平方和SSST:在B14输入:“=Var(B8:M8)”回车后,显示数字4.43037,为各处理平均数的方差。在B15中输入:“=3*(4*3-1)*B14”回车后,显示数字146.2022,为次总平方和SSST。公式中第一个3为n,另外两数分别为a,b。5°计算SSA:在B16输入:“=Var(B9,E9,H9,K9)”回车后,显示数字4.797119,为各酶种平均数的方差。在B17输入:“=3*3*(4-1)*B16”回车后,显示数字129.5222,为SSA。6°计算SSB(这里实际相当交叉分组的SSB+SSAB):在B18输入:“=B15-B17”7°计算SSe:在B19输入:“=B13-B15”8°计算各因素均方,在E17,E18,E19中分别输入:“=B17/3”“=B18/8”“=B19/24”显示数字分别为:43.17407,2.085,0.63833。公式中3,8,24分别为各平方和的自由度,其表达式分别为a-1,a(b-1),ab(n-1)。9°计算统计量FA和FB所对应的尾区概率:在I17,I18输入:“=Fdist(E17/E19,3,24)”“=Fdist(E18/E19,8,24)”回车后,显示数字分别为:7.504×10-12,0.0116。以上是B为固定因素时的计算公式。若B为随机因素,则I17中的公式应改为:“=Fdist(E17/E18,3,8)”回车后,显示数字为:0.00397。\n10°将I17,I18中的数值与α相比,大于α时接受H0,该因素影响不显著;小于α时拒绝H0,该因素影响显著。在本题中,A因素即酶的种类影响极显著,B因素即温度(包括交互效应)影响显著,但未达极显著。若需要也可对各处理平均数进行多重比较,方法与前相同,不再重复。三、采用Excel中的宏进行方差分析。采用宏进行方差分析的优点是计算都可自动完成,但它只能进行交叉分组固定模型的分析,如果是其他模型则可利用其中间结果再重新计算。要利用这种方法,首先要加载宏:点击“工具”菜单下的“加载宏”命令,出现一对话框,在其中选取“分析工具库”和“分析工具库-VBA函数”,再点击“确定”钮。然后,在“工具”菜单下就会出现“数据分析”命令,点击后出现对话框,其中有方差分析,相关系数,协方差分析,指数平滑等多种分析工具可用。现在我们就介绍一下用它进行单因素和双因素方差分析的方法。1.单因素方差分析在单因素方差分析中,因素类型对分析过程没有影响,因此不用重新计算。只需把数据输入Excel,就可利用宏进行计算。例13.仍采用与例10相同的数据:用4种不同的配合饲料饲养30日龄小鸡,10天后计算平均日增重,得以下数据:4种饲料效果是否相同?饲料日增重值Xij15549624551261585268703716556735948590767869解:如下表,把原始数据输入:表10.例13方差分析结果饲料1饲料2饲料3饲料4重复155617185重复249586590重复362525676重复445687378重复551705969方差分析:单因素方差分析SUMMARY组计数求和平均方差饲料1526252.441.8饲料2530961.854.2饲料3532464.854.2饲料4539879.666.3方差分析差异源SSdfMSFP-valueFcrit组间1908.553636.183311.753960.0002563.238867组内8661654.125\n总计2774.5519计算过程为:1°如上表,把原始数据输入B2:E7区域。2°点击“工具”,“数据分析”命令,在对话框中选“单因素方差分析”,然后点“确定”。3°在出现的对话框中,指定输入区域为B2:E7,分组方式为“列”选定“标志位于第一行”,再指定输入区域为A9,然后点“确定”。4°结果解释:结果包括两个表,第一个summary表中有各水平的重复数,总和,平均数,方差等数据;第二个方差分析表,给出组内和组间平方和,自由度,均方,F统计量,尾区概率,F分位数值等数据。尾区概率(表中标记为“P-Value”)小于α时拒绝H0,大于时接受H0。本题尾区概率为0.000256<0.01,应拒绝,差异极显著。这一结果与例10手工计算相同。2.双因素方差分析:宏提供有重复和无重复双因素方差分析,但都是针对固定模型,交叉分组。若为其他模型则需利用中间结果重新计算。仍采用例11说明使用方法。例11.(即本书例4.3)为选择最适发酵条件,用三种原料、三种温度进行了实验,得结果如下。请进行统计分析。原料种类(A)温度(B)30℃35℃40℃1414923251113252462226182475950404338333682214183355350433847445533262930解:要用宏进行双因素方差分析,原始数据必须排列成以下形状(区域设为A2:D14):原料1原料2原料3温度30414735495953235050254043温度35244338253847133344113655温度406833222226261419181830计算步骤为:1°把原始数据按上表形式输入Excel:每个因素A的水平各占一列,因素B的各水平在这一列中依次排列,相同处理的各重复要排在一起。2°点击“工具”,“数据分析”命令,在对话框中选定输入区域为“A2:D14”,每一样本的行数为“4”(即重复数为4),输出区域为“A16”,然后点击“确定”。出现的结果如下表。\n3°结果解释:在出现的SUMMARY表中有因素B各水平分别列出的重复数,和,平均值,方差等数值;最后的总计表中也有因素A各水平的相应数值;在方差分析表中,列出样本(即因素B)、列(即因素A)、交互(交互作用)、内部(即误差)的SS(平方和)、df(自由度)、MS(均方)、F(统计量)、P-Value(尾区概率)、Fcrit(F统计量的分位数)等数据。把各尾区概率与α相比,大于α时接受H0,否则拒绝。表11.例11采用宏计算的输出结果方差分析:可重复双因素分析SUMMARY原料1原料2原料3总计温度30计数44412求和138196181515平均34.54945.2542.91667方差158.33336264.25118.8106温度35计数44412求和73150184407平均18.2537.54633.91667方差52.9166717.6666750179.9015温度40计数44412求和7262108242平均1815.52720.16667方差74.6666735.6666736.6666766.69697总计计数121212求和283408473平均23.583333439.41667方差142.9924242.1818125.3561方差分析差异源SSdfMSFP-valueFcrit样本3150.521575.2525.675675.67E-073.354131列1554.1672777.083312.666010.0001323.354131交互808.83334202.20833.295880.0253222.727766内部1656.52761.35185总计717035把三个P-value与手工计算结果相比,可见它们是相同的。4°若模型不是交叉分组固定模型,则应进行如下计算:a)有随机因素:利用各因素的MS(均方)数据,采用与例11同样的公式重新计算尾区概率,并与α相比。\nb)系统分组:若A为一级因素,则把B(即样本)与交互的SS(平方和)相加,df(自由度)也相加,令它们相除为MSB,然后用与例9同样的公式重新计算尾区概率。若B为一级因素,则合并列与交互。得到尾区概率后再与α相比。例14.假设例11中原料(因素B)为随机因素,温度(因素A)为固定因素,则可进行以下补充计算:由于为混合模型,只需重算PA:在空格中输入:“=fdist(1575.25/202.2083,2,4)”回车后,显示数字0.041732。由于这一数字小于0.05,可认为温度间差异显著,但未达极显著。上述公式中的数字也可用它们的位置代替。例15.假设例11中不同原料需用不同的温度水平,即应选用系统分组模型,且原料为一级因素,温度为二级因素。此时应进行以下补充计算:1º计算温度的平方和与自由度:在空格F3,F4分别输入:“=3150.5+808.8333”“=2+4”上述数字分别为宏输出的样本平方和、交互平方和、样本自由度、交互自由度。也可用它们的位置代替。2º计算温度的均方:在空格F5输入:“=F3/F4”3º计算温度的F统计量对应的概率:在空格F6中输入:“=fdist(F5/61.35185,F4,27)”回车后,显示数字4.1122´10-6。由于它小于0.01,应认为温度间的差异达到极显著。上式中的数字61.35185和27分别为宏输出内部均方和自由度。从上面的过程可知,利用宏确实可以大大化简计算过程,不过要注意分析模型的类型,必要时进行所需的补充计算。§3回归分析一、统计知识复习。1.一元线性回归的统计模型为:yi=a+bxi+ei。目的:求出参数a,b的估计值a,b。方法:最小二乘法。即令残差达到最小。结果:其中\n2.对回归方程进行统计检验的方法:1°对回归系数b,a作t检验:tb=b/Sb,ta=a/Sa一般只对b作检验,自由度均为n2。2°对相关系数r进行统计检验:检验方法一般为查表。3°方差分析:上单尾检验。这三种检验实际是等价的,只要采用一种即可。3.预测值的置信区间:线性回归的用途之一是预测,即对新的x,计算。新的x取值最好接近,至少不得超出各xi的变化范围。1°条件均值的置信区间:点估计:a+bx0方差:95%置信区间:2°下一次观察值y0的置信区间:点估计:a+bx0方差:95%置信区间:4.多元线性回归:原理完全相同,仍采用最小二乘法;自由度有变化。设数据组数为n,自变量个数为m,则回归平方和SSR的自由度为m,残差平方和SSe的自由度为n–m–1。二、有关内部函数介绍:\nExcel提供的有关回归分析的内部函数有:Linest,Intercept,Slope,SteyxTrend,correl,以及用于指数回归的Logest。注意当这些函数中需要输入因变量和自变量时,都是因变量在前,自变量在后。这与一般先x后y的习惯不同。1.Linest(y数组,x数组,c,s)其中C取值为true,1或省略,则函数计算截距a;若为False或0,则函数强制a=0。S取值若为true或1,则返回全部统计值;若为False,0或省略,则只返回a,b。这一函数可用于多元回归,其输入数据以数组形式提供,因变量y只占1列,m个自变量占m列,数据组数(即行数)为n。它的输出数据也是一个数组,为m+1列,5行。输出数据的排列方式为:bmbm-1…b2b1aSemSem-1…Se2Se1Sear2SeyFdfSSRSSe各符号的意义为:b1,b2,…bm:分别为自变量x1,x2,…xm的回归系数;a:截距;Sei:bi的子样标准差;Sea:a的子样标准差;Sey:σ的估计值,计算公式为,即;r2:相关系数的平方。注意平常查表使用的为r;F:检验y与全体x相关性的统计量。其自由度为:(m,df);df:SSe的自由度,为n–m–1;SSR:回归平方和,自由度为m;SSe:剩余平方和,又称残差平方和。由于此函数输出为数组,必须按数组函数方法输入,步骤为:1°选定输出数据所占的区域;2°输入公式,例如“=Linest(A2:A10,B2:D10,1,1)”3°左手按住Ctrl+Shift键,右手再按Enter键。由于输出数组为一整体,其中任一数字均不能被单独修改。若要修改公式,可将光标移入这一输出区域的任一单元格,则编辑区都会出现公式。修改后再按Ctrl+Shift+Enter即可。若要删除,则可在光标移入区域后,按Ctrl+“/”选定整个区域,再删除或移动。对方程进行统计检验的方法:1°对bi作检验:H0:βi=0,HA:βi≠0。在一空格输入:“=Tdist(ABS(bi/Sei),df,2)↙”把返回数字与α比较,大于α则接受H0,否则拒绝。对a的检验与上述步骤相同。2°对y与全体x的相关性作检验:在空格中输入:“=Fdist(F,m,df)↙”把返回数据与α比较,大于α则接受H0,即认为y与全体x无关;否则认为相关。2.若只需要斜率,截距,相关系数,σ的估计值这几个数中的一个,则可分别采用以下函数:Slope(y数组,x数组):返回斜率;\nIntercept(y数组,x数组):返回截距;Correl(y数组,x数组):返回相关系数r(不是r2);Steyx(y数组,x数组):返回σ的估计值,其公式为:。这几个函数的共同特点是它们只返回单独一个数字,因此可用于更复杂的计算公式中。3.若需要预测新的x所对应的y预测值,可用函数:Trend(y数组,x数组,新x数组,C)其中C为参数,其取值决定函数如何计算截距。当c取值为1(或逻辑值“true”)时,计算a;当c取值为0(或逻辑值“False”)时,令a=0。使用这一函数还应注意以下几点:1°它返回一个数组,因此应先指定返回区域,输入公式后,同时按“Ctrl+Shift+Enter”三个键。2°若省略新x数组,函数采用原来的x数组计算y的预测值;若连原来的x数组也省略,函数自动认为1,2,3,……n为自变量。3°新x数组应与原x数组有相同的列数,即自变量个数相同;但可有不同的行数,即可有不同的数据组数。4.指数回归:函数为:Logest(y数组,x数组,c,s)这一函数的输入变量与前面介绍的线性回归函数Linest完全相同,输出信息与使用方法也相同,只是Logest函数的回归公式为:它实际是把上式两边取对数后按线性回归来做,返回的统计量都是线性化(即取对数)后的数据的统计量。5.预测值置信区间的建立:(1)条件均值的95%置信区间:其理论公式为:其中,可用Trend(y数组,x数组,x0,c)计算;分位数t0.975(n–2)=Tinv(0.05,n–2);在Linest返回的数值中,有,因此可用以下公式计算置信区间的上下限:Trend(y数组,x数组,x0,c)±Tinv(0.05,n-2)(2)下一次观察值y0的95%置信区间:理论公式为:\n与上类似,可得计算公式为:Trend(y数组,x数组,x0,c)±Tinv(0.05,n-2)*三、计算步骤:例16.(即本书例5.6)江苏武进县测定1959-1964年间3月下旬至4月中旬平均温度累积值x和一代三化螟蛾盛发期y的关系如下表(盛发期以5月10日为起算日):试作回归分析。年代195619571958195919601961196219631964累积温x35.534.131.740.336.840.231.739.244.2盛发期y12169273139–1解:表12.线性回归的输出结果累积温x盛发期yb-1.0996248.54932a31.79Sb0.27156710.12779Sa31.713r20.7008013.265989MSe1/234.116F16.39587df35.512SSR174.888874.66678SSE36.8739.29PF0.00487640.23Pt0.00487640.3244.2-1具体计算步骤为:1°把原始数据输入A3:B11区域,如表12。2°用鼠标选定E2:F6区域。输入公式:“=Linest(B3:B11,A3:A11,1,1)”3°同时按下“Ctrl+Shift+Enter”键,返回数据的排列为:E2:bF2:aE3:SbF3:SaE4:r2F4:Sey=E5:FF5:dfE6:SSRF6:SSe为清楚起见,我们在D2:D6,G2:G6中标上了各数据的统计意义。5°对回归方程进行F检验:在E8输入:“=Fdist(E5,1,F5)”回车后,显示数字0.004876。把E8的返回值与α比较,若α>0.05,则认为回归失败,即接受β=0;若α<0.05,则认为回归成功,即β≠0。本例题E8<<0.05,回归是成功的。为进行比较,我们在E9中给出了对b进行t检验的结果。在E9输入:“=TDIST(ABS(E2/E3),F5,2)”回车后,显示的数字与E8是完全相同,即F检验和t检验的尾区概率是完全相同的,说明只进行一种检验即可。\n上式中由于Tdist函数要求输入的统计量值x为正数,故增加了内部函数ABS,其功能是取绝对值。F5为自由度,2表示为双尾检验。以下步骤是为了画出包括回归线、观测值,以及条件均值和下次观察值95%置信区间的图。数据见表13。由于此表共有140余行,这里显示的仅是前19行。表13.回归分析绘图数据(部分)累积温x预测值观测值均值下限均值上限预测值下限预测值上限3114.461049.78564619.136435.43322423.4888531.114.351079.72915318.972995.35083723.3513131.214.241119.67238418.809845.26807523.2141531.314.131159.61532818.646975.18493523.0773631.414.021199.55797518.48445.10141322.9409631.513.911239.50031518.322135.01750622.8049431.613.801269.44233718.160194.93321122.6693231.713.691399.38402817.998574.84852322.5340831.813.58134139.32537817.83734.76344122.3992431.913.471389.26637317.676384.6779622.264793213.361419.20717.515834.59207722.1307532.113.251459.14724617.355664.50578921.9971132.213.141499.08709717.195884.41909221.8638932.313.031539.02653817.036524.33198421.7310732.412.921578.96555316.877584.24446121.5986732.512.81168.90412716.719084.15651921.4666932.612.701648.84224316.561044.06815621.3351332.712.591688.77988416.403473.97936821.203996°在I3:I143中填充31~45的数值,间隔为0.1。7°计算预测值(也是回归线):标记J3:J143,输入公式:“=Trend(B3:B11,A3:A11,I3:I143)”同时按下“Ctrl+Shift+Enter”三键。在J列出现预测值。其中J3的值为14.46140。8°在K列中适当地方入原始观察y值,使它与I列的X值对应。由于原始数据中x等于31.7的有两组,我们把它们分别放在对应31.7和31.8的地方。9°计算条件均值置信区间下限:在L3中输入公式:“=$J3-TINV(0.05,$F$5)*SQRT($F$4^2/($F$5+2)+$E$3^2*($I3-AVERAGE($A$3:$A$11))^2)”回车后,显示数字9.785646。把L3复制到L4:L143。式中加了“$”号的地址是为了在复制过程中使它不改变,也可用相应单元中的数值代替,例如$F$5可换为7。10°计算条件均值置信区间上限:由于这几个置信区间的公式大同小异,故可把L3的公式复制到M3:O3,然后加以修改。把L3复制到M3:O3。把光标移到M3,在编辑栏中把$J3后边的“-”号改为“+”号,并按“Enter”键。显示数字为19.13643。11°计算下次观察值下限:把光标移到N3后,在编辑栏中原公式的“$F$4^2”后边加上:“*($F$5+3)”,完整公式为:“=$J3-TINV(0.05,$F$5)*SQRT($F$4^2*($F$5+3)/($F$5+2)+$E$3^2*($I3-AVERAGE($A$3:$A$11))^2)”\n按“Enter”键。显示数字为5.433224。12°计算下次观察值上限:把N3复制到O3,光标移到O3,并把编辑栏中的公式中开始处的“$J3-”改为“$J3+”,其他不变,按“Enter”键。显示数字为23.48885。把L3:O3复制到L4:O143。13°在L2:O2中加上各列数据名称,如“累积温”,“预测值”,“观测值”,……等,如表13。以上就完成了全部计算。下面来画图。14°把光标移入空格,例如Q3。15°按工具栏中的“图表向导”钮,或按“插入”,“图表”。然后按照图表向导的指引,选择所需图类型、数据区域等,并对图形中不满意的部分进行修正。由于这一部分不属于统计内容,而是Excel的基本使用技巧,在此不再详细介绍,有兴趣同志可参阅有关书籍。最后图形见图1。图1.例16的回归线及置信区间图§4Excel中常用统计函数简介。Excel函数名主要由字母组成,输入时大小写均可。函数指南中共有9大类函数,其中列入“统计”类的共71个,而我们常用的约有50余个,可分为以下三大类:一、对数据进行统计处理的函数:这类函数主要用于从原始数据计算一些常用统计量,如均值,方差,相关系数等。主要有:1.求平均数:Average(x1,x2,…xn)函数的输入可以是数值,也可以是存贮数据的地址或区域。其他函数输入类似,不再重复。1.求相关系数:Correl(数组1,数组2)数组可输入地址,也可直接输入数据。若直接输入数据,每个数组要用一个大括号“{}”围住。以下其他函数输入数组的方法相同。3.计算参数组中的数字个数:Count(x1,x2,…xn)4.计算参数组中非空单元格数:CountA(x1,x2,…xn)5.计算协方差:Covar(数组1,数组2)\n6.计算:Devsq(x1,x2,…xn)7.计算最大值:max(x1,x2,…xn)8.计算中位数:median(x1,x2,…xn)9.计算最小值:min(x1,x2,…xn)10.计算出现频率最高的值:mode(x1,x2,…xn)11.计算组合数;Permut(n,m)12.计算一个数在数列中的排序:Rank(数,数列,次序)其中次序为一个参数,它取值为0或被省略时,按递减排序;取值为1时递增排序。13.标准化(公式为):standardize(x,μ,σ)14.计算样本标准差:stdev(x1,x2,…xn)15.计算样本方差:Var(x1,x2,…xn)16.计算:Avedev(x1,x2,…xn)17.计算频率分布:Frequency(数据,间隔点)它返回的数据以垂直数组形式给出,其个数比间隔点数多1,计算时会忽略空白与文字。18.计算正数的几何平均数:Geomean(x1,x2,…xn)19.计算调和平均数H(公式为):Harmean(x1,x2,…xn)20.找出第K个最大值:Large(数组,K)21.计算服从指定离散分布的随机变量落入某一区间的概率:Prob(数组x,数组p,下限,上限)其中x为离散分布的取值,p为对应的概率。区间上限可省略,省略后只计算下限一个点的概率。22.计算样本峭度(峰度):Kurt(x1,x2,…xn)其计算公式为:23.计算样本偏度:Skew(x1,x2,…xn)公式为:注:计算峭度与偏度函数的输入最多为30个数字。24.取第K个最小值:small(数组,K)25.计算总体标准差(公式为):Stdevp(x1,x2,…xn)26.计算总体方差(公式为):Varp(x1,x2,…xn)\n二、计算常用统计分布的函数:注意这些函数中正态分布、指数分布、离散分布一般计算分布函数(即P(Xx)),而以“dist”结尾的和以“inv”结尾的互为反函数。函数的输入变量中x一般表示统计量的取值;p表示概率;df表示自由度。1.计算χ2分布的单尾概率:Chidist(x,df)2.计算χ2分布的单尾分位数:Chiinv(p,df)3.计算F分布的单尾概率:Fdist(x,df1,df2)df1为分子自由度,df2为分母自由度。4.计算F分布的单尾分位数:Finv(p,df1,df2)5.计算超几何分布概率:Hypgeomdist(k,n,M,N)其中k:样本中成功数;n:样本含量;M:总体中成功数;N:总体中个体数。计算公式为:6.计算负二项分布概率:Negbinomdist(x,r,p)其中x:失败次数;r:成功次数;p:成功概率。计算公式为:7.计算指数分布:Expondist(x,λ,c)其中c取值为true或1,则计算累积分布;为False或0,则计算密度函数;累积分布公式为:F(x,λ)=;密度函数公式为:f(x,λ)=8.计算二项分布概率:Binomdist(x,n,p,c)其中x:成功次数;n:总次数;p:成功概率,c为true或1:累积概率;c为False或0:成功x次的概率。计算公式为:9.计算正态分布概率:Normdist(x,μ,σ,c)其中μ:数学期望;σ:标准差;c为true或1:计算分布函数;c为False或0:计算密度函数。10.计算正态分布分位数:Norminv(p,μ,σ)11.计算标准正态分布分布函数:Normsdist(x)12.计算标准正态分布分位数:Normsinv(p)13.计算泊松分布概率:Poisson(x,mean,C)其中mean为均值;C为true或1:计算[0,x]中的累积概率;C为False或0:计算x点的概率。14.计算t分布尾区概率:Tdist(x,df,tails)其中x必须大于0;df为自由度;tails为1:单尾;为2:双尾。15.计算t分布双尾尾区的分位数:Tinv(p,df)其中p:双尾尾区概率。16.计算累积二项分布的逆:Critbinom(N,p,α)其中N:总实验次数;p:成功概率;α:临界值。函数返回值为累积概率大于等于临界值的最小成功次数x。三、直接进行某些统计检验的函数:\n这些函数大部分已在前边的例题中出现过,为方便查阅,我们再次把它们列在下面:1.列联表独立性检验:Chitest(观测值,期望值)其中观测值、期望值应存在两个行列数相同的矩形区域内,函数返回Pearson统计量所对应的分布的上单尾概率,自由度为(r-1)(C-1),r,C为矩形区域的行,列数。如为1行或1列,则自由度为r-1或C-1。2.计算标准正态分布均值置信区间宽度的一半:Confidence(α,σ,n)其中α:显著性水平;σ:标准差;n:样本含量。3.F检验:Ftest(数组1,数组2)用于检验两组数据方差是否相等,返回双边尾区概率。4.求线性回归截距:Intercept(y数组,x数组)5.线性回归:Linest(y数组,x数组,C,S)C为true,1或省略:计算a;为False或O:令a=0;S为true或1:返回统计值;为False或O:只返回a,b。y数组为单列,x数组则可有多列,相当于多元回归。两数组应有相同的行数。返回统计值的排列为:(设x数组有m列)。bmbm-1…b2b1aSemSem-1…Se2Se1Sear2SeyFdfSSRSSe其中各Se为标准误差,于上一列的估计值对应;6.指数回归:Logest(y数组,x数组,C,S)回归模型:把上式两边取对数后按线性回归做。参数及返回数值排列同线性回归,返回统计量为线性方程统计量。7.计算线性回归斜率:slope(y数组,x数组)8.计算线性回归中:Steyx(y数组,x数组)9.计算线性回归预测值:Trend(y数组,x数组,新x数组,C)先用y,x做线性回归,再利用回归方程预测新x所对应的y值。C为true或1:计算截距a;为False或0:令a=0。若新x省略则用旧x数组,若旧x也省略则用1,2,…n为自变量。新、旧x应有相同的列数。10.t检验:Ttest(数组1,数组2,tails,type)tails为1:单尾;为2:双尾。Type为1:配对检验;为2:方差相等;为3:方差不等。用于检验两数组均值是否相等。返回值为尾区概率。11.Z检验(本书中一般称为U检验):Ztest(数组,μ,σ)用于已知标准差σ的情况下检验数组期望是否为μ。若σ未知一般应使用t检验。公式为:1-Normsdist\n其中为数组均值,n为数组中数据个数,σ为总体标准差,若省略则用子样标准差S代替。返回值为单边尾区概率。12.计算相关系数:Correl(数组1,数组2)注意:1°所有与回归有关的函数中,均把因变量y放在前边,自变量x放在后边,不要搞错次序。2°返回值为一个数组时要按数组方式输入,即先选定输出区域,输入公式后,同时按下“Ctrl+Shift+Enter”键。
查看更多

相关文章

您可能关注的文档