- 2022-08-13 发布 |
- 37.5 KB |
- 988页
文档介绍
生物统计学课件
任课教师:陈彦云授课时数:51课时学分:3分生物统计学\n内容:介绍科学研究中常用的、基本的生物统计方法与试验设计方法:资料的整理;平均数、标准差与变异系数;常用概率分布;平均数的统计推断;方差分析;2检验;直线回归与相关;可直线化非线性回归分析;协方差分析;试验设计的基本原理和方法及对比设计、随机区组设计,裂区设计,正交设计等。\n方法:用CAI课件教学,以课堂讲授为主要求:了解基本原理;熟练掌握所介绍的几种试验设计方法,能独立进行试验设计;熟练掌握所介绍的几种生物统计方法,能独立进行试验结果的统计分析;熟练掌握电子计算器的使用。下一张主页退出上一张\n培养严谨的治学态度精细的治学作风独立的自学能力下一张主页退出上一张\n成绩评定:平时作业,30%期末考试,70%作业要求:独立思考演算正确作图清楚书写整齐下一张主页退出上一张\n主要教学参考文献[1]明道绪主编.生物统计.中国农业科技出版社,1998。[2]明道绪主编.兽医统计方法.成都科技大学出版社,1991。[3]南京农业大学主编.田间试验与统计方法(第二版).农业出版社,1988。[4]莫惠栋.农业试验设计.上海科学技术出版社,1984。[5](美)G.W.斯奈迪格著,杨纪珂等译.应用与农学和生物学实验的数理统计方法.科学出版社,1964。[6](美)R·G·D·斯蒂尔,J·H·托里著,杨纪珂等译.数理统计的原理与方法.科学出版社,1976。[7]李春喜等编著。生物统计学学习指导。科学出版社,2008下一张主页退出上一张\n每天都是向既定目标迈进的一步赠言下一张主页退出上一张zlcc\nE-mail:nxchenyy@163.com陈彦云宁夏大学生命科学学院13895077945\n第一章概论\n第一节生物统计学的概念及主要内容\n一、概念生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是用数理统计的原理和方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。\n二、主要内容生的物基统本计内学容试验设计统计分析基本原则方案制定常用试验设计方法资料的搜集和整理数据特征数的计算统计推断方差分析回归和相关分析协方差分析主成分分析聚类分析对比设计随机区组设计裂区设计拉丁方设计正交设计\n三生物统计学的基本作用:提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。运用显著检验,判断试验结果的可靠性或可行性。提供由样本推断总体的方法。提供试验设计的的一些重要原则。\n第二节生物统计学发展概况统计发展史可以追溯到远古的原始社会,但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。现代统计学起源于17世纪,主要有两个来源:1政治科学需要,2当时贵族阶层对机率数学理论很感兴趣而发展起来的。另外,研究天文学的需要也促进了统计学的发展。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。\n一、发展概况原始社会奴隶社会封建社会资本主义社会迅速发展形成分支生物统计学\n形成不同学派:1、政治算术学派起源于17世纪60年代的英国代表人物:威廉.配第(WilliamPetty,1623~1687)约翰.格朗托(JohnGraunt,1620~1674)代表作:《政治算术》但未采用“统计学”这个词\n2、国势学派,又叫记述学派创建于17世纪的德国代表人物:海尔曼.康令(HermanConring,1606~1681)阿痕瓦尔(GottfriedAchenwall,1791~1772)代表作:《近代欧洲各国国势论》首次采用“stastistik”德国经济学家和统计学家克尼斯(K.G.AKnies,1821~1898)在1850年发表的论文《独立科学的统计学》中主张把“国家论”作为“国势学”的科学命名,“统计学”作为“政治算术”的科学命名。\n3、数理统计学派产生于19世纪中叶代表人物:阿道夫.凯特勒(L.A.JQuetelet,1796~1874)高尔登(F.Galtonl,1822~1911)皮尔逊(K.Pearson,1857~1936)逐渐形成一门独立的应用数学。1867年韦特斯坦(T.Wittstein)把既是数学,又是统计学的新生科学命名为数理统计学。\n4、社会统计学派以德国为中心,创建于19世纪后期代表人物:恩格尔(C.I.E.Engel,1821~1896)梅尔(C.G.V.Mager,1841~1925)认为统计学研究的对象是社会科学,而数理统计学是一门应用数学。19世纪中叶诞生了马克思主义的统计理论,后来,列宁对其进行了丰富和发展。\n二、统计学发展史中的重大事件与重要代表人物J.Bernoulli(贝努里,瑞士,1654~1705)系统论证了“大数定律”,即样本容量越大,样本统计数与总体参数之差越小。P.S.Laplace(拉普拉斯,法国,1749~1827)最早系统的把概率论方法运用到统计学研究中去,建立了严密的概率数学理论,并应用到人口统计、天文学等方面的研究上。\nGauss(高斯,德国,1777~1855)正态分布理论最早由DeMoiver于1733年发现,后来Gauss在进行天文观察和研究土地测量误差理论时又一次独立发现了正态分布(又称常态分布)的理论方程,提出“误差分布曲线”,后人为了纪念他,将正态分布也称为Gauss分布。\nF.Galton(高尔登,英国,1822~1911)19世纪末统计学开始用于生物学的研究。1882年Galton开设“人体测量实验室”,测量9337人的资料,探索能把大量数据加以描述与比较的方法和途径,引入了中位数、百分位数、四分位数、四分位差以及分布、相关、回归等重要的统计学概念与方法。1889年发表第一篇生物统计论文《自然界的遗传》。1901年Galton和他的学生Pearson创办了“Biometrika(生物统计学报)”杂志,首次明确“Biometry(生物统计)”一词。所以后人推崇Galton为生物统计学的创始人。\nK.Pearson(卡.皮尔逊,英国,1857~1936)Pearson的一生是统计研究的一生。他首创频数分布表与频数分布图,如今已成为最基本的统计方法之一;观察到许多生物的度量并不呈现正态分布,利用相对斜率得到矩形分布、J型分布、U型分布或铃型分布等;1900年独立发现了X2分布,提出了有名的卡方检验法,后经Fisher补充,成为小样本推断统计的早期方法之一;Pearson对“回归与相关”进一步作了发展,在1897~1905年,Pearson还提出复相关、总相关、相关比等概念,不仅发展了Galton的相关理论,还为之建立了数学基础。\nW.S.Gosset(歌赛特,英国,1777~1855)在生产实践中对样本标准差进行了大量研究。于1908年以“Student(学生)”为笔名在该年的Biometrika上发表了论文《平均数的概率误差》,创立了小样本检验代替大样本检验的理论,即t分布和t检验法,也称为学生式分布。t检验已成为当代生物统计工作的基本工具之一,为多元分析理论的形成和应用奠定了基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。\nR.A.Fisher(费歇尔,英国,1890~1962)Fisher一生论著颇多,共写了329篇。他跨进统计学界是从研究概率分布开始,1915年在Biometrika上发表论文《无限总体样本相关系数值的频率分布》,被称为现代推断统计学的第一篇论文。1923年发展了显著性检验及估计理论,提出了F分布和F检验,1918年在《孟德尔遗传试验设计间的相对关系》一文中首创“方差”和“方差分析”两个概念,1925年提出随机区组和正交拉丁方试验设计,并在卢桑姆斯坦德农业试验站得到检验与应用,他还在试验设计中提出“随机化”原则,1938年和Yates合编了FisherYates随机数字表。\n另外Neyman(1894~1981)和S.Pearson进行了统计理论研究,分别与1936和1938年提出一种统计假说检验学说。P.C.Mabeilinrobis对作物抽样调查、A.Waecl对序贯抽样、Finney对毒理统计、K.Mather对生统遗传学、F.Yates对田间试验设计等都作出了杰出贡献。\n三、统计学在中国的传播我国在解放前,社会经济发展缓慢,统计的应用和发展受到了很大的限制。1913年,顾澄教授(1882~?)翻译了英国统计学家尤尔的著作《统计学之理论》(1911),即为英美数理统计学传入中国之始。之后又有一些英美统计著作被翻译成中文,Fisher的理论和方法也很快传入中国。在20世纪30年代,《生物统计与田间试验》就作为农学系的必修课,1935年王绶(1876~1972)编著出版的《实用生物统计法》是我国出版最早的生物统计专著之一。随后1942年范福仁出版了《田间试验技术》等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。\n新中国成立后,许多学者翻译、编著了统计学论著,有力的推动了数理统计方法在中国的普及和应用。1978年12月国家统计局在四川峨眉召开了统计教学、科研规划座谈会,全面引进了前苏联的社会经济统计理论和统计制度,对我国社会经济统计学的发展起到了一定的积极作用。这以后有关统计学的教材与论著如雨后春笋般涌现,统计工作和统计科研迅速发展。1984年1月1日颁布实施《中华人民共和国统计法》,1987年2月国家统计局又发布《中华人民共和国统计法实施细则》,1996年5月八届人大十九次会议通过了《关于修改<中华人民共和国统计法>的决定》。随着计算机的迅速普及,统计电算程序SAS(StatisticalAnalysisSystem)、SPSS(StatisticalPackageforSocialScience)、Excel等的引进,统计学在中国的应用与研究出现了崭新的局面。\n第三节常用统计学术语一、总体与样本具有相同性质或属性的个体所组成的集合称为总体(population),它是指研究对象的全体;组成总体的基本单元称为个体(individual);从总体中抽出若干个体所构成的集合称为样本(sample);总体又分为有限总体和无限总体:含有有限个个体的总体称为有限总体(finitudepopuoation);包含有极多或无限多个体的总体称为无限总体(infinitudepopuoation).\n构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(samplesize),样本容量常记为n。一般在生物学研究中,通常把n≤30的样本叫小样本,n>30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。\n二、变量与常量变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。\n变量定性变量定量变量连续变量非连续变量只有整数出现可以有任何小数出现\n为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用表示样本平均数,用S表示样本标准差。三、参数与统计数\n四、效应与互作通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。\n五、机误与错误变异效应误差随机误差/机误(Randomerror)系统误差/错误(Systematicerror)\n随机误差,也叫抽样误差(samplingerror)。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。\n系统误差,也叫片面误差(lopsidederror)。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。\n六、准确性与精确性准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x-μ|越小,则观测值x的准确性越高;反之则低。精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj相差的绝对值|xi-xj|越小,则观测值精确性越高;反之则低。\n\n试验资料的整理特征数的计算与第二章\n第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理\n对试验资料进行分类是统计归纳的基础。试验资料类型数量性状资料质量性状资料/属性性状资料计数资料/非连续变量资料计量资料/连续变量资料\n数量性状(quantitativecharacter)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(dataofquantitativecharacteristics)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。一、数量性状资料\n1、计数资料指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资料或离散变量资料。\n2、计量资料指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也称为连续变量资料。\n二、质量性状资料质量性状(qualitativecharacter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(dataofqualitativecharacteristics),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:\n1、统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫次数资料。\n2、评分法对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。\n第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理\n调查试验资料搜集的方法\n一、调查调查是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽样调查。1、普查是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。\n2、抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。随机抽样必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。\n二、试验试验是对已有的或没有的事物加以处理的方法。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控制。\n第一节:试验资料的搜集与整理一、试验资料的类型二、试验资料的搜集三、试验资料的整理\n三、试验资料的整理(一)原始资料的检查与核对调查试验原始数据核对检查订正检查和核对原始资料的目的:确保原始资料的完整性和正确性。\n三、试验资料的整理(二)次数分布表统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。总横标目(或空白)纵标目1纵标目2……横标目1横标目2数字资料……表号标题1、标题简明扼要、准确地说明表的内容,有时须注明时间、地点。2、标目标目分横标目和纵标目两项。横标目列在表的左侧,纵标目列在表的上端,标目需注明计算单位,如%、kg、cm等等。3、数字一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。4、线条多用三线表,上下两条边线略粗。\n三、试验资料的整理1计数资料的整理计数资料基本上采用单项式分组法进行整理。特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。\n1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-1100只来亨鸡每月的产蛋数11~17来亨鸡每月产蛋数变动范围:分为7组统计各组次数计算频率和累积频率制表\n每月产蛋数 次数 频率 累积频率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-2100只来亨鸡每月产蛋数次数分布表\n每月产蛋数 次数 频率 累积频率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00表2-2100只来亨鸡每月产蛋数次数分布表1自然值进行分组,最大值17,最小值11。2数据主要集中在14,向两侧分布逐渐减少。\n表2-3小麦品种300个麦穗穗粒数的次数分布表每穗粒数次数 频率累积频率FrequencyPercentCumulativePercent18-2230.01000.010023-27180.06000.070028-32380.12670.196733-37510.17000.366738-42680.22670.593443-47530.17660.770048-52410.13670.906753-57220.07330.980058-6260.02001.000045组?9组\n三、试验资料的整理2计量资料的整理计量资料一般采用组距式分组法。全距组数组距组限归组制表\n表2-4150尾鲢鱼体长(cm)564962784147654558555965696273525260516278664558586057525148564658707276775666585855535065635765855958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又称极差(range):R=Xmax-Xmin=85-37=48(cm)\n(2)确定组数和组距(classboundary)组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。组数组距多小统计数精确,计算不方便少大统计数不精确,计算方便\n组数的确定样本容量 分组数30~605~860~1007~10100~2009~12200~50010~18>50015~30表2-5样本容量与分组数的关系组距的确定即每组内的上下限范围。组距=全距/组数=48/10=4.810组5cm\n(3)确定组限(classlimit)和组中值(classmidvalue)组限是指每个组变量值的起止界限。上限下限组中值是两个组限的中间值。组中值=下限+上限2=组距2下限+=组距2上限-\n表2-4150尾鲢鱼体长(cm)564962784147654558555965696273525260516278664558586057525148564658707276775666585855535065635765855958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值;临界值就高不就低。35~,40~,45~,…,85~。\n(4)分组确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。计数的方法卡片法唱票法画“正”字画“”\n组限组中值 次数 频率 累积频率FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.346755~57.5400.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000表2-6150尾鲢鱼体长的次数分布表\n三、试验资料的整理(三)次数分布图和频率分布图定义:把次数(频率)分布资料画成统计图形。特点:直观、形象包括:条形图、直方图、多边形图、饼图和散点图\n三、试验资料的整理统计图绘制的基本要求:(1)标题简明扼要,列于图的下方;(2)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图例说明。\n图2.1月产蛋数次数分布柱形图图2.2月产蛋数频率分布柱形图条形图(barchart),又称柱形图计数资料特点:柱形之间要间隔一定的距离属性资料\n2饼图(piechart)图1来亨鸡月产蛋次数分布图计数资料质量性状资料35%19%21%11%5%7%2%\n图2.3鲢鱼体长次数分布图3直方图(histogram),又称矩形图计量资料354045505560657075808590特点:各组之间没有距离\n三、试验资料的整理图2.3鲢鱼体长次数分布图354045505560657075808590\n4多边形图(polygon),又称折线图(broken-linechart)计量资料图2.3鲢鱼体长次数分布图\n5散点图(scatter)123456432112345643211234564321a.正向直线关系b.负向直线关系c.曲线关系\n试验资料的整理特征数的计算与第二章\n第二节试验资料特征数的计算集中性是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:集中性和离散性。\n集中性离散性平均数变异数算术平均数中位数众数几何平均数极差方差标准差变异系数调和平均数特征数\n一、平均数平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。\n一、平均数(一)平均数的种类算术平均数中位数众数几何平均数调和平均数\n一、平均数1.算术平均数(arithmeticmean)定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:μ=x1+x2+x3+…+xNN=N1样本:=x1+xx2+x3+…+xnnxx=n1\n一、平均数2.中位数(median)资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。Md\n1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:Md=2、当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:\n一、平均数3.众数(mode)资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。M0注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。\n一、平均数4.几何平均数(geometricmean)资料中有n个观测数,其乘积开n次方所得数值。G适用范围:几何均数适用于变量X为对数正态分布,经对数转换后呈正态分布的资料。G=\n一、平均数5.调和平均数(harmonicmean)资料中各观测值倒数的算术平均数的倒数。H适用范围:主要用于反映生物不同阶段的平均增长率或不同规模的平均规模。H=1\n一、平均数(二)算术平均数的计算方法直接计算法减去常数法加权平均法\n1、直接计算法主要用于样本含量n≤30以下、未经分组资料平均数的计算。例:随机抽取20株小麦测量它们的株高(cm)分别为:79858486848382838384818081828182828280求小麦的平均株高。=Σxn=20(82+79+…+80)=82.3(cm)\n2、减去(加上)常数法若变量的值都比较大(或都比较小),且接近某一常数a时,可将它们的值都减去(或加上)常数a,得到一组新的数据,在计算其平均数。例:设a为80(cm)则有:7985848684838283832-1546432338180818281828282804101212220=20(2-1+5+…+0)=82.3(cm)+80“-80”\n3、加权平均法对于样本含量n>30以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:若为计数资料,不分组,且Σf=n,此时直接用自然值乘以次数来计算,即=Σfx/n。第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量,因此将fi称为是xi的“权数”,加权法也由此而得名。\n例:=201=82.3(cm)×(79×1+80×2+…+86×1)株高x次数ffx791798021608132438264928332498432528518586186\n式中:—第i组的组中值;—第i组的次数;—分组数若为分组资料,则用每组组中值乘以该组次数之和再除以总次数来计算:\n例:将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。表100头长白母猪仔猪一月窝重次数分布表组别组中值(x)次数(f)fx10~1534520~25615030~352691040~4530135050~5524132060~65852070~753225合计1004520即这100头长白母猪仔猪一月龄平均窝重为45.2kg\n计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。例:某牛群有黑白花奶牛1500头,其平均体重为750kg,而另一牛群有黑白花奶牛1200头,平均体重为725kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即:\n离均差之和等于零。离均差平方和最小。Σ(x-x)=0Σ(x-x)2<Σ(x-a)2(三)算术平均数的重要性质\nΣ(x-x-)=x1+x2+…….+xn–n.x-=Σx-nΣx/n=Σx-Σx=0Σ(x-a)2=Σ[(x-x-)+(x--a)]2=Σ[(x-x-)2+2(x-x-)(x--a)+(x--a)2]=Σ(x-x-)2+Σ(x--a)2=Σ(x-x-)2+n(x--a)2\n一、平均数(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其他资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。\n二、变异数变异数的种类极差方差标准差变异系数\n二、变异数(一)极差(全距,range)极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。例:150尾鲢鱼体长R=85-37=48(cm)R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min\n二、变异数简单明了当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。(1)除了最大、最小值,不能反映组内其他数据的变异。优点缺点用途(2)样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。极差\n二、变异数如何准确地表示样本内各个观测值的变异程度平均数可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为零。(x-x)=0?方差\n二、变异数平方和(SS)平方和的平均数(x-x)2(x-x)2n\n二、变异数(x-x)2n(x-x)2n-1自由度(degreeoffreedom)\n二、变异数(x-x)2n-1均方(meansquare,MS)方差(variance)\n二、变异数(二)方差(Variance)(x-x)2n-1S2=σ2=(x-μ)2N样本总体\n二、变异数样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出样本方差的平方根。标准差\n二、变异数(三)标准差(standarddeviation,Sd)S=(x-x)2n-1σ=(x-μ)2N样本总体\n二、变异数(三)标准差(standarddeviation,Sd)(x-x)2n-1S=S=x2-x)2(nn-1\n二、变异数x=411x2=18841X’=6X’2=76表2-89名男子前臂长(cm)标准差计算前臂长x2x’=x-45x’245202500421764-39441936-11411681-416472209245025005254722092446211611492401416\n二、变异数18841-411*41199-1S==3.0(cm)76-6*699-1S==3.0(cm)\n二、变异数(三)标准差(standarddeviation,Sd)fx2fx)2(n-n-1S=\n例:=201=82.3(cm)×(79×1+80×2+…+86×1)株高x次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396\n二、变异数(三)标准差(standarddeviation,Sd)特性标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。1各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。\n二、变异数(三)标准差(standarddeviation,Sd)3正态分布2s3s68.27%95.46%99.73%\n二、变异数(三)标准差(standarddeviation,Sd)作用1表示变量分布的离散程度。4估计平均数的标准误。3进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。\n二、变异数(四)变异系数(coefficientofvariability,CV)定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。CV=s/x×100%特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。\n二、变异数(四)变异系数(coefficientofvariability,CV)中粳“农垦57”大田,穗粒数44.6,标准差18.9丰产田,穗粒数65.0,标准差18.3大田,CV=42.38%丰产田,CV=28.15%丰产田中粳穗粒数的整齐度优于大田\n二、变异数(四)变异系数(coefficientofvariability,CV)用途1比较度量衡单位不同的多组资料的变异度。例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异情况。身高:CV=2.98%体重:CV=9.23%该地20岁男子体重的变异大于身高的变异。\n二、变异数(四)变异系数(coefficientofvariability,CV)用途2比较均数相差悬殊的多组资料的变异度表某地不同年龄组男子身高(CM)的变异程度年龄组人数均数标准差变异系数3-3.5岁10096.13.10.03230-35岁100170.25.00.03\n\n概率概率分布与第三章\n第一节:概率基础知识一、概率的概念二、概率的计算三、概率的分布四、大数定律\n一、概率基本概念(一)事件定义:在一定条件下,某种事物出现与否就称为是事件。自然界和社会生活上发生的现象是各种各样的,常见的有两类。\n1、在一定条件下必然出现某种结果或必然不出现某种结果。确定性事件必然事件(U)(certainevent)不可能事件(V)(impossibleevent)一、概率基本概念\n2、在一定条件下可能发生也可能不发生。随机事件(randomevent)不确定事件(indefiniteevent)一、概率基本概念为了研究随机现象,需要进行大量重复的调查、实验、测试等,这些统称为试验。\n一、概率基本概念(二)频率(frequency)若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequency),记为W(A)=m/n。0≤W(A)≤1\n一、概率基本概念表3-1玉米种子发芽试验结果种子总数(n)1020501002005001000发芽种子数(m)9194791186458920种子发芽率(m/n)0.9000.9500.9400.9100.9300.9180.920种子发芽与否是不能事先确定的,但从表中可以看出,试验随着n值的不同,种子发芽率也不相同,当n充分大时,发芽率在0.92附近摆动。例:\n一、概率基本概念频率表明了事件频繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。概率\n一、概率基本概念(三)概率(probability,P)概率的统计定义:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的概率。P(A)=p统计概率(statisticsprobability)后验概率(posteriorprobability)\n统计概率一、概率基本概念抛掷一枚硬币发生正面朝上的试验记录实验者投掷次数发生正面朝上的次数频率(m/n)蒲丰404020480.5069K皮尔逊1200060190.5016K皮尔逊24000120120.5005随着实验次数的增多,正面朝上这个事件发生的频率稳定接近0.5,我们称0.5作为这个事件的概率。\n一、概率基本概念(三)概率(probability,P)P(A)=p=lim在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。mnmn\n概率的古典定义一、概率基本概念对于某些随机事件,不用进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。随机事件(1)试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;(2)各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;(3)试验的所有可能结果两两互不相容。\n概率的古典定义一、概率基本概念具有上述特征的随机试验,称为古典概型(classicalmodel).设样本空间有n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即P(A)=m/n。古典概率(classicalprobability)先验概率(priorprobability)\n一、概率基本概念12345678910随机抽取一个球,求下列事件的概率;(1)事件A=抽得一个编号<4(2)事件B=抽得一个编号是2的倍数该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有3个,即抽得编号为1、2、3中的任何一个,事件A便发生。P(A)=3/10=0.3P(B)=5/10=0.5\n一、概率基本概念12345678910A=“一次取一个球,取得红球的概率”10个球中取一个球,其可能结果有10个基本事件(即每个球被取到的可能性是相等的),即n=10事件A:取得红球,则A事件包含3个基本事件,即m=3P(A)=3/10=0.3\n一、概率基本概念12345678910B=“一次取5个球,其中有2个红球的概率”10个球中任意取5个,其可能结果有C105个基本事件,即n=C105事件B=5个球中有2个红球,则B包含的基本事件数m=C32C73P(B)=C32C73/C105=0.417\n一、概率基本概念0≤P(A)≤1任何事件P(U)=1必然事件P(V)=0不可能事件00,q>0,p+q=1,x是一个离散型随机变量,取值为0,1,2,…,n。p(x)=Cnxpxqn-xCnx=n!x!(n-x)!\nn=试验次数(或样本含量)n=4x=在n次试验中事件A出现的次数x=2p=事件A发生的概率(每次试验是恒定的)p=0.91-p=事件A不发生的概率1-p=0.1p(x)=X的概率函数=P(X=x)P(2)则4粒种子有两粒发芽的概率为:P(x)=p2q4-2=6×0.92×0.12=0.0486例:\n由于二项式中p+q=1,(p+q)n=1p(0)+p(1)+p(2)+…+p(x)+…+p(n)=1一、二项分布ΣP(x)=1nx=0或者n个事件构成一个完全事件系,所以有:\n现已求出某事件发生的概率,若试验N次,则该事件发生的理论次数为:理论次数=NP(x)二项分布的概率累积函数为:F(x)=ΣP(x)=1\n二、二项分布概率函数概率的计算样本容量的确定p(x)=Cnxpx(1-p)n-x\n3:1若每次观察4株,共观察100次,问得红花为0、1、2、3、4株的概率各为多少?(一)二项分布的计算例:豌豆红花和白花杂交后,在F2红花:白花=3:1F1F2\n概率函数Cnxpxqn-xP(x)F(x)NP(x)P(0)C40p0q40.00390.00390.39P(1)C41p1q30.04690.05084.69P(2)C42p2q20.21090.261721.09P(3)C43p3q10.42190.683642.19P(4)C44p4q00.31641.00031.64合计1.000100表观察4株出现红花的概率分布表(p=0.75q=1-p=0.25)\n概率函数Cnxpxqn-xP(x)F(x)NP(x)P(0)C50p0q50.000010.000010.01P(1)C51p1q40.000450.000460.45P(2)C52p2q30.00810.008568.1P(3)C53p3q20.07290.0804672.9P(4)C54p4q10.328050.40951328.05P(5)C55p5q00.590491.0000590.49孵化小鸡的概率分布表(p=0.90q=0.10)例2:鸡蛋孵化率为,每次选5个进行孵化,试求孵出小鸡的各种可能概率,若做1000次试验,其理论次数分别为多少?\n例:某小麦品种在田间出现自然变异的概率为0.0045,(1)调查100株,获得两株或两株以上变异植株的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?n=100,p=0.0045P(x≥2)=1-P(0)-P(1)=0.0751P(0)=0.01n=1021(株)(二)样本容量的确定\n一、二项分布(三)二项分布的形状和参数(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;二项分布的形状由n和p两个参数决定。B(n,p)\n一、二项分布(三)二项分布的形状和参数(2)当p值趋于0.5时,分布趋于对称。\n统计学证明,服从二项分布B(n,p)的随机变量所构成的总体的平均数μ、标准差σ与n、p这两个参数有关。一、二项分布(三)二项分布的形状和参数μ=np)1(pnp-=s\n在二项分布中,事件A发生的频率x/n称为二项成数,即百分数或频率。则二项成数的平均数和标准差分别为:也称为二项总体百分数的标准误,当p未知时,常以样本百分数来估计。此时上式改写为:=称为样本百分数标准误。\n例:豌豆红花纯合基因型和白花纯合基因型杂交后,在F2代红花植株与白花植株出现的比例为3:1。每次观察4株,n=4,红花出现概率为p=3/4=0.75。(1)红花出现的平均株数μ=np=3.0(株)(2)标准差=0.8660(株))1(pnp-=sn10,1,2,3,4n2n3n4n5n100总体红花出现株数\n一、二项分布(三)二项分布的形状和参数(1)红花出现的频率的平均数:μp=np/n=3.0/4=0.75=pn1n2n3n4n5n1000,0.25,0.5,0.75,1.0总体红花出现频率二项分布的百分数,成数标准差/npq=sp\n二、泊松分布\n二、泊松分布泊松分布(Poissondistribution)是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。泊松分布是二项分布的一种特殊类型。\n二、泊松分布泊松分布的概率函数可由二项分布概率函数推导出来!)(xexPl=-λxλ为参数,λ=npx=0,1,2,…p(x)=Cnxpx(1-p)n-x\n!)(xexPl=-λxμ=λσ2=λσ=泊松分布记为:P(λ)p(x)=Cnxpx(1-p)n-xμ=np)1(pnp-=sσ2=np(1-p)=λ≈np=λ\n二、泊松分布P(λ)的形状由λ确定λ较小时,泊松分布偏倚。λ增大时,泊松分布趋于对称。λ无限增大时,泊松分布接近正态分布。形状形状形状\n二、泊松分布对于小概率事件,可用泊松分布描述其概率分布。二项分布当p<0.1和np<5时,可用泊松分布来近似。21应用应用应用!)(xexPl=-λx\n二、泊松分布!)(xexPl=-λx显微镜检查某样本内结核菌的数目细菌数(x)0123456789总计实际格子数519262621135111118P(x)0.05060.15110.22530.22400.16710.09970.04960.02110.00790.00260.9990理论格子数5.9717.8326.5926.4319.7211.765.852.490.930.31117.88\n例:某小麦品种在田间出现自然变异的概率为0.0045,(1)调查100株,获得两株或两株以上变异植株的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?n=100,p=0.0045!)(xexPl=-λxλ=np=100*0.0045=0.45!)(0e0P0.45=-0.450=0.6376!)(1e1P0.45=-0.451=0.2869\n调查100株,获得两株或两株以上变异植株的概率为:P(x≥2)=1-P(0)-P(1)=0.0755至少应调查的株数n应为:=0.01!)(0exPl=-λ0λ=npe-np=0.01n=lg0.01/-plge=-2/-0.0045×0.43429=1023(株)\n三、正态分布\n围绕在平均值左右,由平均值到分布的两侧,变量数减少,即两头少,中间多,两侧对称。正态分布(normaldistribution)特点正态分布也称为高斯分布(Gaussdistribution)。三、正态分布\nn大p与1-p接近λ大二项分布泊松分布正态分布正态分布是生物统计学的重要基础。\n三、正态分布(一)正态分布的概率函数f(x)为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。μ总体平均数σ总体标准差π圆周率,3.14159e为自然对数底,2.71828\nN(μ,σ2)三、正态分布(一)正态分布的概率函数\n图3.1正态分布曲线\nx=μ时,f(x)值最大,正态分布曲线以平均数μ为中心的分布。(二)正态分布的特征1\nx-μ的绝对值相等时,f(x)也相等,正态分布密度曲线以μ为中心向左右两侧对称。三、正态分布(二)正态分布的特征2\nf(x)是非负函数,以x轴为渐近线,x的取值区间为(-∞,+∞)。三、正态分布(二)正态分布的特征3\n正态分布曲线由参数μ,σ决定,μ确定正态分布曲线在x轴上的中心位置,σ确定正态分布的变异度。三、正态分布(二)正态分布的特征4\n正态分布曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度。三、正态分布(二)正态分布的特征5\n分布曲线与x轴围成的全部面积为1三、正态分布(二)正态分布的特征6\n三、正态分布若一个连续型随机变量x取值于区间[a,b],其概率为ab\n三、正态分布(三)标准正态分布N(μ,σ2)正态分布是依赖于参数(μ,σ2)的一个曲线系,正态曲线的位置及形态随(μ,σ2)的不同而不同,这就给研究具体的正态分布总体带来了困难,我们现将其标准化。\nN(μ,σ2)N(0,1)三、正态分布u表示标准正态离差(standardnormaldeviate),它表示离开平均数μ有几个标准差σ。f(u)称为标准正态分布(standardnormaldistribution)或u分布方程。\n标准正态分布的概率累积函数记作F(u),它是变量u小于某一定值的概率。ui\n三、正态分布为了计算方便,对于不同的u值,计算出不同的F(u),编成函数表,称为正态分布表,从中可以查到u任意一个区间内取值的概率。\n三、正态分布标准正态分布u落在区间[a,b]的概率\n三、正态分布(四)正态分布的概率计算ab-a1一般正态分布的概率计算\n三、正态分布若随机变量服从正态分布N(μ,σ2),则x的取值落在区间[x1,x2]的概率,记作P(x1≤x 30,无需连续矫正,用u检验;\n(1)假设(2)水平(3)检验(4)推断H0:p=0.85即用种衣剂浸种后的发芽率仍为0.85;HA:p≠0.85选取显著水平α=0.05u>1.96,P<0.05在0.05显著水平上,否定H0,接受HA;认为种衣剂浸种能够显著提高蔬菜种子的发芽率。\n例:规定种蛋的孵化率>0.80为合格,现对一批种蛋随机抽取100枚进行孵化,结果有78枚孵出,问这批种蛋是否合格?(3)只有孵化率≤0.80,才认为是不合格,故采用单尾检验。分 析(1)一个样本频率的假设检验;(2)np和nq>5,但nq<30,需要进行连续矫正,由于n>30,用u检验;\n(1)假设(2)水平(3)检验(4)推断H0:p≤0.80,即该批种蛋不合格。HA:p>0.80选取显著水平α=0.05uc<1.645,P>0.05在0.05显著水平上,接受H0,否定HA;认为这批种蛋不合格。\n二、两个样本频率的假设检验样本频率假设检验\n适用范围:检验两个样本频率和差异的显著性。一般假定两个样本的方差是相等的,即\n两个样本频率差数的标准误H0:p1=p2=p,q1=q2=q\n当n1=n2=n时在总体p1和p2未知,假定条件下,可用两样本频率的加权平均值作为对p1和p2的估计,即:\n1、当np和nq>30,不需连续性矫正,用u检验:在H0:p1=p2下,\n2、当5 F0.01,P<0.01,说明5个地区黄鼬冬季针毛长度差异极显著。\n结果做成方差分析表:不同地区黄鼬冬季针毛长度方差分析表变异来源SSdfs2FF0.05F0.01地区间地区内173.7112.9941543.430.8750.15**3.064.89总变异186.7019为了确定各个地区之间的差异是否显著,需要进行多重比较。\n这里用最小显著差数法(LSD)进行检验。查t值表,当dfe=15时,t0.05=2.131,t0.01=2.947,于是有:LSD0.05=2.131×0.658=1.402LSD0.01=2.947×0.658=1.939本例中各组内观测数相等,而且组内方差均为0.866,故任何两组的比较均可用LSD0.05及LSD0.01。\n在进行LSD0.05及LSD0.01比较时,各组间差数>LSD0.01,说明两地间差异极显著,标以不同的大写字母;LSD0.01>各组间差数>LSD0.05,说明两地间差异显著,标以不同的小写字母;\n地区平均数差异显著性α=0.05α=0.01东北内蒙古河北安徽贵州31.6027.4026.0324.7522.85abbccdABBCCDD结果表明,东北与其它地区,内蒙古与安徽、贵州,河北与贵州黄鼬冬季针毛长度差异均达到极显著水平,安徽与贵州差异达到显著水平,而内蒙古与河北、河北与安徽差异不显著。\n根据组内观测次数目不同组内观测次数相等的方差分析组内观测次数不相等的方差分析\n有时由于试验条件的限制,不同处理的观测次数不同,k个处理的观测次数依次是n1、n2、…、nk的单因素分组资料,前面介绍的方差分析方法仍然可用,但由于总观测次数不是nk,而是次,在计算平方和时公式稍有改变。组内观测次数不相等的方差分析se2∑ni-1SSe误差或处理内SST总和st2k-1处理间F方差自由度平方和变异来源F=st2se2∑ni-k\n在作多重比较时,首先应计算平均数的标准误。由于各组内观测次数不等,因此应需先算得各ni的平均数n0:各个处理的样本容量用于LSR检验用于LSD检验\n用某种小麦种子进行切胚乳试验,实验分为三种处理:整粒小麦(I),切去一半胚乳(II),切去全部胚乳(III),同期播种与条件较一致的花盆内,出苗后每盆选留两株,成熟后进行单株考种,每株粒重结果如表,试进行方差分析。处理株号合计平均数12345678910ⅠⅡIII21202429252224252822232525292130312627242626202120424414625.524.424.3小麦切胚乳试验单株粒重(g)\n处理株号合计平均数12345678910ⅠⅡIII21202429252224252822232525292130312627242626202120424414625.524.424.3小麦切胚乳试验单株粒重(g)n1=8,n2=10,n3=6,N=24(1)平方和的计算\nSST=∑x2–C=212+292+…+262-C=230.5SSe=SST-SSt=230.5-6.8=223.7(2)自由度的计算\n(3)列方差分析表变异来源SSdfs2F处理间处理内6.8233.72213.410.70.318总变异230.523由表中结果可知,F<1,表明三种处理的每株粒重无显著差异。\n由于F检验不显著,不需要再作多重比较。如果F检验显著,则需要进一步计算n0,并求得(用于LSR检验)或(用于LSD检验),即x1x2-SxS\n需要指出的是,不等观测次数的试验要尽量避免,因为这样的试验数据不仅计算麻烦,而且也降低了分析的灵敏度。\n需要指出的是,不等观测次数的试验要尽量避免,因为这样的试验数据不仅计算麻烦,而且也降低了分析的灵敏度。\n在实际工作中经常会遇到两种因素共同影响试验结果的情况每一观测值都是某一特定温度与光照条件共同作用的结果。温度光照B1B2…BcA1A1B1A1B2…A1BcA2A2B1A2B2…A2Bc……………ArArB1ArB2…ArBc\n第三节二因素方差分析\n试验指标因素水平处理效应一、相关概念\n一、相关概念试验指标:衡量试验结果的标准猪的日增重小麦产量酶的活性试验指标\n因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验条件。可控因子:在试验中可以人为地加以调控的因子 浓度、温度等非控因子:不能人为调控的因素(气象、环境等)固定因素:指因素的水平是经过特意选择的随机因素:指因素的水平是从该因素水平总体中随机抽出的样本因素一、相关概念\n不同离子对木聚糖酶活性的影响(mg/ml)0.000.250.500.751.001.250.000.060.120.180.240.300.000.400.801.201.602.000.000.400.600.801.001.20Na+K+Cu2+Mn2+实验指标因素\n水平(level):每个因素的不同状态(从质或量方面分成不同的等级)因素是一个抽象的概念,水平则是一个较为具体的概念水平一、相关概念\n不同离子对木聚糖酶活性的影响(mg/ml)0.000.250.500.751.001.250.000.060.120.180.240.300.000.400.801.201.602.000.000.400.600.801.001.20Na+K+Cu2+Mn2+水平\n处理处理:指对试验对象施以不同的措施饲料种类鱼增重(3个重复)ABCD31.927.931.824.825.726.822.123.627.327.030.829.0对单因素试验而言,水平和处理是一致的,一个水平就是一个处理4种不同配合饲料对鱼的饲养效果一、相关概念\n处理饲料中能量与蛋白质的水平组合protein能量高低高低高高低高高低低低对多因素试验而言,处理就是指水平与水平的组合一、相关概念\n固定效应(fixedeffect):由固定因素所引起的效应。随机效应(randomeffect):由随机因素引起的效应。一、相关概念效应\n定义:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。固定模型二因素都是固定因素随机模型二因素均为随机因素混合模型一个因素是固定因素,一个因素是随机因素二因素方差分析\n主效和互作主效应(maineffect):各试验因素的相对独立作用互作(interaction):某一因素在另一因素的不同水平上所产生的效应不同。\n因素间的交互作用显著与否关系到主效应的利用价值二因素间是否存在交互作用有专门的统计判断方法,有时也可根据专业知识判断。如果交互作用显著,则各因素的效应就不能累加,最优处理组合的选定应根据各处理组合的直接表现选定。有时交互作用相当大,甚至可以忽略主效应。如果交互作用不显著,则各因素的效应可以累加,各因素的最优水平组合起来,即为最优的处理组合。\n二因素方差分析无重复观测值的二因素方差分析具有重复观测值的二因素方差分析无重复观测值的二因素方差分析\n依据经验或专业知识,判断二因素无交互作用时,每个处理可只设一个观测值,即假定A因素有a各水平,B因素有b个水平,每个处理组合只有一个观测值。无重复观测值的二因素方差分析\n因素A因素B总和Ti.平均数B1B2…BbA1x11x12…x1bT1.A2x21x22…x2bT2.…………………Aaxa1xa2…xabTa.总和T.jT.1T.2…T.bT平均数…无重复观测值的二因素分组资料模式\n二因素方差分析的线性模型因素间不存在交互作用,所以二因素方差分析观测值的线性模型是xij=μ+αi+βj+εijαi和βj是A因素和B因素的效应,可以是固定的,也可以是随机的,且 ,εij是随机误差,彼此独立且服从N(0,σ2)。i=1,2,…,a;j=1,2,…,b\n(1)平方和的分解为:\n(2)与平方和相应的自由度的分解为\n(4)F值的计算:(3)各项的方差分别为\n将一种生长激素配成M1,M2,M3,M4,M5五种浓度,并用H1,H2,H3三种时间浸渍某大豆品种的种子,出苗45天后的各处理每以植株的平均干物重(g)(下表)。试作方差分析与多重比较。浓度(A)时间(B)TiH1H2H3M11314144113.67M21212133712.33M333393.00M410910299.67M5254113.67T.j4043441278.08.68.88.47激素处理对大豆干物重的影响激素浓度和时间均为固定因素,适应于固定模型。\n(1)平均和的计算:\n(2)自由度的计算(3)列出方差分析表,进行F检验\n变异来源dfSSs2FF0.05F0.01浓度间4289.0672.27116.56**3.847.01时间间误差281.734.940.870.621.404.468.65总变异14295.73F检验结果表明,浓度间的F值大于F0.01,时间间的F值未达到显著水平,表明不同激素浓度对大豆干物重有极显著差异。(4)进行多重比较(用SSR检验):由于只有浓度间的效应达到了极显著差异,时间间的效应未达到显著水平,只需对5种浸渍浓度进行多重比较,可计算出浓度间的平均数标准误均为\nb=3是每一浓度的观测值数目,如果要比较时间间的效应,由于每一时间有a=5个观测值,其平均数的标准误应为\nM2345SSR0.053.263.403.483.52SSR0.014.754.945.065.14SSR0.051.481.551.581.60SSR0.012.162.252.302.34不同浓度大豆干物重多重比较SSR和LSR值查SSR值表,当dfe=8,M=2,3,4,5时的SSR值及由此计算的LSR值列于下表\n多重比较结果表明:5种生长激素浓度对大豆干物重的影响有着极显著的差异,除M1与M2,M5与M3之外差异不显著外,其它浓度之间的大豆干物重均达到极显著差异。5种激素浓度中,以M1和M2的处理效果较好。浓度平均数差异显著性α=0.05α=0.01M1M2M3M4M513.6712.339.673.673.00aabccAABCC\n无重复观测值的二因素方差分析,所估计的误差实际上是这两个因素的相互作用,这是在两个因素不存在互作,或互作很小的情况下进行估计的。但是,如果存在两个因素的互作,方差分析中就不能用互作来估计误差,必须在有重复观测值的情况下对试验误差进行估计。\n定义:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。二因素都是固定因素二因素均为随机因素固定模型随机模型混合模型一个因素是固定因素,一个因素是随机因素二因素方差分析三种模型在计算上类似,但在对待检验及结果解释时有所不同。\n二因素方差分析无重复观测值的二因素方差分析具有重复观测值的二因素方差分析无重复观测值的二因素方差分析\n依据经验或专业知识,判断二因素无交互作用时,每个处理可只设一个观测值,即假定A因素有a个水平,B因素有b个水平,每个处理组合只有一个观测值。无重复观测值的二因素方差分析\n因素A因素B总和Ti.平均数B1B2…BbA1x11x12…x1bT1.A2x21x22…x2bT2.…………………Aaxa1xa2…xabTa.总和T.jT.1T.2…T.bT平均数…无重复观测值的二因素分组资料模式\n二因素方差分析的线性模型因素间不存在交互作用,所以二因素方差分析观测值的线性模型是xij=μ+αi+βj+εijαi和βj是A因素和B因素的效应,可以是固定的,也可以是随机的,且 ,εij是随机误差,彼此独立且服从标准正态分布N(0,σ2)。i=1,2,…,a;j=1,2,…,b\n二因素方差分析的线性模型因素间不存在交互作用,所以二因素方差分析观测值的线性模型是xij=μ+αi+βj+εijαi和βj是A因素和B因素的效应,可以是固定的,也可以是随机的,且 ,εij是随机误差,彼此独立且服从标准正态分布N(0,σ2)。i=1,2,…,a;j=1,2,…,b\n(1)平方和的分解为:\n(2)与平方和相应的自由度的分解为\n(4)F值的计算:(3)各项的方差分别为\n无重复观测值的二因素方差分析,所估计的误差实际上是这两个因素的相互作用,这是在两个因素不存在互作,或互作很小的情况下进行估计的。但是,如果存在两个因素的互作,方差分析中就不能用互作来估计误差,必须在有重复观测值的情况下对试验误差进行估计。\n二因素方差分析无重复观测值的二因素方差分析具有重复观测值的二因素方差分析具有重复观测值的二因素方差分析\n具有重复观测值的二因素方差分析具有重复观测值的二因素试验的典型设计是:假定A因素有a水平,B因素有b水平,则每一次重复都包括ab次实验,设试验重复n次,资料模式在P98。\n二因素具有重复观测值的方差分析用下面线性模型来描述:xijk=μ+αi+βj+(αβ)ij+εijkA因素第i水平,B因素第j水平和第k次重复的观测值总平均值A因素第i水平的效应B因素第j水平的效应αi和βj的交互作用随机误差模型中εijk彼此独立且服从标准正态分布(0,σ2)\n因试验共有n次重复,试验的总次数为abn次。方差分析步骤和前面介绍的相类似,唯一不同的是F检验的方法。(1)平方和的分解为:A处理的样本容量\nB处理的样本容量A处理、B处理和A×B互作的平方和试验重复数\n(3)各项的方差分别为(2)自由度的分解为\n(4)F检验:(b)随机模型:对于随机模型,αi、βj、(αβ)ij和εijk是相互独立的随机变量,都遵从正态分布。在F检验时,先检验A×B是否显著:(a)固定模型:在固定模型中,αi,βj及(αβ)ij均为固定效应。在F检验时,A因素、B因素和A×B互作项均以Se2作为分母。\n检验A、B时,有:(c)混合模型(以A为固定因素,B为随机因素为例):在混合模型中,A和B的效应为非可加性,αi为固定效应,βj及(αβ)ij为随机效应。对A作检验时同随机模型,对B和A×B作检验时同固定模型,即:在实际应用中,固定模型应用最多,随机模型和混合模型相对较少。\n为了研究某种昆虫滞育期长短与环境的关系,在给定的温度和光照条件下在实验室培养,每一处理记录4只昆虫的滞育天数,结果列于表中,是对该材料进行方差分析。光照(A)温度(B)250C300C350C5h·d-1143138120107101100808389931017610h·d-1961037891796183598076616715h·d-1798396986071786467587183不同温度及光照条件下某种昆虫滞育天数\n由于温度和光照条件都是人为控制的,为固定因素,可依固定因素分析。将表中数字均减去80,整理得下表光照(A)标本号温度(B)250C300C350C5h·d-112346358402721200391321-4271188443910h·d-112341623-211-1-193-210-4-19-13-2648-38-3615h·d-11234-131618-20-9-2-16-13-22-93-5236-47-41272-41-38193\n(1)平方和的分解为:\n(2)自由度的分解为\n结果列入方差分析表\n变异来源dfSSs2FF0.05F0.01光照间25367.062683.5321.94**3.355.49温度间25391.062695.5322.03**3.355.49光照×温度误差427464.943303.25116.24122.340.952.734.11总变异35295.73F检验结果表明,浓度间和时间间的F值大于F0.01,它们的差异极显著,即昆虫滞育期长短主要决定于光照和温度,而与两者之间的互作关系不大。某昆虫滞育天数方差分析表\n要了解各种光照时间及温度对滞育期的影响,需进行不同光照间及不同温度间的多重比较,其方法可参照前面例子进行,但平均数标准误的计算为:光照(A)间平均数标准误 ,温度(B)间平均数标准误A处理的样本容量B处理的样本容量\n在啤酒生产中,为了研究烘烤方式(A)与大麦水分(B)对糖化时间的影响,选了两种烘烤方式,4种水分共8种处理,每一处理重复三次,结果如下表。烘烤方式(A)水分(B)B1B2B3B4A112.09.516.018.013.010.015.519.014.512.514.017.0A25.013.017.515.06.514.018.516.05.515.016.017.5大麦水分是不均匀的,又不易控制,所以因素B是随机的,它的效应也是随机的,因此本题是一个混合模型的方差分析。将上表中各观测值都减去10,计算后得\n烘烤方式(A)标本号水分(B)B1B2B3B4A112.0-5.06.08.051.023.00.05.59.034.52.54.07.09.52.015.524.0A21-5.03.07.55.039.52-3.54.08.56.03-4.55.06.07.5-13.012.022.018.5-3.51437.542.590.5\n(1)平方和的分解为:\n(2)自由度的分解为\n结果列入方差分析表\n变异来源dfSSs2FF0.05F0.01烘烤方式A15.5105.5100.15410.1934.12水分B3228.86576.28855.482**3.245.29A×B误差316107.61522.00035.8721.37526.089**3.245.29总变异23363.99糖化时间方差分析表表中F的计算为:\nF检验结果表明,水分和的A×B的F值大于F0.01,大麦中的水分及水分与烘烤方式之间的互作对糖化时间的影响达到了极显著水平,而烘烤方式对糖化时间的作用不显著。在生产上应注意大麦的含水量及根据含水量来选择合适的烘烤方式。变异来源dfSSs2FF0.05F0.01烘烤方式A15.5105.5100.15410.1934.12水分B3228.86576.28855.482**3.245.29A×B误差316107.61522.00035.8721.37526.089**3.245.29总变异23363.99\n第四节多因素方差分析\n实际工作中,往往需要考察三个或多个因素的效应。这相当于把二因素方差分析扩展到一般情况。如在一个试验中,A因素有a水平,B因素有b水平,C因素有c水平等,假设每一处理都有n次重复,那么总观测次数为abcn次。本节仅对三因素的情况进行分析。(见P104)\n设有一个三因素方差分析模型,各取了a、b、c个水平,每一处理有n次重复。对观测值,其线性数学模型为:xijkl=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl总体平均数随机误差A因素第i水平,B因素第j水平,C因素第k水平第l次重复的观测值A因素、B因素、C因素的效应A×B、A×C、B×C的交互效应三因素的交互效应(A×B×C)xijklαi、βj、γk(αβ)ij、(αγ)ik、(βγ)jk(αβγ)ijki=1,2,…,a;j=1,2,…,b;k=1,2,…,c;l=1,2,…,n\nxijkl=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl同时应满足下列四个条件:\n实际分析时,可将三因素试验数据列成三个两向表(A、B因素组合,B、C因素组合,A、C因素组合),把三因素方差分析化为二因素方差分析。因此可以计算出SSA、SSB、SSC、SSAB、SSBC、SSAC,其中SSA、SSB、SSC不需要重复计算。\n总平方和为全部试验观测值的平方和,即:误差平方和SSe显然等于在同一处理下数据的变异平方和,即:\n总平方和可分解为:总自由度的分解:dfT=dfA+dfB+dfC+dfAB+dfAC+dfBC+dfABC+dfe\n由于胱氨酸、蛋氨酸和蛋白质都是可以控制的,所以适用于固定模型。a=4,b=3,c=2,n=2。为了研究在猪饲料中添加胱氨酸(因素A)、蛋氨酸(因素B)和蛋白质(因素C)对猪日增重(kg)的影响,设计了下面的试验,每一组共用两头猪作重复,结果P105,试作方差分析。\n(1)将数据分别累加,结果P106。(2)计算平方和:\n\n\n=2.0409-1.2756=0.7653SSt\n(3)自由度的分解为\n(4)结果列入方差分析表\n变异来源dfSSs2FF0.05F0.01胱氨酸A30.04270.01420.4453.014.72蛋氨酸B20.05260.02630.8243.405.61蛋白质C10.53550.535516.787**4.267.82A×B60.25430.04241.3292.513.67A×C30.23990.08002.5083.014.72B×C20.08210.04101.2853.405.61A×B×C误差6240.06850.76530.01140.03190.3572.513.67总变异47363.99检验结果表明,蛋白质对猪日增重影响极其显著,胱氨酸及蛋氨酸的影响不显著,可能的原因是在饲料中并不缺乏这两种氨基酸。\n方差分析的数据一般都是事先设计好的,意外事件常使某一个或某几个数据丢失,比如收获的作物可能遭到毁坏,动物可能有死亡,或者在记录时可能漏记或记错等等。数据的缺失使平方和的线性可加模型无效,因此无法直接进行方差分析。缺失的数据可用统计方法从理论上估计出,用计算出的数据去弥补缺失的数据,这样就可以用前面介绍过的方法进行分析。\n第五节方差分析缺失数据的估计\n使补上缺失的数据后,误差平方和最小。弥补缺失数据的原则有一点必须明确,缺失数据估计并不能恢复原来的数据,只能是补足后不致于干扰其余数据,估计的数据并不能提出任何新的信息,因此,试验中应尽量避免这类情况发生。注意\n缺失一个数据的估计方法方差分析缺失数据的估计缺失两个数据的估计方法\n缺失一个数据的估计方法B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA32737362437413343278A43042354046473846324总和124164112+x1491761711441761216+x上表中x23是缺失的,需要补上。\nB1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA32737362437413343278A43042354046473846324总和124164112+x1491761711441761216+x误差的平方和可由下式求出:\n为了SSe达到最小,令 ,则有:解该方程,得:把这个数据填在表内,在进行方差分析时,除总自由度dfT和误差自由度dfe各需减1外,其他仍可以按前面介绍的方法进行。\n缺失两个数据的估计方法B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA3273736243741y43245+yA43042354046473846324总和124164112+x14917617111+y1761216+x上表的x23和x37都缺失,分别称为x和y。其弥补原则和弥补一个数据是一样的,即使SSe达到极小。\n先由下式求出误差的平方和:B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA3273736243741y43245+yA43042354046473846324总和124164112+x14917617111+y1761216+x\n为使SSe极小,应满足:经整理,解得:x=42.97,y=30.57即:\n缺失的数据补上后进行方差分析时,总自由度dfT和误差自由度dfe均减2。由于误差自由度减小,F检验的灵敏度相应降低,对分析问题是不利的,补救的数据只是不干扰方差分析,并不能提供丢失的信息,所以进行试验时,要谨慎小心,尽量避免数据的丢失。\n对试验数据进行方差分析是有条件的,即方差分析的有效性建立在一些基本假定上,如果分析的数据不符合这些基本假定,得出的结论就不会正确。一般地说,在试验设计时,就应考虑方差分析的条件。\n方差分析的基本假定和数据转换第六节\n方差分析的基本假定正态性可加性方差同质性\n正态性试验误差应当是服从正态分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能作方差分析。应用方差分析的资料应服从正态分布,即每一观测值Xij应围绕相应的平均数呈正态分布。非正态分布的资料进行适当数据转后,也能进行方差分析。\n可加性处理效应与误差效应应该是可加的,并服从方差分析的数学模型,即这样才能将试验的总变异分解为各种原因所引起的变异,以确定各变异在总变异中所占的比例,对试验结果作出客观评价。可加性是否显著有专门的统计方法。xij=μ+αi+βj+εij\n方差同质性所有试验的误差方差应具备同质性,也叫方差的齐性,即σ12=σ22=…=σn2因为方差分析是将各个处理的试验误差合并以得到一个共同误差方差的,所以必须假定资料中这样一个共同方差存在。误差异质将使假设检验中某些处理效应得出不正确的结果。\n方差的同质性检验前面已介绍过。如果发现有方差异质的现象,可将变异特别明显的数据剔除,当然剔除数据是应十分小心,以免失掉某些信息。或者将试验分成几个部分分析,使每部分具有同质的方差。\n在生物学中,有时会遇到一些样本,其所来自的总体和方差分析的基本假定相抵触,这些数据在作方差分析之前必须经过适当处理及数据转换来更变测量标尺。\n样本的非正态性、不可加性和方差的异质性通常连带出现,主要的是考虑处理效应与误差效应的可加性,其次才考虑方差同质性。数据转换\n数据转换常用的转化方法平方根转换对数转换反正弦转化\n平方根转换有些生物学观测数据为泊松分布而非正态分布,比如一定面积上某种杂草株数或昆虫头数等,样本平均数与其方差有比例关系,采用平方根转换可获得同质的方差。一般将原观测值转化成 ,数据较小时采用\n对数转换如果已知资料中的效应成比例而不是可加的,或者标准差(或极差)与平均数大体成比例时,可以使用对数变换。\n反正弦转化如果数据是比例或以百分率表示的,其分布趋向于二项分布,方差分析时应作反正弦转换,用下式把它们转化成一个相应的角度:百分数资料相应的角度值\n单因素方差分析方 差 分 析基本假定数据转换二因素方差分析多因素方差分析缺失数据的估计试验数据的方差分析组内观测次数相等组内观测次数不等无重复观测值有重复观测值小结\n方差分析的基本步骤:确定数学模型进行多重比较列方差分析表,进行F检验平方和自由度的分解\n生物学是一门实验性科学。收集资料,确定课题制订方案,可行性分析进行实验,得出结论物质条件,技术方法仪器设备的精度要求制订方案数据分析实验技术123\n试验方案设计合理精心组织操作统计方法进行分析客观理想的结果\n常用试验设计及其统计分析第八章\n第一节第二节第三节试验设计的基本原理对比设计及其统计分析随机区组设计及其统计分析常用试验设计及其统计分析第八章第四节拉丁方设计及其统计分析第五节裂区设计及其统计分析第六节正交设计及其统计分析\n第一节:试验设计的基本原理一、试验设计的意义二、生物学试验的基本要求三、试验设计的基本要素四、试验误差及其控制途径试验设计(experimentaldesign)五、试验设计的基本原理\n一试验设计的意义(一)概念课题的名称试验目的研究依据、内容试验方案试验单位的选取试验记录项目和要求试验结果的分析方法经济或社会效益分析已备条件尚缺少的条件参加研究人员试验时间、地点成果形式学术论文撰写试验单位的重复数进度安排、经费预算研究的预期效果试验单位的分组试验单位的选取试验单位的重复数试验单位的分组广义狭义\n一试验设计的意义(二)目的避免系统误差,控制、降低试验误差,无偏估计处理效应,从而对样本所在总体作出可靠、正确的推断。\n一试验设计的意义(三)任务在研究工作进行之前,根据研究项目的需要,应用数理原理,作出周密安排,力求用较少的人力、物力和时间,最大限度地获得丰富而可靠的资料,通过分析得出正确的结论,明确回答研究项目所提出的问题。如果设计不合理,不仅达不到试验的目的,甚至导致整个试验的失败。能否合理地进行试验设计,关系到科研工作的成败。\n一试验设计的意义(四)意义节省人力、物力、财力和时间减少试验误差,提高试验的精确度,取得真实的试验资料,为统计分析得出正确的判断和结构打下基础。12\n试验目的明确试验条件要有代表性试验结果可靠试验结果可重演二生物学试验的基本要求\n准确度精确度试验中同一性状的重复观测值彼此接近的程度,即试验误差的大小。试验中某一性状的观测值与其相应真值的接近程度,不易确定。试验结果可靠\n严格要求试验的正确执行和试验条件的代表性;注意试验的环节,全面掌握试验的条件,详实的试验记载考虑季节变异的特点,克服年份、地点环境条件的差异在相同的条件下,再进行试验或实践,应能重复获得与原试验结果相类似的结果。123试验结果重演重演性\n三、试验设计的基本要素基本要素处理因素受试对象处理效应\n处理(因素)概念对受试对象给予的某种外部干预(或措施)特点人为设置单因素处理多因素处理三、试验设计的基本要素\n处理因素实验中注意主要因素控制非处理因素处理因素标准化123\n受试对象处理因素的客体,即根据研究目的而确定的观测总体。必须对其具体条件做出严格规定,保证其同质性。三、试验设计的基本要素\n处理效应处理因素作用于受试对象的反应误差效应试验效应?研究结果的最终体现12三、试验设计的基本要素\n试验误差的概念来源控制途径表示方法四、试验误差及其控制途径\n(一)概念处理的真实效应不能完全一致的其他因素的偶然影响四、试验误差及其控制途径处理效应误差效应试验效应观测值使观测值偏离试验处理真值的偶然影响称为试验误差或误差(error)。\n(一)概念四、试验误差及其控制途径(试验)误差影响试验的精确度和准确度。试验误差是衡量试验精确度的依据,误差小表示精确度高,误差差,则比较的可靠性较差,而要使处理间的差异达到指定的显著水平就很困难。\n系统误差(片面误差):由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差。随机误差(偶然误差):由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差。人为误差四、试验误差及其控制途径试验误差可以避免不可避免\n试验材料固有的差异试验条件不一致操作技术不一致偶然性因素的影响疏忽大意造成(二)试验误差的来源四、试验误差及其控制途径\n绝对误差观测值与真值之差相对误差绝对误差与真值之比平均值±标准差(三)试验误差的表示四、试验误差及其控制途径\n保证实验材料的均一性及实验环境的稳定性改进操作管理制度,使之标准化消除系统误差精心选择试验单位采用合理的试验设计(四)试验误差的控制四、试验误差及其控制途径\n重复估计试验误差五试验设计的基本原理重复:试验中同一处理实施在两个或两个以上的试验单位上。如果同一处理只实施在一个试验单位上,那么只能得到一个观测值,则无从看出差异,因而无法估计试验误差的大小。只有当同一处理实施在两个或两个以上的试验单位上,获得两个或两个以上的观测值时,才能估计出试验误差。\n重复降低试验误差五试验设计的基本原理平均数抽样误差的大小与重复次数n的平方根成反比,所以n增加,可以降低试验误差。但在实际应用时,重复数太多,试验材料的初始条件不易控制,也不一定能降低误差。重复数的多少可根据试验的要求和条件而定。\n随机无偏的估计试验误差五试验设计的基本原理随机化是指在对试验材料分组时必须使用随机的方法,使供试材料进入各试验组的机会是相等,以避免试验材料分组时试验人员主观倾向的影响。这是在试验中排除非试验因素干扰的重要手段,目的是为了获得无偏的误差估计量。\n局部控制五试验设计的基本原理局部控制是指在试验时采取一定的技术措施或方法来控制或降低非试验因素对试验结果的影响。在试验中,当试验环境或试验单位差异较大时,仅根据重复和随机化两原则进行设计,不能将试验环境或试验误差所引起的变异从试验误差中分离出来,因而误差较大,试验的精确性与检验的灵敏度降低。\n局部控制降低试验误差五试验设计的基本原理在试验环境或试验单位差异较大的情况下,根据局部控制原则,可将整个试验环境或试验单位分成若干小环境或小组,称为单位组(或区组)。因为单位组之间的差异可在方差分析时从试验误差中分离出来,所以局部控制原则能较好地降低试验误差。\n五试验设计的基本原理重复、随机、局部控制三个基本原则是试验设计中必须遵循的原则,再采用相应的统计分析方法,就能最大程度地降低并无偏估计试验误差,无偏估计处理效应,从而对于各处理间的比较作出可靠的结论。\n随机重复局部控制无偏估计误差降低误差五试验设计的基本原理估计误差统计推断提高精确性三原则作用\n抽样方法的正确与否,直接关系到样本的代表性,影响由样本所得估计值的准确性。随机抽样典型抽样顺序抽样\n随机抽样简单随机抽样分层随机抽样双重随机抽样整体随机抽样\n1简单随机抽样它是最简单、最常用的一种抽样方法,要求被抽总体内每一个体,被抽取的机会完全相等。简单随机抽样就是采用随机的方法直接从总体中抽选若干个抽样个体组成样本的抽样方法。\n随机数字436865257142104403890513852511121014032905\n2分层随机抽样分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按一定的抽样分数抽选抽样单位。抽样分数:一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值。(1)将总体变异原因与程度划分成若干区层,使得区层内变异尽可能小或变异原因相同,而区层间变异比较大或变异原因不明。(2)在每一个区层按一定的抽样分数独立随机抽样。\n相等配置比例配置最优配置如果各区层抽样单位数相等,可采用相等配置如果各区层抽样单位数不等,可按相同的抽样分数,将欲抽取的抽样单位总数分配到各区层根据各区层抽样单位数、抽样误差和抽样费用,确定各区层应抽取的抽样单位。在变异范围较大的区层,抽样分数应大一些;在抽样费用较高的区层,抽样分数应小一些。\n(1)若总体内各抽样单位间的差异比较明显,那么就可以把总体分为几个比较同质的区层,从而提高抽样的准确度;(2)分层随机抽样既运用了随机原理,也运用了局部控制原理,这样不仅可以降低抽样误差,也可以运用统计方法来估算抽样误差;\n3整体随机抽样整体随机抽样是把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本进行全面调查。如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样;若主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜用整体随机抽样。\n优点1由于一个整体只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;2与简单随机抽样相比较,它常提供较为准确的总体估计值。3只要各群抽选单位数相等,整体抽样也可提供总体平均数的无偏估计。\n4双重随机抽样变量1变量2简单变量复杂变量\n顺序抽样顺序抽样(系统抽样、机械抽样)它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。这种抽样方法可避免人们主观偏见的影响,且使用简便如果总体内存在周期性变异,则可能会得到一个偏差很大的样本,这种现象在统计上称为系统误差。由顺序抽样得到的样本不能计算抽样误差,估计总体值。\n典型抽样根据初步资料或经验判断,有意识、有目的的选取一个典型群体作为代表(样本)进行调查,以估计整个总体,这种抽样方法就称为典型抽样。典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种抽样方法。这种抽样多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。\n样本容量的确定\nL即为置信区间宽度的一半(置信半径)\n南阳黄母牛的体高以95%的可靠性进行估计,并要求估计的误差不超过0.5cm,求n值。\n第二节:对比设计对比法:一种最简单的试验设计方法适用于单因素试验。简单对比设计邻比设计只有一个CK每一个处理相邻都有一个CK\n第二节:对比设计1CK2CK345CK63CK4CK561CK25CK6CK123CK4每重复的第一个小区安排为处理区,第二个小区安排为CK,以后每隔两个处理区安排一个对照区,同时必须使每一重复的最后一个处理区的一侧有CK。在同一重复内各小区顺序排列,但重复时,使相同小区不要排在一条直线上,可采用阶梯式排列。\n第二节:对比设计动物试验中称为配对试验设计。把窝别、性别相同、年龄、体重相近的两个动物配成一对,然后用随机的方法将每对的两头动物分别安排到两组中。动物试验中称为配对试验设计。同一对动物之间差异要尽量小些,不同对之间的动物可以有差异。也可进行同一只动物前后两次进行不同的处理,对处理前后的结果进行比较。\n第二节:对比设计对比法试验,由于为顺序排列,不能正确估计出无偏的试验误差,因而试验结果不能采用方差分析的方法进行显著性检验。一般采用百分比法。某处理总和数对邻近CK的%=邻近CK总和数\n第三节:随机区组设计(randomizedblockdesign)随机区组设计是根据局部控制和随机原理进行的,将试验单位按性质不同分成与重复数一样多的组,使区组内环境差异最小而区组间环境差异最大,每个区组均包括各处理的一个小区。区组内各处理随机排列,各区组独立随机排列。1CK2CK345CK63CK4CK561CK2肥力高肥力低5CK6CK123CK4\n第三节:随机区组设计(randomizedblockdesign)819745623562739184肥力高肥力低247683951IIIIII区组重复随机随机数字法\n第三节:随机区组设计(randomizedblockdesign)随机随机数字法设有8个处理,我们得到随机数字,去掉0和9及重复数字,连续取得8个随机数字,即为一个区组内的排列。9,3,9,4,4,6,0,2,8,4,6,5,9,8,4,4,1,4,9,2,2,4,8,79,3,9,4,4,6,0,2,8,4,6,5,9,8,4,4,1,4,9,2,2,4,8,7\n第三节:随机区组设计(randomizedblockdesign)(1)设计简单,容易掌握(2)富于弹性,单因素、多因素及综合性的试验均可用(3)能提供无偏的误差估计(4)对试验区的形状要求不严\n第三节:随机区组设计(randomizedblockdesign)总平方和自由度区组处理误差A因素B因素互作\n第三节:随机区组设计(randomizedblockdesign)处理数不能太多,一般10个左右。处理数太多,区组必然增大,局部控制的效率降低。处理数或处理组合数不能太少,如果较少,误差项的自由度也会太小,会降低假设检验的灵敏度。\n819745623562739184247683951随机区组设计拉丁方设计\n第四节:拉丁方设计(latinsquaredesign)随机区组设计控制了区组内的同质性,即从一个方向实行了局部控制,而拉丁方设计则从两个方向实行了双重局部控制,因而试验的精确度比随机区组设计高。\n第四节:拉丁方设计(latinsquaredesign)将k个不同符号排成k列,使第一个符号在每一行、每一列都仅出现一次的方阵,称为k×k拉丁方。应用拉丁方进行试验设计,就是在行、列两个方向上都进行局部控制,使行、列两向皆成完全区组或重复。处理数重复数行数列数相等\n第四节:拉丁方设计(latinsquaredesign)当行、列间皆有明显差异时,在控制试验误差,提高试验精度方面,应用拉丁方试验将比随机区组试验更有效。随机区组设计拉丁方设计试验误差73%\n第四节:拉丁方设计(latinsquaredesign)试验处理数不能太多,5-10。试验处理数>10,试验庞大,难以实施。试验处理数<5,误差项自由度太小。在采用4个以下处理的拉丁方设计时,为了使估计误差自由度>12,可采用“复拉丁方设计”,即同一个拉丁方试验重复进行数次,并将试验数据合并分析,以增加误差项的自由度。缺点\n第四节:拉丁方设计(latinsquaredesign)研究5种不同饲料对乳牛产乳量影响试验每头乳牛的泌乳期分为5个阶段随机分配饲料的5个水平乳牛个体及牛的泌乳期不同对产乳量都会有影响,可以将其分别作为区组设置,采用拉丁方设计。选择5头牛5×5拉丁方\nABCDE1CEABD3DCEAB4EDBCA512345BADEC2BADEC2CEABD3ABCDE1DCEAB4EDBCA512345ABCDE1ECDBA5BAECD2DEBAC4CDAEB32513431542432151245354321选择标准方列随机行随机处理随机321452543151342\n第四节:拉丁方设计(latinsquaredesign)总平方和自由度区组处理误差行区组列区组\n第五节:裂区设计裂区设计是多因素试验的一种形式。裂区设计是先将每一区按第一因素的处理数划分为小区,称为主区(整区),在主区里随机安排主处理。在主区内引进第二个因素的各个处理(副处理),就是主处理的小区内分设与副处理相等的更小的小区,称为副区(裂区),在副区里随机排列副处理。\n第五节:裂区设计这种设计将主区分裂为副区,称为裂区设计。在这种试验处理中,从第二个因素来讲,主区就是一个区组;从整个试验所有处理组合讲,主区又是一个不完全区组。\n第五节:裂区设计主处理分设在主区,副处理分设于主区内的副区,副区之间比主区之间的试验空间更为接近。在进行统计分析时,可分别估算主区与副区的试验误差,而副区的试验误差小于前者,即副区的比较比主区的比较更为精确。需要考虑\n第五节:裂区设计在一个因素的各处理比另一个因素的各处理需要更大区域时需要较大区域的因素作为主处理,设在主区需要较小区域的因素作为副处理,设在副区应用\n试验中某一因素的主效比另一因素的主效更为重要,而且要求的精度较高将要求精度较高的因素作为副处理,另一因素作为主处理。第五节:裂区设计应用\n根据以往的研究,知道某些因素的效应比另一些因素的效应更大时也适于采用裂区设计将可能表现较大差异的因素作为主处理第五节:裂区设计应用\n试验设计需要临时改动再加入一个试验因素可在原设计中的小区(主区)中再划分小区(副区),增加一个试验因素,就成了裂区设计。第五节:裂区设计应用\n第五节:裂区设计A1A2A3AaB1B2B3…BbB1B2B3…BbB1B2B3…BbB1B2B3…BbA1A2A3AaB1B2B3…BbB1B2B3…BbB1B2B3…BbB1B2B3…BbA因素a个水平B因素b个水平r个区组rab观测值\n主区部分副区部分区组A误差a总变异BA×B误差b总变异r-1a-1(r-1)(a-1)ra-1b-1(a-1)(b-1)a(r-1)(b-1)rab-1变异来源自由度\n对于单因素或两因素试验,因其因素少,试验的设计、实施与分析都比较简单。在实际工作中,常需要同时考察3个或3个以上的试验因素,若进行全面试验,则试验的规模很大,往往因试验条件的限制而难以实施。3因素3水平33=274因素4水平44=256\n正交设计正交设计就是安排多因素试验、寻求最优水平组合的一种高效率试验设计方法。在试验的全部处理组合中,仅挑选部分有代表性的水平组合(最优组合)进行试验。通过部分实施了解全面试验情况,从中找出较优的处理组合。特点\n第六节:正交设计正交试验的基本特点:用部分试验来代替全面试验,通过对部分试验结果的分析,了解全面试验的情况。正交试验是用部分试验来代替全面试验,它不可能像全面试验那样对各因素效应、交互作用一一分析;当交互作用存在时,有可能出现交互作用的混杂。虽然正交设计有上述不足,但它能通过部分试验找到最优水平组合,因而适应范围较广。\n3因素3水平33=27影响某种鸡的生产性能有3个因素A因素:饲料配方,A1、A2、A3B因素:光照,B1、B2、B3C因素:温度,C1、C2、C3\n第六节:正交设计全面试验可选出最优水平组合分析各因素的效应和交互作用若试验的目的主要是寻求最优水平组合,则可利用正交设计来安排试验。\n在试验安排中,每个因素在研究的范围内选几个水平,如同在选优区内打上网格,如果网上的每个点都做试验,就是全面试验。A2A3A1B1C1B3B2C2C327个\nB3C1C3C2B2C1C3C2B3C1C3C2B1A1C1C3C2B2C1C3C2B3C1C3C2B1A1C1C3C2B2C1C3C2B3C1C3C2B1A1\n一正交表及特点正交表因素的水平数最多可安排的因素(互作)数试验次数(水平组合数)\nABCD1234111112122231333421235223162312731328321393321此表共有4列,可以安排4个因素;每一列有1、2、3三种数字,代表各因素的不同水平;表中有9行,代表9个不同处理组合。\nABCD1234111112122231333421235223162312731328321393321每一列中,不同数字出现的次数相等。任三列中,将同一横行的两个数字看成有序数对时,每一数对出现的次数相等。性质\n均衡分散整齐可比各试验因素的水平值出现次数相等。虽然组合不同,但因素水平是相同的,所以具有可比性。ABCD1234111112122231333421235223162312731328321393321特点\n第六节:正交设计A1B1C1A1B2C2A1B3C3A2B1C2A2B2C3A2B3C1A3B1C3A3B2C1A3B3C29个组合\n第六节:正交设计二基本方法确定试验因素和水平数一般不超过四个因素,水平2-4为宜。\n第六节:正交设计二基本方法选用合适的正交表根据试验因素和水平数以及是否需要估计互作来选择合适的正交表。安排下全部试验因素部分试验的水平组合数尽可能少\n第六节:正交设计因素的水平数最少试验次数或处理组合数交互项自由度\n第六节:正交设计4因素BACD2水平ABAC3+1+1=5\n12345671111111121112222312211224122221152121212621221217221122182212112\n第六节:正交设计进行表头设计,列出试验方案不要让主效间、主效与交互项间有混杂现象。当因素少于列数时,尽量不在交互列中安排试验因素存在交互作用时,需查交互作用表,将交互作用安排在合适的列上。\n第六节:正交设计12345674ABABCACBCDABCDCBDADD\n12345671111111121112222312211224122221152121212621221217221122182212112ABABCACBCD\n翻译术语(10个)5分名词解释(7个)21分填空(20个空)20分计算题(6个)34分证明及简答(2个)10分判断正误(10个)10分70%30分100分\n直线回归与相关\n平均数标准差方差分析多重比较集中点离散程度差异显著性一个变量(产量)施肥量播种密度品种\n在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为协变关系,具有协变关系的变量称为协变量。\n确定的函数关系PV=RT气体压强S=πr2圆的面积协变量S=ab长方形面积\n身高与胸围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压温度与幼虫孵化不完全确定的函数关系(相关关系)协变量\n相关变量一个变量的变化受另一个变量或几个变量的制约因果关系平行关系两个以上变量之间共同受到另外因素的影响动物的生长速度受遗传、营养等影响子女的身高受父母身高的影响人的身高和体重之间的关系兄弟身高之间的关系\n为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。散点图(scatterdiagram)\n为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。\n散点图(scatterdiagram)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰\n123456432112345643211234564321正向直线关系负向直线关系曲线关系定性研究\n回归(regerssion)相关(correlation)定量研究\n曲线直线型非直线型变量二元多元直线型二元\n直线相关与回归分析第九章\n第一节第二节第三节回归与相关的概念直线回归直线相关直线回归与相关分析第九章\n第一节:回归与相关的概念相关变量因果关系平行关系回归分析(regressionanalysis)相关分析(correlationanalysis)一个变量的变化受另一个变量或几个变量的制约两个以上变量之间共同受到另外因素的影响\n在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量X(可以是随机变量,也可以是一般的变量),去推测另一个随机变量Y。\nxy施肥量(可以严格地人为控制)产量如果对x的每一个可能的值,都有随机变量y的一个分布相对应,则称随机变量y对变量x存在回归(regression)关系。自变量(independentvariable)因变量(dependentvariable)因果关系一个变量的变化受另一个变量或几个变量的制约\n在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应;身高与体重之间存在相关关系。X身高Y体重X体重Y身高相关关系\n第二节:直线回归LinearRegression一、直线回归方程的建立二、直线回归的数学模型和基本假定三、直线回归的假设检验四、直线回归的区间估计简单回归(SimpleRegression)\n一、直线回归方程的建立直线回归就是用来描述一个变量如何依赖于另一个变量温度天数\nY=a+bx^直线回归方程(linearregressionequation)截距(intercept)回归截距斜率(slope)回归系数(regerssioncoefficient)自变量与x值相对应的依变量y的点估计值\n0xya>0,b>0a<0,b>0a>0,b<0a=0b=0\n变量1变量2收集数据散点图温度天数XY平均温度(℃)历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7\n黏虫孵化历期平均温度与历期天数关系图01020304010121416182022温度天数(天)(℃)\n回归直线在平面坐标系中的位置取决于a,b的取值。y最小最小二乘法(methodofleastsquare)\n最小\n\n为最小值基本性质\n\nXY平均温度(℃)历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7\n\n01020304010121416182022温度天数(天)(℃)11.8-----20.4用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。y误差\n二、数学模型和基本假定yy的总体平均数因x引起y的变异y的随机误差\n总体回归截踞总体回归系数随机误差直线回归的数学模型(modeloflinearregression)\n基本假定x是没有误差的固定变量,或其误差可以忽略,而y是随机变量,且有随机误差。x是的任一值对应着一个y总体,且作正态分布,其平均数μ=α+βx,方差受偶然因素的影响,不因x的变化而改变。随机误差ε是相互独立的,呈正态分布。y\n三、直线回归的假设检验有意义指导实践?是否真正存在线性关系回归关系是否显著\n一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有关。\n\n检验线性回归系数的显著性,采用t检验法进行。假设H0:β=0HA:β≠0检验样本回归系数b是否来自β=0的双变量总体,以推断线性回归的显著性。(三)t检验\n依变量y的平方和,总平方和,SSy,SS总回归平方和U离回归平方和Q\ny的离均差,反映了y的总变异程度,称为y的总平方和。说明未考虑x与y的回归关系时y的变异。\n反映了由于y与x间存在直线关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。U值大,说明回归效果好。回归平方和(regressionsumofsquares)U\n反映了由于y与x间存在直线关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,在总平方和中可以用x解释的部分。U值大,说明回归效果好。回归平方和(regressionsumofsquares)U\n误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变化的大小。反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。离回归平方和误差平方和,剩余平方和(residualsumofsquares)Q在散点图上,各实测点离回归直线越近,Q值越小,说明直线回归的估计误差越小。\n依变量y的平方和,总平方和,SSy,SS总回归平方和U离回归平方和Q\n\n\n直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量df回归=1df总=n-1df离回归=n-2\nQ/n-2离回归标准差回归估计标准误剩余标准差离回归方差\n总体回归截踞总体回归系数随机误差α:它是y的本底水平,即x对y没有任何作用时,y的数量表现。βx:它描述了因变量y的取值改变中,由y与自变量x的线性关系所引起的部分,即可以由x直接估计的部分。误差:它描述了因变量y的取值改变由x以外的可能与y有关的随机和非随机因素共同引起的部分,即不能由x直接估计的部分。\n两个变量是否存在线性关系,可采用F检验法进行。总体回归截踞总体回归系数随机误差若x与y间不存在直线关系,则总体回归系数β=0;若x与y间存在直线关系,则总体回归系数β≠0\n假设H0:两变量间无线性关系HA:两变量间有线性关系在无效假设存在下,回归方差与离回归方差的比值服从F分布。df1=1df2=n-2\nH0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系HA:两变量间有线性关系变异来源dfSSs2FF0.05F0.01回归1353.6628353.662889.89**5.9913.74离回归623.60603.9343总变异7377.2688\ndf=n-2回归系数的标准误\n\n否定H0:β=0,接受HA:β≠0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。\n同一概率值F(一尾)值(df1=1,df2=n-2)t值(两尾)(df=n-2)\n\n四、直线回归的区间估计点估计\n四、直线回归的区间估计a和b的置信区间(一)μy/x的置信区间和单个y的预测区间(二)μy/x和单个y观测值置信区间图示(三)\n(一)a和b的置信区间\n(一)a和b的置信区间df=2\n(一)a和b的置信区间总体回归截距α的置信区间\n(一)a和b的置信区间总体回归系数β的置信区间\n\n95%的样本回归截距落在该区间内95%的样本回归系数落在该区间内\n(二)μy/x的置信区间和单个y的预测区间不包含随机误差由回归方程预测x为某一定值时y的观测值所在区间,则y观测值不仅受到y和b的影响,也受到随机误差的影响。\ny总体的平均数单个y值所在的区间x点估计(二)μy/x的置信区间和单个y的预测区间\ndf=n-2y总体的平均数单个y值所在的区间xy总体的平均数\n\n黏虫孵化历期平均温度为15℃时,历期天数为多少天(取95%置信概率)?\ndf=n-2y总体的平均数x单个y值所在的区间单个y值所在的区间\n\n某年的历期平均温度为15℃时,该年的历期天数为多少天(取95%置信概率)?\n(二)μy/x的置信区间和单个y的预测区间\n(三)μy/x和单个y观测值置信区间图示\n正比反比愈靠近x,对y总体平均值或单个y的估计值就愈精确,而增大样本含量,扩大x的取值范围亦可提高精确度。\n作回归分析时要有实际意义。直线回归注意问题不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。\n进行直线回归分析之前,绘制散点图。直线回归注意问题当观察点的分布有直线趋势时,才适宜作直线回归分析。散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的a和b的估计产生较大的影响。因此,需要复查此异常点的值。\n直线回归的适应范围一般以自变量的取值为限。直线回归注意问题在自变量范围内求出的估计值,一般称为内插(interpolation);超过自变量取值范围所计算出的估计值,称为外延(extrapolation)。若无充分理由证明超过自变量取值范围还是直线,应该避免外延。\n描述两变量间的依存关系。直线回归的应用\n利用回归关系进行预测(forecast)。直线回归的应用将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体y值容许区间方法计算。\n回归方程进行统计控制(statisticalcontrol).直线回归的应用NO2浓度Y(NO2浓度,mg/m3)=-0.064866+0.000133x(车流量,辆/小时)^\n第三节:直线相关LinearCorrelation一、相关系数和决定系数二、相关系数的假设检验三、相关系数的区间估计\n一、相关系数和决定系数xy线性关系了解x和y相关以及相关的性质相关系数\n相关类型正相关负相关零相关\nIIIIIIIVIIIIIIIVIIIIIIIV\nIIIIIIIV正相关\nIIIIIIIV正相关IIIIIIIV负相关\nIIIIIIIV零相关\n直线相关的两个变量的相关程度和性质乘积和互变量(1)单位问题(2)x与y本身的变异不影响x与y之间的相关性?n\nr\n两个变量的变异程度两个变量的度量单位两个变量的个数r可以用来比较不同双变量的相关程度和性质。\n样本总体\n两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分相关回归区别联系\n决定系数coefficientofdetermination\n变量x引起y变异的回归平方和占y总变异平方和的比率当SSy固定时,回归平方和U的大小取决于r2。回归平方和U是由于引入了相关变量而使总平方和SSy减少的部分。说明引入相关的效果好\n\n用y可以准确预测y值x与y完全相关。完全正相关完全负相关散点图上所有点必在一条直线上。\n回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。IIIIIIIV\nx的线性函数对预测y值的变化有一定作用,但不能准确预测,说明y还受其他因素(包括随机误差)的影响。\n相关系数(r)和决定系数(r2)的区别(1)除去r=1和0的情况外,r2
相关文章
- 当前文档收益归属上传用户