应用统计学(预备知识)

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

应用统计学(预备知识)

成绩评定总成绩=平时成绩×30%+期末考试×70%平时成绩出勤情况上机完成实验报告情况\n有关上机问题上机地点老图书馆底楼机房上机时间待定\n要求先修课程:高等数学、概率论与数理统计、统计学原理教材:《应用多元统计学与SPSS应用》参考书:《实用多元统计分析》方开泰编著.华东师范大学出版社,1989《多元统计分析与应用》余锦华,杨维权著.中山大学出版社,2005《现代统计分析方法与应用(第二版)》何晓群著.人民大学出版社,2007《21世纪统计学系列教材-多元统计分析》何晓群著.人民大学出版社,2008《SPSS11统计分析教程》张文彤著.希望电子出版社,2002《统计分析与SPSS的应用(第二版)》薛薇著.人民大学出版社,2008《SPSS16实用教程》宋志刚等著,人民邮电出版社,2008\n应用统计学研究的问题研究不同行业的服务质量是否有一定的差异性,消费者协会在四不同行业分别抽取了不同的企业作为样本,记录他们的投诉次数。通过投诉次数的研究来探讨服务质量的差异性研究某公司各地区分店的销售额与广告支出、所在地区的人口数、人均收入、及所处的地理位置之间的关系奥林匹克十项全能:百米跑、跳远、铅球、跳高、400米跑、百米跨栏、铁饼、撑杆跳远、标枪、1500米跑。如果可以获取运动员的比赛成绩,就可以研究问题:十项全能所包括的运动技能可概括为几项?这几项分别涉及到运动员的哪几项基本运动技能?十项全能可压缩为哪几个项目?\n应用统计学的内容《应用统计学》也称为多元统计分析,简称多元分析,是统计学的一个重要分支,也是近三、四十年迅速发展的一个分支,它是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。本课程介绍常用的各种多元统计分析方法,包括方差分析、正交试验设计、回归分析、聚类分析、判别分析、主成分分析、因子分析等方法。通过对所考虑的包括多个变量的统计问题进行分析,以了解各变量的关系、建立合理的模型等。\n应用统计学的目标通过本课程的学习,系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法;结合上机实习学会利用统计软件(SPSS)进行数据处理和统计分析;侧重于多元统计分析方法的应用,掌握应用多元统计学解决实际问题的主要环节和方法,并能灵活应用于科学研究、生产和经营管理中。\n概率论与数理统计的区别概率论的特点:先从一个数学模型出发,比如已知随机变量的分布,然后去研究它的性质、特点和规律性;数理统计的特点:观测随机现象所得到的数据,利用这些资料选择或检验数学模型,并对所考察的问题作出推断或预测,即靠抽验得到的数据来推断整体的情况,主要任务是统计推断,包括:参数估计和假设检验。\n数理统计与应用统计的区别数理统计理论统计学指统计学的数学原理,它主要研究统计学的一般理论和统计方法的数学理论。应用统计研究如何应用统计方法去解决实际问题\n说明统计学实际上是介于理性思维和艺术思维之间的一个学科,不同于具有严密逻辑思维的数学“统计不是1+1=2的问题,而是1+1≈2的问题。”统计学的目的,不单单是给出人们解决问题的一般可操作性方法,重要的是能够比较所用方法的好坏。统计推断的结论,不保证其结论是百分之百的自然规律,但能证明他们的行为是现有资料下的可以采取的最佳行为同一个研究问题运用不同的统计方法得到的结论可能并不相同;同一个研究问题采用了同一种统计方法,对于不同的数据得到的结论也可能不相同。所以,统计方法所提供的结论仅是一种参考,最终的结论要结合现象本身的特点来考虑。\n统计应用的两个极端不懂或不太懂统计的人认为统计没什么用,他们因为不懂统计而瞧不起统计,他们不用或几乎不用统计方法分析数据,即使做些统计分析,也往往是表面上的把简单问题复杂化,特别是在管理领域把本来可以用简单方法解决的问题故意复杂化为证明管理的科学性,建立一个别人看不懂的模型,编一大堆程序,输出了一大堆数字和符号得出用统计语言陈述的结论,提出一些似是而非的建议……\n统计的误用与滥用大约在一个世纪以前,政治家BenjaminDisraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计”。他还说:“图并没有说谎,是说谎者在画图”历史学家AndrewLang说,一些人使用统计“就像喝醉酒的人使用街灯柱—支撑的功能多于照明”统计滥用不好的样本过小的样本误导性图表局部描述故意曲解False\n统计学的理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。统计学只是一个工具,各种统计软件更是工具的工具,不要指望它能够“自动”的解决你面临的商业问题要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果\n如何学好统计学学会“如何做统计思考”“多一些数据和观念,少一点公式和推导过程”-美国统计协会和美国数学学会的联合课程委员会领悟统计思想,注意统计学处理问题思维方式的艺术性掌握统计应用在各种情境下的一般方法结合统计软件强化统计方法的应用注意结论的合理解释。一方面要结合统计知识,另一方面要结合研究专业知识。\n概率论与数理统计(复习)\n概率论和概率分布\n主要内容随机现象、随机试验、随机事件、样本空间事件的概率条件概率和概率的基本公式随机变量、离散型随机变量连续型随机变量多维随机变量大数定律和中心极限定理概率论——研究和揭示随机现象的统计规律性的科学。\n概率与频率频率事件发生频繁程度的变量频率是随着试验的变化而变化概率事件在试验中出现可能性大小的数值度量,取值范围为0到1之间。概率是唯一的、客观存在的随着试验次数的无限增大,频率越来越接近于概率\n抛硬币试验实验者掷硬币的次数正面出现次数正面出现频率Buffon404020480.5069Pearson1270060190.5016Pearson24000120120.5005\n概率之间关系\n随机事件与随机变量随机变量的引入是对随机事件的抽象对随机事件的研究可以转化为对随机变量的研究,可以借助于高等数学的知识离散随机变量与连续随机变量的数学处理方法实质上是一致的\n抛硬币的试验中出现正面的事件可以表示为:出现正面出现反面\n随机变量及其分布随机变量与分布的研究类似于高等数学中变量与函数的研究函数的研究着重讨论六大类基本初等函数,随机分布的研究则讨论其常用分布\n理论分布与统计分布理论分布也称为概率分布统计分布也称为频率分布由概率与频率的关系,得知:理论分布是客观存在的,反映了随机事件发生的概率的一般规律;频率分布是现实的反映,随着试验的变化而变化\n随机变量的理论分布离散随机变量概率分布、分布函数连续随机变量概率密度、分布函数\n随机变量的数字特征数学期望离散随机变量连续随机变量方差离散随机变量连续随机变量矩(原点距、中心距)\n样本的数字特征样本均值样本方差样本矩样本均值与样本方差是统计中的两大类指标\n\n常用分布及其数学期望与方差名称及记号概率分布数学期望方差“0-1”分布X=0,1(0<p<1)ppq二项分布B(n,p)X=0,1,…,n(0<p<1)npnpq超几何分布H(n,M,N)X=0,1,…min(n,M)(0≤M≤N,0≤n≤N)泊松分布P(λ)X=0,1,…(λ>0)λλ几何分布G(p)X=1,2…(0<p<1)\n常用分布及其数学期望与方差名称及记号概率密度数学期望方差均匀分布U(0,1)a≤x≤bx<a或x>b正态分布N(μ,σ)-∞<x<+∞μσ2指数分布e(λ)x>0x≤0(λ>0)\n多维随机变量联合分布(讨论多个随机变量的共同分布)边缘概率(分布)(讨论单个随机变量的分布)条件概率(分布)(讨论在已知某个随机变量的前提下其他随机变量的分布)随机变量的独立性(讨论随机变量之间的联系)\n多维随机变量的数字特征数学期望方差矩相关系数\n大数定律与中心极限定理大数定律:观测值的算术平均值的稳定性频率的稳定性——概率小概率事件实际不可能性原理中心极限定理:随机变量和的极限分布是正态分布\n数理统计\n统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等\n推断性统计推断性统计是根据样本的信息,对总体的特征作出推断,是“从现象到本质的认识过程”估计理论和方法、检验理论和方法是推断统计的两个重要组成部分\n数理统计的基本知识简单随机抽样样本分布函数的建立统计量的概念统计中的常用分布正态总体统计量的分布\n简单随机抽样(独立同分布)满足:等可能性----总体中每个样本被选中的可能性是相同的独立性----每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样的结果的影响则这种抽样方法为简单随机抽样。\n样本分布函数的建立设(X1,X2,…,Xn)是从总体X中抽取的一个容量为n的样本,将其样本值x1,x2,…xn按递增次序排列,得x(1)≤x(2)≤……≤x(n)当x≤x(1)……..x(k)<x≤x(k+1)(k=1,…n-1)…….x>x(n)\n统计量的概念设样本(X1,X2,…Xn)的函数f(X1,X2,…Xn)中不含有任何未知参数,则称这样的函数为统计量。统计量是估计和检验的基础常用统计量:样本均值样本方差抽样分布:统计量的分布\n统计中的常用分布(1)名称及记号概率密度数学期望方差χ2分布χ2(k)x>0x≤0k2k正态分布N(μ,σ)μσ2t分布t(k)0(n>1)n/n-2(n>2)\n统计中的常用分布(2)名称及记号F分布F(k1,k2)概率密度x>0x≤0数学期望k2>2方差k2>4\n正态总体统计量的分布设(X1,X2,…,Xn)是从总体中抽取的一个容量为n的样本\n参数估计1、参数估计:根据样本给出参数的估计值,即选定一个统计量,然后用样本值代入,算出该统计量的值。2、参数估计的提法已知总体分布类型,只是其中一个或几个参数未知,这时只要求出这些参数值来,总体分布就可以完全确定;关心的不是分布类型,而是某些数字特征,如期望、方差等等。3、参数估计的方式:点估计和区间估计4、点估计量的求法:矩估计法和极大似然估计法5、估计量的评选标准:无偏性、有效性、相合性6、区间估计包括:数学期望和方差的置信区间估计\n参数估计估计量点估计区间估计\n1.估计量:用于估计总体参数的样本统计量是一个随机变量如样本均值,样本比例、样本方差等例如:样本均值就是总体均值的一个估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是总体均值的估计值估计量与估计值\n估计量的优良标准无偏性一致性有效性\n无偏性如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量为无偏估计量P()BA无偏有偏\n有效性对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布P()\n一致性随着样本容量的增大,如果估计量的值越来越接近被估计的总体参数,称这个估计量为一致估计AB较小的样本容量较大的样本容量P()\n常用估计量\n点估计法2.主要方法矩法:样本矩等于总体矩准则极大似然法:使似然函数(即样本的联合分布函数)最大准则最小二乘法:距离平方和最小准则没有给出估计值接近总体参数程度的信息1.用样本的估计量直接作为总体参数的估计值-例如:用样本均值直接作为总体均值的估计\n区间估计区间估计的原理总体均值的区间估计两个总体均值之差的区间估计样本容量的确定正态总体方差与两个正态总体方差之比的区间估计\n区间估计1.在点估计的基础上,给出总体参数估计的一个区间范围2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限\n区间估计的原理\n置信区间与置信水平均值的抽样分布(1-)%区间包含了%的区间未包含1-aa/2a/21-aa/2\n1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平2.表示为(1-为是总体参数未在区间内的比例3.常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平\n1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间\n置信区间的表述(95%的置信区间)从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间我没有抓住参数!点估计值\n区间估计的图示X95%的置信水平-1.96x+1.96x99%的置信水平-2.58x+2.58x90%的置信水平-1.65x+1.65x\n区间估计的步骤\n影响区间宽度的因素1.总体数据的离散程度,用来测度2.样本容量,3.置信水平(1-),影响z的大小\n区间估计的常见形式1.一个总体参数的区间估计均值、比例、方差2.两个总体参数的区间估计均值差、比例差、方差比\n一个总体参数的区间估计(1)\n一个总体参数的区间估计(2)结论:1.总体均值的置信区间样本均值±分位数值×样本均值的标准误差2.总体比例的置信区间样本比例±分位数值×样本比例的标准误差3.总体方差的置信区间\n总体均值的区间估计(1)样本取自正态分布总体,且σ2已知:\n总体均值的区间估计(2)样本取自非正态分布总体,且σ2已知:(大样本情况)\n总体均值的区间估计(3)样本取自非正态分布总体,且σ2未知:(大样本情况)\n总体均值的区间估计(4)样本取自非正态分布总体,且σ2未知:(小样本情况)\n总体均值和比例的区间估计(图示)xt分布与标准正态分布的比较t分布标准正态分布Z\n总体方差的区间估计(图示)221-2总体方差的1-的置信区间自由度为n-1的2\n两个总体参数的区间估计形式总体参数符号表示样本统计量均值差比例差方差比\n两个总体参数的区间估计\n两个总体参数的区间估计(2)结论:1.总体均值差的置信区间(x1-x2)±分位数值×(x1-x2)±的标准误差2.总体比例差的置信区间(p1-p2)±分位数值×(p1-p2)的标准误差3.总体方差的置信区间\n两个总体均值之差的区间估计(1)两个正态总体,而且σ1、σ2已知:\n两个总体均值之差的区间估计(2)两个正态总体,而且σ1、σ2未知,但σ1=σ2:\n两个总体均值之差的区间估计(3)两个正态总体,而且σ1、σ2未知,但σ1≠σ2:\n两个总体均值之差的区间估计(4)两个非正态总体,且方差未知(大样本情况):\n样本容量的确定决定样本大小的因素总体方差数值大小可靠性程度的高低允许误差的大小\n估计总体均值时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:\n估计总体比例时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:\n估计总体均值时样本容量的确定(例题分析)【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?\n估计总体均值时样本容量的确定(例题分析)解:已知=2000,,1-=95%,z/2=1.9612/22置信度为90%的置信区间为即应抽取97人作为样本\n假设检验假设检验的基本问题总体均值的假设检验两个总体的均值的假设检验总体方差的假设检验配对样本的t检验\n假设检验的基本问题假设检验的基本原理两类错误显著水平双侧检验与单侧检验假设检验的一般程序假设检验中的p-值(相伴概率)\n假设检验1、假设检验:先把一些结论当作某种假设,然后选取适当的统计量,再根据实测资料的具体值对假设进行检验,判断是否可以认为假设是成立的,从而得出有关结论。2、采用逻辑上的反证法,依据统计上的小概率原理3、类型可分为:参数检验和非参数检验参数检验:如果总体分布函数的类型已知,检验的目的是为了对总体的参数及有关性质作出判断;非参数检验:如果总体分布的类型不确定(或完全未知),检验的目的是作出一般性论断(如分布属于某种类型;两变量是独立的;两分布是相同的,等等)。\n假设检验的基本思想...因此我们拒绝假设=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20\n总体假设检验的过程抽取随机样本均值X=20我认为人口的平均年龄是50岁提出假设拒绝假设!别无选择.作出决策\n假设检验的基本内容假设检验的规则就是把随机变量取值区间划分为两个互不相交的部分,即拒绝区域与接受区域。当样本的某个统计量属于拒绝区域时,将拒绝原假设。落入拒绝区域的概率,就是小概率,一般用显著性水平表示。\n提出假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策假设检验的步骤\n提出原假设和备择假设什么是原假设?1.待检验的假设,又称“0假设”2.研究者想收集证据予以反对(不能轻易拒绝)的假设3.总是有等号,或4.表示为H0H0:某一数值指定为=号,即或例如,H0:3190(克)\n什么是备择假设?1.与原假设对立的假设,也称“研究假设”2.研究者想收集证据予以支持的假设总是有不等号:,或3.表示为H1H1:<某一数值,或某一数值例如,H1:<3910(克),或3910(克)提出原假设和备择假设\n假设检验中的小概率原理什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定\n假设检验中的两类错误1.第一类错误(弃真错误)原假设为真时拒绝原假设会产生一系列后果第一类错误的概率为被称为显著性水平2.第二类错误(取伪错误)原假设为假时接受原假设第二类错误的概率为\nH0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H0正确决策(1–a)第二类错误(b)拒绝H0第一类错误(a)正确决策(1-b)假设检验就好像一场审判过程统计检验过程\n错误和错误的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小\n显著性水平1.显著性水平是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为常用的值有0.01,0.05,0.104.由研究者事先确定\n双侧检验与单侧检验-假设的形式假设研究的问题双侧检验左侧检验右侧检验H0m=m0mm0mm0H1m≠m0mm0\n双侧检验-显著性水平与拒绝域抽样分布H0值临界值临界值a/2a/2样本统计量拒绝域拒绝域1-置信水平观察到的样本统计量\n单侧检验(原假设与备择假设的确定)1.将研究者想收集证据予以支持的假设作为备择假设H1例如,一个研究者总是想证明自己的研究结论是正确的一个销售商总是想证明供货商的说法是不正确的备择假设的方向与想要证明其正确性的方向一致2.将研究者想收集证据证明其不正确的假设作为原假设H03.先确立备择假设H1\n单侧检验(原假设与备择假设的确定)一项研究表明,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上。检验这一结论是否成立研究者总是想证明自己的研究结论(寿命延长)是正确的-备择假设的方向为“>”(寿命延长)-建立的原假设与备择假设应为H0:μ≤1500H1:μ>1500\n单侧检验(原假设与备择假设的确定)一项研究表明,改进生产工艺后,会使产品的废品率降低到2%以下。检验这一结论是否成立-研究者总是想证明自己的研究结论(废品率降低)是正确的-备择假设的方向为“<”(废品率降低)-建立的原假设与备择假设应为H0:μ2%H1:μ<2%\n单侧检验(原假设与备择假设的确定)某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上。如果你准备进一批货,怎样进行检验?-检验权在进货方-作为进货方,你总是想收集证据证明生产商的说法(寿命在1000小时以上)是不正确的-备择假设的方向为“<”(寿命不足1000小时)-建立的原假设与备择假设应为H0:μ1000H1:μ<1000\n左侧检验-显著性水平与拒绝域H0值临界值a样本统计量拒绝域抽样分布1-置信水平\n右侧检验-显著性水平与拒绝域拒绝域观察到的样本统计量H0值临界值a样本统计量抽样分布1-置信水平\n假设检验中的P值\n什么是P值?是概率值,统计软件中常见的一个输出结果如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上小于等于检验统计量部分的面积右侧检验时,P-值为曲线上大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平H0能被拒绝的的最小值\n双侧检验的P值/2/2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值若p-值>/2,不拒绝H0若p-值</2,拒绝H0\n左侧检验的P值H0值临界值a样本统计量拒绝域抽样分布1-置信水平计算出的样本统计量P值若p-值>,不拒绝H0若p-值<,拒绝H0\n右侧检验的P值H0值临界值a拒绝域抽样分布1-置信水平计算出的样本统计量P值若p-值>,不拒绝H0若p-值<,拒绝H0\n假设检验的一般程序根据研究问题的需要提出假设,包括原假设H0和备择假设H1找出检验的统计量及其分布规定显著水平确定决策规则根据样本数据计算的统计值并由此作出决策\n小结:假设检验中的统计决策区间估计(对双侧检验比较方便)给出区间估计,考察该区间是否包含样本统计量的值,若不包含,拒绝原假设临界值法在给定显著性水平的条件下,找出临界值通过比较样本统计量的值与该临界值的大小关系,做出判断p-值法计算样本统计量的值,然后据此计算出p-值将p-值与给定的显著性水平进行比较,做出判断\n均值检验案例某邮递家具公司收到了许多客户关于不按期送货的投诉。该公司怀疑责任在于他们雇用的货物运输公司。货物运输公司的运输时间服从正态分布,且标准差为1.5天。该公司声称它们的平均运输时间不超过24天家具公司随机抽选50次运输记录,得知样本均值为24.9天试以0.01的显著性水平对货运公司的保证作出判断。\n①提出假设:原假设:Ho:μ≤24;备择假设:Ha:μ>24②统计量:由于总体标准差σ已知,所以可以选z作为统计量。又因为如果样本均值大于24,便拒绝原假设,则该检验是单侧检验。③确定显著性水平:根据题意可知显著性水平为a=0.01。\n④决策规则:根据显著性水平可得下图。从图中可以看出,临界值为2.33,所以,统计量绝对值如果大于2.33,则落入拒绝区域,需拒绝原假设。同样,如果统计量的P值小于a,则落入拒绝区域,需拒绝原假设。\n结果解释样本统计量的值单侧p-值=结论:拒绝原假设表明:运输公司的保证是不可信的,平均运输时间可能超过24天。假如总体均值为24,从随机抽取的50个样本中,得到的均值为24或更大,如此之高的样本均值是不可能用偶然因素来解释的。>2.33<0.01\n若取显著性水平a=0.05,则临界值为1.645,样本统计量的值4.24>1.645单侧p-值=1.105×10-5<0.05不同显著性水平对检验结果的影响显著性水平较小,拒绝原假设显著性水平较大,拒绝原假设p-值越小,越有充分的理由拒绝原假设\n总体均值的假设检验(1)正态总体且方差己知由于服从的正态分布,即Z=~N(0,1),则:1.显著水平α的Z的双侧检验(即)的拒绝域为\n2.显著水平α的Z的右侧检验(即)的拒绝域为:3.显著水平α的Z的左侧检验(即)的拒绝域为:\n两个总体的均值的假设检验(2)两个正态分布总体,未知,但:由于T=~t(n1+n2-2),其中,则:1.显著水平α的T的双侧检验(即)的拒绝域为\n2.显著水平α的T的右侧检验(即)的拒绝域为:3.显著水平α的T的左侧检验(即)的拒绝域为:\n两个总体的均值的假设检验(3)两个非正态总体,且方差未知(大样本情况)由于Z=~N(0,1),则:1.显著水平α的Z的双侧检验(即)的拒绝域为\n2.显著水平α的Z的右侧检验(即)的拒绝域为:3.显著水平α的Z的左侧检验(即)的拒绝域为:\n两个总体的均值的假设检验(4)两个正态分布总体未知,但:由于T=~t(df’),其中:自由度,则:1.显著水平α的T的双侧检验(即)的拒绝域为\n2.显著水平α的T的右侧检验(即)的拒绝域为:3.显著水平α的T的左侧检验(即)的拒绝域为:\n总体方差的假设检验(1)由于~χ2(n-1),则:1.显著水平α的的双侧检验(即)的拒绝域为2.显著水平α的的右侧检验(即)的拒绝域为:3.显著水平α的的左侧检验(即)的拒绝域为:\n总体方差的假设检验(2)由于F=~F(n1-1,n2-1),则:1.显著水平α的F的双侧检验(即)的拒绝域为2.显著水平α的F的右侧检验(即)的拒绝域为:3.显著水平α的F的左侧检验(即)的拒绝域为:\n-uα:下α分位数uα:上α分位数\n\n\n\n两个总体均值之差的检验(匹配样本的t检验)1.检验两个总体的均值配对或匹配重复测量(前/后)2.假定条件两个总体都服从正态分布如果不服从正态分布,可用正态分布来近似(n130,n230)\n匹配样本的t检验(假设的形式)假设研究的问题没有差异有差异总体1总体2总体1<总体2总体1总体2总体1>总体2H0mD=0mD0mD0H1mD0mD<0mD>0注:Di=X1i-X2i,对第i对观察值\n匹配样本的t检验(数据形式)观察序号样本1样本2差值1x11x21D1=x11-x212x12x22D1=x12-x22MMMMix1ix2iD1=x1i-x2iMMMMnx1nx2nD1=x1n-x2n\n匹配样本的t检验(检验统计量)样本差值均值样本差值标准差自由度df=nD-1统计量D0:假设的差值\n【例】一个以减肥为主要目标的健美俱乐部声称,参加其训练班至少可以使减肥者平均体重减重8.5kg以上。为了验证该宣称是否可信,调查人员随机抽取了10名参加者,得到他们的体重记录如下表:匹配样本的t检验(例题分析)在=0.05的显著性水平下,调查结果是否支持该俱乐部的声称?训练前94.5101110103.59788.596.5101104116.5训练后8589.5101.5968680.58793.593102单侧检验\n样本差值计算表训练前训练后差值Di94.5101110103.59788.596.5101104116.58589.5101.5968680.58793.5931029.511.58.57.51189.57.51114.5合计—98.5配对样本的t检验(例题分析)\n配对样本的t检验(例题分析)差值均值差值标准差\nH0:m1–m28.5H1:m1–m2<8.5a=0.05df=10-1=9临界值(s):检验统计量:决策:结论:在=0.05的水平上不拒绝H0不能认为该俱乐部的宣称不可信配对样本的t检验(例题分析)-1.833t0拒绝域.05
查看更多

相关文章

您可能关注的文档