- 2022-08-24 发布 |
- 37.5 KB |
- 138页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学(预备知识)
成绩评定总成绩=平时成绩×30%+期末考试×70%平时成绩出勤情况上机完成实验报告情况\n有关上机问题上机地点老图书馆底楼机房上机时间待定\n要求先修课程:高等数学、概率论与数理统计、统计学原理教材:《应用多元统计学与SPSS应用》参考书:《实用多元统计分析》方开泰编著.华东师范大学出版社,1989《多元统计分析与应用》余锦华,杨维权著.中山大学出版社,2005《现代统计分析方法与应用(第二版)》何晓群著.人民大学出版社,2007《21世纪统计学系列教材-多元统计分析》何晓群著.人民大学出版社,2008《SPSS11统计分析教程》张文彤著.希望电子出版社,2002《统计分析与SPSS的应用(第二版)》薛薇著.人民大学出版社,2008《SPSS16实用教程》宋志刚等著,人民邮电出版社,2008\n应用统计学研究的问题研究不同行业的服务质量是否有一定的差异性,消费者协会在四不同行业分别抽取了不同的企业作为样本,记录他们的投诉次数。通过投诉次数的研究来探讨服务质量的差异性研究某公司各地区分店的销售额与广告支出、所在地区的人口数、人均收入、及所处的地理位置之间的关系奥林匹克十项全能:百米跑、跳远、铅球、跳高、400米跑、百米跨栏、铁饼、撑杆跳远、标枪、1500米跑。如果可以获取运动员的比赛成绩,就可以研究问题:十项全能所包括的运动技能可概括为几项?这几项分别涉及到运动员的哪几项基本运动技能?十项全能可压缩为哪几个项目?\n应用统计学的内容《应用统计学》也称为多元统计分析,简称多元分析,是统计学的一个重要分支,也是近三、四十年迅速发展的一个分支,它是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。本课程介绍常用的各种多元统计分析方法,包括方差分析、正交试验设计、回归分析、聚类分析、判别分析、主成分分析、因子分析等方法。通过对所考虑的包括多个变量的统计问题进行分析,以了解各变量的关系、建立合理的模型等。\n应用统计学的目标通过本课程的学习,系统地了解多元统计分析的基本概念和基本原理,掌握一些常用的多元统计思想和统计方法;结合上机实习学会利用统计软件(SPSS)进行数据处理和统计分析;侧重于多元统计分析方法的应用,掌握应用多元统计学解决实际问题的主要环节和方法,并能灵活应用于科学研究、生产和经营管理中。\n概率论与数理统计的区别概率论的特点:先从一个数学模型出发,比如已知随机变量的分布,然后去研究它的性质、特点和规律性;数理统计的特点:观测随机现象所得到的数据,利用这些资料选择或检验数学模型,并对所考察的问题作出推断或预测,即靠抽验得到的数据来推断整体的情况,主要任务是统计推断,包括:参数估计和假设检验。\n数理统计与应用统计的区别数理统计理论统计学指统计学的数学原理,它主要研究统计学的一般理论和统计方法的数学理论。应用统计研究如何应用统计方法去解决实际问题\n说明统计学实际上是介于理性思维和艺术思维之间的一个学科,不同于具有严密逻辑思维的数学“统计不是1+1=2的问题,而是1+1≈2的问题。”统计学的目的,不单单是给出人们解决问题的一般可操作性方法,重要的是能够比较所用方法的好坏。统计推断的结论,不保证其结论是百分之百的自然规律,但能证明他们的行为是现有资料下的可以采取的最佳行为同一个研究问题运用不同的统计方法得到的结论可能并不相同;同一个研究问题采用了同一种统计方法,对于不同的数据得到的结论也可能不相同。所以,统计方法所提供的结论仅是一种参考,最终的结论要结合现象本身的特点来考虑。\n统计应用的两个极端不懂或不太懂统计的人认为统计没什么用,他们因为不懂统计而瞧不起统计,他们不用或几乎不用统计方法分析数据,即使做些统计分析,也往往是表面上的把简单问题复杂化,特别是在管理领域把本来可以用简单方法解决的问题故意复杂化为证明管理的科学性,建立一个别人看不懂的模型,编一大堆程序,输出了一大堆数字和符号得出用统计语言陈述的结论,提出一些似是而非的建议……\n统计的误用与滥用大约在一个世纪以前,政治家BenjaminDisraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计”。他还说:“图并没有说谎,是说谎者在画图”历史学家AndrewLang说,一些人使用统计“就像喝醉酒的人使用街灯柱—支撑的功能多于照明”统计滥用不好的样本过小的样本误导性图表局部描述故意曲解False\n统计学的理念统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。统计学只是一个工具,各种统计软件更是工具的工具,不要指望它能够“自动”的解决你面临的商业问题要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果\n如何学好统计学学会“如何做统计思考”“多一些数据和观念,少一点公式和推导过程”-美国统计协会和美国数学学会的联合课程委员会领悟统计思想,注意统计学处理问题思维方式的艺术性掌握统计应用在各种情境下的一般方法结合统计软件强化统计方法的应用注意结论的合理解释。一方面要结合统计知识,另一方面要结合研究专业知识。\n概率论与数理统计(复习)\n概率论和概率分布\n主要内容随机现象、随机试验、随机事件、样本空间事件的概率条件概率和概率的基本公式随机变量、离散型随机变量连续型随机变量多维随机变量大数定律和中心极限定理概率论——研究和揭示随机现象的统计规律性的科学。\n概率与频率频率事件发生频繁程度的变量频率是随着试验的变化而变化概率事件在试验中出现可能性大小的数值度量,取值范围为0到1之间。概率是唯一的、客观存在的随着试验次数的无限增大,频率越来越接近于概率\n抛硬币试验实验者掷硬币的次数正面出现次数正面出现频率Buffon404020480.5069Pearson1270060190.5016Pearson24000120120.5005\n概率之间关系\n随机事件与随机变量随机变量的引入是对随机事件的抽象对随机事件的研究可以转化为对随机变量的研究,可以借助于高等数学的知识离散随机变量与连续随机变量的数学处理方法实质上是一致的\n抛硬币的试验中出现正面的事件可以表示为:出现正面出现反面\n随机变量及其分布随机变量与分布的研究类似于高等数学中变量与函数的研究函数的研究着重讨论六大类基本初等函数,随机分布的研究则讨论其常用分布\n理论分布与统计分布理论分布也称为概率分布统计分布也称为频率分布由概率与频率的关系,得知:理论分布是客观存在的,反映了随机事件发生的概率的一般规律;频率分布是现实的反映,随着试验的变化而变化\n随机变量的理论分布离散随机变量概率分布、分布函数连续随机变量概率密度、分布函数\n随机变量的数字特征数学期望离散随机变量连续随机变量方差离散随机变量连续随机变量矩(原点距、中心距)\n样本的数字特征样本均值样本方差样本矩样本均值与样本方差是统计中的两大类指标\n\n常用分布及其数学期望与方差名称及记号概率分布数学期望方差“0-1”分布X=0,1(0<p<1)ppq二项分布B(n,p)X=0,1,…,n(0<p<1)npnpq超几何分布H(n,M,N)X=0,1,…min(n,M)(0≤M≤N,0≤n≤N)泊松分布P(λ)X=0,1,…(λ>0)λλ几何分布G(p)X=1,2…(0<p<1)\n常用分布及其数学期望与方差名称及记号概率密度数学期望方差均匀分布U(0,1)a≤x≤bx<a或x>b正态分布N(μ,σ)-∞<x<+∞μσ2指数分布e(λ)x>0x≤0(λ>0)\n多维随机变量联合分布(讨论多个随机变量的共同分布)边缘概率(分布)(讨论单个随机变量的分布)条件概率(分布)(讨论在已知某个随机变量的前提下其他随机变量的分布)随机变量的独立性(讨论随机变量之间的联系)\n多维随机变量的数字特征数学期望方差矩相关系数\n大数定律与中心极限定理大数定律:观测值的算术平均值的稳定性频率的稳定性——概率小概率事件实际不可能性原理中心极限定理:随机变量和的极限分布是正态分布\n数理统计\n统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差等\n推断性统计推断性统计是根据样本的信息,对总体的特征作出推断,是“从现象到本质的认识过程”估计理论和方法、检验理论和方法是推断统计的两个重要组成部分\n数理统计的基本知识简单随机抽样样本分布函数的建立统计量的概念统计中的常用分布正态总体统计量的分布\n简单随机抽样(独立同分布)满足:等可能性----总体中每个样本被选中的可能性是相同的独立性----每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样的结果的影响则这种抽样方法为简单随机抽样。\n样本分布函数的建立设(X1,X2,…,Xn)是从总体X中抽取的一个容量为n的样本,将其样本值x1,x2,…xn按递增次序排列,得x(1)≤x(2)≤……≤x(n)当x≤x(1)……..x(k)<x≤x(k+1)(k=1,…n-1)…….x>x(n)\n统计量的概念设样本(X1,X2,…Xn)的函数f(X1,X2,…Xn)中不含有任何未知参数,则称这样的函数为统计量。统计量是估计和检验的基础常用统计量:样本均值样本方差抽样分布:统计量的分布\n统计中的常用分布(1)名称及记号概率密度数学期望方差χ2分布χ2(k)x>0x≤0k2k正态分布N(μ,σ)μσ2t分布t(k)0(n>1)n/n-2(n>2)\n统计中的常用分布(2)名称及记号F分布F(k1,k2)概率密度x>0x≤0数学期望k2>2方差k2>4\n正态总体统计量的分布设(X1,X2,…,Xn)是从总体中抽取的一个容量为n的样本\n参数估计1、参数估计:根据样本给出参数的估计值,即选定一个统计量,然后用样本值代入,算出该统计量的值。2、参数估计的提法已知总体分布类型,只是其中一个或几个参数未知,这时只要求出这些参数值来,总体分布就可以完全确定;关心的不是分布类型,而是某些数字特征,如期望、方差等等。3、参数估计的方式:点估计和区间估计4、点估计量的求法:矩估计法和极大似然估计法5、估计量的评选标准:无偏性、有效性、相合性6、区间估计包括:数学期望和方差的置信区间估计\n参数估计估计量点估计区间估计\n1.估计量:用于估计总体参数的样本统计量是一个随机变量如样本均值,样本比例、样本方差等例如:样本均值就是总体均值的一个估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是总体均值的估计值估计量与估计值\n估计量的优良标准无偏性一致性有效性\n无偏性如果样本统计量的期望值等于该统计量所估计的总体参数,则这个估计量为无偏估计量P()BA无偏有偏\n有效性对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布P()\n一致性随着样本容量的增大,如果估计量的值越来越接近被估计的总体参数,称这个估计量为一致估计AB较小的样本容量较大的样本容量P()\n常用估计量\n点估计法2.主要方法矩法:样本矩等于总体矩准则极大似然法:使似然函数(即样本的联合分布函数)最大准则最小二乘法:距离平方和最小准则没有给出估计值接近总体参数程度的信息1.用样本的估计量直接作为总体参数的估计值-例如:用样本均值直接作为总体均值的估计\n区间估计区间估计的原理总体均值的区间估计两个总体均值之差的区间估计样本容量的确定正态总体方差与两个正态总体方差之比的区间估计\n区间估计1.在点估计的基础上,给出总体参数估计的一个区间范围2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限\n区间估计的原理\n置信区间与置信水平均值的抽样分布(1-)%区间包含了%的区间未包含1-aa/2a/21-aa/2\n1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平2.表示为(1-为是总体参数未在区间内的比例3.常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平\n1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间\n置信区间的表述(95%的置信区间)从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间我没有抓住参数!点估计值\n区间估计的图示X95%的置信水平-1.96x+1.96x99%的置信水平-2.58x+2.58x90%的置信水平-1.65x+1.65x\n区间估计的步骤\n影响区间宽度的因素1.总体数据的离散程度,用来测度2.样本容量,3.置信水平(1-),影响z的大小\n区间估计的常见形式1.一个总体参数的区间估计均值、比例、方差2.两个总体参数的区间估计均值差、比例差、方差比\n一个总体参数的区间估计(1)\n一个总体参数的区间估计(2)结论:1.总体均值的置信区间样本均值±分位数值×样本均值的标准误差2.总体比例的置信区间样本比例±分位数值×样本比例的标准误差3.总体方差的置信区间\n总体均值的区间估计(1)样本取自正态分布总体,且σ2已知:\n总体均值的区间估计(2)样本取自非正态分布总体,且σ2已知:(大样本情况)\n总体均值的区间估计(3)样本取自非正态分布总体,且σ2未知:(大样本情况)\n总体均值的区间估计(4)样本取自非正态分布总体,且σ2未知:(小样本情况)\n总体均值和比例的区间估计(图示)xt分布与标准正态分布的比较t分布标准正态分布Z\n总体方差的区间估计(图示)221-2总体方差的1-的置信区间自由度为n-1的2\n两个总体参数的区间估计形式总体参数符号表示样本统计量均值差比例差方差比\n两个总体参数的区间估计\n两个总体参数的区间估计(2)结论:1.总体均值差的置信区间(x1-x2)±分位数值×(x1-x2)±的标准误差2.总体比例差的置信区间(p1-p2)±分位数值×(p1-p2)的标准误差3.总体方差的置信区间\n两个总体均值之差的区间估计(1)两个正态总体,而且σ1、σ2已知:\n两个总体均值之差的区间估计(2)两个正态总体,而且σ1、σ2未知,但σ1=σ2:\n两个总体均值之差的区间估计(3)两个正态总体,而且σ1、σ2未知,但σ1≠σ2:\n两个总体均值之差的区间估计(4)两个非正态总体,且方差未知(大样本情况):\n样本容量的确定决定样本大小的因素总体方差数值大小可靠性程度的高低允许误差的大小\n估计总体均值时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:\n估计总体比例时样本容量的确定在重复抽样的条体下:在不重复抽样的条体下:\n估计总体均值时样本容量的确定(例题分析)【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?\n估计总体均值时样本容量的确定(例题分析)解:已知=2000,,1-=95%,z/2=1.9612/22置信度为90%的置信区间为即应抽取97人作为样本\n假设检验假设检验的基本问题总体均值的假设检验两个总体的均值的假设检验总体方差的假设检验配对样本的t检验\n假设检验的基本问题假设检验的基本原理两类错误显著水平双侧检验与单侧检验假设检验的一般程序假设检验中的p-值(相伴概率)\n假设检验1、假设检验:先把一些结论当作某种假设,然后选取适当的统计量,再根据实测资料的具体值对假设进行检验,判断是否可以认为假设是成立的,从而得出有关结论。2、采用逻辑上的反证法,依据统计上的小概率原理3、类型可分为:参数检验和非参数检验参数检验:如果总体分布函数的类型已知,检验的目的是为了对总体的参数及有关性质作出判断;非参数检验:如果总体分布的类型不确定(或完全未知),检验的目的是作出一般性论断(如分布属于某种类型;两变量是独立的;两分布是相同的,等等)。\n假设检验的基本思想...因此我们拒绝假设=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20\n总体假设检验的过程抽取随机样本均值X=20我认为人口的平均年龄是50岁提出假设拒绝假设!别无选择.作出决策\n假设检验的基本内容假设检验的规则就是把随机变量取值区间划分为两个互不相交的部分,即拒绝区域与接受区域。当样本的某个统计量属于拒绝区域时,将拒绝原假设。落入拒绝区域的概率,就是小概率,一般用显著性水平表示。\n提出假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策假设检验的步骤\n提出原假设和备择假设什么是原假设?1.待检验的假设,又称“0假设”2.研究者想收集证据予以反对(不能轻易拒绝)的假设3.总是有等号,或4.表示为H0H0:某一数值指定为=号,即或例如,H0:3190(克)\n什么是备择假设?1.与原假设对立的假设,也称“研究假设”2.研究者想收集证据予以支持的假设总是有不等号:,或3.表示为H1H1:<某一数值,或某一数值例如,H1:<3910(克),或3910(克)提出原假设和备择假设\n假设检验中的小概率原理什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定\n假设检验中的两类错误1.第一类错误(弃真错误)原假设为真时拒绝原假设会产生一系列后果第一类错误的概率为被称为显著性水平2.第二类错误(取伪错误)原假设为假时接受原假设第二类错误的概率为\nH0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H0正确决策(1–a)第二类错误(b)拒绝H0第一类错误(a)正确决策(1-b)假设检验就好像一场审判过程统计检验过程\n错误和错误的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小\n显著性水平1.显著性水平是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为常用的值有0.01,0.05,0.104.由研究者事先确定\n双侧检验与单侧检验-假设的形式假设研究的问题双侧检验左侧检验右侧检验H0m=m0mm0mm0H1m≠m0m查看更多