- 2022-08-24 发布 |
- 37.5 KB |
- 317页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学ppt课件
2021/7/261在终极的分析中,一切知识都是历史在抽象的意义下,一切都是科学数学在理性的基础上,所有的判断都是统计学C.R.劳应用统计学\n2021/7/2621统计学是什么Statisticsisthescienceofcollecting,organizing,presenting,analyzing,andinterpretingnumericaldatatoassistinmakingmoreeffectivedecisions.统计学是关于下列活动的方法和程序:采集数据,例如问卷调查呈现数据,例如绘制图表概括数据,例如计算均值分析数据,例如区间估计做出决策,例如假设检验\n2021/7/263无处不在的统计在诺贝尔经济学获奖者中,2/3以上的研究成果与统计和定量分析有关。因此,著名经济学家萨缪尔森在其经典的教科书《经济学》12版中特别提到:“在许多与经济学有关的学科中,统计学是特别重要的”。1981年,首届国际《红楼梦》研讨会在美国召开,威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文。他从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。\n2021/7/264无处不在的统计(续)大仲马的作品多曲折感人,而他又多私生子。取笑讥讽他的人,往往把他的作品比作他的私生子。最使他头痛的是巴黎统计学会的秘书长李昂纳,这人是大仲马的朋友,每次举统计数字的例子,总是说大仲马的情妇和私生子有多少。有一年该统计学会开年会,大仲马估计,李昂纳又要大放厥词,说他的坏话了。于是他请求参加年会,获得了批准。果然不出大仲马所料,李昂纳又举他的情妇和私生子的例子。李昂纳报告完毕,请大仲马致词。一向不愿在大庭广众之下发表演讲的大仲马,这次却破例登台说:“所有统计数字都是撒谎的,包括有关本人的数字在内”。听众哄堂大笑。\n2021/7/265统计的应用学者不能离开统计而研究政治家不能离开统计而施政企业家不能离开统计而执业----马寅初\n2021/7/2662如何学统计学Cultivateyourstatisticalawarenessinyourdailylife.numericinformationonnewspaper,TVprogram,websReadsomegoodbooksonstatisticsbooksmagazinesPracticestatisticalskillsbyexercisesandcomputersoftware.ExcelSpssSas\n2021/7/2673教材及参考文献《应用统计学》,施金龙、吕洁,南京大学出版社,2005《统计学》,贾俊平、何晓群、金勇进,中国人民大学出版社,2002《统计学概论》,曾五一,首都经济贸易大学出版社,2003《统计学的世界》,戴维·S·穆尔,中信出版社,2003《TheBasicPracticeofStatistics》,DavidS.Moore,W.H.FreemanCompany出版社,2004\n2021/7/2684课程成绩评定期末书面考试成绩(70%)平时各项表现成绩(30%)课堂参与(10%)作业完成(20%)\n2021/7/2695课程主要内容第一章绪论第二章统计调查第三章统计整理第四章综合指标第五章变异与均衡指标第六章时间数列\n2021/7/2610课程主要内容(续)第七章指数第八章抽样分布第九章参数估计第十章假设检验第十一章方差分析第十二章相关分析\n2021/7/2611第一章绪论一、统计涵义二、统计工作三、统计资料四、统计科学那些默默无闻的统计学家们已经改变了我们的世界,不是由发现新的事实或技术,而是改变了我们推理和试验的方法,以及我们对这个世界的观念的形成方式。哈克英\n2021/7/2612一、统计涵义Statistics:(1)Numericdata,whenusedaspluralofstatistic.(2)Ascientificprocedureusedinthestudyandevaluationofnumericdata.统计:(1)统计工作(2)统计资料(3)统计科学\n2021/7/2613二、统计工作工作任务:调查、分析,服务、监督工作职能:信息,咨询,监督工作过程:设计,调查,整理,分析工作组织:集中、分散,综合、专业\n2021/7/2614三、统计资料数据计量:定类、定序,定距、定比。定类尺度是按照客观现象的某种属性对其进行分类。例如,人口按性别分为男女,用“1”表示男性,用“0”表示女性。定类尺度的主要数学特征是“=”或“≠”。定序尺度是对客观现象各类之间的等级差或顺序差的一种测度。例如,学生成绩可以分为优、良、中、及格和不及格等五类。定序尺度的主要数学特征是“<”或“>”。\n2021/7/2615数据计量定距尺度是对现象类别或次序之间间距的测度。定距尺度不但可以用数表示现象各类别的不同和顺序大小的差异,而且可以用确切的数值反映现象之间在量方面的差异。定距尺度使用的计量单位一般为实物单位(自然或物理)或者价值单位。定距尺度的主要数学特征是“+”或“–”。统计中的总量指标就是运用定距尺度计量的。定比尺度是在定距尺度的基础上,确定相应的比较基数,然后将两种相关的数加以对比而形成相对数(或平均数),用于反映现象的结构、比重、速度、密度等数量关系。例如,将一个企业创造的增加值与该企业的职工人数对比,计算全员劳动生产率,以此反映该企业的生产效率。定比尺度的主要数学特征是“×”或“÷”。\n2021/7/2616数据类型Quantitative(ormeasurement)dataQualitative(orcategorical)dataDiscretedata,Continuousdata横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。数据→信息→知识→智慧\n2021/7/2617四、统计科学1统计学发展简史2统计学对象方法3统计学基本概念\n2021/7/26181统计学发展简史英国(1690),威廉·配第,政治算术德国(1749),阿亨瓦尔,国势学比利时(19世纪中),凯特勒,数理统计德国(19世纪中),恩格尔,社会统计\n2021/7/2619理论统计学和应用统计学历经300多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。从横向看,各种统计学都具有上述共同点,因而能够形成一个学科“家族”。从纵向看,统计学方法应用于各种实质性科学,同它们相结合,产生了一系列专门领域的统计学。现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学;另一类是以各个不同领域的具体数量为研究对象的应用统计学。\n2021/7/2620统计学学科体系经济学社会学教育学其他社科物理学生物学医学其他理工农经济统计社会统计教育统计其他社科统计统计学物理统计生物统计医药统计其他理工农统计统计学家未必是经济学家,经济学家也未必是统计学家。但经济统计学家应当----既是统计学家又是经济学家。\n2021/7/26212统计学对象方法对象:实质性学科与方法论学科理论统计学与应用统计学方法:特殊方法论与通用方法论描述统计学与推断统计学大量观察,平均分析,归纳推断\n2021/7/2622统计学家与数学家的对话一名统计学家遇到一位数学家,统计学家调侃数学家,说道:“你们不是说若X=Y且Y=Z,则X=Z吗,那么想必你若是喜欢一个女孩,那个女孩喜欢的男生你也会喜欢了?”数学家想了一下,反问道:“如果你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里,想来你也没事吧!因为它们平均不过是五十度而已!”\n2021/7/2623DescriptiveandInferentialStatistics描述统计:研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。推断统计:研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行表书的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。\n2021/7/26243统计学基本概念总体、个体、样本标志、指标、变量同质、变异、分布统计量、参数同质性是总体的前提变异性是统计的前提。样本总体\n2021/7/2625第二章统计调查一、统计调查概述二、统计调查方案三、统计调查体系数据胜过自封的专家。戴维·穆尔\n2021/7/2626一、统计调查概述调查概念:直接搜集资料调查要求:准确、及时、系统、方便调查用意:为研究提供素材对表现进行衡量用数据阐明问题\n2021/7/2627DataSources数据来源直接来源间接来源试验出版物(或者网上)问卷观察\n2021/7/2628调查方法观察法:现场,直接询问法:采访,问卷,通讯,网上报告法:行政,向上实验法:随机,双盲,重复\n2021/7/2629二、统计调查方案目的、任务:为什么调查对象、单位:向谁调查项目、表格:调查什么时间、期限:什么时候调查什么时候的资料\n2021/7/2630QuestionnaireDesign问题内容问题措辞问题次序答问方式版面设计\n2021/7/2631普查全面报表抽样调查重点调查典型调查周期性调查一次性调查普查抽样调查重点调查典型调查全面调查非全面调查连续(经常性)调查不连续调查定期报表专门调查调查范围调查时间组织形式统计调查种类统计调查种类\n2021/7/2632三、统计调查体系统计报表:定报,年报普查:一次,专门抽样调查:随机,推断重点调查:重点,大体典型调查:典型,细致\n2021/7/2633统计调查体系改革我国长期以来,基本上依靠全面统计报表采集统计资料。改革开放后,抽样调查等非全面调查虽然有所发展,但应用的领域不很广泛。这种以全面统计报表为主的统计调查体系,面对日益发展的多种经济成分、多种经营方式等复杂多样的调查对象已经难以适应。统计调查体系改革的目标模式是:建立以必要的周期性普查为基础,经常性的抽样调查为主体,重点调查、科学推算等为补充的多种方式综合运用的统计调查体系。\n2021/7/2634第三章统计整理一、整理程序二、统计分组三、频数分布四、统计图表数字不会说谎,但说谎的人会想出办法。格罗夫纳\n2021/7/2635一、整理程序审核:计算审核,逻辑审核分组:分类,分组汇总:手工汇总,电子汇总表现:列表,图示\n2021/7/2636二、统计分组概念:划分一个总体为若干组原则:穷尽,互斥作用:划分类型,研究结构,分析关系方法:品质标志分组,数量标志分组\n2021/7/2637三、频数分布概念:总体单位在各组的分布状况种类:品质数列,变量数列单项数列,组距数列编制:全距,组距,组限,频数类型:钟型,U型,J型\n2021/7/2638组距数列编制举例某生产车间50名工人日加工零件数如下:117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121\n2021/7/2639第一步,对数据进行排序,计算全距(R)107108108110112112113114…………135137139139第二步,确定组数(k)和组距(i)k=4i=R÷ki=10k=1+3.3LgN第三步,设置组限(u,l)离散变量与连续变量的不同要求第四步,计算各组次数(f)组距数列编制举例(续1)\n2021/7/2640组距数列编制举例(续2)按零件数分组次数(频数)频率(%)向上累计向下累计次数频率(%)次数频率(%)110以下363650100110—120132616324284120—130244840802040130—14010205010048合计50100————50名工人日产零件数\n2021/7/2641分布数列类型--钟型分布日产量(件)\n2021/7/2642分布数列类型--U型分布\n2021/7/2643分布数列类型--J型分布(1)价格需求\n2021/7/2644分布数列类型--J型分布(2)价格供应\n2021/7/2645四、统计图表统计表:主词栏、宾词栏简单表、分组表、复合表统计图:分布图、条形图、圆形图\n2021/7/2646统计表举例主词总标题横行标题纵栏标题数字资料宾词\n2021/7/2647统计图举例直方图\n2021/7/2648统计图举例(续1)条形图\n2021/7/2649统计图举例(续2)1998—2002年我国进出口总额(亿美元)复合条形图\n2021/7/2650统计图举例(续3)圆形图\n2021/7/2651ErrorsinPresentingDataChartJunk垃圾数图表NoRelativeBasis无相对基准CompressingVerticalAxis压缩纵轴NoZeroPointonVerticalAxis纵轴无零点\n2021/7/2652垃圾数图表差的表示好的表示1960:$1.001970:$1.601980:$3.101990:$3.80最低工资最低工资0241960197019801990$\n2021/7/2653无相对基准好的表示按年级统计的A按年级统计的A差的表示0100200300大一大二大三大四频数0%10%20%30%大一大二大三大四%\n2021/7/2654压缩纵轴好的表示季度销售季度销售差的表示025501季2季3季4季$01002001季2季3季4季$\n2021/7/2655纵轴无零点好的表示月销售量月销售量差的表示0204060一三五七九十一$36394245一三五七九十一$\n2021/7/2656第四章综合指标一、总量指标二、相对指标三、平均指标统计学家通常醉心于平均数,而不着迷于更广泛的考虑。这一点很像一些英格兰人对瑞士的回忆:如果可以将它的山脉扔进它的湖泊,那么两种讨厌的东西将立即去除。高尔顿\n2021/7/2657一、总量指标概念:反映总体规模、水平;绝对数分类:时期指标、时点指标计量:实物单位,价值单位计算:直接计算、间接推算\n2021/7/2658总量指标举例国内生产总值简称GDP,是由本国常住单位所创造的社会最终产品的价值总量,同时又是全社会各常住单位所创造的增加值的总和。GDP=∑(各部门总产出-该部门中间消耗)=∑各部门的增加值GDP=总消费+总投资+净出口GNP=GDP-付给国外的要素收入+来自国外的要素收入=GDP+来自国外的要素收入净额\n2021/7/2659二、相对指标1相对指标意义2相对指标形式3相对指标种类4相对指标原则\n2021/7/26601相对指标意义相对指标是将两个性质相同或互有关联的指标数值通过对比求得的商数或比率;用以反映事物内部的结构、比例,事物发展的程度、强度,事物之间的联系、区别。对比是统计分析的基本方法。通过对比显示事物的相对水平,可以更深入地说明事物发展的程度和差别,弥补总量指标的不足;提供事物之间共同的比较基础,便利对事物的鉴别和分析。所以说,相对指标具有说明和比较两大作用。\n2021/7/26612相对指标形式相对指标的指标数值大多是相对数,或称无名数。无名数是一种抽象化的数值,分为系数、倍数、成数、百分数、干分数等。相对指标是由两个指标分别作为分子项与分母项对比而成的,其分母项作为比较的基础,故称为基数。系数和倍数是将基数抽象为l而计算出来的相对数。成数、百分数、干分数是将基数抽象为10、100、1000计算的相对数,其中百分数最常用。像人口密度、人均国民生产总值这类相对指标,将其分子项与分母项的计量单位同时使用,即以(人/平方公里)、(元/人)作为数值形式,此称有名数或名数。\n2021/7/26623相对指标种类计划完成相对指标结构相对指标比例相对指标比较相对指标动态相对指标强度相对指标\n2021/7/26634相对指标原则保持可比性结合绝对数运用多指标\n2021/7/2664三、平均指标意义一般水平,坐落位置种类静态平均数,动态平均数作用说明,比较,判断计算数值平均数,位置平均数\n2021/7/26651数值平均数算术平均数调和平均数几何平均数\n2021/7/2666日产量(公斤)工人数f组中值x日产总量xf30以下10??*1030—407035245040—509045405050—6030551650合计200—8400某车间200名工人日产量资料:算术平均数计算举例\n2021/7/2667算术平均数基本公式:标志总量/总体总量计算形式:简单平均,加权平均数学性质:离差、离差平方之和是非标志:成数是特殊的平均数\n2021/7/2668两个平均数是否矛盾工人件/小时分钟/件甲320乙230平均2.525\n2021/7/2669调和平均数概念:倒数平均数应用:算术平均数的变形结论:对逆指标求平均\n2021/7/2670企业产值计划完成(%)x计划产值(万元)m/x实际产值(万元)(m)甲95300285乙105900945丙115300345合计—15001575某局所属的三个企业的资料:调和平均数计算举例\n2021/7/2671两个平均数是否矛盾(续)商品P1P0P1/P0(%)P0/P1(%)A8420050B3650200平均125125\n2021/7/2672几何平均数概念:对数平均数性质:受极端值影响小结论:对比率、速度求平均\n2021/7/2673车间投入量产出量合格率(%)x一100080080二80072090三72050470某企业三个连续作业车间的合格率:几何平均数计算举例\n2021/7/26742位置平均数众数中位数四分位数\n2021/7/2675众数概念:频数最大的标志值计算:单项数列,组距数列公式:上限公式,下限公式\n2021/7/2676年人均纯收入(千元)农户数(户)5以下2405—64806—711007—87008—93209以上160合计3000众数计算举例\n2021/7/2677中位数概念:序列正中间的标志值计算:单项数列,组距数列公式:上限公式,下限公式\n2021/7/2678四分位数四分位数:数据分为四份十分位数:数据分为十份百分位数:数据分为百份\n2021/7/2679平均指标的关系和原则关系数值平均数之间的关系数值平均数与位置平均数的关系原则正视同质性补充组平均运用多指标\n2021/7/2680第五章变异与均衡指标一、变异指标二、偏度峰度三、均衡指标当事实改变时,我就改变主意。你呢?凯恩斯\n2021/7/2681一、变异指标概念反映总体内部差异程度或离散程度作用评价平均指标的代表性测度现象发展过程的均衡性、稳定性揭示总体分布的离中趋势\n2021/7/2682全距四分位差平均差方差标准差标准差系数变异指标种类代表着国内军舰建造最高水平的171“海口”号导弹驱逐舰\n2021/7/2683标准差计算举例日产量(公斤)工人数f组中值x20—301025288030—407035343040—50904581050—6030555070合计200—12190\n2021/7/2684标准差系数计算举例组别平均数标准差标准差系数%甲70(件)7.07(件)10.1乙7(台)3.41(台)48.7甲组日产量(件):60、65、70、75、80乙组日产量(台):2、5、7、9、12\n2021/7/2685二、偏度峰度1统计动差2偏度指标3峰度指标\n2021/7/26861统计动差动差(又称矩),原是物理学上用以表示力与力臂对重心关系的术语。统计学上标志值与权数对平均数的关系,与此种关系十分相似。因此,统计学借用动差概念,描述次数分布的某些性质或特征。一般地说,标志值与任意数(A)之差的K次方的算术平均数,称为标志值关于的K阶动差。一阶原点动差即为算术平均数,二阶中心动差即为方差(标准差的平方)。所以,次数分布的集中趋势和离中趋势等特征,皆可由动差描述。\n2021/7/26872偏度指标笼统地说,偏度是指频数分布的非对称形态及程度。频数分布的非对称形态依算术平均数与众数的大小关系分为两种:一为右偏态分布,简称右偏或正偏;一为左偏态分布,简称左偏或负偏。左、右偏缘于频数分布曲线向左、右方拖长尾巴,正、负偏缘于算术平均数与众数之差为正、负值。严格地说,偏度是指偏态分布(包括正偏、负偏)的偏斜程度。而偏度的描述或测定,就是运用适当的指标或方法,度量分布偏斜程度的大小,揭示分布的形态特征。\n2021/7/2688偏度指标计算皮尔逊指标以标准差为单位的算术平均数与众数的离差。三阶中心动差分布负偏,三阶中心动差为负数;分布正偏,则为正数。为消除三阶中心动差立方单位的影响,也为不同水平数列偏度的直接比较,须将三阶中心动差除以标准差的三次方,以获得数列偏度的相对度量。\n2021/7/2689频数分布(非)对称状况Right-Skewed右偏的Left-Skewed左偏的Symmetric对称的均值=中位数=众数均值中位数众数众数中位数均值\n2021/7/26903峰度指标峰度是频数分布的一种性质或特征。这一特征是指,某一数列的分布曲线与正态分布曲线相比较,是尖顶,还是平顶,其尖顶或平顶的程度如何。峰度通常分为三种:尖顶峰度、正态峰度和平顶峰度。当标志值的次数,更密集分布于众数左右,使分布曲线较正态分布曲线更为尖耸的,为尖顶峰度;当标志值的次数,完全符合正态分布的规律,分布曲线与正态分布曲线完全一致,为正态峰度,又称为标准峰度;当标志值的次数,更离散分布于众数左右,使分布曲线较正态分布曲线更为平坦的,为平顶峰度。\n2021/7/2691峰度指标计算偶数阶中心动差有一特点,即不论数列的离差为正或负,经偶数次乘方后,皆为正值。由于离差经偶数次乘方后,必加重较大离差的分量,能使它在度量分布的峰度中发挥作用。可以取数列的偶数阶中心动差,作为分布峰度的测度指标。偶数阶中心动差只能作为峰度的绝对度量,还必须经适当处理,形成一种峰度的相对度量的指标。可以证明,正态分布的四阶中心动差与其标准差的四次方之比值为3。所以,通常以数列的四阶中心动差与其标准差的四次方之比,作为测度峰度的指标。\n2021/7/2692尖顶与平顶峰度指标β=3,分布为正态峰度,当峰度指标β>3时,表示频数分布比正态分布更集中,分布呈尖峰状态,β<3时表示频数分布比正态分布更分散,分布呈平坦峰。如图所示:Ⅱ(β>3)Ⅰ(β=3)Ⅲ(β<3)\n2021/7/2693三、均衡指标1洛伦茨曲线2基尼系数\n2021/7/26941洛伦茨曲线洛伦茨在研究居民的收入分配状况时,将居民家庭数的累计频率作为横坐标,将居民收入数的累计频率作为纵坐标,绘制出一条表示实际居民收入分配的累计频率曲线。他利用这条实际分配曲线(洛伦茨曲线)与绝对均匀分配的曲线(直线)的对比,描述了实际分配的非均等状态。\n2021/7/26952基尼系数洛伦茨曲线,直观、形象地描述了收入分配的非均衡状况。基尼系数,则是对这种非均衡状况的具体程度的定量测度。若以SA表示上图中绝对均匀分配线与洛伦茨曲线围成的面积,以SB表示洛伦茨曲线与绝对不均匀分配线围成的面积,则基尼系数(以G表示)为G=SA/(SA+SB)0≤G≤1。基尼系数越小,说明收入分配越均匀;基尼系数愈越大,说明收入分配越不均匀。\n2021/7/2696基尼系数计算举例G=(0.06*0.06-0.18*0.01)+(0.18*0.20-0.38*0.06)+……+(0.90*1.00-1.00*0.81)=0.2512\n2021/7/2697基尼系数的应用基尼系数不仅可以用于收入分配问题的研究,还可用于所有资源配置或分布的均衡程度的分析和评价。例如,以城市数为总体单位数,以人口数为总体标志值,据此计算基尼系数,可以观察城市人口的稠密或稀疏状况,反映城市人口分布的(非)均衡程度。基尼系数是对收入分配均匀程度的整体评价,它只能对总体的公平程度作出判断,而无法考察各组(层次)因素对总体公平程度的影响。因此,同一资料,不同分组,基尼系数数值的计算结果也不同。\n2021/7/2698第六章时间数列一、时间数列概述二、时间数列指标三、时间数列分析四、时间数列预警统计是流动的历史。德国学者\n2021/7/2699一、时间数列概述概念:指标数值的时序排列种类:时期数列,时点数列相对数列,平均数列原则:保持可比性\n2021/7/26100时间数列举例国内生产总值等时间数列年份国内生产总值(亿元)年末总人口(万人)人口自然增长率(‰)居民消费水平(元)19901991199219931994199519961997199818547.921617.826638.134634.446759.458478.167884.674772.479552.811433311582311717111851711985012112112238912362612481014.3912.9811.6011.4511.2110.5510.4210.069.538038961070133117812311272629443094\n2021/7/26101二、时间数列指标发展水平指标发展水平平均发展水平增长水平平均增长水平发展速度指标发展速度平均发展速度增长速度平均增长速度\n2021/7/26102平均发展水平计算举例(1)计算前表资料,平均每年国内生产总值为:\n2021/7/26103平均发展水平计算举例(2)计算前表资料,平均每年人口数为:\n2021/7/26104平均发展速度计算方法累计法(方程式法)计算平均发展速度:几何平均法(水平法)计算平均发展速度:\n2021/7/26105运用动态指标的原则选择可比基期:环比,定基使用合适方法:水平法,几何法结合水平速度:绝对数,相对数(增长1%的绝对值)\n2021/7/26106增长1%的绝对值计算举例甲、乙两个企业的有关资料年份甲企业乙企业利润额(万元)增长率(%)利润额(万元)增长率(%)1996500—60—1997600208440甲企业增长1%绝对值=500/100=5万元乙企业增长1%绝对值=60/100=0.6万元\n2021/7/26107三、时间数列分析时间数列因素Y=f(T,S,C,I)时间数列因素组合Y=T+S+C+IY=T*S*C*I\n2021/7/26108长期趋势现象在较长时期内受某种根本性因素作用而形成的总的变动趋势季节变动现象在一年内随着季节的变化而发生的有规律的周期性变动循环变动现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动不规则变动是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型时间数列因素\n2021/7/26109时间数列因素测定长期趋势测定季节变动测定循环波动测定\n2021/7/26110长期趋势测定时距扩大法移动平均法趋势方程法选择合适方程估计方程参数测算系列数值\n2021/7/26111移动平均法举例\n2021/7/26112趋势方程法举例汽车产量资料年份时间标号t产量(万辆)Yit×Ytt2趋势值19811982198319841985198619871988198919901991199219931994199519961997199812345678910111213141516171817.5619.6323.9831.6443.7236.9847.1864.4758.3551.4071.42106.67129.85136.69145.27147.52158.25163.0017.5639.2671.94126.56218.60221.88330.26515.76525.15514.00785.621280.041688.051913.662179.052360.322690.252934.001491625364964811001211441691962252562893240.009.5019.0028.5038.0047.5057.0066.5076.0085.5095.00104.51114.01123.51133.01142.51152.01161.51\n2021/7/26113趋势方程法举例(续1)根据上表得a和b结果如下汽车产量的直线趋势方程为$Yt=-9.4995+9.5004t$Y2000=-9.4995+9.5004×20=180.51(万辆)2000年汽车产量的预测值为\n2021/7/26114趋势方程法举例(续2)05010015020019811985198919931997汽车产量趋势值汽车产量直线趋势(年份)汽车产量(万辆)\n2021/7/26115趋势方程的选择观察散点图分析数据特点一次差大体相同,配合直线二次差大体相同,配合二次曲线对数的一次差大体相同,配合指数曲线一次差的环比值大体相同,配合修正指数曲线对数一次差的环比值大体相同,配合Gompertz曲线倒数一次差的环比值大体相同,配合Logistic曲线计算指标:\n2021/7/26116季节变动测定同期平均法计算同月(或同季)的平均数计算全部数据的总月(总季)平均数计算季节指数(S)趋势剔除法计算移动平均趋势值(T)从序列中剔出趋势值(Y/T)计算季节指数(S)\n2021/7/26117同期平均法举例农业生产资料零售额季节指数计算表年份销售额(亿元)一季度二季度三季度四季度全年合计19781979198019811982198362.671.574.875.985.286.588.095.3106.3106.0117.6131.179.188.596.495.7107.3115.464.068.768.569.978.490.3293.7324.0346.0347.5388.5423.3合计456.5644.3582.4439.82123.0同季平均76.08107.3897.0773.3088.46季节指数(%)86.01121.39109.7382.86100.00\n2021/7/26118趋势剔除法举例农业生产资料零售额季节指数计算表年份销售额(亿元)一季度二季度三季度四季度全年合计197819791980198119821983—90.9187.4287.6391.0784.94—118.51122.85122.26122.42125.65106.12108.71111.27108.70110.29—83.5982.5778.9777.1179.08—合计441.98611.70545.09401.332000.10同季平均88.40122.34109.0280.27100.005季节指数(%)88.39122.33109.0180.26100.00\n2021/7/26119循环变动测定剩余法:依据乘法模式思路,从时间数列资料中陆续或一次消除长期趋势和季节变动,得到剩余的循环变动和不规则变动的数列;继而运用移动平均法消除不规则变动,测定出循环变动。直接法:由每年各月数值直接与上一年同月数值相比,用以消除长期趋势和季节变动;再采用移动平均法,消除比值(年距发展速度)中含有的不规则变动因素,最后得出循环系数。\n2021/7/26120四、时间数列预警指标法:构建预警指标体系,正确分析领先指标的预警信号,及时发出经济景气循环的信号,可以促使宏观决策部门采取相应的对策,避免经济发展的过大起落与震荡。指数法:为了达到不同时间数列之间进行综合和比较目的,先计算标准循环偏差(各时间数列以其循环系数减1除以其相应的标准差),再计算综合指数(同类多个指标标准循环偏差的算术平均数),最后根据综合指数值绘制预警信号图。\n2021/7/26121第七章指数一、指数概述二、指数计算三、指数分析四、指数数列对于“生活质量”改变的量度,可能要依靠过多的主观判断,以至无法提供能令人接受的CPI调整依据。美国劳工统计局\n2021/7/26122一、指数概述概念:特殊的、一般的相对数种类:综合指数,平均数指数简单指数,加权指数性质:综合,相对,平均作用:综合测定,因素分析\n2021/7/26123二、指数计算1综合指数数量指标指数(拉氏公式)质量指标指数(派氏公式)2平均数指数综合指数的变形独立意义的平均数指数算术平均数指数调和平均数指数\n2021/7/26124综合指数计算举例商品名称计量单位销售量单价(元)销售额(元)1998q01999q11998p01999p11998p0q01999p1q1p0q1p1q0粳米标准粉花生油kgkgkg12001500500150020006003.62.39.84.02.410.6432034504900600048006360540046005880480036005300合计—————126701716015880137001综合指数\n2021/7/26125拉氏公式与派氏公式价格总指数为派氏公式销售量总指数为拉氏公式结论:与1998年相比,三种商品的销售量平均增长了25.34%,零售价格平均上涨了8.06%,\n2021/7/26126综合指数的编制原则编制数量指标指数,一般选用拉氏公式,即以质量指标作为同度量因素,并且把这个同度量因素固定在基期。编制质量质量指数,一般选用派氏公式,即以数量指标作为同度量因素,并且把这个同度量因素固定在报告期。\n2021/7/26127理想指数(费雪公式)由(美)Fisher提出,能通过他本人提出的对指数公式测验的重要要求,自称为理想公式。\n2021/7/261282平均数指数平均数指数计算举例商品名称计量单位总成本(万元)个体成本指数(p1/p0)个体产量指数(q1/q0)基期(p0q0)报告期(p1q1)甲件2002201.141.03乙台50501.050.98丙箱1201501.201.10\n2021/7/26129综合指数变形单位成本指数为产量总指数为结论:报告期与基期相比,三种产品的单位成本平均提高了14.88%,产量平均提高了4.59%。\n2021/7/26130代表品P0P1W指数(%)一、食品类54135.31、粮食46149.1(1)细粮60146.1面粉标准(公斤)1.812.8040154.5大米二等(公斤)1.562.2060140.5(2)粗粮40153.52、副食品42128.03、烟茶酒8110.04、其它食品4103.2二、衣着类21102.0零售商品价格指数\n2021/7/26131算术平均数指数\n2021/7/26132农产品收购价格指数大类中类小类代表品指数%p1q1万元甲(120)120A(116)58A1(125)25A1114014A1211011A211033B(124)62B1(115)23B11108.313B1212510B213039\n2021/7/26133调和平均数指数\n2021/7/26134股票价格指数我国的上证指数、美国标准普尔指数、香港恒生股票指数等,都是采用综合指数公式编制。其计算公式为:它是以基期的股票发行量(或流通量)为同度量因素的拉氏综合指数。式中q0代表基期股票发行量。\n2021/7/26135美国标准普尔指数,样本范围包括500种股票。其中工业股票400种、公用事业股票40种、金融业股票40种、运输业股票20种。选择1941年~1943年为基期。香港恒生指数选择了33种具有代表性的股票(成分股)为指数计算对象。其中金融业4种、公用事业6种、地产业9种、其他行业14种。选择1964年7月31日为基期。我国的上海证券交易所股票价格指数包括全部上市股票,基期为1990年12月19日。股价指数的样本范围和基期日期\n2021/7/26136道·琼斯股票指数著名的道·琼斯股票指数就是运用平均的方法来编制的,全称为股票价格平均数。道·琼斯股票价格平均指数以1928年10月1日为基数,因为这一天收盘时的道·琼斯股票价格平均指数恰好约为100美元,所以就将其定为基准日。\n2021/7/26137道·琼斯股票价格平均指数编入股票为65种,包括30种工业股、20种运输股、15种公用事业股。从1996年5月25开始,还针对我国的股票市场编制了道·琼斯中国股票指数。截至1998年4月1日,沪深两市共有88支股票作为其成分股入选,故称为道·琼斯中国88股票指数。道·琼斯股票指数(续)\n2021/7/26138三、指数分析指数体系产值指数=产量指数×价格指数原材料消耗总额指数=产量指数×单耗指数×单价指数因素分析两因素分析总量指标,平均指标多因素分析\n2021/7/26139总量指标两因素分析商品销量价格(元)销售额(元)q0q1p0p1q0p0q1p0q1p1甲(公斤)5062.5201410001250875乙(套)7590108750900720丙(件)10011555500575575合计225027252170从相对数和绝对数两方面对销售额的变动进行因素分析\n2021/7/2614096.44%=121.11%×79.63%-80=475+(-555)2170-2250=(2725-2250)+(2170-2725)相对数绝对数分析\n2021/7/26141平均指标两因素分析工人类别工人数平均工资(元)工资总额(万元)技工3003005005501516.515徒工200700300350624.521合计5001000420410214136报告期技术工人、学徒工人的平均工资比基期都有所提高,为什么总平均工资却下降了?\n2021/7/26142平均指标两因素分析的指数体系相对数绝对数\n2021/7/26143总平均工资变动分析利用前页指数体系,分析上例总平均工资变动如下:97.62%=113.89%×85.71%-10=50+(-60)分析结果表明:从相对数说,所有工人的总平均工资下降了2.38%,是由于各组工人的平均工资上升了13.89%和结构的影响使平均工资下降了14.29%两个因素共同作用的结果。从绝对数说,总平均工资减少10元,是由于各组工人平均工资的上升使平均工资增加50元和结构的影响使平均工资减少了60元两个因素共同作用的结果。\n2021/7/26144多因素分析材料产品产量单耗单价费用总额(百元)q0q1m0m1p0p1q0m0p0q1m0p0q1m1p0q1m1p1甲A8100.60.5202196120100105乙B551.21.11514909082.577丙C10122.42.5302872086.4900840合计------------90610741082.51022从相对数和绝对数两个方面对该企业费用总额的变动进行因素分析\n2021/7/26145相对数绝对数112.8%=118.5%×100.8%×94.4%1022-906=(1074-906)+(1082.5-1074)+(1022-1082.5)11600(元)=16800(元)+850(元)+(-6050元)原材料消耗费用总额变动分析\n2021/7/26146四、指数数列概念对同一指数进行长时期对比研究,就形成了指数数列。指数数列就是把不同时期同一指数的多个数值,按照时期先后顺序加以排列所形成的一种数列。种类环比指数数列和定基指数数列可变权数指数数列固定权数指数数列\n2021/7/26147指数变换运用不变权数的环比指数与不变权数的定基指数之间的连乘关系,对有关指数作换算、转移、编接和连锁等变换,可以进行现象动态变化的观察和测定、动态比较的计算和分析。具体运用有:价格换算基期转移数列衔接指数推算\n2021/7/26148第八章抽样分布一、抽样概述二、抽样设计三、抽样分布你不必吃完整头牛,才知道肉是老的。谚语\n2021/7/26149一、抽样概述抽样推断是按照随机原则,从总体中抽取一部分单位进行调查,并依据所获得数据对总体的某一数量特征做出具有一定可靠程度的估计或推断的一种方法。总体是所要认识的研究对象的全体,它是具有某种共同性质或特征的许多单位的集合体。总体的单位数通常用N来表示。样本是总体的一部分,它是从总体中随机抽取出来、代表总体的那部分单位的集合体。样本的单位数称为样本容量,通常用n表示,一般来说,样本单位数等于或大于30,称为大样本;小于30,称为小样本。\n2021/7/26150重复抽样与不重复抽样从单位数为N的总体中随机抽取一个容量为n的样本,如果每次抽出一个单位,将它的测试、观察结果登记下来后,又重新放回总体,继续参加下一次的抽选,这样的抽样方法称为重复抽样。从单位数为N的总体中随机抽取一个容量为n的样本,如果每次抽选一个单位登记以后不再放回总体,参加下一次的抽选,这样的抽样方法称为不重复抽样。若从总体N个单位中,随机重复抽取n个单位构成样本,则样本可能数目为Nn个;随机不重复抽取n个单位构成样本,则样本可能数目为N(N-1)(N一2)……(N—n+1)个。\n2021/7/26151总体参数与样本统计量总体参数是根据总体各个单位的标志值或标志特征计算的、反映总体的某种数量特征的综合指标。由于总体是唯一的,所以总体参数是一确定的数值。对不同性质的总体,需要研究不同的总体参数。通常需要计算总体平均数、总体比率和总体方差。样本统计量是由样本各单位标志值或标志特征计算的、反映样本的某种数量特征的综合指标。它的数值随着样本的不同而变化,因此它是一个随机变量。和总体参数相对应,样本统计量有样本平均数、样本成数和样本方差等。\n2021/7/26152二、抽样设计在进行抽样调查时必须根据所研究总体的特征和调查的目的要求,对抽取样本的程序和工作,作出周密的设计和安排,此称为抽样组织方式或抽样方案的设计。选择抽样方式或设计抽样方案,必须遵循两项基本原则:随机原则,效果原则。常用的抽样组织方式有简单随机抽样、分类抽样、等距抽样、整群抽样。\n2021/7/26153简单随机抽样简单随机抽样又称纯随机抽样,也即在对总体未作任何处理的情况下,按随机原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有相等的被抽中机会。采用简单随机抽样,在进行抽样调查之前应该先确定总体范围,并对总体的每个单位进行编号,然后用抽签的方式或根据“随机数字表”来抽选必要的单位数。\n2021/7/26154类型抽样也称分类抽样或分层抽样。它的特点是先对总体各单位按某一主要标志加以分组,然后再分别从各组中按随机原则抽选一定单位构成样本。每个类型组应该抽取多少样本单位,是进行抽样前必须考虑的问题。通常有两种分配办法:等比例分配,即按照总体单位数在各组之间的比例,分配各组的抽样单位数;不等比例分配。\n2021/7/26155等距抽样等距抽样又称机械抽样或系统抽样。它是在抽样之前将总体各单位按照一定的标志顺序排列,根据总体单位数和样本单位数计算出抽选间隔或抽选距离,然后按照这一间隔或距离抽选样本单位。等距抽样分成按有关标志排队的等距抽样和按无关标志排队的等距抽样。\n2021/7/26156整群抽样整群抽样就是将总体各单位按一定的标志或要求,分成若干群,使得每群内均含多个总体单位,然后以群为单位从中随机抽取一部分群,对被抽中的群进行全面调查。这种抽样方式又称成批抽样。整群抽样也常按地理区域划分群,这时又称区域抽样。进行整群抽样时,可以按随机抽样方式进行抽选,也可以按等距抽样方式抽选。抽样的可靠程度取决于采用的抽样方法及抽选的单位数。\n2021/7/26157三、抽样分布1样本平均数的分布2样本比率的分布3t分布、χ2分布和F分布4样本方差的分布\n2021/7/261581样本平均数的分布某班组5个工人的日工资为34、38、42、46、50元。=422=32现用重置抽样的方法从5人中随机抽取2个构成样本,共有52=25个样本。如右图:\n2021/7/26159两个结论\n2021/7/26160抽样方法平均数方差标准差重复抽样不重复抽样样本平均数的平均数与标准差\n2021/7/26161中心极限定理从正态总体中抽样得到的样本平均数的分布服从正态分布,从非正态总体中抽样得到的样本平均数的分布呢?中心极限定理:无论总体为何种分布,只要样本足够大(n≥30),样本平均数逼近正态分布,即:\n2021/7/26162正态分布思考题试想你在通用电器公司的质量控制部门工作。灯泡寿命服从正态分布:=2000、=200小时。灯泡寿命为以下值的概率为多少?A.2000~2400小时B.1470小时以下\n2021/7/26163ZZ=0Z=12.0题解P(2000X2400)正态分布.4772标准正态分布ZX2400200020020.X=2000=2002400\n2021/7/26164ZZ=0Z=1-2.65题解P(X1470)正态分布.4960.0040.5000标准正态分布ZX14702000200265.X=2000=2001470\n2021/7/26165两个样本平均数之差的抽样分布正态总体非正态总体(大样本)\n2021/7/26166抽样方法平均数方差标准差重复抽样不重复抽样2样本比率的分布根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)\n2021/7/26167两个样本比率之差的抽样分布\n2021/7/261683t分布、χ2分布和F分布t分布是小样本分布,小样本一般是指n<30。t分布适用于当总体标准差未知时用样本标准差代替总体标准差。当我们对正态随机变量X随机地重复抽取n个数值,将每一个x值变换成标准正态变量,并对这n个新的变量分别取平方再求和之后,就得到一个服从χ2分布的变量。F分布定义为两个独立的χ2分布被各自的自由度除以后的比率这一统计量的分布,F分布与χ2分布都是非对称分布。\n2021/7/261694样本方差的抽样分布从一个正态总体中抽样,所得到的样本方差S2,有当\n2021/7/26170从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布:两个样本方差之比的抽样分布\n2021/7/26171第九章参数估计一、参数估计概述二、总体平均数估计三、总体比率估计四、总体方差估计五、样本容量确定数学定律不能百分之百确实地用在现实生活里;能百分之百确实地用数学定律描述的,就不是现实生活。。爱因斯坦\n2021/7/26172一、参数估计概述统计方法估计过程估计标准估计方式\n2021/7/26173统计方法统计方法统计描述统计推断参数估计假设检验\n2021/7/26174估计过程平均数是未知的总体随机样本我有95%的把握认为在40和60之间.样本平均数=50\n2021/7/26175估计标准及估计方式估计标准--无偏性:如果样本统计量的期望值等于该统计量所估计的总体参数,这个估计量叫无偏估计量。--一致性:随着样本容量的增大,估计量与被估参数的偏差越来越小。--有效性:若有两个无偏估计量,那个估计量与总体参数间的平均离差小的估计量,更有效。估计方式--点估计:以样本指标直接估计总体参数。--区间估计:估计未知参数所在的可能的区间\n2021/7/26176某制造厂质量管理部门希望估计本厂生产的5500包原材料的平均重量,抽出250包,测得平均重量65千克。总体标准差15千克。总体为正态分布,在置信水平为95%的条件下建立这种原材料的置信区间。即,5500包原材料的平均重量在63.14-66.86之间二、总体平均数估计\n2021/7/26177待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30不重复抽样,n≥30总体平均数(μ)总体平均数估计公式(1)σ未知时,一般用S替代\n2021/7/26178右端尾部区域df.25.10.0511.0003.0786.31420.8171.8862.92030.7651.6382.353t0Student’stTable假设:n=3df=n-1=2=.10/2=.052.920t值/2.05\n2021/7/26179DegreesofFreedom(df)当样本统计量被计算出以后可以自由改变的观测值数目。例如:三个数之和是6X1=1(或其他数)X2=2(或其他数)X3=3(不能改变)Sum=6自由度=n-1=3-1=2\n2021/7/26180待估计参数已知条件置信区间两个正态总体已知两个正态总体未知但相等两个非正态总体,n1,n2≥30两个总体平均数之差μ1-μ2总体平均数估计公式(2)\n2021/7/26181某企业在一项关于职工流动原因的研究中,从原职工中随机抽取了200人访问,有140人离开的原因是工资太低。以95%的置信水平对总体这种原因离开的人员比率进行区间估计。该企业由于工资低离开的职工比率在63.6%与76.4%之间三、总体比率估计\n2021/7/26182待估计参数已知条件置信区间无限总体,np和nq都大于5总体比率(p)无限总体,N1P1>5,n1q1>5N2P2>5,n2q2>5两个总体比率之差(P1-P2)有限总体,np和nq都大于5有限总体,N1P1>5,n1q1>5N2P2>5,n2q2>5总体比率估计公式\n2021/7/26183某厂管理人员需要知道完成某件工作所需的时间(近似服从正态分布),为此他抽选了一个31个观察值组成的随机样本。如果从样本数据算出的方差为0.3小时,应如何构造σ2的95%的置信区间。四、总体方差估计S2=0.3n-1=30χ20.05/2(30)=46.979χ21-0.05/2(30)=16.791(31-1)*0.3/46.979<σ2<(31-1)*0.3/46.9790.1916<σ2<0.5360\n2021/7/26184待估计参数已知条件置信区间正态总体总体方差两个正态总体两个总体方差之比总体方差估计公式\n2021/7/26185五、样本容量确定在实际设计抽样方案时还有一个重要问题:应抽选多大的样本,或应如何确定样本容量?决定样本大小的影响因素主要有:总体方差。总体方差大,抽样误差大,则应多抽一些样本单位。可靠性程度。要求可靠性越高,所必需的样本容量就越大允许误差范围。若允许误差范围大一些,样本单位数就可以少一些。\n2021/7/26186样本必要容量公式\n2021/7/26187样本必要容量计算对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米、而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米、抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?\n2021/7/26188第十章假设检验一、假设检验基本问题二、总体平均数检验三、总体比率检验四、总体方差检验当我们不具备决定什么是真理的力量时,我们应遵从什么是最可能的,这是千真万确的真理。笛卡儿\n2021/7/26189一、假设检验基本问题概念:假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立,如果成立,就接受这个假设,否则就放弃。步骤:下图。类型:双侧检验,单侧检验错误:弃真错误,取伪错误\n2021/7/26190假设检验基本步骤(总体)我认为总体平均年龄为50岁(假设)拒绝假设样本平均数为20(样本)(决策)\n2021/7/26191样本平均数=50假设检验原理样本平均数不大可能为这个值…...如果实际上这就是总体平均数...因此拒绝零假设=5020H0小概率原理\n2021/7/26192小概率原理Eventswithsmallprobabilitiesarenot absolutelyimpossibletohappenin onerandomsampling.Eventswithsmallprobabilities arealmostimpossibletohappeninonerandomsampling.小概率事件在一次抽样中不是绝对不会发生。小概率事件在一次抽样中几乎不可能发生。\n2021/7/26193假设检验与区间估计假设检验是统计推断的另一种方式,它与区间估计的差别主要在于:区间估计是用给定的大概率推断出总体参数的范围;而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。假设检验与区间估计结合起来,构成完整的统计推断内容。\n2021/7/26194原假设与备择假设假设:对总体参数(总体平均数、总体比率等)的一种推断。原假设:也称零假设,一般以H0表示,代表“正常”的情形(Businessasusual)。检验以“假定原假设为真”开始。备择假设:也称被选假设,为零假设的对立情况,一般以H1表示,代表对“正常”情形挑战(Capturesthechallengeto‘BusinessasUsual)\n2021/7/26195双侧检验举例如果从2004年的新生儿中随机抽取30个,测得其平均体重为此3210克,而2003年为3190克。问新生儿体重2004年比2003年有无显著差异?此题义可理解为H0:μ=3190H1:μ≠3190只要μ>3190或μ<3190中有一个成立,就可以否定原假设。\n2021/7/26196双侧检验示意双侧检验的目的是观察在规定的显著性水平下所抽取的样本统计量是否显著地高于或低于假设的总体参数。双侧检验的示意如下图:\n2021/7/26197单侧检验(左侧)按规定灯泡的使用寿命平均低于1000小时,该批灯泡不能出厂。已知灯泡的使用寿命服从正态分布,标准差为20小时。在总体中随机抽取了100只,得知样本均值为960小时,该批灯泡能否出厂?此题义可理解为H0:μ≥1000H1:μ<1000\n2021/7/26198单侧检验(右侧)某企业生产了一批灯管,按规定每只灯管的使用寿命不得低于1000小时。现从中任意抽取100只,发现有6只的使用寿命低于1000小时,若规定不合格率达到5%时,灯管就不能出厂,问该批灯管能否出厂。此题义可理解为H0:μ≤5%H1:μ>5%\n2021/7/26199左侧检验与右侧检验左侧检验适用于担心样本统计量会显著地低于假设的总体参数的情况。右侧检验适用于担心样本统计量会显著地高于假设的总体参数的情况。\n2021/7/26200假设检验两类错误决策结果当H0为真当H0为假接受H0拒绝H0决断正确弃真错误取伪错误决断正确裁决结果无罪为真无罪为假裁决无罪裁决有罪裁决正确裁决错误裁决错误裁决正确\n2021/7/26201假设检验两类错误的概率假设检验中,犯第Ⅰ类错误(弃真错误)的概率记为α,也称为显著性水平;犯第Ⅱ类错误(取伪错误)的概率记为β。α越大,就越有可能犯第Ⅰ类错误,即越有可能否定真实的原假设。β越大,就越有可能犯第Ⅱ类错误,即越有可能接受非真的原假设。在一定样本容量下,减少α会引起β增大,减少β会引起α的增大。实际工作中,一般事先规定允许犯第Ⅰ类错误的概率,常取α=0.05和0.01,然后尽量减少犯第Ⅱ类错误的概率β。\n2021/7/26202α和β互为消长\n2021/7/26203检验功效在犯弃真错误概率(α)得到控制的条件下,犯取伪错误的概率(β)也要尽可能地小,或者说,不取伪的概率(1-β)应尽可能增大。1-β越大,意味着当原假设不真实时,检验判断出原假设不真实的概率越大,检验的判别能力就越好;1-β越小,意味着当原假设不真实时,检验结论判断出原假设不真实的概率越小,检验的判别能力就越差。1-β是反映统计检验判别能力大小的重要标志,我们称之为检验功效或检验力。\n2021/7/26204二、总体平均数检验我国出口凤尾鱼罐头,标准规格是每罐净重250克,据以往经验,标准差是3克。某食品厂生产一批供出口用的这种罐头,从中抽取100罐检验,其平均净重251克。假定罐头重量服从正态分布,按规定显著性水平0.05,问这批罐头是否合乎出口标准?H0:μ=250H1:μ≠250拒绝H0\n2021/7/26205总体平均数检验举例某汽车轮胎厂声称该厂生产的汽车轮胎平均行使里程大于25000公里。现对15个轮胎作了试验,得到平均行使里程为27000公里,标准差5000公里,假定轮胎的行驶里程数近似服从正态分布,我们能否得出结论,该厂的产品与该厂声称的标准相符()?H0:μ≤25000H1:μ>25000\n2021/7/26206两个总体平均数差异检验有两种方法可用于制造两种以抗拉强度为重要特征的产品,经验表明,用这两种方法生产出来的产品的抗拉强度都近似服从正态分布。千克,千克。现分别抽取12和16,得到样本均值分别为40千克和34千克。想知道这两种方法所生产产品的抗拉强度是否相同。():,:\n2021/7/26207三、总体比率检验一项调查结果表明某市老年人口比重为14.7%,该市老年人口研究会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?p=14.7%\n2021/7/26208甲、乙两公司属于同一行业,现调查工人愿意增加福利还是工资。在甲公司150名工人中有75人愿意增加工资,在乙公司200名工人中有103人愿意增加工资。以α=0.05的显著性水平,可以判断这两个公司中愿意增加工资的工人所占比例不同吗?两个总体比率差异检验\n2021/7/26209四、总体方差检验由某个正态分布总体抽出一个容量为21的随机样本,样本方差为10,试检验原假设“总体方差=15”、备择假设“总体方差≠15”(α=0.05)。本题可建立假设接受原假设\n2021/7/26210两个总体方差差异检验假如你是某证券交易所的金融分析员,你想比较分别在NYSE和NASDAQ市场上市的股票的利息收益,你收集到以下数据:NASDAQ数量2125均值3.272.53标准差1.301.16试在0.05水平,推断在NYSE和NASDAQ市场的股票的利息收益方差是否有差异?NYSE\n2021/7/26211FTestforVariancesH0:σ12=σ22H1:σ12≠σ22α=0.05df1=20df2=24临界值:检验统计量:接受H0,即没有足够证据表明两总体方差存有差异。0F2.330.415.025拒绝拒绝.025FSS122222130116125...\n2021/7/26212TestofsignificanceAtestofsignificanceassessestheevidenceprovidedbydataagainstanullhypothesisH0infavorofanalternativehypothesisHa.Hypothesesarestatedintermsofpopulationparameters.UsuallyH0isaStatementthatnoeffectispresent,andHasaysthataparameterdiffersfromitsnullvalueinaspecificdirection(one-sidealternative)orineitherdirection(two-sidealternative).\n2021/7/26213ReasoningofasignificancetestTheessentialreasoningofasignificancetestisasfollows:Supposeforthesakeofargumentthatthenullhypothesisistrue.Ifwerepeatedourdataproductionmanytimes,wouldweoftengetdataasinconsistentwithH0asthedataweactuallyhave?IfthedataareunlikelywhenH0istrue,theyprovideevidenceagainstH0.\n2021/7/26214TeststatisticAtestisbasedonateststatistic.SignificancetestsforthehypothesisH0:μ=μ0concerningtheunknownmeanμofapopulationarebasedontheone-sampleZstatisticTheZtestassumesanSRSofsizen,knownpopulationstandarddeviationσ,andeitheraNormalpopulationoralargesample.\n2021/7/26215P-valueTheP-valueistheprobability,computedsupposingH0tobetrue,thattheteststatisticwilltakeavalueatleastasextremeasthatactuallyobserved.SmallP-valueindicatestrongevidenceagainstH0.CalculatingP-valuesrequiresknowledgeofthesamplingdistributionoftheteststatisticwhenH0istrue.\n2021/7/26216SignificanceleverIftheP-valueisassmallorsmallerthanaspecifiedvalueα,thedataarestatisticallysignificantatsignificanceleverα.\n2021/7/26217第十一章方差分析一、方差分析概述二、单因素方差分析三、双因素方差分析科学法则并不是由权威的原理所引导的,也不会由信仰或中世纪哲学来辩明的;统计学是诉诸新知识的惟一法庭。马哈拉诺比斯\n2021/7/26218一、方差分析概述概念:检验多个总体均值是否相等,用于分析完全随机化试验设计。假定:每个总体都服从正态分布;各个总体的方差相同;观察值是独立的。举例:下页。原理:比较两类误差,以检验均值是否相等。\n2021/7/26219方差分析举例四种饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8某企业研制出一种新型饮料,其颜色共有橘黄色、粉色、绿色和无色四种。这些饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况(如下表)。试分析饮料的颜色是否对销售数量产生影响。\n2021/7/26220上例分析检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同设1为无色饮料的平均销售量,2粉色饮料的平均销售量,3为橘黄色饮料的平均销售量,4为绿色饮料的平均销售量,也就是检验下面的假设H0:1234H1:1,2,3,4不全相等检验上述假设所采用的方法就是方差分析\n2021/7/26221方差分析几个基本概念因素或因子:要分析饮料的颜色对销售量是否有影响,颜色(A)是要检验的因素或因子。水平:因素的具体表现称为水平,四种颜色A1、A2、A3、A4就是因素的水平。试验:这里只涉及一个因素,因此称为单因素四水平的试验。总体:因素的每一个水平可以看作是一个总体,四种颜色可以看作是四个总体A1、A2、A3、A4。样本数据:也称观察值,在每个因素水平下得到的观察值,每种颜色饮料的销售量就是从四个总体中抽取的样本数据。\n2021/7/26222比较两类误差,以检验均值是否相等。比较的基础是方差比。如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的。误差是由各部分的误差占总误差的比例来测度的。方差分析原理\n2021/7/26223随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异。比如,同一种颜色的饮料在不同超市上的销售量是不同的,不同超市销售量的差异可以看成是随机因素的影响的随机误差。系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异。比如,同一家超市,不同颜色饮料的销售量也是不同的,这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的系统误差。两类误差\n2021/7/26224组内方差:因素的同一水平(同一个总体)下样本数据的方差。比如,无色饮料A1在5家超市销售数量的方差。组内方差只包含随机误差组间方差:因素的不同水平(不同总体)下各样本之间的方差。比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差。组间方差既包括随机误差,也包括系统误差。两类方差\n2021/7/26225方差的比较如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1。如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异。\n2021/7/26226如果原假设成立如果原假设成立:H0:m1=m2=m3=m4,也即四种颜色饮料销售量的平均数都相等,也即没有系统误差。这意味着每个样本都来自平均数为、方差为2的同一正态总体。Xf(X)1234\n2021/7/26227如果备择假设成立如果备择假设成立:H1:mi(i=1,2,3,4)不全相等,也即四种颜色饮料销售量的平均数不全相等,也即存在系统误差。这意味着四个样本分别来自平均数不同的四个正态总体。Xf(X)3124\n2021/7/26228二、单因素方差分析数据结构:下表。基本步骤:提出假设,构造检验统计量,做出决策。多重比较:通过对总体平均数之间的配对比较,进一步检验到底哪些平均数之间存在差异。\n2021/7/26229单因素方差分析的数据结构观察值(j)因素(A)i水平A1水平A2…水平Ak12::nx11x12…x1kx21x22…x2k::::::::xn1xn2…xnk\n2021/7/26230提出假设一般提法H0:m1=m2=…=mk(因素有k个水平)H1:m1,m2,…,mk不全相等对于前例H0:m1=m2=m3=m4(颜色对销售量无影响)H1:m1,m2,m3,m4不全相等(颜色对销售量有影响)\n2021/7/26231构造检验统计量■为检验H0(m1=m2=…=mk)是否成立,需确定检验的统计量:■构造统计量需要计算各水平的平均数全部观察值的总平均数三个离差平方和两个方差\n2021/7/26232水平平均数与总平均数四种颜色饮料的销售量及平均数超市(j)水平A(i)无色(A1)粉色(A2)橘黄色(A3)绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计136.6147.8132.2157.3573.9水平平均数观察值个数x1=27.32n1=5x2=29.56n2=5x3=26.44n3=5x4=31.46n4=5总平均数x4=28.695\n2021/7/26233三个离差平方和总离差平方和(SST)总平方和误差项离差平方和(SSE)组内平方和水平项离差平方和(SSA)组间平方和\n2021/7/26234三个平方和的关系SST反映了全部数据总的误差程度;SSE反映了随机误差的大小;SSA反映了随机误差和系统误差的大小。SST=SSE+SSA前例:115.925=39.084+76.84\n2021/7/26235两个方差如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的方差与组内平方和SSE除以自由度后的方差的差异就不会太大;如果组间方差显著地大于组内方差,就说明各水平(总体)之间的差异不仅有随机误差,还有系统误差。三个平方和的自由度分别是SST:n-1n为全部观察值个数SSA:k-1k为因素水平(总体)个数SSE:n-k\n2021/7/26236计算检验统计量FSSA/k-1=MSA,SSE/n-k=MSE将MSA和MSE进行对比,即得到所需要的检验统计量F。当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即前例:\n2021/7/26237F分布与拒绝域如果均值相等,F=MSA/MSE1aF分布F(k-1,n-k)0拒绝H0接受H0F\n2021/7/26238做出决策将统计量的值F与给定的显著性水平的临界值F进行比较,做出接受或拒绝原假设H0的决策。若F>F,则拒绝原假设H0,表明平均数值之间的差异是显著的,所检验的因素(A)对观察值有显著影响。若FF,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响。\n2021/7/26239多重比较多重比较是通过对总体平均数之间的配对比较来进一步检验到底哪些均值之间存在差异。Fisher提出的最小显著差异方法(LSD)可用于判断到底哪些均值之间有差异。LSD方法是对检验两个总体平均数是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的。\n2021/7/26240多重比较的步骤提出假设:H0:mi=mj(第i个总体的平均数等于第j个总体的平均数)H1:mimj(第i个总体的平均数不等于第j个总体的平均数)计算检验统计量:做出决策:若|t|t,拒绝H0;若|t|查看更多