统计学原理笔记
统计学原理主讲人:林则宏第一章绪论第一节统计学的产生与发展第二节统计学的性质与特点***第三节统计学的几个基本概念***第四节统计学与其他学科的关系课堂练习第一节统计学的产生与发展一统计活动的产生与发展二统计学的产生与发展统计活动的产生与发展1、统计活动在我国的产生与发展2、统计活动在国外的产生与发展统计学的产生与发展 一 萌芽期(17中叶-18末) 1、国势学派代表人物:康令、阿亨瓦尔 2、政治算术学派代表人物:配第、格朗特统计学的产生与发展 二 近代期(18末-19末) 1、数理统计学派代表人物:拉普拉斯、凯特勒 2、社会统计学派代表人物:恩格尔、梅尔一、统计与统计学的涵义什么是统计?1.统计工作收集、整理、分析、推断数据的活动2.统计资料统计工作的结果。3.统计学分析数据的方法与技术一、统计与统计学的涵义1.数据搜集:例如,调查与试验2.数据整理:例如,分组3.数据展示:例如,图和表•数据分析:例如,回归分析二、统计研究对象的特点 1、数量性2、总体性3、具体性4、变异性\n三、统计数据的内在规律(一些例子)•正常条件下新生婴儿的性别比为107:100•投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6•农作物的产量与施肥量之间存在相关关系四、统计学的应用领域应用统计的领域应用统计的领域(续)统计学的分科描述统计•内容搜集数据整理数据分析数据展示数据•目的描述数据特征找出数据的基本规律推断统计•内容参数估计假设检验•目的§对总体特征作出推断描述统计与推断统计的关系理论统计与应用统计•理论统计§研究统计学的一般理论研究统计方法的数学原理•应用统计§研究统计学在各领域的具体应用统计学与数学的关系(联系)•统计学运用到大量的数学知识•数学为统计理论和统计方法的发展提供基础•不能将统计学等同于数学统计学与数学的关系(区别)Æ数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律Æ数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据Æ统计学与数学研究中所使用的逻辑方法不同§数学研究所使用的主要是的演绎§统计学则是演绎与归纳相结合,占主导地位的是归纳统计学与其他学科的关系•统计学可以用到几乎所有的学科领域统计学可以帮助其他学科探索学科内在的数量规律性•统计学不能解决各学科领域的所有问题对统计分析结果的解释需要各学科领域的专业人员第四节统计学中的几个主要术语一、总体与总体单位1、总体 指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。 总体具有同质性和大量性 \n2、总体单位构成总体的基本单位。二、样本与样本单位1、样本:指从总体中随机抽取的若干单位构成的整体。2、样本单位:指构成样本的基本单位。三、标志与指标1、标志 总体单位所具有的属性和特征。 标志可分为品质标志和数量标志2、指标 说明总体数量特征的概念和数值。 指标可分为质量指标和数量指标四、变量于变异1、变异 指标志在个体之间的不同表现。 (变异主要指品质标志)2、变量 指数量标志在个体之间的不同表现。变量可分为连续变量和离散变量五、统计指标与指标体系1、统计指标(略)2、指标体系:由一系列相互联系的统计指标所组成的有特定功能的有机整体。课堂练习1.下列标志中,()是数量标志。A.人口的民族B.人口的性别C.人口的职业D人口的年龄2.商品销售量是()。A.质量指标B数量指标C.品质标志D.数量标志3、欲了解200名从业人员的劳动报酬收入情况,则总体单位是()。A200名从业人员.B.200名从业人员的工资总额C.每名从业人员D.200名从业人员的平均年龄4,某班学生的年龄分别有19岁的、20岁的、21岁的和22岁的,这四种年龄数字是()。A.指标B.标志C.标志值D.指标数值5、下列属于离散变量的是()。A人口数目B.国内生产总值C利润额D工资额6.下列各项指标中属于质量指标的有()。A.劳动生产率B工业产品单位成本C.生产工人平均工资D工人平均技术等级E.从业人员平均文化程度7.下列各项指标属于价值指标的有()。A.全国粮食产量B。国内生产总值C.国民生产总值D.社会商品零售额E.全国发电量8.某年级共有学生102人,其中共青团员100人,女生占71%,某课程考试平均成绩为80分,张美莉同学考分最高为96分。下列说法正确的是()。A.其中共青团员100人是质量指标B.女生占71%是品质标志C.某课程考试平均成绩80分是质量指标D.每名同学是总体单位E.张美莉考分96分是变量值9、统计的三个涵义中,作为基础的是()。A.统计资料B.统计方法C统计工作D.统计科学10、考察某单位专业技术人员状况,下列中属于指标的()。A.具有高级职称的有150人\nB.高级职称的平均年龄为45岁C.高级职称人员中的最低年龄为28岁D.高级职称人员中女性占33。6%E.高级职称人员中有博士学位的58人;,第二章统计数据的搜集第二章统计数据的搜集第一节数据的计量与类型第二节统计数据的来源第三节调查方案设计第四节统计数据的质量课堂练习一、数据的计量尺度四种计量尺度定类尺度(概念要点)•计量层次最低•对事物进行平行的分类•各类别可以指定数字代码表示•使用时必须符合类别穷尽和互斥的要求•数据表现为“类别”,无序.•具有=或¹的数学特性定序尺度(概念要点)•对事物分类的同时给出各类别的顺序•比定类尺度精确•未测量出类别之间的准确差值•数据表现为“类别”,但有序•具有>或<的数学特性定距尺度(概念要点)1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性定比尺度(概念要点)1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有´或¸的数学特性四种计量尺度的比较\n二、数据类型和分析方法数据类型与统计方法变量及其类型统计指标及其类型第二节统计数据的来源一.统计数据的直接来源二.统计数据的间接来源一.统计数据的直接来源(一)统计调查方式(二)数据的搜集方法(一)统计调查方式普查(概念要点)•为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄抽样调查(概念要点)1.从总体中随机抽取一部分单位(样本)进行调查统计表报(概念要点)1.统计调查方式之一2.过去曾经是我国主要的数据收集方式3.按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据4.有各种各样的类型重点调查和典型调查(概念要点)•典型调查n从调查对象的全部单位中选择少数典型单位进行调查n目的是描述和揭示事物的本质特征和规律n调查结果不能用于推断总体(二)数据的搜集方法数据的搜集方法访问调查(概念要点)1.调查者与被调查者通过面对面地交谈而获得资料2.有标准式访问和非标准式访问n标准式访问通常按事先设计好的问卷进行n非标准式访问事先一般不制作问卷邮寄调查(概念要点)•也称邮寄问卷调查•是一种标准化调查\n•调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷•通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点•问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种电话调查(概念要点)•调查者利用电话与被调查者进行语言交流以获得信息•时效快、成本低•问题的数量不宜过多电脑辅助调查(概念要点)•又称电脑辅助电话调查•电脑与电话相结合完成调查的全过程•一般需借助专门的软件进行•硬件设备要求较高座谈会(概念要点)1.也称集体访谈2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料3.参加座谈会的人数不宜过多,一般为6~10人4.侧重于定性研究个别深度访问(概念要点)•一次只有一名受访者参加、针对特殊问题的调查•适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题•侧重于定性研究观察法(概念要点)1.就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入3.能够在被调查者不察觉的情况下获得资料实验法(概念要点)1.在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料2.有室内实验法和市场实验法统计数据的间接来源1.公开出版物:《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》……调查方案设计调查目的1.调查要达到的具体目标•回答“为什么调查?”•调查之前必须明确调查对象和调查单位\n•调查对象:调查研究的总体或调查范围•调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)•回答“向谁调查?”调查项目和调查表1.调查项目:调查的具体内容2.调查表:表现调查项目的表格或问卷3.回答“调查什么?”方案设计中的其他问题1.明确调查所采用的方法2.确定调查资料的所属时间和调查工作的期限3.调查的组织与实施细则数据误差的来源统计数据的误差•统计数据与客观现实之间的差距•有登记性误差和代表性误差两类n登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除n代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控制和计算统计数据的质量要求1.精度:最低的抽样误差或随机误差2.准确性:最小的非抽样误差或偏差3.关联性:满足用户决策、管理和研究的需要4.及时性:在最短的时间里取得并公布数据5.一致性:保持时间序列的可比性•最低成本:以最经济的方式取得数据课堂练习1.在国有工业企业设备普查中,每一个国有工业企业是(A.调查对象B.调查项目C.报告单位D.调查单位2.某市为了掌握流动人口情况,拟对该市几个流动人口较集中的地区进行调查,这种调查的组织方式是()A. 重点调查B.典型调查C.普查D.抽样调查3统计分组的关键是()。A.正确地选择分组标志与划分各组界限B.调查资料的准确性C.设计出科学的整理表D.搞好分组前的准备工作4.统计调查方案中的调查时间是指()。A.调查工作的期限B.调查登记的时间C.调查资料上交时间D调查资料所属时间5.区别重点调查和典型调查的标志是()。A.调查单位的多少不同B搜集资料的方法不同C确定调查单位的标准不同D确定调查单位的目的不同\n6.为了研究全国乡镇工业的发展情况,全国所有乡镇工业就是()。A.调查单位B.调查对象C.报告单位D.汇总单位7.我国统计调查方法是以()为主体。A.周期性普查B.统计报表C.重点调查、D经常性抽样调查8.统计调查按调查登记时间是否连续可分为()。A.全面调查B.非全面调查C.经常性调查D一次性调查E.统计报表制度9.统计资料整理的内容主要包括()。A.对原始资料进行审核与检查B.确定整理的目的与任务C.对统计资料的系统积累D.对原始资料进行综合汇总E.将汇总结果编制出现统计表和分析表10、普查属于()。A.一次性调查B.经常性调查C.全面性调查D.非全面调查E.专门调查11、下述数列中,属于分配数列的有()。A.品质数列B.动态数列c.变量数列D.单项式数列E.异距数列12、在同一变量数列中,组距与组数的关系是()A.组距的大小与组数的多少成反比B.组距的大小与组数的多少成正比C.组距的大小与组数的多少无关D.组数越多,组距越小;组数越少,组距越大E.有时成正比,有时成反比13、下列属于非全面调查的有()。A.抽样调查B.普查C.典型调查D,重点调查E.专门调查14、一般属于正态分布的变量分布有()。A.人口的死亡比率B.人的体重C.人的身高D学生考试分数E工人日产量15、能形成连续变量数列的数量标志有()。A.企业的从业人员数量B.企业的生产设备台数C.企业的工业增加值D.企业从业人员工资总额E.企业的利税总额第三章统计数据的整理与显示第三章统计数据的整理与显示\n第一节数据的预处理第二节品质数据的整理与显示第三节数量数据的整理与显示第四节统计表一、数据的审核、筛选与排序目的•数据的审核§发现数据中的错误•数据的筛选§找出符合条件的数据•数据排序§发现数据的基本特征§升序和降序二、数据的审核(原始数据)Æ审核的内容•完整性审核n检查应调查的单位或个体是否有遗漏n所有的调查项目或指标是否填写齐全•准确性审核n检查数据是否真实反映客观实际情况,内容是否符合实际n检查数据是否有错误,计算是否正确等二、数据的审核(原始数据)Æ审核数据准确性的方法•逻辑检查n从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象n主要用于对定类数据和定序数据的审核•计算检查n检查调查表中的各项数据在计算结果和计算方法上有无错误n主要用于对定距和定比数据的审核三、数据的审核(第二手数据)•适用性审核n弄清楚数据的来源、数据的口径以及有关的背景材料n确定这些数据是否符合自己分析研究的需要•时效性审核n应尽可能使用最新的统计数据•确认是否必要做进一步的加工整理四、数据的筛选•对审核过程中发现的错误应尽可能予以纠正•当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选•数据筛选的内容包括:§将某些不符合要求的数据或有明显错误的数据予以剔除\n§将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出五、数据的排序(要点)•按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索•排序有助于对数据检查纠错,以及为重新归类或分组等提供依据•在某些场合,排序本身就是分析的目的之一•排序可借助于计算机完成五、数据的排序(方法)•定类数据的排序§字母型数据,排序有升序降序之分,但习惯上用升序§汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分•定距和定比数据的排序n递增排序:设一组数据为X1,X2,…,XN,递增排序后可表示为:X(1)
X(2)>…>X(N)一、定类数据的整理与显示定类数据的整理与显示(基本问题)•要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的•对定类数据和定序数据主要是做分类整理•对定距数据和定比数据则主要是做分组整理•适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理与显示(基本过程)1.列出各类别定类数据的整理与显示(可计算的指标)1.频数:落在各类别中的数据个数2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值的比值定类数据整理—频数分布表(实例)定类数据的图示—条形图(条形图的制作)•条形图是用宽度相同的条形的高度或长短来表示数据变动的图形•条形图有单式、复式等形式•在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率•绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图定类数据的图示—条形图定类数据的图示—圆形图(圆形图的制作)\n•也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形•主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用•在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的•例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为3600×25.5%=91.80,其余类推定类数据的图示—圆形图(由Excel绘制的圆形图)二、定序数据的整理与显示定序数据的整理与显示(可计算的指标)1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加定序数据频数分布表(实例)定序数据频数分布表(实例)定序数据的图示—累计频数分布图(由Excel绘制的累计频数分布图)数据的图示—环形图(环形图的制作)•环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示•环形图与圆形图类似,但又有区别n圆形图只能显示一个总体各部分所占的比例n环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环•环形图可用于进行比较研究•环形图可用于展示定类和定序的数据品质数据的图示—环形图(由Excel绘制的环形图)编制频数分布表的步骤一、统计分组含义、原则、种类1、含义:2、原则:穷尽、互斥3、种类:按分组标志多少按分组标志性质按分组任务不同4、方法:分组方法单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量•适合于变量值较少的情况频数分布表的编制\n(实例)117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121单变量值分组表(实例)组距分组(要点)•将变量值的一个区间作为一组•适合于连续变量•适合于变量值较多的情况•必须遵循“不重不漏”的原则•可采用等距分组,也可采用不等距分组组距分组(步骤)•确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K组距分组(几个概念)1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值等距分组表(上下组限重叠)等距分组表(上下组限间断)等距分组表(使用开口组)等距分组与不等距分组(在表现频数分布上的差异)•等距分组n各组频数的分布不受组距大小的影响n可直接根据绝对频数来观察频数分布的特征和规律•不等距分组n各组频数的分布受组距大小不同的影响n各组绝对频数的多少不能反映频数分布的实际状况n需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况二、数量数据的图示1、直方图2、折线图3、茎叶图4、箱线图5、线图6、雷达图7、小结分组数据—直方图(直方图的制作)•用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布•\n在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)•直方图下的总面积等于1分组数据—直方图(直方图的绘制)分组数据—直方图(直方图与条形图的区别)•条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的•直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义•直方图的各矩形通常是连续排列,条形图则是分开排列分组数据—折线图(折线图的制作)•折线图也称频数多边形图(Frequencypolygon)•是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉•折线图的两个终点要与横轴相交,具体的做法是n第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴n折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据—折线图(折线图的绘制)未分组数据—茎叶图(茎叶图的制作)•用于显示未分组的原始数据的分布•由“茎”和“叶”两部分构成,其图形是由数字组成的•以该组数据的高位数值作树茎,低位数字作树叶•对于n(20≤n≤300)个数据,茎叶图最大行数不超过L=[10×log10n]5.茎叶图类似于横置的直方图,但又有区别§直方图可大体上看出一组数据的分布状况,但没有给出具体的数值§茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息未分组数据—茎叶图(茎叶图的制作)未分组数据—茎叶图(扩展的茎叶图)未分组数据—箱线图(箱线图的制作)•用于显示未分组的原始数据或分组数据的分布•箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成•其绘制方法是:n首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)n连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接未分组数据—单批数据箱线图(箱线图的构成)未分组数据—单批数据箱线图(实例)\n分布的形状与箱线图未分组数据—多批数据箱线图(实例)未分组数据—多批数据箱线图(由STATIATICA绘制的多批数据箱线图)未分组数据—箱线图(由STATIATICA绘制的多批数据箱线图)时间序列数据—线图(线图的制作)Æ绘制线图时应注意以下几点•时间一般绘在横轴,指标数据绘在纵轴•图形的长宽比例要适当,其长宽比例大致为10:7•一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据—线图(实例)时间序列数据(由Excel绘制的线图)多变量数据—雷达图(要点)•雷达图(RadarChart)是显示多个变量的常用图示方法•在显示或对比各变量的数值总和时十分有用•假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比•可用于研究多个样本之间的相似程度多变量数据—雷达图(雷达图的制作)Æ设有n组样本S1,S2,…Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据—雷达图(实例)多变量数据—雷达图(由Excel绘制的雷达图)多变量数据—雷达图(实例)多变量数据—雷达图(由Excel绘制的对数坐标雷达图)数据类型及图示(小结)三、频数分布的类型频数分布的类型统计表的结构统计表的设计•要合理安排统计表的结构•数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明•表中的上下两条横线一般用粗线,其他线用细线\n•通常情况下,统计表的左右两边不封口•表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一•对于没有数字的表格单元,一般用“—”表示•必要时可在表的下方加上注释第四章数据分布特征的测度第四章数据分布特征的测度第一节集中趋势的测度***第二节离散程度的测度***第三节偏态与峰度的测度数据分布的特征和测度一、集中趋势(Centraltendency)二、众数众数(概念要点)•集中趋势的测度值之一•出现次数最多的变量值•不受极端值的影响•可能没有众数或有几个众数•主要用于定类数据,也可用于定序数据和数值型数据众数(众数的不唯一性)无众数原始数据:10591268定类数据的众数(算例)定序数据的众数(算例)数值型分组数据的众数***(要点及计算公式)1.众数的值与相邻两组频数的分布有关数值型分组数据的众数(算例)三、中位数和分位数中位数(概念要点)•集中趋势的测度值之一•排序后处于中间位置上的值中位数(位置的确定)定序数据的中位数(算例)数值型未分组数据的中位数\n(5个数据的算例)原始数据:2422212620排序:2021222426位置:12345数值型未分组数据的中位数(6个数据的算例)原始数据:10591268排序:56891012位置:123456数值型分组数据的中位数***(要点及计算公式)•计算向上累计频数。•在向上累计频数序列中从上往下找第一个大于N/2的数,该数所对应的既为中位数所在组。•采用下列近似公式计算:数值型分组数据的中位数(算例)四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值四分位数(位置的确定)定序数据的四分位数(算例)数值型未分组数据的四分位数(7个数据的算例)原始数据:23213032282526排序:21232526283032位置:1234567数值型未分组数据的四分位数(6个数据的算例)原始数据:232130282526排序:212325262830位置:123456数值型分组数据的四分位数(计算公式)数值型分组数据的四分位数(计算示例)QL位置=50/4=12.5定距和定比数据:均值(平均数)平均数(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响\n•用于数值型数据,不能用于定类数据和定序数据•类型:算术平均数调和平均数几何平均数算术平均数(计算公式)简单算术平均数(算例)原始数据:10591368加权算术平均数(算例)算术平均数(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):811平均数(数学性质)1.各变量值与均值的离差之和等于零调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为调和平均数(算例)几何平均数(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为几何平均数(算例)【例4.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。五、众数、中位数和均值的比较众数、中位数和均值的关系小结\n一、离中趋势的含义二、异众比率异众比率(概念要点)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为异众比率(算例)三、四分位差四分位差(概念要点)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU-QL4.反映了中间50%数据的离散程度•不受极端值的影响•用于衡量中位数的代表性四、方差和标准差极差平均差方差和标准差极差(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布平均差(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少平均差(计算过程及结果)方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布•反映了各变量值与均值的平均差异•根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差和标准差(计算公式)未分组数据:\n总体标准差(计算过程及结果)样本方差和标准差(计算公式)未分组数据:样本方差自由度(degreeoffreedom)•一组数据中可以自由取值的数据的个数•当样本数据的个数为n时,若样本均值`x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值•例如,样本有3个数值,即x1=2,x2=4,x3=9,则`x=5。当`x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值•样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量样本方差(算例)原始数据:10591368样本标准差(算例)样本标准差方差(简化计算公式)样本方差方差(数学性质)?各变量值对均值的方差小于对任意值的方差设X0为不等于`X的任意数,D2为对X0的方差,则标准化值(概念要点和计算公式)1.也称标准分数2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为五、相对离散程度:离散系数离散系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为离散系数\n(实例和计算过程)离散系数(计算结果)数据类型与离散程度测度值一、偏态偏态与峰度分布的形状偏态(概念要点)1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数>0为右偏分布4.偏态系数<0为左偏分布5.计算公式为偏态(实例)偏态与峰度(从直方图上观察)偏态系数(计算过程)偏态系数(计算结果)二、峰度峰度(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数<3为扁平分布4.偏态系数>3为尖峰分布5.计算公式为峰度系数系数(实例计算结果)由Excel输出的描述统计量本章小节1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合•偏态及峰度的测度方法•用Excel计算描述统计量第五章抽样与参数估计第五章抽样与参数估计第一节抽样与抽样分布第二节总体参数估计基本方法第三节两个总体均值及两个总体比例之差的估计第四节两正态总体方差比的区间估计\n第五节抽样设计一、基本概念(一)样本容量与样本个数(二)总体参数与样本统计量(三)抽样方法(一)、样本容量与样本个数?样本:从总体中所抽取的部分个体所组成集合?样本容量:样本中所含个体的数量?样本个数:从总体中所所有可能抽取的样本的个数(二)总体参数与样本统计量1、总体参数:总体分布的数量特征。例如:总体均值、总体方差、总体成数2、样本统计量:与总体参数相对应的,从总体中随机抽取的某一样本的数量特征例如:样本均值、样本方差、样本成数(三)抽样方法¢概率抽样:根据已知的概率选取样本¢简单随机抽样:完全随机地抽选样本(重复与不重复抽样)¢分层抽样:总体分成不同的“层”,然后在每一层内进行抽样¢整群抽样:将一组被调查者(群)作为一个抽样单位¢等距抽样:在样本框中每隔一定距离抽选一个被调查者¢非概率抽样:不是完全按随机原则选取样本¢非随机抽样:由调查人员自由选取被调查者¢判断抽样:通过某些条件过滤来选择被调查者¢配额抽样:选择一群特定数目、满足特定条件的被调查者二、样本均值的抽样分布(一)、抽样分布(概念要点)•所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布•是一种理论概率分布•随机变量是样本统计量n样本均值,样本比例等•结果来自容量相同的所有可能样本(二)、样本均值的抽样分布(一个例子)样本均值的抽样分布(一个例子)样本均值的抽样分布(一个例子)所有样本均值的期望和方差样本均值的分布与总体分布的比较三、大数定理与中心极限定理大数定理(图示)中心极限定理(图示)\n样本方差的抽样分布样本方差的分布卡方(c2)分布均值的标准误•所有可能的样本均值的标准差,测度所有样本均值的离散程度•小于总体标准差•计算公式为两个样本方差比的抽样分布两个样本方差比的抽样分布两个样本方差比的抽样分布T统计量的分布T统计量的分布一、总体参数估计概述1、被估计的总体参数2、总体参数估计的要求1、被估计的总体参数2、总体参数估计的要求精度的要求:所谓“精度”是指估计误差的最大范围。可以用极限误差表示。可靠性的要求:所谓“可靠性”是指估计结果的正确性的概率大小。可以用置信度表示。二者的关系:精度与可靠性是相互矛盾的。二、点估计(一)点估计的定义(二)优良性准则(一)、点估计的定义(概念要点)•从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计§例如:用样本均值作为总体未知均值的估计值就是一个点估计2.点估计没有给出估计值接近总体未知参数程度的信息(二)、估计量的优良性准则(无偏性)无偏性:估计量的数学期望等于被估计的总体参数(二)估计量的优良性准则(有效性)(二)估计量的优良性准则(一致性)一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数三、区间估计(一)、区间估计(概念要点)1.根据一个样本的观察值给出总体参数的估计范围•给出总体参数落在这一区间的概率•例如:总体均值落在50~70之间,置信度为95%置信区间估计(内容)(二)总体均值的区间估计(s2已知)总体均值的置信区间(s2已知)\n1.假定条件n总体服从正态分布,且总体方差(s2)已知n如果不是正态分布,可以由正态分布来近似(n³30)•使用正态分布统计量Z总体均值的区间估计(正态总体:实例)总体均值的区间估计(非正态总体:实例)(三)总体均值的区间估计(s2未知)总体均值的置信区间(s2未知)1.假定条件n总体方差(s2)未知n总体必须服从正态分布•使用t分布统计量总体均值的区间估计(实例)(四)总体比例的区间估计总体比例的置信区间1.假定条件两类结果n总体服从二项分布n可以由正态分布来近似•使用正态分布统计量Z总体比例的置信区间(实例)(五)总体方差的区间估计正态总体方差的区间估计(要点)1.估计一个总体的方差或标准差2.假设总体服从正态分布•总体方差s2的点估计量为S2,且正态总体方差的区间估计(实例)【例】对某种金属的10个样品组成的一个随机样本作抗拉强度试验。从实验数据算出的方差为4。试求s2的95%的置信区间。正态总体方差的区间估计(计算结果)(六)样本容量的确定估计总体均值时样本容量的确定•根据均值区间估计公式可得样本容量n为样本容量的确定(实例)估计总体成数时样本容量的确定•根据成数区间估计公式可得样本容量n为样本容量的确定(实例)【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。两个总体均值之差的估计两个样本均值之差的抽样分布两个总体均值之差的估计(s12、s22已知)1.假定条件\n§两个样本是独立的随机样本§两个总体都服从正态分布§若不是正态分布,可以用正态分布来近似(n1³30和n2³30)•两个独立样本均值之差的抽样分布服从正态分布,其期望值为两个总体均值之差的估计(s12、s22已知)•使用正态分布统计量Z两个总体均值之差的估计(实例)【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为sA2=2500和sB2=3600的正态分布。试求mA-mB的区间估计(1)置信度为95%(2)置信度为99%两个总体均值之差的估计(计算结果)两个总体均值之差的估计(s12、s22未知,但相等)假定条件n两个总体都服从正态分布ns12、s12未知,但s12=s12•总体方差s2的联合估计量为两个总体均值之差的估计(s12、s22未知,但相等)两个总体均值之差的估计(实例)【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:`x1=22.2,s12=16.63,`x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,且方差相等。试求两位职员办理账单的服务时间之差的95%的区间估计。两个总体均值之差的估计(计算结果)两个总体均值之差的估计(s12、s22未知,且不相等)•假定条件§两个总体都服从正态分布§s12、s12未知,且s12¹s12§使用的统计量为两个总体均值之差的估计(s12、s22未知,且不相等)两个总体均值之差的估计(续前例)【例】为比较两位银行职员为新顾客办理个人结算账目的平均时间长度,分别给两位职员随机安排了10位顾客,并记录下了为每位顾客办理账单所需的时间(单位:分钟),相应的样本均值和方差分别为:`x1=22.2,s12=16.63,`x2=28.5,s22=18.92。假定每位职员办理账单所需时间均服从正态分布,但方差不相等。试求两位职员办理账单的服务时间之差的95%的区间估计。两个总体均值之差的估计(计算结果)两个总体比例之差的估计两个总体比例之差的区间估计\n1.假定条件§两个总体是独立的§两个总体服从二项分布§可以用正态分布来近似2.两个总体比例之差P1-P2在1-a置信水平下的置信区间为两个总体比例之差的估计(实例)【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。两个总体比例之差的估计(计算结果)两个正态总体方差比的区间估计两个正态总体方差比的区间估计(要点)1.比较两个总体的方差比•用两个样本的方差比来判断§如果S12/S22接近于1,说明两个总体方差很接近§如果S12/S22远离1,说明两个总体方差之间存在差异§总体方差比在1-a置信水平下的置信区间为两个正态总体方差比的区间估计(实例)【例】用某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程中处理的时间长度。某生产商拥有两条生产线,为了降低产品中杂质平均数量的同时降低杂质的变异,对两条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为`x1=3.2,S12=1.04`x2=3.0,S22=0.51试确定两总体方差比s12/s12的90%的置信区间。两个正态总体方差比的区间估计(计算结果)一.类型抽样(一)、含义(二)、区间估计的步骤1、计算各组平均数2、计算样本平均数(各组频数为权数)****3、计算平均数抽样平均误差二.整群抽样(一)、含义(二)、区间估计的步骤1、计算各群平均数2、计算样本平均数****3、计算平均数抽样平均误差二.整群抽样\n(一)、含义(二)、区间估计的步骤1、计算各群平均数2、计算样本平均数****3、计算平均数抽样平均误差本章小结1.抽样的有关概念•抽样分布•点估计和区间估计的有关概念4.确定样本容量5.区间估计第六章相关与回归分析第六章相关与回归分析第一节变量间的相关关系第二节一元线性回归第三节多元线性回归第四节可化为线性回归的曲线回归学习目标1.掌握相关系数的含义、计算方法和应用2.掌握一元线性回归的基本原理和参数的最小二乘估计方法•掌握回归方程的显著性检验•利用回归方程进行预测•掌握多元线性回归分析的基本方法•了解可化为线性回归的曲线回归•用Excel进行回归分析一、变量相关的概念(一)变量间的关系(函数关系)•是一一对应的确定关系•设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量•各观测点落在一条线上(一)变量间的关系(函数关系)(二)变量间的关系(相关关系)•变量间关系不能用函数关系精确表达•一个变量的取值不能由另一个变量唯一确定•当变量x取某个值时,变量y的取值可能有几个•各观测点分布在直线周围(二)变量间的关系\n(相关关系)相关关系的类型相关关系的图示二、相关系数及其计算(一)相关关系的测度(概念要点)•对变量之间关系密切程度的度量•对两个变量之间线性相关程度的度量称为简单相关系数•若相关系数是根据总体全部数据计算的,称为总体相关系数,记为r•若是根据样本数据计算的,则称为样本相关系数,记为r(一)相关关系的测度(计算公式)Æ样本相关系数的计算公式(一)相关关系的测度(相关系数取值及其意义)•r的取值范围是[-1,1]•|r|=1,为完全相关nr=1,为完全正相关nr=-1,为完全负正相关•r=0,不存在线性相关关系相关•-1£r<0,为负相关•0a=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系一、回归的含义及回归方程种类什么是回归分析?回归的由来回归方程的类型回归分析与相关分析的区别回归的含义及回归方程种类(什么是回归分析?)•从一组样本数据出发,确定变量之间的数学关系式•对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著•利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归的含义及回归方程种类(回归方程的类型)什么是回归方程(概念要点)•回答“变量之间是什么样的关系?”•方程中运用n1个因变量(被解释变量)l被预测的变量n1个或多个自变量(解释变量)l用于预测的变量•主要用于预测和估计一元线性回归方程(概念要点)•当只涉及一个自变量时称为一元回归,且因变量y与自变量x之间为线性关系时称为一元线性回归•对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系,该直线称为回归直线\n•描述因变量y与自变量x直线关系的模型称为回归方程回归的含义及回归方程种类(回归分析与相关分析的区别)•相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化•相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量•相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制•一元线性回归方程总体回归方程样本回归方程一元线性回归方程的基本假定总体一元线性回归方程(概念要点)•在各个给定自变量X值的条件下,因变量Y的期望值的轨迹,称为总体回归方程。•总体一元线性回归方程的形式如下E(y)=b0+b1x其随机形式如下Y=b0+b1x+ε样本回归方程(概念要点)一元线性回归方程的基本假定•期望值为0假定;•同方差假定;•无自相关假定;•解释变量与扰动项无相关假定。三、参数b0和b1的最小二乘估计最小二乘法原理最小二乘法的实例最小二乘法(概念要点)最小二乘法(图示)最小二乘法(和的计算公式)最小二乘法的实例【例10.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表10-1。【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程根据和的求解公式得\n人均消费金额对人均国民收入的回归方程为四、回归方程的显著性检验离差平方和的分解判定系数r2回归方程的显著性检验回归系数的显著性检验估计标准误差Sy离差平方和的分解•因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面n由于自变量x的取值不同造成的n除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响•对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示离差平方和的分解(图示)离差平方和的分解(三个平方和的关系)2.两端平方后求和有离差平方和的分解(三个平方和的意义)•总平方和(SST)n反映因变量的n个观察值与其均值的总离差•回归平方和(SSR)n反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和•残差平方和(SSE)n反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和判定系数r2•回归平方和占总离差平方和的比例回归方程的显著性检验(概念要点)•检验自变量和因变量之间的线性关系是否显著•具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著§如果是显著的,两个变量之间存在线性关系§如果不显著,两个变量之间不存在线性关系回归方程的显著性检验(检验的步骤)•提出假设nH0:线性关系不显著估计标准误差Sy•实际观察值与回归估计值离差平方和的均方根•反映实际观察值在回归直线周围的分散状况\n•从另一个角度说明了回归直线的拟合程度•计算公式为回归系数的显著性检验(要点)回归系数的显著性检验(样本统计量的分布)回归系数的显著性检验(步骤)•提出假设nH0:b1=0(没有线性关系)nH1:b1¹0(有线性关系)•计算检验的统计量回归系数的显著性检验(实例)•提出假设nH0:b1=0人均收入与人均消费之间无线性关系nH1:b1¹0人均收入与人均消费之间有线性关系•计算检验的统计量五、预测及应用要点点估计区间估计利用回归方程进行估计和预测(要点)•根据自变量x的取值估计或预测因变量y的取值•估计或预测的类型n点估计ly的平均值的点估计ly的个别值的点估计n区间估计ly的平均值的置信区间估计ly的个别值的预测区间估计利用回归方程进行估计和预测(点估计)利用回归方程进行估计和预测(点估计)?y的平均值的点估计n利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计n在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得利用回归方程进行估计和预测(点估计)?y的个别值的点估计利用回归方程进行估计和预测(区间估计)\n•点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计•对于自变量x的一个给定值x0,根据回归方程得到因变量y的一个估计区间•区间估计有两种类型n置信区间估计n预测区间估计利用回归方程进行估计和预测(置信区间估计)?y的平均值的置信区间估计n利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值E(y0)的估计区间,这一估计区间称为置信区间nE(y0)在1-a置信水平下的置信区间为利用回归方程进行估计和预测(置信区间估计:算例)【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间解:根据前面的计算结果=712.57,Sy=14.95,ta/2(13-2)=2.201,n=13置信区间为利用回归方程进行估计和预测(预测区间估计)?y的个别值的预测区间估计n利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,这一区间称为预测区间ny0在1-a置信水平下的预测区间为利用回归方程进行估计和预测(置预测区间估计:算例)【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间解:根据前面的计算结果有=712.57,Sy=14.95,ta/2(13-2)=2.201,n=13置信区间为影响区间宽度的因素1.置信水平(1-a)n区间宽度随置信水平的增大而增大2.数据的离散程度(s)n区间宽度随离散程度的增大而增大3.样本容量n区间宽度随样本容量的增大而减小4.用于预测的xp与`x的差异程度n区间宽度随xp与`x的差异程度的增大而增大置信区间、预测区间、回归方程多元线性回归模型多元线性回归模型(概念要点)•一个因变量与两个及两个以上自变量之间的回归•描述因变量y如何依赖于自变量x1,x2,…,xp和误差项e的方程称为\n多元线性回归模型•涉及p个自变量的多元线性回归模型可表示为多元线性回归模型(概念要点)?对于n组实际观察数据(yi;xi1,,xi2,¼,xip),(i=1,2,…,n),多元线性回归模型可表示为多元线性回归模型(基本假定)•自变量x1,x2,…,xp是确定性变量,不是随机变量•随机误差项ε的期望值为0,且方差σ2都相同•误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立多元线性回归方程(概念要点)•描述y的平均值或期望值如何依赖于x1,x1,…,xp的方程称为多元线性回归方程•多元线性回归方程的形式为E(y)=b0+b1x1+b2x2+…+bpxp多元线性回归方方程的直观解释多元线性回归的估计(经验)方程•总体回归参数是未知的,利用样本数据去估计参数的最小二乘估计参数的最小二乘法(要点)回归方程的显著性检验多重样本决定系数(多重判定系数R2)•回归平方和占总离差平方和的比例修正的多重样本决定系数(修正的多重判定系数R2)•由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值•用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为回归方程的显著性检验(线性关系的检验)•检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验•检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著n如果是显著的,因变量与自变量之间存在线性关系n如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验(步骤)•提出假设nH0:b1=b2=¼=bp=0线性关系不显著nH1:b1,b2,¼,bp至少有一个不等于0\n回归系数的显著性检验(要点)•如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi对因变量y的影响是否显著•对每一个自变量都要单独进行检验•应用t检验•在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验(步骤)•提出假设nH0:bi=0(自变量xi与因变量y没有线性关系)nH1:bi¹0(自变量xi与因变量y有线性关系)•计算检验的统计量t一个二元线性回归的例子一个二元线性回归的例子(Excel输出的结果)一个二元线性回归的例子(计算机输出结果解释)•销售额与人口数和年人均收入的二元回归方程为非线性回归1.因变量y与x之间不是线性关系2.可通过变量代换转换成线性关系•用最小二乘法求出参数的估计值•并非所有的非线性模型都可以化为线性模型几种常见的非线性模型Æ指数函数Æ幂函数Æ双曲线函数Æ对数函数ÆS型曲线非线性回归(实例)【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。非线性回归(实例)非线性回归(实例)•用线性模型:y=b0+b1x+e,有y=2.671+0.0018x•用指数模型:y=abx,有y=4.05´(1.0002)x•比较直线的残差平方和=5.3371<指数模型的残差平方和=6.11。直线模型略好于指数模型本章小结\n•相关系数与相关分析•一元线性回归模型、回归方程与估计的回归方程•多元线性回归模型、回归方程与估计的回归方程•回归方程与回归系数的显著性检验•非线性回归的线性化5.用Excel进行回归分析第七章时间序列分析第七章时间序列分析第一节时间序列的对比分析第二节长期趋势分析第三节季节变动分析第四节循环波动分析学习目标1.掌握时间序列对比分析的方法2.掌握长期趋势分析的方法及应用3.掌握季节变动分析的原理与方法4.掌握循环波动的分析方法时间序列及其分类时间序列(概念要点)1.同一现象在不同时间上的相继观察值排列而成的数列2.形式上由现象所属的时间和现象在不同时间上的观察值两部分组成3.排列的时间可以是年份、季度、月份或其他任何时间形式时间序列(一个例子)时间序列的分类时间序列的分类•绝对数时间序列n一系列绝对数按时间顺序排列而成n时间序列中最基本的表现形式n反映现象在不同时间上所达到的绝对水平n分为时期序列和时点序列•时期序列:现象在一段时期内总量的排序•时点序列:现象在某一瞬间时点上总量的排序•相对数时间序列§一系列相对数按时间顺序排列而成•平均数时间序列n一系列平均数按时间顺序排列而成时间序列的水平分析发展水平与平均发展水平(概念要点)•发展水平\nn现象在不同时间上的观察值n说明现象在某一时间上所达到的水平n表示为Y1,Y2,…,Yn或Y0,Y1,Y2,…,Yn•平均发展水平n现象在不同时间上取值的平均数,又称序时平均数n说明现象在一段时期内所达到的一般水平n不同类型的时间序列有不同的计算方法绝对数序列的序时平均数(计算方法)计算公式:绝对数序列的序时平均数(计算方法)绝对数序列的序时平均数(计算方法)绝对数序列的序时平均数(计算方法)当间隔相等(T1=T2=…=Tn-1)时,有绝对数序列的序时平均数(实例)绝对数序列的序时平均数(实例)相对数序列的序时平均数(计算方法)相对数序列的序时平均数(计算方法与实例)相对数序列的序时平均数(计算结果)增长量(概念要点)•报告期水平与基期水平之差,说明现象在观察期内增长的绝对数量•有逐期增长量与累积增长量之分§逐期增长量l报告期水平与前一期水平之差l计算形式为:Δi=Yi-Yi-1(i=1,2,…,n)§累积增长量l报告期水平与某一固定时期水平之差l计算形式为:Δi=Yi-Y0(i=1,2,…,n)•各逐期增长量之和等于最末期的累积增长量平均增长量(概念要点)1.观察期内各逐期增长量的平均数2.描述现象在观察期内平均增长的数量3.计算公式为时间序列的速度分析发展速度(要点)•报告期水平与基期水平之比\n•说明现象在观察期内相对的发展变化程度•有环比发展速度与定期发展速度之分环比发展速度与定基发展速度(要点)n环比发展速度n报告期水平与前一期水平之比环比发展速度与定基发展速度(关系)•观察期内各环比发展速度的连乘积等于最末期的定基发展速度增长速度(要点)•增长量与基期水平之比•又称增长率•说明现象的相对增长程度•有环比增长速度与定期增长速度之分•计算公式为环比增长速度与定基增长速度(要点)•环比增长速度基n报告期水平与前一时期水平之比发展速度与增长速度的计算(实例)平均发展速度(要点)•观察期内各环比发展速度的平均数•说明现象在整个观察期内平均发展变化的程度•通常采用几何法(水平法)计算•计算公式为平均发展速度与平均增长速度(算例)平均发展速度(几何法的特点)•从最初水平Y0出发,每期按平均发展速度发展,经过n期后将达到最末期水平Yn•按平均发展速度推算的最后一期的数值与最后一期的实际观察值一致•只与序列的最初观察值Y0和最末观察值Yn有关•如果关心现象在最后一期应达到的水平,采用水平法计算平均发展速度比较合适年度化增长率(要点)•增长率以年来表示时,称为年度化增长率或年率•可将月度增长率或季度增长率转换为年度增长率•计算公式为年度化增长率(实例)【例11.7】已知某地区的如下数据,计算年度化增化增长率\n•1999年1月份的社会商品零售总额为25亿元,2000年1月份在零售总额为30亿元•1998年3月份财政收入总额为240亿元,2000年6月份的财政收入总额为为300亿元•2000年1季度完成的国内生产总值为500亿元,2季度完成的国内生产总值为510亿元•1997年1季度完成的国内生产总值为500亿元,2季度完成的国内生产总值为510亿元年度化增长率(计算结果)解:•由于是月份数据,所以m=12;从1999年一月到2000年一月所跨的月份总数为12,所以n=12年度化增长率(计算结果)解:•m=12,n=27年度化增长率为年度化增长率(计算结果)解:•由于是季度数据,所以m=4,从一季度到二季度所跨的时期总数为1,所以n=1年度化增长率为年度化增长率(计算结果)解:•m=4,从1997年四季度到2000年四季度所跨的季度总数为12,所以n=12年度化增长率为速度的分析与应用(需要注意的问题)•当时间序列中的观察值出现0或负数时,不宜计算速度•例如:假定某企业连续五年的利润额分别为5、2、0、-3、2万元,对这一序列计算速度,要么不符合数学公理,要么无法解释其实际意义。在这种情况下,适宜直接用绝对数进行分析•在有些情况下,不能单纯就速度论速度,要注意速度与绝对水平的结合分析速度的分析与应用(一个例子)速度的分析与应用(增长1%绝对值)•速度每增长一个百分点而增加的绝对量•用于弥补速度分析中的局限性•计算公式为时间序列的构成要素与模型(构成要素与测定方法)时间序列的构成要素与模型(要点)•构成因素n长期趋势(Seculartrend)n季节变动(SeasonalFluctuation)n循环波动(CyclicalMovement)n不规则波动(IrregularVariations)\n•模型n乘法模型:Yi=Ti×Si×Ci×Iin加法模型:Yi=Ti+Si+Ci+Ii长期趋势(概念要点)•现象在较长时期内持续发展变化的一种趋向或状态•由影响时间序列的基本因素作用形成•有线性趋势和非线性趋势二、线性趋势线性趋势•现象随时间的推移呈现出稳定增长或下降的线性变化规律•测定方法有n移动平均法n移动中位数法n线性模型法移动平均法(MovingAverageMethod)•测定长期趋势的一种较简单的常用方法n通过扩大原时间序列的时间间隔,并按一定的间隔长度逐期移动,计算出一系列移动平均数n由移动平均数形成的新的时间序列对原时间序列的波动起到修匀作用,从而呈现出现象发展的变动趋势•移动步长为K(13.表示为H1nH1:m<某一数值,或m>某一数值n例如,H1:m<3910(克),或m>3910(克)Æ什么检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑n是大样本还是小样本n总体方差已知还是未知•检验统计量的基本形式为规定显著性水平aÆ什么显著性水平?1.是一个概率值2.原假设为真时,拒绝原假设的概率n被称为抽样分布的拒绝域3.表示为a(alpha)n常用的a值有0.01,0.05,0.104.由研究者事先确定作出统计决策•计算检验的统计量•根据给定的显著性水平a,查表得出相应的临界值Za或Za/2•将检验统计量的值与a水平的临界值进行比较•得出接受或拒绝原假设的结论假设检验中的小概率原理假设检验中的小概率原理Æ什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率\n2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定假设检验中的两类错误1.第一类错误(弃真错误)n原假设为真时拒绝原假设n会产生一系列后果n第一类错误的概率为al被称为显著性水平2.第二类错误(取伪错误)n原假设为假时接受原假设n第二类错误的概率为b(Beta)a错误和错误的关系影响错误的因素1.总体参数的真值n随着假设的总体参数的减少而增大2.显著性水平an当a减少时增大3.总体标准差sn当s增大时增大4.样本容量nn当n减少时增大双侧检验和单侧检验双侧检验与单侧检验(假设的形式)双侧检验(原假设与备择假设的确定)•双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施•例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格•建立的原假设与备择假设应为H0:m=10H1:m¹10双侧检验(确定假设的步骤)1.例如问题为:检验该企业生产的零件平均长度为4厘米2.步骤n从统计角度陈述问题(m=4)n从统计角度提出相反的问题(m¹4)l必需互斥和穷尽n提出原假设(m=4)n提出备择假设(m¹4)l有¹符号双侧检验(例子)提出原假设:H0:m=4提出备择假设:H1:m¹4\n双侧检验(显著性水平与拒绝域)双侧检验(显著性水平与拒绝域)双侧检验(显著性水平与拒绝域)双侧检验(显著性水平与拒绝域)单侧检验(原假设与备择假设的确定)Æ检验研究中的假设§将所研究的假设作为备择假设H1§将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设§先确立备择假设H1单侧检验(原假设与备择假设的确定)q例如,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上n属于研究中的假设n建立的原假设与备择假设应为H0:m£1500H1:m>1500q例如,改进生产工艺后,会使产品的废品率降低到2%以下n属于研究中的假设n建立的原假设与备择假设应为H0:m³2%H1:m<2%单侧检验(原假设与备择假设的确定)Æ检验某项声明的有效性•将所作出的说明(声明)作为原假设•对该说明的质疑作为备择假设•先确立原假设H0n除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的单侧检验(原假设与备择假设的确定)q例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上§除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的§建立的原假设与备择假设应为H0:m³1000H1:m<1000单侧检验(例子)提出原假设:H0:m³1000选择备择假设:H1:m<1000单侧检验(例子)提出原假设:H0:m£25选择备择假设:H1::m>25\n单侧检验(显著性水平与拒绝域)左侧检验(显著性水平与拒绝域)左侧检验(显著性水平与拒绝域)右侧检验(显著性水平与拒绝域)右侧检验(显著性水平与拒绝域)一个总体的检验检验的步骤陈述原假设H0陈述备择假设H1选择显著性水平a选择检验统计量选择n总体方差已知时的均值检验(双尾Z检验)一个总体的检验均值的双尾Z检验(s2已知)1.假定条件n总体服从正态分布n若不服从正态分布,可用正态分布来近似(n³30)2.原假设为:H0:m=m0;备择假设为:H1:m¹m0•使用z-统计量均值的双尾Z检验(实例)【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为m0=0.081mm,总体标准差为s=0.025。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(a=0.05)均值的双尾Z检验(计算结果)H0:m=0.081H1:m¹0.081a=0.05n=200临界值(s):总体方差已知时的均值检验(单尾Z检验)均值的单尾Z检验(s2已知)•假定条件\nn总体服从正态分布n若不服从正态分布,可以用正态分布来近似(n³30)2.备择假设有<或>符号3.使用z-统计量均值的单尾Z检验(提出假设)均值的单尾Z检验(实例)【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡?(a=0.05)均值的单尾Z检验(计算结果)H0:m³1000H1:m<1000a=0.05n=100临界值(s):均值的单尾Z检验(实例)【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?(a=0.05)均值的单尾Z检验(计算结果)H0:m£1020H1:m>1020a=0.05n=16临界值(s):总体方差未知时的均值检验(双尾t检验)一个总体的检验均值的双尾t检验(s2未知)1.假定条件n总体为正态分布n如果不是正态分布,只有轻微偏斜和大样本(n³30)条件下2.使用t统计量均值的双尾t检验(实例)【例】某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?均值的双尾t检验(计算结果)H0:m=1000H1:m¹1000\na=0.05df=9-1=8临界值(s):总体方差未知时的均值检验(单尾t检验)均值的单尾t检验(实例)【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?(a=0.05)均值的单尾t检验(计算结果)H0:m³40000H1:m<40000a=0.05df=20-1=19临界值(s):总体比例的假设检验(Z检验)适用的数据类型一个总体的检验一个总体比例的Z检验•假定条件n有两类结果n总体服从二项分布n可用正态分布来近似•比例检验的z统计量一个总体比例的Z检验(实例)【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200的家庭,其中68个家庭拥有电脑。试问研究者的估计是否可信?(a=0.05)一个样本比例的Z检验(结果)H0:p=0.3H1:p¹0.3a=0.05n=200临界值(s):总体方差的检验(c2检验)一个总体的检验方差的卡方(c2)检验1.检验一个总体的方差或标准差2.假设总体近似服从正态分布\n3.原假设为H0:s2=s024.检验统计量卡方(c2)检验实例【例】根据长期正常生产的资料可知,某厂所产维尼纶的纤度服从正态分布,其方差为0.0025。现从某日产品中随机抽取20根,测得样本方差为0.0042。试判断该日纤度的波动与平日有无显著差异?(a=0.05)卡方(c2)检验计算结果H0:s2=0.0025H1:s2¹0.0025a=0.05df=20-1=19临界值(s):两个正态总体的参数检验两个独立样本的均值检验两个独立样本之差的抽样分布两个总体均值之差的Z检验(s12、s22已知)1.假定条件n两个样本是独立的随机样本n两个总体都是正态分布n若不是正态分布,可以用正态分布来近似(n1³30和n2³30)•原假设:H0:m1-m2=0;备择假设:H1:m1-m2¹0•检验统计量为两个总体均值之差的Z检验(假设的形式)两个总体均值之差的Z检验(例子)两个总体均值之差的Z检验(计算结果)H0:m1-m2=0H1:m1-m2¹0a=0.05n1=32,n2=40临界值(s):两个总体均值之差的t检验(s12、s22未知)•检验具有等方差的两个总体的均值•假定条件n两个样本是独立的随机样本n两个总体都是正态分布n两个总体方差未知但相等s12=s22•检验统计量\n两个总体均值之差的t检验(例子)两个总体均值之差的t检验(计算结果)H0:m1-m2£0H1:m1-m2>0a=0.05n1=10,n2=8临界值(s):两个相关(配对或匹配)样本的均值检验两个总体均值之差的检验(配对样本的t检验)1.检验两个相关总体的均值n配对或匹配n重复测量(前/后)2.利用相关样本可消除项目间的方差3.假定条件n两个总体都服从正态分布n如果不服从正态分布,可用正态分布来近似(n1³30,n2³30)配对样本的t检验(假设的形式)配对样本的t检验(数据形式)配对样本的t检验(检验统计量)配对样本的t检验(例子)【例】一个以减肥为主要目标的健美俱乐部声称,参加其训练班至少可以使减肥者平均体重减重8.5公斤以上。为了验证该宣称是否可信,调查人员随机抽取了10名参加者,得到他们的体重记录如下表:配对样本的t检验(计算表)配对样本的t检验(计算结果)配对样本的t检验(计算结果)H0:m1–m2³8.5H1:m1–m2<8.5a=0.05df=10-1=9临界值(s):两个总体比例之差的检验(Z检验)两个总体比例之差的Z检验1.假定条件\nn两个总体是独立的n两个总体都服从二项分布n可以用正态分布来近似•检验统计量两个总体比例之差的检验(假设的形式)两个总体比例之差的Z检验(例子)两个总体比例之差的Z检验(计算结果)H0:P1-P2³0H1:P1-P2<0a=0.05n1=60,n2=40临界值(s):利用置信区间进行假设检验利用置信区间进行假设检验(双侧检验)•求出双侧检验均值的置信区间利用置信区间进行假设检验(左侧检验)•求出单边置信下限利用置信区间进行假设检验(右侧检验)•求出单边置信上限利用置信区间进行假设检验(例子)利用置信区间进行假设检验(计算结果)H0:m=1000H1:m¹1000a=0.05n=49临界值(s):观察到的显著性水平P-值什么是P值?(P-Value)•是一个概率值•如果我们假设原假设为真,P-值是观测到的样本均值不同于(<或>)实测值的概率n左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积n右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积•被称为观察到的(或实测的)显著性水平nH0能被拒绝的a的最小值利用P值进行决策\n•单侧检验n若p-值³a,不能拒绝H0n若p-值Fa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响§若F£Fa,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响单因素方差分析表(基本结构)单因素方差分析(Excel的输出结果)单因素方差分析\n(一个例子)单因素方差分析(一个例子)单因素方差分析(计算结果)解:设四个行业被投诉次数的均值分别为,m1、m2、m3、m4,则需要检验如下假设§H0:m1=m2=m3=m4(四个行业的服务质量无显著差异)§H1:m1,m2,m3,m4不全相等(有显著差异)§Excel输出的结果如下方差分析中的多重比较方差分析中的多重比较(作用)§多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异§多重比较方法有多种,这里介绍Fisher提出的最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异§LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的方差分析中的多重比较(步骤)§提出假设§H0:mi=mj(第i个总体的均值等于第j个总体的均值)§H1:mi¹mj(第i个总体的均值不等于第j个总体的均值)§检验的统计量为方差分析中的多重比较(基于统计量`xi-`xj的LSD方法)§通过判断样本均值之差的大小来检验H0§检验的统计量为:`xi–`xj§检验的步骤为§提出假设•H0:mi=mj(第i个总体的均值等于第j个总体的均值)•H1:mi¹mj(第i个总体的均值不等于第j个总体的均值)§计算LSD方差分析中的多重比较(实例)§根据前面的计算结果:`x1=27.3;`x2=29.5;`x3=26.4;`x4=31.4§提出假设§H0:mi=mj;H1:mi¹mj§计算LSD方差分析中的多重比较(实例)双因素方差分析的基本问题双因素方差分析\n(概念要点)•分析两个因素(因素A和因素B)对试验结果的影响•分别对两个因素进行检验,分析是一个因素在起作用,还是两个因素都起作用,还是两个因素都不起作用•如果A和B对试验结果的影响是相互独立的,分别判断因素A和因素B对试验指标的影响,这时的双因素方差分析称为无交互作用的双因素方差分析•如果除了A和B对试验结果的单独影响外,因素A和因素B的搭配还会对销售量产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析•对于无交互作用的双因素方差分析,其结果与对每个因素分别进行单因素方差分析的结果相同双因素方差分析的基本假定•每个总体都服从正态分布§对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本•各个总体的方差必须相同§对于各组观察数据,是从具有相同方差的总体中抽取的•观察值是独立的双因素方差分析的数据结构双因素方差分析的数据结构双因素方差分析的步骤提出假设•对因素A提出的假设为§H0:m1=m2=…=mi=…=mk(mi为第i个水平的均值)§H1:mi(i=1,2,…,k)不全相等•对因素B提出的假设为§H0:m1=m2=…=mj=…=mr(mj为第j个水平的均值)§H1:mj(j=1,2,…,r)不全相等构造检验的统计量•为检验H0是否成立,需确定检验的统计量•构造统计量需要计算§总离差平方和§水平项平方和§误差项平方和§均方构造检验的统计量(计算总离差平方和SST)§全部观察值与总平均值的离差平方和§反映全部观察值的离散状况§计算公式为构造检验的统计量(计算SSA、SSB和SSE)§因素A的离差平方和SSA构造检验的统计量(各平方和的关系)\nÆ总离差平方和(SST)、水平项离差平方和(SSA和SSB)、误差项离差平方和(SSE)之间的关系构造检验的统计量(计算均方MS)§各离差平方和的大小与观察值的多少有关,为消除观察值多少对离差平方和大小的影响,需要将其平均,这就是均方,也称为方差§计算方法是用离差平方和除以相应的自由度§三个平方和的自由度分别是§总离差平方和SST的自由度为kr-1§因素A的离差平方和SSA的自由度为k-1§因素B的离差平方和SSB的自由度为r-1§随机误差平方和SSE的自由度为(k-1)×(r-1)构造检验的统计量(计算均方MS)§因素A的均方,记为MSA,计算公式为构造检验的统计量(计算检验的统计量F)§为检验因素A的影响是否显著,采用下面的统计量统计决策Æ将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出接受或拒绝原假设H0的决策§根据给定的显著性水平a在F分布表中查找相应的临界值Fa§若FA³Fa,则拒绝原假设H0,表明均值之间的差异是显著的,即所检验的因素(A)对观察值有显著影响§若FB³Fa,则拒绝原假设H0,表明均值之间有显著差异,即所检验的因素(B)对观察值有显著影响双因素方差分析表(基本结构)双因素方差分析(一个例子)双因素方差分析(提出假设)•对因素A提出的假设为§H0:m1=m2=m3=m4(品牌对销售量没有影响)§H1:mi(i=1,2,…,4)不全相等(品牌对销售量有影响)•对因素B提出的假设为§H0:m1=m2=m3=m4=m5(地区对销售量没有影响)§H1:mj(j=1,2,…,5)不全相等(地区对销售量有影响)双因素方差分析(Excel输出的结果)\n本章小结•方差分析(ANOVA)的概念•方差分析的思想和原理•方差分析中的基本假设•用Excel进行方差分析第十一章列联分析第十一章列联分析第一节列联表第二节c2分布与c2检验第三节列联表中的相关测量学习目标1.解释列联表•进行c2检验n一致性检验n独立性检验3.测度列联表中的相关性数据的类型与列联分析品质数据•品质随机变量的结果表现为类别n例如:性别(男,女)•各类别用符号或数字代码来测度•使用定类或定序尺度n你吸烟吗?l1.是;2.否n你赞成还是反对这一改革方案?l1.赞成;2.反对n对品质数据的描述和分析通常使用列联表n可使用c2检验列联表的构造列联表(概念要点)•由两个以上的变量进行交叉分类的频数分布表•行变量的类别用r表示,ri表示第i个类别•列变量的类别用c表示,cj表示第j个类别•每种组合的观察频数用fij表示•表中列出了行变量和列变量的所有可能的组合,所以称为列联表•一个r行c列的列联表称为r´c列联表列联表的结构(2´2列联表)列联表的结构(r´c列联表的一般表示)列联表(一个实际例子)\n列联表的分布观察值的分布(概念要点)•边缘分布n行边缘分布l行观察值的合计数的分布l例如,赞成改革方案的共有279人,反对改革方案的141人n列边缘分布l列观察值的合计数的分布l例如,四个分公司接受调查的人数分别为100人,120人,90人,110人•条件分布与条件频数n变量X条件下变量Y的分布,或在变量Y条件下变量X的分布n每个具体的观察值称为条件频数观察值的分布(图示)百分比分布(概念要点)•条件频数反映了数据的分布,但不适合进行对比•为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布n行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)n列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)n总百分比:每一个观察值除以观察值的总个数(fij/n)百分比分布(图示)期望频数的分布(概念要点)•假定行变量和列变量是独立的•一个实际频数fij的期望频数eij,是总频数的个数n乘以该实际频数fij落入第i行和第j列的概率,即期望频数的分布(算例)期望频数的分布(算例)Æ根据上述公式计算的前例的期望频数c2统计量c2统计量(要点)•用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立•计算公式为c2统计量(算例)c2检验品质数据的假设检验一致性检验\n(要点)•检验列联表中目标变量之间是否存在显著性差异•检验的步骤为n提出假设lH0:P1=P2=…=Pj(目标变量的各个比例一致)lH1:P1,P2,…,Pj不全相等(各个比例不一致)n计算检验的统计量一致性检验(实例)•提出假设nH0:P1=P2=P2=P4(赞成比例一致)nH1:P1,P2,P3,P4不全相等(赞成比例不一致)•计算检验的统计量独立性检验(要点)•检验列联表中的行变量与列变量之间是否独立•检验的步骤为n提出假设lH0:行变量与列变量独立lH1:行变量与列变量不独立n计算检验的统计量独立性检验(实例)独立性检验(实例)•提出假设nH0:地区与原料等级之间独立nH1:地区与原料等级之间不独立•计算检验的统计量列联表中的相关测量(一般问题)•品质相关n对品质数据(定类和定序数据)之间相关程度的测度•列联表变量的相关属于品质相关•列联表相关测量的指标主要有nj相关系数n列联相关系数nV相关系数j相关系数(要点)•测度2´2列联表中数据相关程度的一个量•对于2´2列联表,j系数的值在0~1之间•j相关系数计算公式为j相关系数(原理分析)\n一个简化的2´2列联表j相关系数(原理分析)•列联表中每个单元格的期望频数分别为j相关系数(原理分析)•将c2入j相关系数的计算公式得列联相关系数(要点)•用于测度大于2´2列联表中数据的相关程度•计算公式为V相关系数(要点)•计算公式为j、C、V的比较•同一个列联表,j、C、V的结果会不同•不同的列联表,j、C、V的结果也不同•在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数列联表中的相关测量(一个实例)列联表中的相关测量(一个实例)本章小结•解释列联表•计算期望频数•进行c2检验n一致性检验n独立性检验n对列联表进行相关分析n用Excel进行c2检验第十二章概率与概率分布第一节概率基础第二节随机变量及其分布学习目标1.了解随机事件的概念、事件的关系和运算2.理解概率的定义,掌握概率的性质和运算法则•理解随机变量及其分布,计算各种分布的概率•用Excel计算分布的概率随机事件的几个基本概念试验•在相同条件下,对事物或现象所进行的观察\n•例如:掷一枚骰子,观察其出现的点数•试验具有以下特点n可以在相同的条件下重复进行n每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的n在试验结束之前,不能确定该次试验的确切结果事件的概念•事件:随机试验的每一个可能结果(任何样本点集合)n例如:掷一枚骰子出现的点数为3•随机事件:每次试验可能出现也可能不出现的事件n例如:掷一枚骰子可能出现的点数•必然事件:每次试验一定出现的事件,用W表示n例如:掷一枚骰子出现的点数小于7•不可能事件:每次试验一定不出现的事件,用F表示n例如:掷一枚骰子出现的点数大于6事件与样本空间•基本事件n一个不可能再分的随机事件n例如:掷一枚骰子出现的点数•样本空间n一个试验中所有基本事件的集合,用W表示n例如:在掷枚骰子的试验中,W={1,2,3,4,5,6}n在投掷硬币的试验中,W={正面,反面}事件的关系和运算(事件的包含)事件的关系和运算(事件的并或和)事件的关系和运算(事件的交或积)事件的关系和运算(互斥事件)事件的关系和运算(事件的逆)事件的关系和运算(事件的差)事件的关系和运算(事件的性质)Æ设A、B、C为三个事件,则有•交换律:A∪B=B∪AA∩B=B∩A•结合律:A∪(B∪C)=(A∪B)∪CA(BC)=(AB)C•分配律:A∪(B∩C)=(A∪B)∩(A∪C)A∩(B∪C)=(A∩B)∪(A∩C)事件的概率事件的概率•事件A的概率是对事件A在试验中出现的可能性大小的一种度量\n•表示事件A出现可能性大小的数值•事件A的概率表示为P(A)•概率的定义有:古典定义、统计定义和主观概率定义事件的概率Æ例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数n的增大,出现正面和反面的频率稳定在1/2左右概率的古典定义Æ如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值,记为概率的古典定义(实例)【例】某钢铁公司所属三个工厂的职工人数如下表。从该公司中随机抽取1人,问:(1)该职工为男性的概率(2)该职工为炼钢厂职工的概率概率的古典定义(计算结果)解:(1)用A表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;基本空间为全公司职工的集合。则概率的统计定义Æ在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,取向于稳定,这个频率的稳定值即为事件A的概率,记为概率的统计定义(实例)【例】:某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该厂第一天用电量超过指标的概率。解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有主观概率定义•对一些无法重复的试验,确定其结果的概率只能根据以往的经验人为确定•概率是一个决策者对某事件是否发生,根据个人掌握的信息对该事件发生可能性的判断•例如,我认为2001年的中国股市是一个盘整年概率的性质与运算法则概率的性质•非负性n对任意事件A,有0£P£1•规范性n必然事件的概率为1;不可能事件的概率为0。即P(W)=1;P(F)=0•可加性\nn若A与B互斥,则P(A∪B)=P(A)+P(B)n推广到多个两两互斥事件A1,A2,…,An,有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)概率的加法法则Æ法则一•两个互斥事件之和的概率,等于两个事件概率之和。设A和B为两个互斥事件,则P(A∪B)=P(A)+P(B)•事件A1,A2,…,An两两互斥,则有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)概率的加法法则(实例)概率的加法法则Æ法则二对任意两个随机事件A和B,它们和的概率为两个事件分别概率的和减去两个事件交的概率,即P(A∪B)=P(A)+P(B)-P(A∩B)概率的加法法则(实例)条件概率与独立事件条件概率Æ在事件B已经发生的条件下,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为条件概率的图示概率的乘法公式•用来计算两事件交的概率•以条件概率的定义为基础•设A、B为两个事件,若P(B)>0,则P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)概率的乘法公式(实例)事件的独立性•一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立•若事件A与B独立,则P(B|A)=P(B),P(A|B)=P(A)•此时概率的乘法公式可简化为P(AB)=P(B)·P(B)•推广到n个独立事件,有P(A1A2…An)=P(A1)P(A2)…P(An)事件的独立性(实例)全概公式Æ设事件A1,A2,…,An两两互斥,A1+A2+…+An=W(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则对任意事件B,有全概公式(实例)贝叶斯公式(逆概公式)\nÆ与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因Æ设n个事件A1,A2,…,An两两互斥,A1+A2+…+An=W(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则贝叶斯公式(实例)随机变量的概念随机变量的概念•一次试验的结果的数值性描述•一般用X、Y、Z来表示•例如:投掷两枚硬币出现正面的数量•根据取值情况的不同分为离散型随机变量和连续型随机变量离散型随机变量•随机变量X取有限个值或所有取值都可以逐个列举出来X1,X2,…•以确定的概率取这些不同的值•离散型随机变量的一些例子连续型随机变量•随机变量X取无限个值•所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点•连续型随机变量的一些例子离散型随机变量的概率分布离散型随机变量的概率分布•列出离散型随机变量X的所有可能取值•列出随机变量取这些值的概率•通常用下面的表格来表示离散型随机变量的概率分布(实例)离散型随机变量的概率分布(0—1分布)•一个离散型随机变量X只取两个可能的值n例如,男性用1表示,女性用0表示;合格品用1表示,不合格品用0表示•列出随机变量取这两个值的概率离散型随机变量的概率分布(0—1分布实例)离散型随机变量的概率分布(均匀分布)•一个离散型随机变量取各个值的概率相同•列出随机变量取值及其取值的概率•例如,投掷一枚骰子,出现的点数及其出现各点的概率离散型随机变量的概率分布(均匀分布实例)离散型随机变量的数学期望和方差离散型随机变量的数学期望•在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和\n•描述离散型随机变量取值的集中程度•计算公式为离散型随机变量的方差•随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)•描述离散型随机变量取值的分散程度•计算公式为离散型随机变量的方差(实例)几种常见的离散型概率分布常见的离散型概率分布二项试验(贝努里试验)•二项分布与贝努里试验有关•贝努里试验具有如下属性n试验包含了n个相同的试验n每次试验只有两个可能的结果,即“成功”和“失败”n出现“成功”的概率p对每次试验结果是相同的;“失败”的概率q也相同,且p+q=1n试验是相互独立的n试验“成功”或“失败”可以计数二项分布•进行n次重复试验,出现“成功”的次数的概率分布称为二项分布•设X为n次重复试验中事件A出现的次数,X取x的概率为二项分布•显然,对于P{X=x}³0,x=1,2,…,n,有•同样有•当n=1时,二项分布化简为二项分布的数学期望和方差•二项分布的数学期望为E(X)=np•方差为D(X)=npq二项分布(实例)泊松分布•用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布•泊松分布的例子n一个城市在一个月内发生的交通事故次数n消费者协会一个星期内收到的消费者投诉次数n人寿保险公司每天收到的死亡声明的人数泊松概率分布函数l—给定的时间间隔、长度、面积、体积内“成功”的平均数e=2.71828x—给定的时间间隔、长度、面积、体积内“成功”的次数\n泊松概率分布的期望和方差•泊松分布的数学期望为E(X)=l•方差为D(X)=l泊松分布(实例)泊松分布(作为二项分布的近似)•当试验的次数n很大,成功的概率p很小时,可用泊松分布来近似地计算二项分布的概率,即连续型随机变量的概率分布连续型随机变量的概率分布连续型随机变量的概率分布•连续型随机变量可以取某一区间或整个实数轴上的任意一个值•它取任何一个特定的值的概率都等于0•不能列出每一个值及其相应的概率•通常研究它取某一区间值的概率•用数学函数的形式和分布函数的形式来描述概率密度函数•设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),它满足条件概率密度函数Æ密度函数f(x)表示X的所有取值x及其频数f(x)概率密度函数Æ在平面直角坐标系中画出f(x)的图形,则对于任何实数x10•正态曲线的最高点在均值m,它也是分布的中位数和众数•正态分布是一个分布族,每一特定正态分布通过均值m的标准差s来区分。m决定曲线的高度,s决定曲线的平缓程度,即宽度•曲线f(x)相对于均值m对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交•正态曲线下的总面积等于1•随机变量的概率由曲线下的面积给出m和s对正态曲线的影响正态分布的概率标准正态分布的重要性•一般的正态分布取决于均值m和标准差s•计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的•若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表标准正态分布函数•任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布标准正态分布表的使用•将一个一般的转换为标准正态分布•计算概率时,查标准正态概率分布表•对于负的x,可由F(-x)=1-F(x)得到•对于标准正态分布,即X~N(0,1),有nP(a£X£b)=F(b)-F(a)nP(|X|£a)=2F(a)-1•对于一般正态分布,即X~N(m,s),有标准化的例子P(5£X£6.2)标准化的例子P(2.9£X£7.1)正态分布(实例)正态分布(实例)二项分布的正态近似\n二项分布的正态近似•当n很大时,二项随机变量X近似服从正态分布N{np,np(1-p)}•对于一个二项随机变量X,当n很大时,求P(x1£X£x2)时可用正态分布近似为为什么概率是近似的二项分布的正态近似(实例)本章小结•定义试验、结果、事件、样本空间、概率•描述和使用概率的运算法则•定义和解释随机变量及其分布•计算随机变量的数学期望和方差•计算离散型随机变量的概率和概率分布•计算连续型随机变量的概率•用正态分布近似二项分布•用Excel计算分布的概率