- 2022-08-24 发布 |
- 37.5 KB |
- 125页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
《统计学基础》全套教案
第一章统计概述教学要求知识目标:了解统计学的起源和发展过程;了解统计的含义、统计学的特点及分类;掌握统计学的研究对象和方法;理解统计学中常用的基本概念。能力目标:熟练运用统计语言描述社会经济现象;树立用统计方法观察和分析问题的理念。教学重点统计学的研究对象和研究方法、统计学中的几个基本概念。教学难点统计学的研究方法、总体和总体单位的区分。课时安排本章安排4课时。教学内容第一节统计学的起源和发展一、统计学的起源二、统计学的发展\n从理论根源的角度讲,统计学的发展可分为三个阶段,即古典统计学阶段、近代统计学阶段和现代统计学阶段。1.古典统计学阶段古典统计学阶段大致是从17世纪中叶至19世纪初,其代表学派是政治算术学派和国势学派。2.近代统计学阶段近代统计学阶段大致是从18世纪末到19世纪末。著名的大数法则、最小平方法、相关与回归分析、指数分析、时间序列分析以及正态分布等理论都是在这个阶段建立和发展起来的。代表学派主要有数理统计学派和社会统计学派。3.现代统计学阶段20世纪初,大工业的发展对产品质量检验问题提出了新的要求,即只抽取少量产品作为样本对全部产品的质量好坏进行推断。因为大量产品要作全面的检验,既费时、费钱,又费人力,加之有些产品质量的检验要进行破坏性实验,全部检验已不可能。1907年,“学生”(W.S.Gosset,戈塞特的笔名)发表t分布的论文,创立了小样本代替大样本理论,利用t统计量就可以从大量的产品中只抽取较小的样本完成对全部产品质量的检验和推断。费雪(R.A.Fisher)又对小样本理论进一步研究,给出了F统计量、最大似然估计、方差分析等方法和思想,标志着现代统计学的开端。1930年,尼曼(J.Neyman)与小皮尔逊(E.S.Pearson),共同对假设检验理论作了系统的研究,创立了“尼曼—皮尔逊”\n理论,同时尼曼又创立了区间估计理论。这些研究和发现大大充实了现代统计学的内容。从20世纪50年代以来,统计理论、方法和应用进入了一个全面发展的新阶段。一方面,统计学受计算机科学、信息论、人工智能等现代科学技术的影响,新的研究领域层出不穷,如多元统计分析、现代时间序列分析、非参数统计等。另一方面,统计方法的应用领域不断扩展,几乎所有的科学研究都离不开统计方法。因为无论是自然科学、工程技术、军事科学,还是社会科学都离不开数据,要对数据进行研究和分析就必然用到统计方法。现在连纯文科领域的法律、历史、语言、新闻等,也越来越重视对统计数据的分析。因而,可以说统计方法与数学、哲学一样成为了所有学科的基础。第二节统计学的学科性质一、统计的含义比较公认的看法是,统计有三种含义,即统计工作、统计资料和统计学。1.统计工作统计工作,即统计实践活动,是指运用各种统计方法,按照预先设计的要求,对社会经济现象的总体进行统计设计、收集整理、研究分析,以及提供各种统计资料和统计咨询意见的活动的总称。常见的统计工作有农业统计工作、工业统计工作、人口统计工作等,参加统计实践的工作人员称为统计工作者,领导、组织并从事统计工作的部门称为统计机构。2.统计资料\n统计资料是在统计工作过程中所获得的各种数字资料及与之有联系的其他资料的总称。它是统计工作各阶段的成果,具体表现为反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、统计年鉴等各种数字和文字资料。准确可靠的统计资料是宏观经济决策和微观经济管理中分析、研究社会经济问题不可或缺的重要依据。3.统计学统计学又称统计理论,是关于认识客观现象总体数量特征和数量关系的科学。它是对统计实践的理论概括和经验总结;是系统化的知识体系,阐明了统计设计、统计调查、统计整理和统计分析的理论与方法;是一门方法论学科。《不列颠百科全书》对统计学下的定义为:统计学是收集、分析、表述和解释数据的科学。二、统计学的特点1.数量性统计学归根结底是为了概括出现象数量方面的特征和规律,具体包含三方面内容:一是数量的多少,即研究现象的规模、大小、水平等;二是数量之间的关系,即研究现象的内部结构、比例关系等;三是质与量的关系,即研究现象质量互变的数量界限。2.总体性\n统计学研究的数量是总体的数量,它要揭示的是总体的数量特征和规律性。例如,人口统计不是要了解和研究个别的人,而是要反映一个国家或一个地区的人口总数、自然构成、社会构成、经济构成、地域构成、自然变动、机构变动等方面的特征和规律。再如,在某地消费需求调查中,对每个被调查者进行调查的目的,是概括出该地消费者总体的消费需求规律,为企业有针对性地开展营销活动提供依据,每个被调查者只是入手点,并不是统计分析的最终对象。3.具体性统计学研究的是具体事物的数量方面,即研究社会现象在一定时间、地点、条件下的数量表现,而不研究抽象的数量。三、统计学的分类1.理论统计学和应用统计学从统计分析方法的研究和应用来分,统计学可以分为理论统计学和应用统计学。其中,理论统计学在国外又称为数理统计学,其研究内容是统计学的概率,可以视为一门纯数学。应用统计学则是在理论统计学的基础上对具体统计方法的研究。在应用统计学中,根据是否假定总体的概率分布只依赖于有限个实参数,又可分为参数统计方法和非参数统计方法,前者有此假定,后者则没有这个假定。2.描述统计学和推断统计学\n从统计方法的构成来分,统计学可以分为描述统计学和推断统计学。其中,描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。推断统计学则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。四、统计学与其他学科的关系第三节统计学的研究对象和方法一、统计学的研究对象统计学是一门研究社会经济现象数量方面的方法论科学,其研究对象是现象总体的数量特征和数量关系,通过这些数量方面反映现象规律性的表现。简单来说,统计学主要研究如何收集、整理、分析统计数据,并从中概括出结论。因此,实际上统计学的研究对象就是统计数据。统计数据所涉及的内容十分广泛,如劳动力资源、自然资源、社会财富、国民收入分配、金融、信贷、保险、城乡人民物质生活水平、社会生产和建设、商品的交换与流通、政治生活、科学技术进步与发展等。这些都是国民经济和社会发展的总体情况,是现象的基本数量特征和数量关系,它们构成了人们对社会的基本认识。二、统计学的研究方法研究方法在统计学中居于重要地位,常用方法包括大量观察法、统计模型法、统计推断法、统计分组法和综合指标法。1.大量观察法\n大量观察法是统计学所特有的方法。统计学立足于大数法则,认为社会经济现象具有统计规律性,即对现象进行局部观察时,其统计数据是随机的、不确定的,但随着观察次数的增加,现象的规律越来越明显。也就是说,对现象进行大量观察将能够挖掘出现象的规律性。统计史上著名的“掷币实验”就反映了这种规律性。2.统计模型法统计模型是一种思考模型,是根据统计资料,运用统计方法,对研究现象的结构和运动过程的一种表达方式。它既是人们认识事物的手段,又是人们对事物认识结果的描述,它与真实系统的符合程度取决于人们的认识能力和认识程度。随着人们认识能力的不断提高和认识程度的逐步深化,统计模型也逐渐向其所描述的真实系统逼近。统计模型一般包括4个基本要素:变量、基本关系式、模型参数和随机扰动项。其中,随机扰动项主要影响统计模型的精度。3.统计推断法统计推断法是指对所获得的大量观察资料,通过观察各单位的特征,归纳判断总体特征的方法。通常,能够进行观察的现象只有部分或有限单位,而需要判断的总体对象范围是大量的,甚至是无限的,这样就产生了根据局部的样本数据资料对全部总体数量特征所作判断的置信度问题。例如,要对一批商品的质量进行破坏性检验,研究者只能根据部分商品质量检验结果来推断该批商品的质量。再如,根据某市1000分职工家庭的平均收入,可推断该市全部职工家庭的平均收入水平。4.统计分组法统计分组法是将总体中的个体分为若干组,以研究总体内部差异的一种常用统计方法。例如,人口按性别、年龄、文化程度等分组,学生按成绩分组,员工按工资水平分组等。\n5.综合指标法综合指标法是指在对大量统计数据进行整理的基础上,运用各种综合指标对社会经济现象的数量方面进行综合、概括的分析方法。常用的分析方法有动态分析法、平均指标分析法、指数分析法和相关分析法等。第四节统计学中的几个基本概念一、统计总体和总体单位1.统计总体和总体单位的概念统计总体简称总体,是指根据一定的目的要求所确定的研究对象的全体。它是由客观存在的、在某一共同性质的基础上集合起来的许多个别事物的整体。其中,组成总体的个体称为总体单位。2.总体的特点形成总体必须具备三个特点,即大量性、同质性和差异性。3.总体的分类(1)按总体单位数是否明确,总体可分为有限总体和无限总体。(2)按研究对象客观存在的形式,总体分为实体总体和行为总体。二、统计标志、指标及指标体系(一)统计标志\n反映总体单位属性或特征的概念称为统计标志,简称标志。每个总体单位从不同方面考察,都具有许多属性和特征,换言之,一个总体单位可以具有很多标志。标志按其性质不同可分为品质标志和数量标志。标志按其标志表现有无差异可分为不变标志和可变标志。(二)统计指标1.统计指标的概念统计指标简称指标,是指反映统计总体数量特征的概念和具体数值。指标显示总体共同的属性和特征,如人口数量、土地面积、工农业生产产量、成本、利润等概念用于反映一定统计总体的数量方面时,就是指标。2.统计指标的特点统计指标主要具有三个特点,即总体性、可量性和客观性。3.统计指标的分类统计指标从不同的研究目的和角度出发,可以分为不同的种类。(1)按说明的总体现象的内容不同,统计指标可以分为数量指标和质量指标两类。(2)按作用和表现形式不同,统计指标可以分为总量指标、相对指标和平均指标。(3)按在管理上所起的作用不同,统计指标可以分为考核指标和非考核指标。(三)统计指标体系1.统计指标体系的概念\n所谓统计指标体系,是指由若干个相互联系、相互作用的统计指标组成的整体,用以说明所研究社会经济现象各方面相互依存和相互制约的关系。统计指标体系通常表现为以下两种情况。(1)可以通过数学公式形式表现出来的统计指标体系。例如,工业总产值=工业产品产量×产品价格,商品销售额=商品销售量×商品价格,农作物收获量=播种面积×单位面积产量。(2)指标之间不存在数学公式形式的关系,而只是存在着一种相互联系、相互补充的关系。2.统计指标体系的分类从不同的观察角度,可将统计指标体系分为不同的类别。(1)根据反映内容的不同,统计指标体系可分为社会统计指标体系、经济统计指标体系和科学技术统计指标体系。(2)根据考核范围的不同,统计指标体系可分为宏观指标体系、中观指标体系和微观指标体系。(3)根据作用功能的不同,统计指标体系可分为描述性指标体系、评价性指标体系和预警性指标体系。3.统计指标体系的作用(1)可以认识现象的全貌和发展的全过程。(2)可以反映总体的内部联系,分析各个因素对现象总体的影响。三、变异与变量\n变异是指可变标志具体表现在各单位总体之间的差异。例如,研究北京市的人口状况,则北京市的全部人口构成一个统计总体,其中每个人则为总体单位,不同人的身高、体重、年龄、文化程度等均存在着区别,这种区别就是可变标志的具体表现上的区别,称为变异。变异是普遍存在的,没有变异就无须统计。在数量标志中,不变的数量标志称为常量,可变的数量标志称为变量。变量的具体表现称为变量值。变量按其数值是否连续,可分为连续型变量和离散型变量。其中,连续型变量的数值是连续不断的,相邻两数值之间可取无限多个变量值。例如,身高、体重等都是连续型变量。离散型变量又称间断变量,其变量值是可列的,如职工人数、企业个数、机器台数等。第二章统计数据教学要求知识目标:了解统计数据的概念、特征及类型;掌握统计数据的收集方法和方式;了解统计数据整理的意义和程序;掌握统计分组的种类与方法;熟悉统计表和统计图的结构、分类及编制。能力目标:培养独立设计统计数据收集方案的能力;锻炼在统计数据处理中灵活使用Excel的能力。\n教学重点统计数据的收集方式、统计数据的整理、统计表与统计图。教学难点统计分组、定量数据的频数分布、使用Excel绘制统计图。课时安排本章安排8课时。教学内容第一节统计数据概述一、统计数据的概念及特征所谓数据,是指对研究对象的某种特征进行测量的结果。正确理解统计数据,应当注意其以下两个特征。(1)统计数据的表现形式是多样的,既可以是数字,也可以是文字。(2)统计数据具有随机性,而不是确定性的。二、统计数据的类型1.定性数据和定量数据根据数据的测量尺度,可以将数据分为定性数据和定量数据。2.实验数据和观察数据根据数据的收集方法,可以将统计数据分为实验数据和观察数据。3.截面数据和历时数据根据数据的结构,可以将数据分为截面数据和历时数据。\n第二节统计数据的收集一、统计数据收集概述统计数据收集是指根据统计研究的目的和要求,运用科学的统计调查方法,有组织、有计划地收集反映客观事物实际资料的过程。统计数据收集的种类主要有两种:一是收集原始资料,即直接向调查对象了解调查单位的统计资料,如直接到企业向有关人员询问企业的生产、销售等信息;二是收集次级资料,即根据调查研究目的和任务,收集加工、整理过的说明总体特征的资料,如我国统计部门每年收集的经过初步整理、加工的各行业GDP的汇总数据。二、统计数据的收集方法收集方法是指从被调查者那里取得统计数据的具体方法。常见的统计数据收集方法有访问法、报告法、观察法和实验法。1.访问法访问法是指调查者与被调查者直接或者间接接触,以询问回答的方式取得统计数据的一种调查方法。其具体方法包括面谈访问、座谈会、电话调查、邮寄调查和留置调查等。访问法还有其他的调查形式,如邮寄调查(将调查问卷通过邮政系统发放出去,被访者填答后邮寄回来)、留置调查(调查员将调查问卷留给被访者并告知填答要求,约定被访者填好后,调查员再登门当面回收)等。实际应用中,应充分考虑每种方法的优缺点,结合研究的目的和被访者的特点,选择最合适的调查方法。2.报告法\n报告法是指报告单位以原始记录和核算资料为基础,依据统一的表格形式和要求,按照隶属关系,逐级向有关部门提供统计资料的一种方法。3.观察法观察法是调查者在现场对被调查者的情况直接观察、记录,以取得信息资料的一种调查方法。它可以从不同的角度进行分类。(1)按照观察者的身份,可将观察法分为参与观察和非参与观察。(2)按照标准化程度,可将观察法分为结构式观察和无结构式观察。(3)按照观察的方式,可将观察法分为直接观察和间接观察。4.实验法实验法是根据自然科学中科学实验的原理,从影响调查对象的若干因素中选出一个或几个因素作为实验因素,在其余因素不变的条件下,了解实验因素的变化对调查对象的影响程度的一种方法。三、统计数据的收集方式统计数据的收集方式是指组织统计调查、收集统计数据的形式。在统计实践中,常用的收集方式主要有5种,即普查、抽样调查、统计报表、重点调查和典型调查。各种方式各有其特点和作用,适用于不同的调查对象。1.普查\n普查是指为特定目的而专门组织的全面调查,用来调查属于一定时点或时期内的社会经济现象的总量,如农业普查、工业普查、经济单位普查等。普查具有三个特点:一是全面调查,需要对每一个单位进行调查;二是一次性或周期性调查,因其涉及面广,调查对象多,且指标短时间内变化不大,所以没必要进行经常性调查;三是任务重,需要耗费大量人力、物力、财力和时间。进行普查的方式有两种:一种是自上而下成立专门普查机构,并由这个机构组织普查人员对调查单位进行直接登记;另一种是在各单位的会计统计和业务核算资料、报表资料的基础上,结合实际盘点和实际观察,由调查单位自己填写调查表。2.抽样调查抽样调查是指从总体中按照随机原则抽取一部分单位组成样本进行调查,并根据样本的信息来推断出总体特征的数据收集方法。从效果上看,抽样调查具有省时省力、反应及时、适应面广、准确性高等优点。从方法的角度看,抽样调查有如下特点。(1)按照随机原则抽取调查单位。(2)按照一定的置信度推断总体。(3)抽样调查的误差可以事先计算和控制。(4)抽样调查是一种专门组织的非全面调查。3.统计报表\n统计报表是指根据国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。统计报表也是一张调查表,报表中的项目就是调查项目。统计报表可作多种分类:按报送范围的不同,可分为全面统计报表和非全面统计报表;按报送周期的不同,可分为日报、旬报、月报、季报、年报等;按报送的单位的不同,可分为基层报表和综合报表;按报表实施范围的不同,可分为国家统计报表、部门统计报表和地方统计报表。4.重点调查重点调查是一种非全面调查,是在调查对象中选择一部分对全局具有决定性作用的重点单位进行调查。它适用于调查任务只要求掌握调查总体的基本情况,调查标志比较单一,调查标志表现在数量上集中于少数单位,而这些单位的标志值之和在总体中又占绝对优势的情况。重点调查的优点是投入少,能以较少的人力、物力获取调查对象的基本情况;速度快,相对于普查来说能节约大量时间。其组织方式有两种:一种是专门组织的一次性调查,另一种是利用定期统计报表经常性地对一些重点单位进行调查。5.典型调查典型调查是指根据调查的目的和要求,在对研究对象进行全面分析的基础上,依靠研究人员的主观能力和经验,有意识地选择部分有代表性的单位进行调查。四、统计数据收集方案设计一个完整的数据收集方案应包括以下内容。\n1.明确调查目的和调查任务2.确定调查对象和调查单位确定调查对象和调查单位时要注意以下问题。(1)在很多情况下,调查对象比较复杂,必须根据研究目的严格规定调查对象的含义,指出它与其他有关现象的区别,以免造成调查中由于界限不清而发生的差错。(2)调查单位要随调查目的和对象的变化而变化。例如,进行某市城市居民家庭家用电脑消费现状调查,调查单位是该市每户城市居民家庭,而不是每一位城市居民。(3)不同的调查方式会产生不同的调查单位。如果采用普查方式,则总体内所有单位都是调查单位;如果采取抽样调查方式,则抽取出的样本单位是调查单位。3.确定调查项目调查项目是指对调查单位所要调查的主要内容。在进行调查之前,必须根据调查的目的,明确规定调查项目。一般说来,确定调查项目应注意以下几点。(1)要有取得资料的可能性。(2)被确定为调查内容的每个项目间应彼此衔接,以便于对现象的相互联系从整体上了解,也便于有关项目相互核对,提高调查资料的质量。(3)\n调查项目之间应在时间上具有可比性,即本次调查项目和过去同类调查项目之间要互相衔接,以便进行动态对比。(4)能确定的项目必须与调查目的有关。只登记与问题有关的标志,不应包括可有可无、备而不用的标志。4.设计调查表或调查问卷调查项目确定后,就可以按照调查目的和要求,设计调查表或调查问卷。5.确定调查时间和调查工作期限6.制订调查的组织实施计划第三节统计数据的整理与展示一、统计数据整理概述(一)统计数据整理的意义其意义主要体现在以下三点。(1)统计调查所收集到的资料,只有通过科学的审核、分类、汇总等整理工作,才能实现由个别到总体、由特殊到一般、由现象到本质、由感性到理性的转换,才能从整体上反映出事物的数量特征。(2)统计研究中经常要进行动态分析,这就需要有长期累积的历史资料。(3)通过对统计资料的加工整理,使之系统化、条理化,可以利用综合指标对总体作出概括性说明,进而揭示总体的内在特征。(二)统计数据整理的程序(1)审核原始数据。\n(2)进行统计分组、汇总。(3)审核次级资料。(4)编制统计表和绘制统计图。(5)积累、保管和公布统计资料。二、统计分组与频数分布(一)统计分组1.统计分组的概念和意义所谓统计分组,是指根据统计研究的需要,按照某种标志将统计总体划分为若干组成部分的一种统计方法。统计分组的意义有两点:对于总体而言,是“分”,即将同质总体中的具有不同性质的单位分开;而对于每个总体单位而言,是“合”,即将性质相同的许多总体单位合在一起。2.统计分组的作用(1)区分社会经济现象的类型。(2)反映总体内部结构。(3)揭示现象之间的依存关系。3.统计分组的种类统计分组可以根据分组标志的不同进行分类。(1)按照分组标志的数量,可将统计分组分为简单分组和复合分组。其中,简单分组是按照一个分组标志对所研究的对象进行分组。例如,人口按性别分为男、女两组。(2)\n按照分组标志的性质,可将统计分组分为品质分组和数量分组。其中,品质分组是指选择反映事物属性差异的品质标志作为分组标志,并在品质标志的变异范围内划分各组界限,将总体划分为若干性质不同而又有联系的部分。例如,研究国民经济总体时,可以按经济类型、隶属关系、地区、国民经济部门等品质标志分组。(二)频数分布频数分布是指在统计分组的基础上,将总体所有的单位按某一标志进行归组并排列,形成总体中各个单位在各组间的分布。其中,分布在各组的总体单位数称为频数(或次数),用绝对数表示;各组频数与总频数之比称为频率,用相对数表示。1.定性数据的频数分布2.定量数据的频数分布在构建定量数据的频数分布时,可以按照以下几个步骤进行。(1)确定原始数据的极差。所谓极差,是指最大值和最小值之间的差。(2)确定组数。(3)确定组距。(4)确定分组。实际中构建定量数据频数分布时,应注意以下两点。(1)尽量避免设置开口组。因为对于开口组,有时无法确定其组中值,容易给一些统计量的计算带来困难。(2)\n灵活运用不等距分组。如果不同组的组距不相等,则这种分组称为不等距分组。不等距分组常常出现在某个或某些组的频数过低的情形。三、统计表与统计图(一)统计表1.统计表的概念和结构2.统计表的分类(1)统计表按主词的分组情况不同,可分为以下三类。①简单表。②分组表。③复合表。(2)统计表按用途不同,可分为以下三类。①调查表。调查表是指用于登记调查项目的表格,记载的是原始统计数据。②整理表。整理表是指在统计整理汇总过程中使用的表格,记载的是次级统计数据。③分析表。分析表是指用于统计分析的表格,它往往与整理表结合在一起,成为整理表的延续,包含更加丰富的统计信息。3.统计表的设计规则(1)各类标题应简明、确切地反映与概括统计资料的主要内容和所属地区及时间,纵行和横栏的排列特别要注意表述资料的逻辑性。(2)主词各行和宾词各栏,一般先列各个项目,后列总体。若无必要列出全部项目时,应先列总体,后列其中一部分重要项目。(3)\n当表中只有一种计量单位时,可在表的右上端注明。若有多个计量单位时,横行的计量单位可专设“计量单位”一栏;纵栏的计量单位可以与纵栏标题写在一起,用“/”隔开。(4)数字填写要整齐,上下位数要对齐,同栏数字的单位,小数位要一致。如遇相同数字必须照填,不能用“同上”或“同左”代替。无数字的空格要用“-”表示。如遇缺乏资料的空格时,要用“……”表示,以免被误认漏报。(5)当统计表栏数较多时,通常要加编号,并说明其相互关系。主词栏与计量单位栏可用甲、乙、丙等文字标明,宾词各栏可用(1)、(2)、(3)等数码标明。(6)统计表的表式为开口式,即表的左右两端不封闭。(7)借用数据时,应加注解,说明资料出处。一般在统计表下端注明“资料来源”。(二)统计图1.统计图的概念和结构统计图是统计数据的另外一种展示方式,它利用几何图形或具体事物,形象直观地表示研究对象的数量关系。统计图可以表明研究对象的规模、速度、水平、发展趋势和分布状况,有利于对事物进行深入分析。统计图基本上包括以下四部分。(1)标题。(2)坐标轴和网格线。(3)绘图区。统计图绘制在绘图区内。\n(4)图例。2.统计图的分类统计图的种类很多,常用的有条形图、饼图、直方图和折线图等。3.统计图的绘制要求绘制统计图时,应遵循以下几点要求。(1)统计图应有标题和标目。标题用来概括说明图的主要内容,应简明扼要。标目分为横标目和纵标目,分别表示横轴和纵轴代表的指标和计量单位。(2)选择恰当的统计图。在统计实践中,应根据统计研究的目的与任务,结合统计数据的特点,选择最合适的图形。(3)为纵轴和横轴选择恰当的计量单位,以使整个图形在直角坐标系中分布均匀。(4)统计图所反映的内容必须重点突出,必要时可以使用不同的线条和颜色表示不同对象的统计量,以示区别。第四节Excel在统计数据处理中的应用Excel是微软公司出品的Office系列办公软件中的一个组件,利用它可以进行表格处理、图形分析、数据管理等。Excel操作简单,具有强大的统计功能,是进行统计实践的重要工具。本教材主要以Excel2003为示范软件。一、使用Excel编制统计表二、使用Excel绘制统计图第三章统计指标\n教学要求知识目标:了解总量指标的概念、作用、分类与计算方法;了解相对指标的概念、作用;掌握几种常用相对指标的计算方法;了解平均指标和标志变异指标的基本知识;掌握算术平均数、调和平均数、几何平均数、众数和中位数的计算方法;掌握全距、平均差、标准差和变异系数的计算方法。能力目标:培养在实践中灵活运用各种统计指标的能力;锻炼运用Excel计算各种统计指标的能力。教学重点相对指标、平均指标的分类与计算、标志变异指标的测定方法。教学难点标志变异指标的测定方法、利用Excel计算平均指标和标志变异指标。课时安排本章安排4课时。教学内容第一节总量指标和相对指标\n一、总量指标(一)总量指标的基本知识总量指标是指反映现象总体在一定时间、地点条件下的总规模和总水平的指标,它是对统计调查来的原始资料经过分组和汇总得到的总计数字,是统计整理阶段的直接成果。总量指标的表现形式是绝对数,因此又称为绝对指标。例如,一个国家或一个地区在一定时间条件下的人口数、粮食产量、钢铁产量等,都是总量指标。总量指标是统计指标中最基本的指标,在统计分析和统计研究中具有十分重要的作用,具体表现在以下几个方面。(1)反映一个国家、地区、部门或单位的基本状况。(2)是制定政策、编制计划、进行科学管理的重要依据。(3)是计算相对指标和平均指标的基础。(二)总量指标的类型根据不同的分类标准,可将总量指标分为如下几种不同的类型。1.总体单位总量指标和总体标志总量指标总量指标按其反映现象总体内容的不同,可分为总体单位总量指标和总体标志总量指标。2.时期指标和时点指标\n总量指标按其反映的时间状况不同,可分为时期指标和时点指标。其中,时期指标是表明社会经济现象总体在一段时期内发展过程的总结果的总量指标,如产品产量、商品销售额等。时点指标是反映社会经济现象在某一时间状况下的总量指标,如人口数、土地面积、固定资产原值等。时期指标与时点指标具有以下三点区别。(1)时期指标具有可加性,不同时期的指标数值相加表明较长时期的总量。时点指标不具有可加性,不同时点的指标数值相加没有实际意义。(2)时期指标的数值大小与时期长短有关,而时点指标数值的大小则与时间间隔长短没有直接关系。(3)时期指标的数值可以连续计数,而时点指标的数值只能间断计数。3.实物指标、价值指标和劳动指标总量指标按其所采用的计量单位的不同,可分为实物指标、价值指标和劳动指标。其中,实物指标是根据事物的属性和特点,采用自然的、度量衡的、物理的或化学的计量单位计算的总量指标,如人口数、企业数分别以“人”、“个”为计量单位等。价值指标是表明事物价值量的总量指标,它以货币为单位进行计量。劳动指标是以劳动时间作为计量单位的总量指标。例如,“工时”、“工日”、“学时”等,都属于劳动单位。(三)总量指标的计算方法总量指标的计算方法主要有直接计量法和推算法两种。二、相对指标(一)相对指标的基本知识\n1.相对指标的概念相对指标又称相对数,是通过两个有联系的指标进行对比,以反映现象总体的数量结构、变化程度或现象之间的数量关系。相对指标通过对比,将两个具体数值抽象化,使人们对事物有更清晰的认识。其基本计算公式为:相对指标=对比数/基数2.相对指标的表现形式相对指标有两种表现形式:有名数和无名数。3.相对指标的作用(1)相对指标可使原来不能直接比较的指标进行对比。(2)相对指标是开展统计分析的重要工具。(3)相对指标能够反映出现象之间相互联系的程度。(二)相对指标的分类与计算由于统计研究的目的和任务不同,对比的基础也不同,进而产生了不同的相对指标,常用的有结构相对指标、比例相对指标、比较相对指标、强度相对指标、动态相对指标和计划完成程度相对指标。不同的相对指标,其计算方法也不相同。1.结构相对指标结构相对指标是利用统计分组,将总体划分为性质不同的部分,然后用各部分的数值与总体数值对比得到的相对数,用以反映总体各组成部分占总体比重的大小。结构相对指标一般用百分数形式表示,其计算公式如下:\n结构相对指标=总体中某部分数值/总体全部数值×100%结构相对指标的分子、分母指标,既可以是总体单位总量,也可以是总体标志总量。一个总体中各部分的结构相对指标的和等于100%。2.比例相对指标比例相对指标是同一总体内两个不同组成部分指标数值的比值。它可以反映总体中各个组成部分之间的数量联系程度和比例关系,其计算公式如下:比例相对指标=总体中某一部分数值/总体中另一部分数值比例相对指标的计算结果通常以百分比来表示,也能用“比较基数单位为1、100或1000时,被比较单位数是多少”的形式来表示。3.比较相对指标比较相对指标又称比较相对数,是指不同空间同类指标数值的比值。它可以反映某一现象在同一时间内不同空间条件下发展的均衡程度,其计算公式如下:比较相对指标=某一总体的某类指标数值/另一总体的同类指标数值比较相对指标的计算结果通常用百分数、系数或倍数表示。计算比较相对指标时,要求其分子与分母在指标类型、时间、计量单位等方面具有可比性,即对比现象必须是同质、同类的。4.强度相对指标\n强度相对指标又称强度相对数,是指同一时期两个性质不同但有联系的总量指标的比值。它可以反映社会经济现象的强度、密度和普遍程度,其计算公式如下:强度相对指标=某一总量指标数值/另一性质不同但有联系的总量指标数值强度相对指标通常以双重计量单位表示,是一种复名数,如人均粮食产量的计量单位是千克/人;另外,也有些强度相对指标的数值用百分数或千分数表示,如经营费用率用百分数表示,人口出生率用千分数表示。5.动态相对指标动态相对指标又称发展速度,是指同一指标在不同时间上的数值之比。它可以说明同类事物在不同时间上的发展和变化程度,其计算公式如下:动态相对指标=报告期水平/基期水平×100%式中,基期是指用做比较基础的时期;报告期是指同基期对比的时期。动态相对指标一般用百分比表示,有时也用倍数表示。6.计划完成程度相对指标计划完成程度相对指标是指社会经济现象在某一时期的实际完成数与计划数的比值,一般用百分数表示。它可以用来检查、监督计划执行情况,其计算公式如下:计划完成程度相对指标=实际完成数/计划任务数×100%\n式中,分子是根据实际完成情况进行统计而得到的数据;分母是下达的计划指标。由于计划数总是用来衡量计划完成情况的标准,所以计算该指标时,分子分母不能互换,且分子与分母的含义、计算方法、计量单位、时间长度和空间范围等方面必须一致。此外,判断计划完成程度的好坏,要视指标的类型而定。对于正指标,如产量、产值、劳动生产率等,计划完成程度相对指标大于100%才算超额;对于逆指标,如单位产品成本、流通费用率等,计划完成程度相对指标小于100%才算超额;对于少数指标,如职工人数、工资总额、固定资产投资额等,是不允许突破计划的,这些指标的计划完成程度相对指标以100%为宜。由于计划指标下达的表现形式不同,可以是平均数、绝对数或相对数,所以计划完成程度相对指标的计算方法也不相同。(1)计划指标以平均数的形式出现。当计划指标为平均数时,可以利用计划完成程度相对指标的基本公式进行计算。(2)计划指标以绝对数的形式出现。当计划指标为绝对数时,又分为短期计划完成情况检查和长期计划完成情况检查两种。①对于短期计划完成情况,有以下两种计算方法。一是实际完成数与计划任务数都是同一时期的。在这种情况下,可以直接利用基本公式进行计算。二是计划期中某一段实际累计数与全期计划相比,用以从时间上考核计划执行的均衡性,以便及时发现问题、采取措施,保证计划的完成和超额完成。其计算公式如下:\n②对于长期计划完成情况,可采用累计法和水平法两种方法进行检查分析。凡是计划指标是按计划期内各年的总和规定任务时,就应采用累计法计算。其计算公式如下:计划完成程度相对指标=计划期间实际累计完成量计划规定累计量×100%(3)计划指标以相对数的形式出现。当计划指标是相对数时,计划完成程度相对指标有以下两种计算方法。①计划指标是增长率。当计划指标是增长率时,计划完成程度相对指标的计算公式为:计划完成程度相对指标=1+实际增长率1+计划增长率×100%②计划指标是降低率。当计划指标是降低率时,计划完成程度相对指标的计算公式为:计划完成程度相对指标=1-实际降低率1-计划降低率×100%(三)使用相对指标的原则相对指标是将社会经济现象的数字抽象化,因此,运用它来分析和说明问题时,应遵循以下原则。(1)可比性原则。(2)与绝对指标结合使用。(3)各种相对指标结合使用。第二节平均指标和标志变异指标一、平均指标\n(一)平均指标的基本知识平均指标是反映统计数据一般水平的统计指标,又称统计平均数。其特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表全部统计数据的一般水平,反映了现象总体的综合数量特征。平均指标在社会经济管理和科学研究的许多领域都有广泛的应用,其主要作用可概括为以下几点。(1)反映总体分布的集中趋势。(2)便于进行对比分析。(3)便于分析现象之间的依存关系。(4)辅助统计推断。(二)平均指标的分类与计算按照计算方法的不同,可将平均指标分为两大类:数值平均数和位置平均数。其中,数值平均数是根据变量数列和总体各单位的变量值计算的,又包括算术平均数、调和平均数和几何平均数等;而位置平均数则是根据变量值的位置和出现次数确定的,又包括众数和中位数等。1.算术平均数算术平均数又称为均值,是总体各单位某一数量标志之和与总体单位数之比,反映总体各单位某种标志值的一般水平。其计算公式如下:算术平均数=总体标志总量/总体单位数\n在统计实践中,由于所掌握的资料和计算的复杂程度不同,算术平均数又可分为简单算术平均数和加权算术平均数两种。(1)简单算术平均数。简单算术平均数适用于未分组的统计数据,其计算公式如下:式中,为简单算术平均数;xi为各单位标志值;n为总体单位数;∑为求和符号。(2)加权算术平均数。当原始资料已经进行分组整理,并按标志值大小顺序组成变量数列,此时需要应用加权算术平均数。其计算公式如下:式中,为加权算术平均数;fi为权数,即各组频数;xi为各组标志值或组中值。由此可见,加权算术平均数的大小,不仅取决于各组标志值的大小,还取决于各组的频数。频数多的标志值对平均数的影响较大,频数少的标志值对平均数的影响较小。计算加权算术平均数时分为两种情况:一是依据单项数列计算,二是依据组距数列计算。①单项数列。在这种情况下,直接用分组的变量值乘以频数求出,并累计求得,然后除以总体单位总量指标。②\n组距数列。在这种情况下,加权算术平均数应根据各组的实际平均数乘以相应的权数来计算。但在实际编制组距数列时,很少计算组平均数,此时可以用组中值来代替。当然,用组中值计算的加权算术平均数不可避免地存在一定的误差,所以计算结果一般只能是近似值。2.调和平均数当缺乏总体单位的资料,不能直接计算算术平均数时,就需要采用调和平均数。所谓调和平均数,是指各个变量值倒数的算术平均数的倒数。调和平均数是平均指标的一种,与算术平均数一样,因给定资料的形式不同,也分为简单调和平均数与加权调和平均数。(1)简单调和平均数。简单调和平均数适用于未分组的资料,其计算公式如下:式中,H为调和平均数;xi为标志值;n为项数。(2)加权调和平均数。加权调和平均数适用于分组资料,其计算公式如下:式中,mi为各组标志总量。3.几何平均数在社会现象的发展过程中,有些指标值(如比率或速度)是不能用简单相加再被项数平均的方法来计算的,此时需要采用几何平均数。所谓几何平均数,是指变量值连乘积的多次方根,其计算公式如下:\n式中,G为几何平均数;xi为标志值;n为变量数;∏为连乘符号。4.众数在统计实践中,有时没有必要计算算术平均数,只需掌握最普遍的标志值就能说明现象的一般水平,此时可以采用众数。所谓众数,是指现象总体中出现次数最多的标志值,用M0表示。根据掌握资料的不同,计算众数时一般采用以下两种方法。(1)根据单项数列确定众数。在单项数列中,众数的确定比较简单,只需找出次数最多的标志值即可。例如,某生产小组6位工人的日产量分别为:10件、12件、12件、12件、15件、18件,其中12件出现的次数最多,因此将12称为众数。(2)根据组距数列确定众数。在组距数列中,众数不能直接看出,需要先确定众数所在组,然后根据公式求得众数的近似值。其计算公式如下:(下限公式)(上限公式)式中,L为众数组的下限;U为众数组的上限;Δ1为众数组次数与前一组次数之差;Δ2为众数组次数与后一组次数之差;d为众数组组距。5.中位数\n在大部分总体单位标志值比较集中,只有少数分散在一端,且标志值极大或极小的情况下,需要运用中位数以确切地反映频数分布的集中趋势。所谓中位数,是指将统计数据排序后处于中间位置的数据。显然,在一批数据中,一半的数据比中位数大,另一半的数据比中位数小。由于使用资料的不同,确定中位数的方法也不同。(1)未分组数据。根据未分组数据确定中位数时,首先将标志值按大小顺序排列,然后利用以下公式确定中位数:式中,Me为中位数;、和分别代表原始数据排序后处于其下标数字所示位置上的数值。(三)平均指标的使用原则(1)以同质总体为基础。(2)结合组平均数和次数分配。(3)以标志变异指标进行补充说明。二、标志变异指标(一)标志变异指标的基本知识标志变异指标又称标志变动度,是测定离散程度的指标。它与平均指标相辅相成,能综合反映总体单位之间在某数量标志上的差别大小和总体分布的离散趋势。\n标志变异指标是描述数据分布的一个很重要的特征值,其作用主要有以下几点。(1)反映总体各单位变量值分布的均衡性。(2)衡量平均指标代表性的高低。(3)是确定抽样数目和计算抽样误差的依据。(二)标志变异指标的测定方法为了客观地反映现象的特征与联系,在研究平均指标的同时,还必须对总体各单位标志值之间的差异程度进行测定。一般而言,反映标志变异程度的指标主要有全距、平均差、标准差和变异系数等。1.全距全距又称极差,是指总体中单位标志值的最大值与最小值之差。它是测定标志变异程度最简单的指标,其计算公式如下:R=xmax-xmin式中,R为全距;xmax为总体中最大的标志值;xmin为总体中最小的标志值。全距能反映总体中标志值变动的范围:全距越大,表明总体中标志值变动的范围越大,从而说明总体各单位标志值的差异越大;反之则越小。2.平均差在统计学中,每个统计数据与平均值的差称为离差,而离差的绝对值的算术平均数就是平均差。平均差是测定标志值变异程度的另一种指标,其值越大,说明各标志值的差异越大,分布越分散;反之,则说明各标志值的差异越小,分布越集中。\n根据掌握的资料不同,平均差的计算方法也不同。(1)简单平均法。如果掌握的是未分组的资料,应采用简单平均法计算平均差,其计算公式如下:式中,代表平均差;n代表总体单位数,即离差的项数;代表算术平均数。(2)加权平均法。如果掌握的数据是分组数列,则应采用加权平均法计算平均差,其计算公式如下:式中,xi为各组的组中值;fi为各组的频数,是计算平均差的权数。3.标准差标准差又称均方差,是指总体各单位的标志值与其算术平均数的离差平方的算术平均数的平方根。它是测定标志变异最主要的指标,用σ表示。标准差的平方称为方差,用σ2表示。标准差的意义与平均差相似,也是数据与平均指标的平均离差。所不同的是,平均差平均的是离差绝对值,而标准差平均的是离差平方。标准差彻底解决了正负离差不能相加的问题,能够准确地、综合地反映总体的离散程度。计算标准差可采用两种方法,即简单平均法和加权平均法。(1)简单平均法。如果数据未经整理分组,应采用简单平均法计算标准差,其计算公式如下:\n(3-22)(2)加权平均法。如果数据已经经过整理分组,则应采用加权平均法计算标准差,其计算公式如下:(3-23)式中,xi为各组的组中值;fi为各组的频数,是计算标准差的权数。4.变异系数前面介绍的全距、平均差和标准差,都是反映一组数值变异程度的指标,其数值大小不仅受标志值之间差异程度的影响,还与标志值的水平和计量单位有关。因此,当对不同水平、不同计量单位的数据组进行比较时,应先进行量纲化处理,将上述反映数据的绝对差异程度的指标转化成反映相对差异程度的指标,此时就需要应用变异系数。所谓变异系数,是指全距、平均差或标准差等标志变异指标与算术平均数的比率,以相对数的形式来表示。统计中最常用的变异系数是标准差系数,其计算公式如下:变异系数一般使用百分数表示。系数越大,说明数据的离散程度越大,其平均数的代表性就越差;反之,系数越小,说明数据的离散程度越小,其平均数的代表性越好。第三节Excel在统计指标计算中的应用一、利用Excel计算总量指标\n利用Excel计算总量指标,一般有以下两种情况。(1)计数。Excel中,常用函数COUNT或COUNTIF来实现计数功能。其中,COUNT函数主要用于计算指定单元格区域中包含数字以及包含参数列表中的数字的单元格的个数。COUNTIF函数主要用于计算指定单元格区域中满足给定条件的单元格的个数,其语法格式为:COUNTIF(range,criteria)。其中,range为数值区间;criteria为条件。(2)求和。Excel中,常用函数SUM或SUMIF来实现求和功能。其中,SUM函数主要用于计算指定单元格区域中所有数字之总和。SUMIF函数主要用于根据指定条件对若干单元格求和,其语法格式为:SUMIF(range,criteria,sum_range)。其中,range为数值区间;criteria为条件;sum_range为需要求和的实际单元格。二、利用Excel计算相对指标利用Excel计算相对指标,最常用的功能就是公式及公式复制。这些操作比较简单直观,只需掌握Excel的基本使用方法即可。三、利用Excel计算平均指标和标志变异指标1.利用函数计算未分组数据的相关指标2.利用“数据分析”功能计算未分组数据的相关指标3.利用函数计算分组数据的相关指标第四章统计指数分析教学要求\n知识目标:了解统计指数的概念和性质;了解统计指数的种类和作用;掌握综合指数与平均指数的编制方法;掌握运用指数体系进行因素分析的方法;了解几种重要的经济指数。能力目标:深入理解统计指数在统计实践中的应用;学会使用Excel进行统计指数计算与分析。教学重点综合指数的编制、平均指数的编制、总量指标与平均指标因素分析、几种重要的经济指数。教学难点总量指标与平均指标因素分析、Excel在统计指数分析中的应用。课时安排本章安排5课时。教学内容第一节统计指数概述一、统计指数的概念和性质\n统计指数简称指数,它是表明社会经济现象数量对比关系的相对数。从广义上看,它泛指一般社会经济现象的相对数,如计划完成程度相对数、比较相对数、动态相对数、强度相对数等。狭义的指数是指反映各部分数值不能相加的复杂总体数量综合变动情况的相对数,如零售物价指数、消费价格指数、股价指数等。本章主要从狭义的角度来讨论统计指数的编制方法及其应用。由于统计指数用相对数来反映复杂总体综合变化的程度,所以可以将相对指数理解为两个或两个以上现象数量各自变化相对程度的一般水平,因此统计指数具有综合性、相对性、平均性三个主要性质。二、统计指数的种类根据不同研究目的,可将统计指数分为不同的类型。1.个体指数、类指数和总指数按反映的对象范围不同,可将统计指数分为个体指数、类指数和总指数。其中,个体指数是反映个体现象变动的相对数,又称单项指数,如个别商品的价格指数、单个产品的成本指数等。总指数是反映经济现象综合变动的相对数,即狭义的指数,如零售物价总指数、商品销售量指数、工业总产量指数等。此外,在个体指数和总指数之间,还存在类指数,它是说明现象总体中各类现象总变动的指数,如在零售商品价格总变动中的食品类价格指数、衣着类价格指数等。总指数与类指数之间的划分是相对的,没有绝对界限。类指数对总指数而言具有个体指数的性质,对个体指数而言又具有总指数的性质。2.数量指标指数和质量指标指数\n按指数化指标性质不同,可将统计指数分为数量指标指数和质量指标指数。其中,数量指标指数是根据数量指标计算的、反映社会经济现象总规模和水平的变动,如产量指数、销售量指数、职工人数指数等。质量指标指数是根据质量指标计算的、反映现象内涵数量关系变化的指数,如价格指数、劳动生产率指数、单位成本指数等。应当指出,这种划分具有一定的相对性。有些指数,在某种情况下是数量指标指数,在另一种情况下则可成为质量指标指数;在某种情况下是质量指标指数,在另一种情况下也可成为数量指标指数。3.综合指数和平均指数按编制方法的不同,可将统计指数分为综合指数和平均指数。其中,综合指数是通过同度量因素,将两个时期不能同度量的现象指标过渡到能够同度量的指标,然后计算出的指数。平均指数是从个体指数出发通过对个体指数加权平均计算而编制的指数。4.定基指数和环比指数按采用的基期不同,可将统计指数分为定基指数和环比指数。其中,定基指数是指在一个指数数列中,按照某一固定基期所编制的指数,主要反映某种社会经济现象长期的变动程度,如我国以1990年为固定基期计算的国内生产总值指数、工业总产值指数和农业总产值指数等。环比指数是指在一个指数数列中,各时期的指数以其前一时期为基期所编制的指数,主要反映某种社会经济现象逐期的变动程度,如按月、季、年连续计算的产量指数、价格指数或成本指数等。5.动态指数和静态指数\n按反映的时间状况不同,可将统计指数分为动态指数和静态指数。其中,动态指数是由两个不同时期的经济量对比形成的指数,主要表明现象在不同时间上的发展变化,如股票价格指数、商品零售价格指数等。静态指数又分为区域指数和计划完成情况指数两种。其中,区域指数是指同一时间不同空间的同类现象数量对比的相对数,主要反映同类现象在不同区域的差异程度;而计划完成情况指数则是利用总指数的方法,将多项计划任务的实际数与计划数进行对比,以综合反映计划完成程度。三、统计指数的作用(1)综合反映复杂现象的总体数量变动的方向、程度和绝对效果。(2)对现象数量总变动进行因素分析。(3)研究事物在长时间内的变动趋势。第二节综合指数与平均指数总指数有两种表现形式:一是综合指数,二是平均指数。综合指数是计算总指数的基本形式;平均指数是综合指数计算公式的变形,但也具有相对独立的意义。一、综合指数(一)综合指数概述如前所述,综合指数是将两个同类却不能同度量的复杂现象的数量转化为可同度量的数量,再进行对比所计算的相对数。它是按照“先综合、后对比”的思路编制的总指数,其特点如下。\n(1)利用综合指数研究现象总变动时,必须固定其他因素,只测定其中一个因素的变动情况。(2)综合指数不仅能研究不能同度量现象动态变化的方向程度,还可以观察现象动态变化后所产生的实际效果。(二)综合指数的编制1.综合指数的编制原则通过引入同度量因素,将不能直接加总的因素转化为同度量的价值量指标,然后通过价值量指标的对比来反映因素的综合变动情况。2.综合指数的编制方法综合指数有数量指标综合指数和质量指标综合指数之分,两种综合指数在公式的形成上其基本原理是相同的,但在具体处理方法上既有联系又有区别。(1)数量指标综合指数的编制。对于综合指数,如果所测定的是一组项目的物量变动状况,则称为数量指标综合指数。常见的数量指标综合指数有职工人数指数、商品销售量指数、产品产量指数等。下面举例说明商品销售量指数的编制方法。(2)质量指标综合指数的编制。对于综合指数,如果测定的是一组项目的质量变动状况,则称为质量指标综合指数。常见的质量指标综合指数有商品销售价格指数、产品出厂价格指数、产品单位成本指数等。二、平均指数(一)平均指数概述\n在统计实践中,有时由于受到资料的限制,无法利用综合指数进行计算,这时可以采用总指数的另一种形式——平均指数进行分析。如前所述,平均指数是指以个体指数为基础,对若干个体指数进行加权平均而编制的总指数。它的编制思路为“先对比、后平均”,其与综合指数的区别在于以下几点。(1)性质表现不同。综合指数直接反映了现象的综合变动情况;而平均指数不仅反映了现象的综合变动,还反映了个体指数对总指数的影响。(2)使用的权数不同。综合指数是以同度量因素为权数的,同度量因素可以是基期也可以是报告期相应的数量指标或质量指标;而平均指数是以价值量指标为权数的。(3)对资料的要求不同。编制综合指数需要全面的资料,即基期和报告期的指数化因素及同度量因素的全部资料;而编制平均指数只需要个体指数和相应的权数资料即可。除了区别,平均指数与综合指数之间也有联系:两者都是总指数的编制方法,反映的内容是一致的——反映了现象的综合变动程度;此外,在特定的权数条件下,两者之间具有变形关系。(二)平均指数的编制编制平均指数时面临两个重要问题:一是权数资料;二是平均的形式。不同的权数资料决定了不同的平均形式,也对应着不同的计算方法。所以,编制平均指数的关键在于权数资料的选择。常见的权数资料主要有三种:基期价值量指标p0q0、报告期价值量指标p1q1和抽样资料。\n1.以基期价值量指标p0q0为权数如果掌握了每个单项事物的基期价值量指标p0q0,就可以通过对拉氏数量指数变形,以p0q0为权数,运用加权算术平均的方式来编制总指数。这种平均指数称为加权算术平均指数,通常用来编制数量指标总指数。其计算公式如下:式中,Kp为个体指数。2.以报告期价值量指标p1q1为权数如果掌握了每个单项事物的报告期价值量指标p1q1,就可以通过对帕氏质量指数变形,以p1q1为权数,运用加权调和平均的方式来编制总指数。这种平均指数称为加权调和平均指数,通常用来编制质量指标总指数。其计算公式如下:式中,Kp为个体指数。3.以抽样资料为权数在经济指数的编制过程中,通常遇到的情况是无法掌握每项事物的全面资料,更无法掌握其基期价值量指标和报告期价值量指标,这时就不能利用上述方法来编制总指数,而必须寻找其他途径来获得权数资料。常用的方式是,通过抽样调查取得每项事物的价值量指标,以其价值量比重wi\n作为权数,然后利用算术平均的方式来编制总指数。其计算公式如下:式中,k是个体指数;wi是某一时期的比重权数。第三节指数体系与因素分析一、指数体系的基本知识在经济分析中,一个指数通常只能说明某一方面的问题,而实践中往往需要将多个指数结合起来加以运用,这就要求建立相应的指数体系。1.指数体系的概念指数体系有广义和狭义之分。广义的指数体系类似于指标体系的概念,泛指由若干个内容上相互关联的统计指数所结成的体系。根据考察问题的需要,构成这种体系的指数可多可少。例如,工业品批发价格指数、农产品收购价格指数、消费品零售价格指数等,构成了市场物价指数体系;国民经济运行的生产、流通和使用个环节以及国民经济各部门的多种经济指数,构成了国民经济核算指数体系;等等。狭义的指数体系是指若干指数在一定的经济基础上所结成的较为严密的数量关系式。其最为典型的表现形式为:一个总值指数等于若干个(两个或两个以上)因素指数的乘积。本节主要就狭义的指数体系进行讨论。例如,销售额、销售量和销售价格三者之间的关系为:销售额=销售量×销售价格。这种静态数量关系也同样存在于指数之间,具体如下:\n销售额指数=销售量指数×销售价格指数销售额变动的绝对量=因销售量变化引起的销售额变动的绝对量+因价格变化引起的销售额变动的绝对量即商品销售额指数、商品销售量指数和商品销售价格指数三者构成一个指数体系:指数体系包含两个对等关系:相对数上的对等关系和绝对量上的对等关系。2.指数体系的作用指数体系的作用主要有以下两点。(1)指数体系是因素分析的基本依据。(2)利用指数体系可以进行统计推算。二、因素分析因素分析是指利用指数体系分析社会经济现象总变动中的各因素变动的影响方向和影响程度的一种统计分析方法。例如,以指数体系来分析工资水平、工人结构、工人总数的变动对工资总额的影响等。\n因素分析主要包括两方面内容:一是相对数分析,即将互相联系的指数组成乘积关系的体系,从指数计算结果本身指出现象总体总量指标或平均指标的变动是由哪些因素变动作用的结果;二是绝对数分析,即由指数体系中各个指数分子与分母指标之差所形成绝对值上的因果关系。因素分析按分析对象包含的因素多少,可分为两因素分析和多因素分析;按分析的指标种类不同,可分为总量指标因素分析和平均指标因素分析。以下分别就总量指标和平均指标的因素分析方法进行介绍。1.总量指标因素分析总量指标因素分析包含总量指标两因素分析和总量指标多因素分析两种。以下仅就总量指标两因素分析进行详细介绍。总量指标两因素分析,是指通过总量指标指数体系将影响总量指标变动的两个因素分离出来加以计算,从而对总量指标的变动作出解释。两因素分析的关键是确定同度量因素的时期,一般应遵循的原则为:先确定数量指标和质量指标,按照数量指标在前、质量指标在后的顺序排列,依据“数量指标指数化,将质量指标作为同度量因素并固定在基期;质量指标指数化,将数量指标作为同度量因素并固定在报告期”的指数编制原理,列出指数体系及绝对量变化关系式。简言之,一个因素指数的同度量因素固定在报告期,另一个因素指数的同度量因素固定在基期,两个指数的同度量因素不能同时固定在报告期或同时固定在基期。2.平均指标因素分析根据加权算术平均数的计算公式可知,在资料分组的条件下,平均指标受两个因素的影响:一是各组标志值x,二是各组次数f或各组次数占总次数的比重f/∑f\n。所以,要对平均指标的变动情况进行因素分析,就应分别分析各因素变动对平均指标变动的影响,这就需要建立一个平均指标指数体系。用x0、x1分别表示基期、报告期各组的变量值或组中值,用f0、f1分别表示基期、报告期各组的次数。则报告期的平均数为∑x1f1/∑f1,基期的平均数为∑x0f0/∑f0,平均数指数是两者的比值,该指数称为可变构成指数,它反映了平均指标变化的相对程度:反映各组结构变化相对程度的指数称为结构影响指数:反映各组变量值变化相对程度的指数称为固定构成指数:三者构成指数体系:(4-9)(4-10)第四节几种重要的经济指数一、商品零售价格指数商品零售价格指数是指反映城乡商品零售价格变动趋势和变动程度的一种统计指数。零售商品价格的变动直接影响城乡居民的生活支出和购买力水平,也对市场的供求关系有着非常重要的影响。\n一般情况下,商品零售价格指数是先从各类零售商品中选择具有代表性的商品计算出个体指数Kp=p1/p0,再以W为权数计算的加权算术平均数指数。其计算公式如下:我国现行的商品零售价格指数按城乡分别进行编制:城市商品零售价格指数的商品范围只包括消费品;农村商品零售价格指数除消费品外,还包括农业生产资料。从观察范围来看,可以编制全国商品零售价格总指数,也可以编制地区商品零售价格指数以及商品零售分类价格指数。其基本编制过程如下。1.选择代表规格品2.选择典型地区3.确定商品价格4.确定权数5.计算指数二、居民消费价格指数居民消费价格指数是指城乡居民购买支付生活消费品和服务项目的价格,是社会产品和服务项目的最终价格。它能反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动情况,通过它可以观察消费价格的变动水平及对消费者货币支出的影响。居民消费价格指数与人民生活密切相关,在整个国民经济价格体系中具有极为重要的地位。\n居民消费价格指数的计算是使用固定加权算术平均数的方法进行的,具体公式如下:式中,Kp为类指数;W为权数,通常采用比重形式,∑W=1。从公式上看,居民消费价格指数与商品零售价格指数的计算方法是完全相同的。只是居民消费价格指数所包含的项目分为八大类:食品、烟酒及用品、衣着、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化用品及服务、居住。三、工业生产指数工业生产指数是反映一个国家或地区工业产品产量的综合变动程度的一种物量指数。它反映工业生产的动态,是衡量经济增长水平和判断经济形势的重要依据。工业生产指数常采用算术平均数来编制,即对工业产品的产量个体指数(或类指数)进行加权算术平均来计算。具体计算公式如下:在工业生产指数中,权数可用固定时期(或基期)的总产值、净产值或增加值来计算。这样,只要计算出各个时期的个体产量指数四、股票价格指数1.股票价格指数概述\n股票价格指数简称股价指数,它是反映某一股票市场上多种股票价格综合变动程度的相对数,是由证券交易所或金融服务机构编制的表明股票行市变动的一种供参考的指示数字。投资者据此可以检验自己投资的效果,并预测股票市场的动向。同时,企业管理层、政界领导人等也可以此为参考指标,来观察、预测社会经济、政治发展形势。2.股票价格指数的编制股价指数的编制方法有很多,一般采用的是综合指数法。具体形式如下:式中,p0为基期股价;p1为报告期股价;q0为基期的成交股数(或发行量);q1为报告期的成交股数(或发行量)。综合指数中权数的选择有两种方法。一种是以样本股发行量为权数求得市价总值,再利用综合指数的形式计算股价指数。这种方法编制的股价指数能够反映样本股整体资产价值的变化,相对降低了某些股票市价暴涨暴跌对指数的影响。当股票分割、配股发生时,样本股数量相应地逐渐膨胀,权数增大,以致出现失真现象,故以发行量为权重,较适合于观察平均股价水准变动。另一种是以样本股成交量为权数,但该种权数是不固定的。当股价上涨而成交量骤变时,股价指数容易使投资者产生误解,而以成交量为权重,反映了平均每股成交额,可用以测定股票市场的投资者心态。\n此外,也有一些股价指数是采用平均指数的形式编制的,如著名的道·琼斯指数和日经指数等。3.几种常见的股价指数(1)道·琼斯指数。(2)标准·普尔指数。(3)纽约证券交易所指数。(4)日经指数。(5)香港恒生指数。(6)上证综合指数。上证综合指数是由上海证券交易所编制的,以1990年12月19日为基期,于1991年7月15日正式开始发布。该股价指数的样本为所有在上海证券交易所挂牌上市的股票,其中新上市的股票在挂牌的第二天会纳入股价指数的计算范围。该股价指数的权数为上市公司的总股本。由于我国上市公司的股票有流通股和非流通股之分,其流通量与总股本并不一致,所以总股本较大的股票对股价指数的影响较大。上证综合指数的计算公式为:(7)深证综合指数。深证综合指数是由深圳证券交易所编制的,以1991年4月3日为基期。该股价指数的计算方法与上证综合指数基本相同,其样本为所有在深圳证券交易所挂牌上市的股票,权数为股票的总股本。由于以所有挂牌的上市公司为样本,其代表性非常广泛,且它与深圳股市的行情同时发布。深证综合指数计算公式为:\n新股票上市时,从上市的第二天纳入成分股;而如果某一成分股暂停交易,则从指数中暂时剔除。第五节Excel在统计指数分析中的应用利用Excel完成各种指数以及有关数值的计算,主要用到的是公式和公式填充功能。尤其是当所研究总体包括的个体很多时,公式填充功能就非常重要。以下举例说明如何在Excel中实现综合指数及其有关数值的计算。其他统计指数分析中的计算都与此大同小异,没有特别的技巧,这里不再赘述。第五章时间数列分析教学要求知识目标:了解时间数列的概念、作用、种类及编制原则;掌握时间数列水平指标和速度指标的计算方法;理解移动平均法和最小平方法的原理及步骤;掌握季节变动分析的方法。能力目标:深入理解时间数列分析在统计实践中的应用;学会使用Excel进行时间数列分析。教学重点\n时间数列的编制原则、时间数列的水平指标、时间数列的速度指标、时间数列的因素分解。教学难点长期趋势的测定、季节变动的测定、Excel在时间数列分析中的应用。课时安排本章安排5课时。教学内容第一节时间数列概述一、时间数列的概念及作用时间数列又称时间序列或动态数列,是指反映客观现象的同一指标在不同时间上的数值,按时间先后顺序排列而成的数列。时间数列在统计分析中具有重要的作用,主要表现为以下几点。(1)时间数列可以表明社会经济现象的发展变化趋势及规律性。(2)利用时间数列,可以计算各种时间动态指标值,以便具体深入地揭示现象发展变化的数量特征。(3)运用时间数列,可以预测现象的发展方向和发展速度,为经济决策或经营决策提供重要依据。总之,通过编制和分析时间数列,可以研究过去、指导现在、预测未来。二、时间数列的种类\n时间数列按统计指标表现形式的不同,可分为绝对数时间数列、相对数时间数列和平均数时间数列三种。其中,绝对数时间数列是最基本的时间数列,而相对数时间数列和平均数时间数列是在其基础上派生的。1.绝对数时间数列绝对数时间数列又称总量指标时间数列,是由一系列同类总量指标的数值按时间先后次序排列而成的时间数列。它反映的是社会经济现象的总量在各个时期所达到的规模、水平及发展变化情况。绝对数时间数列按照其总量指标所反映的现象总量性质、时间状况不同,又可分为时期数列和时点数列。(1)时期数列。(2)时点数列。归纳而言,时期数列和时点数列的区别如表5-2所示。时期数列与时点数列的区别区别时期数列时点数列反映现象的性质反映某种现象在一段时期内发展过程的总量反映某种现象某一时点上所处的数量水平指标可加性数列中各项指标可以相加,以反映总量的变动情况数列中各项指标不可相加,相加后不具有实际经济意义指标与时间的关系指标数值的大小与所属的时期长短有直接关系。时期越长,指标值越大;反之,越小指标数值的大小与间隔时间的长短没有直接关系。\n指标来源指标值采用连续登记的方法获得指标值采用间断登记的方式获得2.相对数时间数列相对数时间数列又称相对指标动态数列,是由一系列同类相对指标数值按时间先后顺序排列而成的时间数列。它用来说明社会经济现象之间的数量对比关系,以及现象的结构、速度的发展变化过程。例如,表5-1中的第三产业所占比重时间数列就是相对数时间数列。各种不同的相对数时间数列,均从不同角度反映社会经济现象之间相互关系的发展过程及规律。在相对数时间数列中,各项指标数值是不能相加的。3.平均数时间数列平均数时间数列,是由一系列同类平均指标数值按时间先后顺序排列而成的时间数列。它主要用来反映各个时期社会经济现象一般水平的发展过程和变化趋势。例如,表5-1中的职工平均工资时间数列就是平均数时间数列。在平均数时间数列中,各个指标值一般是不能相加的;但有时为了计算序时平均数,也可以相加。三、时间数列的编制原则(1)时间长短一致。(2)总体范围一致。(3)经济内容一致。(4)计算方法一致。第二节时间数列的水平指标\n一、发展水平发展水平又称发展量,是指时间数列中每一项具体的指标数值。它可以表现为总量指标,如企业员工总数、利润总额等;也可表现为相对指标或平均指标,如人口出生率、工人劳动生产率、单位产品原材料消耗量等。它是反映社会经济现象在所属时间所达到的水平,是计算其他动态分析指标的基础。根据发展水平在时间数列中所处的位置,可将其分为最初水平、最末水平和中间水平。如果将某一时间数列用符号a0,a1,a2,…,an-1,an表示,则第一项指标数值a0称为最初水平;最末一项指标数值an称为最末水平;除最初水平与最末水平以为的所有各项发展水平,即时间数列中的a1,a2,…,an-1,an各项称为中间水平。根据发展水平的作用不同,又可将其分为基期水平和报告期水平。基期水平是作为比较基础时期的水平,即时间数列中的a0,a1,a2,…,an-1各项;报告期水平是作为分析研究时期的水平,即时间数列中的a1,a2,…,an-1,an各项。需要注意的是,发展水平在文字说明上习惯用“增加到”、“增加了”或“降低到”、“降低了”来表述。例如,某企业1月份实现利润200万元,2月份增加到300万元,增加了100万元。另外,最初水平、最末水平、基期水平和报告期水平等概念并不是一成不变的,而是随着研究目的改变而变化。某场合下的基期水平可能是另一场合的报告期水平,某一时间数列的最初水平可能是另一数列的最末水平。二、平均发展水平\n平均发展水平又称动态平均数或序时平均数,是指时间序列中各个不同时期的发展水平的平均数。它表明了现象在一段时间内发展水平达到的一般水平,是现象在不同时间不同水平的平均值。由于时间数列可分为绝对数时间数列、相对数时间数列和平均数时间数列,因此平均发展水平的计算也分为三种情况。(一)由绝对数时间数列计算平均发展水平绝对数时间数列分为时期数列和时点数列,由于两种数列的性质不同,因而在计算平均发展水平时,应用的方法也不同。1.由时期数列计算平均发展水平由于时期数列中各项指标数值可以加总,加总的结果反映现象在较长时间内发展变化的总量,因此它的平均发展水平可以用简单算术平均的方法计算,即将数列中各项指标的数值直接加总除以发展水平的项数。具体公式如下:式中,表示平均发展水平;ai表示各期发展水平;n表示时期指标项数。2.由时点数列计算平均发展水平时点数列有连续时点数列和间断时点数列两种,根据掌握的资料不同,计算平均发展水平的方法也不相同。(1)连续时点数列的平均发展水平。由连续时点数列计算平均发展水平,分为以下两种情况。①\n如果时点数列资料是逐日登记且逐日排列的,则可采用简单算术平均法计算其平均发展水平。具体计算公式与式(5-1)相同。②如果时点数列的资料不是逐日提供的,而只提供发生变动时的资料,则可采用加权算术平均法计算其平均发展水平。具体计算公式如下:式中,表示平均发展水平;ai表示各时点指标数值;fi表示各时点指标值的持续天数。(2)间断时点数列的平均发展水平。间断时点数列是指按月末、季末或年末登记取得资料的时点数列。它也分为两种情况:一是数列中的各项指标表现为逐期期末登记排列,称为间隔相等的间断时点数列;二是数列中的各项指标表现为非均衡的期末登记排列,称为间隔不等的间断时点数列。两种间断时点数列在在计算平均发展水平时,各采用不同方法。①如果由间隔相等的间断时点数列计算平均发展水平,则采用“首末折断法”,即首先假定所研究的现象在相邻两个时点之间的变动是均匀的,将相邻两个时点指标值相加后除以2,求出两个时点之间的平均值(该平均值与两个时点之间的时间段相对应,从而形成一个新的时期数列);然后对求出的各平均值采用简单算术平均法计算其平均发展水平。具体计算公式如下:(5-3)\n式中,表示平均发展水平;a1,a2,…an-1,an表示各时点指标数值;n表示时点数列的项数。②如果由间隔不等的间断时点数列计算平均发展水平,则应首先将相邻两个时点指标值相加后除以2,得出一系列时点间的平均数;然后以时间间隔长度为权数,对平均数进行加权算术平均求出平均发展水平。具体计算公式如下:式中,表示平均发展水平;a1,a2,…an-1,an表示各时点指标数值;f1,f2,…fn-1表示两个相邻时点的时间间隔长度。需要注意的是,在利用这种方法计算平均发展水平的过程中,通常假定在相邻两个时点间指标值是均匀变动的。然而,现实中这种均匀变动是极其少见的,因此按此方法求出的结果只能是近似值。(二)由相对数时间数列计算平均发展水平相对数时间数列是由两个相互联系的时间数列对比而求得的,并且分子、分母两个指标的时间状况一般不相同,因此要先分别计算出分子、分母两个绝对数时间数列的平均发展水平,然后加以对比来求得相对数时间数列的平均发展水平。具体计算公式如下:(5-5)式中,表示相对数时间数列的平均发展水平;为分子数列的平均发展水平,为分母数列的平均发展水平。\n由于相对数时间数列可由两个时期数列、两个时点数列或由一个时期数列和一个时点数列对比形成,而时期数列与时点数列的平均发展水平的计算方法又有所不同,所以相对数时间数列平均发展水平的计算有以下三种情形。(1)分子、分母均为时期数列。当相对数时间数列的分子、分母均为时期数列时,又分为以下三种情况。①分子、分母资料都齐备。此时,相对数时间数列的平均发展水平的计算公式为:②缺少分子资料。此时,需要用加权平均法计算,具体公式如下:③缺少分母资料。此时,需要用加权调和平均法计算,具体公式如下:(2)分子、分母均为时点数列。当相对数时间数列的分子、分母均为时点数列时,其平均发展水平的计算公式为:(5-6)\n(3)分子、分母一个为时期数列,一个为时点数列。当相对数时间数列的分子、分母一个为时期数列,一个为时点数列时,其平均发展水平的计算公式如下:(分子为时期数列,分母为时点数列)(分子为时点数列,分母为时期数列)(三)由平均数时间数列计算平均发展水平平均数时间数列平均发展水平的计算,可分为以下两种情况。(1)由一般平均数组成的平均数时间数列计算平均发展水平。此时,平均数时间数列类似于前述的相对数时间数列,故可采取如下公式计算:(2)由序时平均数组成的平均数时间数列计算平均发展水平。对于由序时平均数组成的平均数时间数列,其平均发展水平的计算分为以下两种情况。①若时间数列中各个时期间隔相等,可直接采用简单算术平均法计算其平均发展水平。具体公式如下:(5-9)②\n若时间数列中各个时期间隔不等,则以间隔长度为权数,采用加权算术平均法计算其平均发展水平。具体公式如下:(5-10)三、增长量增长量又称增减量,是指报告期发展水平与基期发展水平的差额,用以说明社会经济现象在一定时期内增减变化的绝对数量。其基本计算公式如下:增长量=报告期发展水平-基期发展水平增长量可为正值,也可为负值。如果计算结果是正值,则表示增长的绝对量;如果计算结果是负值,则表示减少或降低的绝对量。有些现象的增长量为正值时较好,如利润额的增长量等;而有些现象的增长量为负值较好,如产品单位成本的增长量等。在计算增长量时,由于研究的目的不同,选择的基期也不同。通常,增长量指标可分为逐期增长量和累计增长量。1.逐期增长量逐期增长量又称环比增长量,是指报告期水平与前期水平之差,用以表明报告期较前期增减变化的绝对量。其用符号表示为:a1-a0,a2-a1,a3-a2,…,an-an-12.累计增长量累计增长量又称定基增长量,是指报告期水平与某一固定基期水平(通常为最初水平)之差,用以表明报告期较某一固定基期增减变化的绝对量。其用符号表示为:\na1-a0,a2-a0,a3-a0,…,an-a0逐期增长量和累计增长量虽然是分别根据不同的基期计算的,但它们之间却存在着一定的联系。这种联系具体表现为:累计增长量等于相应的各个逐期增长量之和;逐期增长量等于相邻的两个累计增长量之差。用符号表示如下:an-a0=(a1-a0)+(a2-a1)+…+(an-an-1)an-an-1=(an-a0)-(an-1-a0)四、平均增长量平均增长量又称平均增减量,是指某一现象在一定时期内平均每期增减变化的数量,即逐期增长量的序时平均数,反映社会经济现象在一定时期内平均每期增长的数量。其计算方法是:以逐期增长量之和除以逐期增长量的个数。具体公式为:平均增长量=逐期增长量之和/逐期增长量的个数=累计增长量/(时间数列项数-1)第三节时间数列的速度指标一、发展速度所谓发展速度,是指时间数列中报告期水平与基期水平的比值,反映了现象报告期水平比基期水平发展变化的相对程度。它是研究某种社会经济现象发展程度的动态分析指标,一般用百分数表示,当发展速度较大时,也可用倍数表示。其一般计算公式如下:\n当发展速度大于100%时,表示上升;当发展速度小于100%时,表示下降。由于采用的基期不同,发展速度分为环比发展速度和定基发展速度。两者虽然具有不同的经济含义,却存在着一定的数量关系。1.环比发展速度环比发展速度是指各报告期水平与前一期水平之比,说明现象逐期发展的相对速度。其计算公式如下:用符号表示为:2.定基发展速度定基发展速度是指各报告期水平与某一固定基期水平之比,说明现象从某一固定基期到计算期这一段较长时期之内的总发展速度。因此,它又称为总速度。其计算公式如下:用符号表示为:3.环比发展速度与定基发展速度的关系环比发展速度与定基发展速度之间存在着密切的联系,具体表现为以下两点。\n(1)定基发展速度等于相应的各个环比发展速度的连乘积。用符号表示为:(2)两个相邻时期的定基发展速度之比,等于相应的环比发展速度。用符号表示为:二、增长速度增长速度又称增减速度,是指时间数列中报告期增长量与基期水平之比,用以反映现象报告期水平比基期水平纯增减的相对程度。它一般用百分数或系数表示,其计算公式为:增长速度与发展速度之间既有联系又有区别。发展速度说明报告期水平发展到基期水平的多少倍或百分之几,增长速度只说明增长了多少或减少了百分之几。当发展速度大于1时,增长速度为正值,表示现象增长的程度;当发展速度小于1时,增长速度为负值,表示现象降低的程度。根据采用的基期不同,增长速度可分为两种,即环比增长速度和定基增长速度。(1)环比增长速度。环比增长速度是指报告期逐期增长量与前一期水平之比,说明社会经济现象较前期的相对增减程度。其计算公式如下:\n(2)定基增长速度。定基增长速度是指报告期累计增长量与某一固定基期水平之比,说明社会经济现象在较长时间内总的增减程度。其计算公式如下:需要指出的是,由于环比增长速度与定基增长速度都是发展速度的派生指标,它们只反映增长部分的相对程度,因此,各环比增长速度的连乘积并不等于相应的定基增长速度。如果要根据环比增长速度推算定基增长速度,必须先将各环比增长速度分别加1变为各环比发展速度,再将各环比发展速度连乘得定基发展速度,最后将结果减1得到定基增长速度。三、平均发展速度及平均增长速度社会经济现象在不同时期的发展有快有慢,增减幅度不一,为了反映现象在一段较长时期内发展变化的一般程度,必须将其在这个时期内的发展变化差异加以抽象,计算平均速度指标。平均速度指标有平均发展速度和平均增长速度两种。平均发展速度是各时间环比发展速度的序时平均数,它说明社会经济现象在较长一段时间中各期平均发展变化的程度。平均增长速度则说明现象在较长一段时期中逐期平均增减变化的程度,它不能由环比增长速度直接求出,而是要依据平均发展速度与平均增长速度之间的关系来进行推算。具体公式如下:\n平均增长速度=平均发展速度-1如果平均发展速度大于1,表明现在某段时期内是平均逐期递增的,这时的平均增长速度可称为平均递增率;如果平均发展速度小于1,表明现象在某段时期内是平均逐期递减的,这时的平均增长速度可称为平均递减率。平均速度指标的计算主要是指平均发展速度的计算,常用的方法有几何平均法和方程式法两种。1.几何平均法由于社会经济现象发展的总速度不等于各年发展速度之和,而等于各年环比发展速度的连乘积,所以平均发展速度不能用算术平均法计算,而要用几何平均法计算。用几何平均法计算平均发展速度,就是对各期环比发展速度求几何平均数。其一般计算公式如下:由于时间数列中定基发展速度等于各环比发展速度的连乘积,故上式可变化为:一段时期的定基发展速度就是现象的总速度。如果用R表示总速度,则平均发展速度的公式又可以表示为:2.方程式法\n方程式法又称累计法,是指以各期发展水平的总和与基期水平之比为基础,利用一元高次方程计算平均发展速度的方法。这种方法的出发点是:如果从最初水平出发,每期按照固定的平均发展速度发展,则各期的计算水平总和应与各期的实际水平总和相等。假定a0为最初水平,为平均发展速度,a1,a2,a3,…,an为各期的实际发展水平,则各期的实际发展水平总和为:由最初水平a0和平均发展速度推算的各期发展水平理论值为:…根据方程式法的要求,则各期的计算水平总和应等于各期的实际水平总和。用符号表示如下:整理可得:解出这个高次方程的有效根,就是所求的平均发展速度。但是,要求解这个方程式比较复杂,因此,在实际统计工作中,一般是根据事先编制好的《平均增长速度查对表》来计算。当然,也可以借助于Excel来计算。第四节时间数列的因素分解一、时间数列的影响因素\n影响时间数列变动的具体因素有很多,难以细分,从内容上看,有政治因素、经济因素、自然因素等。如果按其性质加以分类,可归纳为四种:长期趋势、季节变动、循环变动和不规则变动。1.长期趋势长期趋势是时间数列的基本形式,一般用T表示,是指现象在较长时间内呈现出来的某种持续发展的趋势或状态。这种趋势可能是线性的,即不断增长或不断下降的直线形态;也可能是非线性的,即观察点呈现曲线形态。例如,由于科学技术的日益发展,劳动生产率的不断提高,我国的国内生产总值与人均收入呈逐渐增长的趋势。这里的长期并非时间意义上的绝对长短,而是针对时间数列各期间隔而言的。换句话说,当时间数列以年为间隔,那么2年、3年不属于长期,所表现出来的变化趋势不具有长期规律性;如果时间数列以月为间隔,一年有12个月,则也可以从中看出一些长期规律。2.季节变动季节变动一般用S表示,是指由于自然因素、社会条件的影响,造成社会经济现象在一年内随着季节的更替而出现的周期性波动。例如,冰淇淋、电风扇、空调等产品在夏季是销售的旺季,而在冬季是销售的淡季,呈现出周期性的变动。3.循环变动循环变动一般用C\n表示,是指现象在较长时间内呈现的波浪式的起伏变动。与长期趋势不同的是,循环变动不是朝单一方向的持续变动,而是涨落相间的交替变动,如经济周期波动不断重复着繁荣、衰退、萧条、复苏的过程;与季节变动不同的是,循环变动的周期不是一年,而是一年以上并且没有固定的周期长度。4.不规则变动不规则变动一般用I表示,是指现象受临时的、偶然的因素影响而出现的随机波动。这种波动在目前科学条件下还不能预测或控制。但由于这种因素具有偶然性,根据概率论原理,如果这类因素原因很多且相互独立,则有相互抵消的可能;而如果这些因素相互之间存在联系且受一两个重大因素的支配,则难以相互抵消,极可能形成经济波动。例如,自然灾害、政策变动、战争等原因引起的变动,都可称为不规则变动。二、时间数列的组合模型时间数列中的各发展水平,都受上述四类因素的共同影响和综合作用。为此,提出两种组合模型:加法模型和乘法模型。设时间数列为Y,则两种模型可表述如下。(1)加法模型。假设四类因素是相互独立的,则时间数列各期水平的数值可视为四类因素相加的总和。具体如下:Y=T+S+C+I根据上述关系式,为测定某种因素的影响,只需从时间数列数值中减去其余因素即可。(2)乘法模型。假设四类因素变动之间存在某些相互影响的关系,则时间数列各期水平的数值就是这四类因素的乘积。具体如下:Y=T·S·C·I\n根据上述关系式,为测定某类因素的影响,只需用其余因素的乘积去除时间数列数值即可。实际上,因素之间总是存在这样或那样的交互影响,因此乘法模型更为常用。在下文中,将主要采用乘法模型对各种因素进行测定,对不规则变动暂不作分析。三、长期趋势的测定长期趋势的测定是指运用一定的数学方法,对原数列进行加工整理,以排除季节变动、循环波动和不规则变动等因素的影响,显示出现象发展变化的长期趋势,为预测和决策等管理活动提供依据。长期趋势的测定方法非常多,常用的有移动平均法和数学模型法。1.移动平均法移动平均法是指从时间数列的第一项指标值开始,按照一定的时间间隔,逐项移动求其序时平均数的修匀方法。这种方法考虑到了现象动态发展的连续性,以“移动平均”的方式将一段一段的指标差异抽象化,从而消除偶然因素的影响。它通过对原数列中不规律变动的修匀,将隐藏在原数列中的变动规律较为明显地反映出来。用移动平均法所求得的一系列均值称为移动平均数,其基本计算公式为:式中,代表移动平均数;(n+1)/2代表的位置;y1,y2,…,yn代表观察值;n代表平均的项数。2.数学模型法\n数学模型法是指应用适当的数学模型对时间数列配合一个方程式,据以计算和分析各期的趋势值,以测定长期趋势的一种分析方法。该方法一般又分为直线趋势和非直线趋势两种,以下主要介绍直线趋势的测定方法。在对时间数列进行分析时,如果时间数列的数据大体上按逐期等量增加或减少,则可以认为这种现象的基本发展趋势是直线型,因而应配合相应的直线方程来反映其长期趋势。其直线方程为:yt=a+bt式中,t为时间数列中的时间序号,是自变量;yt为时间数列的预测趋势值,是关于时间刻度t的函数;a为趋势线的截距;b为趋势线的斜率,它表示当时间t每变动一个单位时趋势值的平均变动量。如果方程中的两个待定系数a与b确定了,那么所配合的直线方程就唯一确定了。计算待定系数的方法有很多,常用的是平均法和最小平方法。(1)平均法。平均法是指将全部时间数列资料分为相等的两部分(奇数项时舍弃最初一项资料),分别计算出各部分平均数并代入直线方程中,求解a与b的方法。平均法的数学依据是:时间数列的实际值y与相应的趋势值yt的离差之和等于0,即∑(y-yt)=0。(2)最小平方法。最小平方法又称最小二乘法,是指依据时间数列的观察值与趋势值的离差平方和为最小值的基本原理,拟合一种趋势模型,再利用数学中求极值的方法来确定方程中的待定系数并建立方程。\n用最小平方法拟合出来的趋势直线比平均法配合的趋势直线更为理想、合理。因为,用最小平方法建立趋势方程必须满足原时间数列中各期的指标数值与其对应的趋势值的离差平方和为最小值,即:设拟合的趋势直线方程为yt=a+bt,按最小平方法要求有:将D看做关于a和b的函数,要使D为最小值,必须满足:①根据极值定理,D取最小值的充要条件是D对a、b的偏导数同时为0。于是得到方程组:整理得到:解联立方程组可得:将时间数列中的时间序号t及对应的发展水平y,一并代入式(5-15),即可求得系数a和b,从而得到直线趋势方程yt=a+bt。四、季节变动的测定\n测定季节变动的目的有两个:一是利用季节变动的规律,将季节变动的影响从时间数列中分离,从而更准确地研究其他因素的变动;二是对现象的变动趋势进行预测。为了比较客观地反映季节变动的规律,在进行测定时,至少要掌握连续三年的季度或月份的历史资料,在此基础上运用一定的方法,计算出季节指数。现象的某一个月(季)的季节指数,反映的是季节变化对现象该月(季)的实际水平影响的相对程度。其计算主要分为两种情况:一是时间数列不存在长期趋势时,采用同期平均法;二是时间数列存在长期趋势时,采用移动平均趋势剔除法。1.同期平均法同期平均法又称按月(季)平均法,它不考虑现象中长期趋势的影响,直接根据时间数列的历史资料计算季节指数。具体做法是:首先分别计算出各年同月(季)平均数;然后计算出各年所有月(季)的总平均数;最后将各年同月(季)平均数与总平均数进行对比,求得季节指数。季节指数的计算公式如下:(5-17)如果某月(季)的季节指数大于100%,表明该月(季)为旺季;如果小于100%,则表明该月(季)为淡季。2.移动平均趋势剔除法\n如果时间数列的发展水平既有规律性的季节变化,又有明显的长期趋势,测定季节变动时,要先剔除长期趋势的影响,再计算季节指数。这种季节变动的测定方法称为移动平均趋势剔除法,简称趋势剔除法。趋势剔除法的具体步骤如下:(1)对时间数列进行四项(或十二项)移动平均,计算移动平均数,消除其他因素的影响,呈现长期趋势。(2)用原数列中的发展水平y除以移动平均数,计算移动平均比率。(3)计算移动平均比率的同月(季)平均数。(4)计算移动平均比率的总的月(季)平均数。(5)计算季节指数,具体公式如下:五、循环变动的测定测定循环变动的目的在于探索时间数列的波动规律,掌握事物发展变化的转折点,从而为管理和决策提供依据。测定循环变动的方法较多,常用的是剩余法。剩余法又称残余法,是指根据乘法模型,从按月(季)编制的时间数列中消除长期趋势和季节变动的影响,得到一个包括循环变动和不规则变动的时间数列,然后利用移动平均法消除不规则变动,测定出循环变动。如果原数列是年度资料,则不含季节变动,只需从原数列中消除长期趋势,再用移动平均法消除不规则变动即可。剩余法中常用指标是趋势百分数,即用时间数列中的实际发展水平y,除以相应的趋势值yt\n,再乘以100%求得的。用公式表示为:第五节Excel在时间数列分析中的应用一、应用Excel计算平均发展水平二、应用Excel计算速度指标三、利用Excel进行移动平均分析四、利用Excel拟合直线趋势方程第六章抽样推断教学要求知识目标:了解抽样推断的含义、特点及作用;理解抽样推断中常用的基本概念;掌握抽样平均误差和抽样极限误差的计算方法;掌握区间估计的计算方法;理解必要样本容量确定的基本知识。能力目标:学会运用Excel进行区间估计;能够将抽样推断的方法应运于统计实践工作中。教学重点抽样误差的表现形式、区间估计、必要样本容量的计算。\n教学难点抽样极限误差、区间估计的具体方法、必要样本容量的计算、Excel在总体平均数区间估计中的运用。课时安排本章安排5课时。教学内容第一节抽样推断的一般问题一、抽样推断的含义和特点抽样推断是指按照随机性原则,从研究对象中抽取一部分进行观察,并根据所得到的观察数据,对研究对象的数量特征作出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。例如,要检验某种工业产品的质量,只需从中抽取一小部分产品进行检验,用计算出的合格率来估计全部产品的合格率,或是根据合格率的变化来判断生产线是否出现了异常即可。抽样推断的特点主要表现在以下几个方面。(1)按照随机原则从总体中抽取样本单位。(2)以部分单位的数值推断总体的数值。(3)抽样误差可以事先计算并加以控制。二、抽样推断的作用(1)用于不可能进行全面调查,但又需要掌握其全面情况的现象。(2)用于理论上存在全面调查的可能,但实际中却不可能进行或不必要进行的现象。\n(3)用于对全面调查的结果进行评价和修正。(4)用于工业生产过程中的质量检验。(5)用于对某些总体的假设进行检验,判断假设的真伪,为决策提供依据。三、抽样推断中的一些基本概念(一)总体和样本总体的概念在第一章已经阐述过。样本是指从总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。(二)总体指标和样本指标1.总体指标总体指标是指根据总体各单位标志值或标志属性计算的,反映总体数量特征的综合指标,又称为全及指标或参数。由于总体是唯一的、确定的,因此,根据总体计算的总体指标也必定是唯一的、确定的。2.样本指标样本指标是指根据样本总体中各总体单位在某一标志上所表现的标志值计算的,用以反映样本总体数量特征的综合指标,又称为统计量。与总体指标相对应,常用的样本指标有样本平均数、样本标准差s、样本方差s2、样本成数p等。其中,样本平均数代表样本总体中所有单位的一般水平,样本标准差和方差说明样本总体中所有标志值的差异程度,样本成数是指样本总体中具有某种性质的单位数在样本全部单位数中所占的比重。\n设样本变量x为:x1,x2,…,xn,则:或(6-8)或(6-9)或(6-10)P=n1/n(6-11)是非标志标准差:(6-12)样本指标是根据抽选出来的各个样本计算的,其计算方法是确定的,但它的取值却随着不同的样本有不同数值,它是样本变量的函数,其本身也是随机变量。(三)重复抽样和不重复抽样重复抽样又称重置抽样,是指在逐个抽取样本单位时,被抽中的总体单位经登记、观察后,再放回总体中,接着继续抽取下一个样本单位的抽样方法。这种抽样方法使每个单位都有重复被抽中的可能,每个单位的中选概率在各次抽选中是相同的。不重复抽样又称不重置抽样,是指在逐个抽样样本单位时,被抽中的总体单位经登记、观察后,不再放回总体中去参加下一次抽选的抽样方法。这样,每进行一次抽选,总体中的单位数就减少一个,每次抽取的结果都影响到下一次的抽取。在这种抽样方法下,虽然每个单位都有可能被选中,但中选概率在各次抽选中是不同的。四、抽样的组织形式\n(一)简单随机抽样简单随机抽样是指从含有N个单位的总体中,随机抽取n个单位作为样本,使得每一个容量为n的样本都有相同的概率被抽中,这样的抽样方式又称纯随机抽样。简单随机抽样是最基本的抽样方法。采用简单随机抽样方式抽取样本,先要将总体各个单位进行编码,然后按随机原则抽取若干数码,所有中选数码所对应的单位即构成样本。具体做法分为以下两种。(1)抽签法。(2)随机数字法。(二)分层抽样分层抽样又称分类抽样,是指在抽样之前先将总体划分为若干层,然后从各层中抽取一定数量的单位组成样本的抽样组织形式。分层抽样的具体方法有很多,常见的有以下三种。(1)等数分配分层抽样。(2)等比例分层抽样。(3)不等比例分层抽样。(三)系统抽样系统抽样又称等距抽样或机械抽样,是指先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本的抽样方式。(四)整群抽样\n整群抽样又称集团抽样或分群随机抽样,是将总体划分成若干群,然后以群作为抽样单位,从中抽取部分群,再对抽中的各个群中所包含的所有单位进行观察的抽样方式。第二节抽样误差一、误差与抽样误差在抽样推断中,样本指标和总体指标间必然存在某种程度的离差,统计学上将这种离差定义为误差。误差是不可避免的,根据其产生的原因可以归纳为两类:登记性误差和代表性误差。综上所述,在统计分析中,误差的种类可表达如下:统计学中的抽样误差,专指代表性误差中的随机误差。二、抽样误差的表现形式抽样误差的表现形式主要有三种:抽样实际误差、抽样平均误差和抽样极限误差。(一)抽样实际误差所谓抽样实际误差,是指在一次具体的抽样调查中,由偶然因素引起的样本指标与总统指标之间的绝对离差。(二)抽样平均误差1.抽样平均误差的概念\n遵循随机原则从一个总体中抽取若干样本单位,可能组成很多样本。因此,样本指标(样本平均数、样本成数)会有许多不同的数值,它是一个随机变量。这样,抽样误差也有大有小,也是一个随机变量。所以,有必要对所有抽样误差计算平均数,用这个平均数来衡量抽样误差的一般水平。所谓抽样平均误差,是指所有可能出现的样本指标与总体指标之间的平均离差,用以反映抽样误差的一般水平。其理论公式如下:推算时:(6-13)p推算P时:(6-14)式中,K代表可能出现的样本个数。2.实际工作中抽样平均误差的计算在实际抽样调查过程中,由于总体指标正是需要进行推断的未知量,且不可能计算出所有的样本指标,因此根据理论公式计算平均抽样误差没有可操作性。数理统计证明,在实际工作中,可以采用以下公式计算平均抽样误差。重复抽样条件下:(6-15)(6-16)不重复抽样条件下:(6-17)\n(6-18)(三)抽样极限误差抽样平均误差说明了某一总体的所有样本指标与总体指标间误差的平均数,但在实际工作中往往只能抽取一个样本,因此实际抽样误差一般不会等于抽样平均误差,可能大于或小于抽样平均误差。所以,用抽样平均误差无法准确地推断总体指标值。此时,就需要引入抽样极限误差。所谓抽样极限误差,是指样本指标与总体指标之间抽样误差的最大可能范围,又称为允许误差。以和分别表示样本平均数和样本成数的抽样极限误差,则:(6-19)(6-20)实际上,抽样极限误差是一个可能而非完全肯定的范围,这个可能范围的大小是与可能性大小相对应的。在抽样推断中,表示这个可能性大小的概念称为置信度,习惯上称为可靠程度、把握程度或概率保证程度,用F(Z)表示。其中的Z值称为概率度抽样理论已经证明:样本平均数服从以总体平均数为中心的正态分布,该正态分布的标准差就是抽样平均误差。因此,根据正态分布中变量取值区间与概率的关系可知:样本平均数落在()的范围内的可能性为68.27%;落在()范围内的可能性为95.45%;落在()范围内的可能性为99.73%。具体如图6-1所示。\n图6-1样本平均数的分布上述结论等价于:在68.27%的置信度下,样本平均数的抽样极限误差等于其抽样平均误差;在95.45%的置信度下,样本平均数的抽样极限误差等于其抽样平均误差的2倍;在99.73的置信度下,样本平均数的抽样极限误差等于其抽样平均误差的3倍。由此可见,样本平均数的抽样极限误差可以用其抽样平均误差的倍数来衡量,具体计算公式如下:(6-21)同理,样本成数的抽样极限误差如下:(6-22)在式(6-21)和式(6-22)中,Z值是由抽样推断时给定的置信度所决定的,其对应关系可查询标准正态分布表。实际工作中常用的几个Z值和置信度如表6-3所示。表6-3常用的几个Z值和置信度Z值置信度11.640.68270.8990\n1.962350.95000.95450.99730.9999从表6-3可以看出,置信度越大,Z值就越大,抽样极限误差也越大,抽样推断的精确度就越低。所以,在抽样推断中,要求达到100%的置信度是不可能的。但另一方面,置信度小了,推断的可靠性也小,又会影响推断本身的价值。因此,在进行抽样推断时,应将置信度要求与推断的精确度要求结合起来考虑。三、影响抽样误差的因素抽样误差的大小主要受到以下因素的影响。(1)样本单位数的多少。(2)总体各单位标志变异程度的大小。(3)抽样组织形式。(4)抽样方法。第三节参数估计抽样推断的方法主要有两种:参数估计和假设检验,本节主要讨论参数估计。所谓参数估计,是指用样本统计量估计总体参数的方法。例如,用样本平均数估计总体平均数,用样本方差估计总体方差,用样本成数估计总体成数等。其表现形式主要有两种,即点估计和区间估计。一、点估计\n点估计又称定值估计,是指根据样本统计量直接估计出总体参数的值。其常用方法有两种:矩估计法和极大似然估计法。1.矩估计法矩估计法是英国统计学家皮尔逊(K.Pearson)提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,且由大数定律可知,样本矩按概率收敛于总体矩,因此,只要总体的K阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。矩估计法简单、直观,且不必知道总体的分布类型,因此得到了广泛的应用。2.极大似然估计法极大似然估计法是由费雪(Fisher)提出的。其基本思想是:设总体分布的函数形式已知,但有未知参数θ,θ可以取很多值,在θ的一切可能取值中选一个使样本观察值出现的概率为最大的值作为其估计值,称为θ的极大似然估计值,这种求估计值的方法称为极大似然估计法。二、区间估计1.区间估计的含义及公式表达所谓区间估计,是指以一定的概率保证估计总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围,这个范围又称为置信区间。\n在对总体参数进行区间估计时,根据所给定的条件不同,通常要进行两种估计:一是根据给定的置信度的要求,利用概率分布表查出这个置信度所对应的概率度,然后结合抽样所得的抽样平均误差计算出抽样极限误差,进行总体参数的区间估计;二是根据已给定的抽样极限误差,结合抽样平均误差,用抽样极限误差除以抽样平均误差,求出概率度,再从概率分布表中查出有概率度所对应的置信度。一般地说,对于总体被估计参数θ,由样本构造出两个估计量和(其中,),使得区间(,)涵盖被估计参数真值的概率为,即:(6-23)式中,为区间估计的置信度;(,)为总体参数的估计区间,为区间下限,为区间上限。2.区间估计的具体方法实际工作中,在对总体参数进行区间估计时,需要考虑总体为单个总体还是多个总体、构成估计量的样本为大样本还是小样本等几种情况。本书只讨论大样本情况下,单总体参数的区间估计。根据前述抽样极限误差的概念,将式(6-19)和式(6-20)进行变形可得:(6-24)(6-25)这两个公式是对总体平均数和总体成数进行区间估计的公式。其中,式(6-24)表示被估计的总体平均数是以样本平均数为中心,在~之间变动,区间(,)称为总体平均数的置信区间;式(6-25)表示被估计的总体成数是以样本成数p\n为中心,在~之间变动,区间(,)称为总体成数的置信区间。第四节必要样本容量的确定一、必要样本容量的概念必要样本容量是指能够保证抽样推断的把握程度和精确程度的尽量小的样本容量。在进行实际抽样调查之前,样本单位数是未知的。样本单位在抽样调查之前就应该确定下来,然后才能从总体中抽取样本单位,按照抽样原理进行统计推断。样本单位数要根据统计总体的特点、统计条件和所要求的精确度来确定,不能抽得太多,也不能抽得太少。因此,应该在满足统计要求的情况下,尽量减少样本单位的数量,确定一个合理的数值,使其既不浪费人力、物力、财力,又能取得较好的效果。二、影响必要样本容量的因素影响必要样本容量的因素主要有以下几点。(1)总体各单位标志值的差异程度。(2)抽样极限误差的大小。(3)抽样推断的置信度。(4)抽样的组织形式和方法。三、必要样本容量的计算(1)抽样平均数推断全及平均数时的必要样本容量。①重复抽样条件下,由于:\n则必要样本容量为:(6-26)②不重复抽样条件下,由于:则必要样本容量为:(6-27)第五节Excel在抽样推断中的应用一、Excel在总体平均数区间估计中的运用(一)根据未分组的样本数据进行估计(二)根据已分组样本数据或已计算出的样本指标进行估计二、Excel在总体成数区间估计中的运用第七章假设检验教学要求知识目标:了解假设检验的含义和基本任务;掌握假设检验的基本原理和步骤;掌握单总体均值、成数和方差的假设检验;了解假设检验中需要注意的问题。能力目标:锻炼运用Excel进行Z检验和t检验的方法;学会在统计实践工作中使用假设检验进行统计推断。\n教学重点假设检验的基本原理、单总体参数的假设检验。教学难点单总体均值μ的假设检验、单总体成数P的假设检验、单总体方差σ2的假设检验。课时安排本章安排5课时。教学内容第一节假设检验的一般问题一、假设检验的含义和基本任务统计假设是成对出现的,即一个原假设和一个备择假设,两个假设应当是对立的,并且覆盖研究中所有可能的结果。通常将原假设记为或,将备择假设记为或。原假设一般是一个明确的语句,从数学运算关系来说,原假设的阐述中包含等号,如未知的总体参数等于,或大于等于,或小于等于某个特定的常数;备择假设是关于未知的总体参数的不同于的假设,从数学运算关系来说,备择假设的阐述中不包含等号,如未知的总体参数不等于,或大于,或小于某个特定的常数。下文如果不加说明的话,下标为零的参数水平都表示原假设中假设的参数水平,如、和等。常见的形式有:(7-1)或:\n(7-2)或:(7-3)其中,对式(7-1)的检验称为双侧检验,对式(7-2)的检验称为左侧检验,对式(7-3)的检验称为右侧检验。二、假设检验的基本原理如果怀疑原假设是错误的,那么只要有可能,就可以收集样本数据去检验这个假设。这里应注意,样本是客观存在的,是不容置疑的;而原假设是主观设定的,可能对也可能错。假如样本数据与原假设一致,那么就没有充分理由推翻原假设;反之,如果样本数据与原假设矛盾,那么就可以推翻原假设。这就是假设检验的基本原理。在假设检验中,通常根据样本数据确定一个统计量,然后对该统计量进行某种变换,以便检查该统计量的观察值是否与原假设一致,称变换后的统计量为检验统计量。例如,假定总体服从正态分布且方差已知,则对的检验中使用的统计量是样本均值,对进行标准化变换后得到的统计量是检验统计量。如果检验统计量的分布已知,且不依赖于原假设中对参数的具体假定,这样的检验统计量被称为枢轴量。例如,无论的取值为何,,故是枢轴量。由于样本数据含有随机性,所以统计量与原假设可能不完全一致。以总体均值的假设检验为例。对于如下的统计假设:如果样本均值的观察值刚好等于\n,就可以判断样本与原假设一致,结论就是不能拒绝原假设。反之,如果不等于,是否可以肯定样本与原假设不一致呢?其实是不能肯定的。因为样本均值是随机变量,其数学期望是总体均值,所以其取值围绕总体均值波动。换言之,样本均值不等于总体均值的概率大于零。那么什么时候可以判断样本与原假设不一致,从而推翻原假设呢?这里需要进行一个类似反证法的推理:如果在一次抽样中观察到,那么一个合理的想法是的概率应该较大。如果原假设为真,则,从而可以计算出取得观察值以及比该观察值更为极端的数值的概率,易知该概率等于不计算的原因是连续型随机变量取任一数值的概率为零。。在假设检验中,通常称在原假设成立的条件下,检验统计量的观察值以及比其更为极端的情况出现的概率为P-value。如果P-value较大,那么可视为与原假设无明显矛盾,反之,如果P-value较小,则可视为与原假设明显不一致。这个推理过程如图7-1所示。\n图7-1假设检验的反证法推理接下来的问题就是如何判定P-value是大还是小,通常采用0.1、0.05或0.01等作为确认小概率的标准,这些用来衡量假设检验中P-value是否足够小的标准被称为显著性水平,记为。如果P-value<,则拒绝原假设;否则不能,拒绝原假设。显著性水平没有一定之规,研究者可以根据研究背景和研究目的自行确定。由于在假设检验过程中,利用P-value来推断原假设是否成立,所以假设检验的原理可以概括为“小概率事件不可能发生”。这句话的意思是,如果在原假设为真的条件下,样本观察值或比其更极端的情况出现的概率很小,就拒绝原假设。下面通过对的检验来演示临界值与显著性水平的等价关系如图7-2所示。图7-2临界值与显著性水平在图7-2中,f(x)曲线是原假设成立的条件下,检验统计量的分布密度函数,即标准正态分布。的几何意义是与f(x)曲线的右尾以及横轴围成的图形的面积,同理可知和\n的几何意义。如果给定的显著性水平为,则当检验统计量的取值大于时,P-value小于,此时可以拒绝原假设,从而为拒绝原假设所要求的临界值。同理,如果给定的显著性水平为或,则拒绝原假设所要求的临界值分别为和。可以看到,每一个显著性水平都唯一地对应一个临界值,两者具有等价关系,且显著性水平越小,临界值越大。例如,在图7-2中,,而。简言之,在假设检验中,有两种等价的检验法则:一是利用比较P-value和显著性水平的方法作决策;二是利用比较检验统计量观察值和临界值的方法作决策。三、假设检验的基本步骤根据假设检验的原理,可将假设检验的主要步骤概括如下。(1)建立统计假设。(2)构造一个合适的检验统计量U,并根据样本观察值计算出U的观察值u,或者计算出P-value。(3)规定一个显著性水平或求出临界值u0,从而确定拒绝域。(4)比较u和u0,如果u落入拒绝域,则拒绝原假设;否则,不能拒绝原假设。也可以比较P-value和,如果,则拒绝原假设;否则,不能拒绝原假设。需要注意的是,在假设检验中,根据检验是双侧还是单侧,第(2)步计算的P-value或第(3)步求解的临界值并不相同。下面以检验统计量服从标准正态分布的情形对此进行简单的说明。\n在双侧检验中,只要检验统计量显著偏离于原假设,无论高还是低,都可能拒绝原假设,因此拒绝域在两侧,即或都可以拒绝原假设。在单侧检验中,拒绝域只在某一侧:对于左侧检验,拒绝域在左侧,即只有才拒绝原假设;对于右侧检验,拒绝域则在右侧,即只有才拒绝原假设。用公式表达如下。(1)在双侧检验中,,临界值是使成立的u0。(2)在左侧检验中,,临界值是使成立的u0。(3)在右侧检验中,,临界值是使成立的u0。在双侧检验中,u0是标准正态分布的上分位数。换言之,在双侧检验中,有两个临界值,分别是上分位数和下分位数。在左侧检验中,u0是检验统计量分布的下分位数;在右侧检验中,u0是检验统计量分布的上分位数。一般地,记检验统计量分布的上分位数为,则对于双侧检验,拒绝域为:或(7-4)对于左侧检验,拒绝域为:(7-5)对于右侧检验,拒绝域为:(7-6)\n四、假设检验中的两类错误假设检验的原理是“小概率事件不可能发生”,然而严格来讲,小概率事件并非不可能发生。也就是说,即使原假设正确,也有可能出现很极端的样本观察值,使得。此时,根据“小概率事件不可能发生”的原理应拒绝原假设,但这种推断是错误的。相反,即使原假设并不成立,但是在假定其成立的条件下计算出的P-value也可能大于规定的显著性水平,此时不能拒绝原假设,同样这种决策也是错误的。由此,引出了假设检验中两类错误的概念(见表7-1)。表7-1假设检验的两类错误检验决策真实状态原假设为真原假设为假原假设为真决策正确第一类错误原假设为假第二类错误决策正确如果原假设本来正确,但是假设检验的结果却拒绝了原假设,则称这种决策错误为第一类错误,也称为弃真错误或错误;反之,如果原假设本来错误,但是假设检验的结果却没有拒绝原假设,则称这种决策错误为第二类错误,也称为取伪错误或错误。理想的检验是两类错误都为零,但只要是随机试验,这就是不可能的。事实上,如果样本容量一定,假设检验中犯两类错误的概率呈此消彼长的关系。以总体均值的右侧检验为例,如图7-3所示。\n图7-3两类错误的关系对于的统计假设,拒绝域在右侧,图7-3中的虚线就是拒绝域所对应的临界值。在图7-3中,上图是假定原假设成立条件下检验统计量的分布,下图则是假定成立的条件下检验统计量的分布。如果原假设为真,则上图阴影部分面积是犯第一类错误概率的大小;如果为真,则下图阴影部分面积是相应的犯第二类错误概率的大小。显然,如果临界值移动,则结果必然是两类错误一个变大、一个减小。由于原假设是一个明确的语句,所以犯第一类错误的概率可以精确地计算出来,而备择假设则不明确。例如,图7-3中下图的阴影部分给出的是时第二类错误出现的概率,如果是大于零的其他数值,则第二类错误的大小就会改变。正因为第一类错误出现的概率可以计算出来,而第二类错误出现的概率则较难处理(它依赖于一个明确的备择假设),因此在假设检验中首先控制第一类错误,然后寻求一个相对于所有的备择假设具有最小第二类错误的检验。第二节单总体参数的假设检验\n一、单总体均值μ的假设检验在对总体均值μ进行假设检验时,检验统计量的选择和相应的抽样分布的形式取决于给定的已知条件。(一)正态总体,方差已知,小样本在小样本条件下,当总体为正态总体且方差已知时,统计量满足概率分布N(0,1),于是总体均值μ的检验方法可概括如表7-2。由于检验统计量选择了Z统计量,故这种检验方法又称为Z检验。表7-2单总体均值的假设检验——Z检验检验形式双侧检验单侧检验左侧检验右侧检验原假设备择假设检验统计量~N(0,1)拒绝域示意图(二)正态总体,方差未知,小样本在小样本条件下,当总体满足正态分布,方差未知时,统计量服从自由度为n-1的t分布,此时应进行t\n检验,如表7-3所示。其中S为样本标准差,。表7-3单总体均值的假设检验——t检验检验形式双侧检验单侧检验左侧检验右侧检验原假设备择假设检验统计量~t(n-1)拒绝域示意图(三)任意总体,大样本如果总体分布不明,则抽样应采取大样本形式,即样本容量n≥30。根据中心极限定理可知,此时统计量:~N(0,1)如果总体标准差σ未知,则可用样本标准差S代替,即:~N(0,1)这时,均值的检验仍采取Z检验法。\n二、单总体成数P的假设检验在二项分布中,当n很大,np和n(1-p)都大于5时,可用正态分布来逼近。也就是说,当n充分大时,样本成数p近似服从正态分布。基于此,总体成数P的假设检验可采取Z检验法。具体过程可分为重复抽样和不重复抽样两种情况。(一)重复抽样在重复抽样条件下,样本成数p近似服从正态分布,对其进行标准化后,统计量~N(0,1),因此对总体成数P进行检验时可选择Z统计量作为检验统计量,即采取Z检验法。检验过程可概括如表7-4所示。表7-4单总体成数的假设检验检验形式双侧检验单侧检验左侧检验右侧检验原假设备择假设检验统计量~N(0,1)\n拒绝域示意图(二)非重复抽样在非重复抽样条件下,样本成数p的抽样分布为p~,这时检验统计量选择~N(0,1),仍然采取Z检验法进行检验。其中N为总体容量。如果满足条件N远大于n,此时修正系数≈1,非重复抽样可近似地视为重复抽样,假设检验按重复抽样条件下的方法进行。三、单总体方差σ2的假设检验在对总体方差σ2进行假设检验时,要求总体服从正态分布。此时,统计量服从自由度为n-1的分布。其中S2为样本方差,σ2为总体方差,这种检验方法称为检验。其检验过程可概括如表7-5所示。表7-5单总体方差的假设检验检验形式双侧检验单侧检验左侧检验右侧检验原假设\n备择假设检验统计量~拒绝域或第三节假设检验中需要注意的问题一、统计假设的设立二、统计决策的叙述在假设检验中,作出决策时通常使用“不能拒绝原假设”的说法,而不是“接受原假设”。虽然从日常用语来看,“不能拒绝”等同于“接受”,但是在假设检验中,两者还是有区别的。“不能拒绝原假设”只是意味着证据不够充分,因此在规定的显著性水平下不能认为原假设错误,但并未肯定原假设正确。换言之,如果掌握了进一步的证据,原假设还是可能被拒绝的。“接受原假设”则意味着承认原假设是正确的,此时存在犯第二类错误的可能。因此,在陈述假设检验的结论时要注意措辞。三、正确认识统计显著性\n由于显著性水平会影响统计决策,所以在假设检验中,显著性水平不能随意规定,而是要根据实际情况来确定。对于第一类错误带来的后果特别严重的检验问题,应当规定更小的显著性水平;反之,如果对第一类错误容忍度较高,则显著性水平可以略微大一些。例如,检验生产螺丝钉是否合格,原假设是螺丝钉不合格。如果螺丝钉是为航天器生产的,则第一类错误带来的后果特别严重,因此应当规定特别小的显著性水平,如百万分之一,甚至更小。如果螺丝钉是为家具生产的,则第一类错误带来的后果不很严重,因此显著性水平可以相对高一些,如5%,甚至10%。此外,应当在抽样之前确定显著性水平,而不是分析了样本数据之后才规定,后一种做法被称为“数据偷窥”,是利用统计作假的手段之一。为了避免统计作假的现象,研究者最好报告所得的P-value,而不是简单报告一个决策结果。这样,读者或用户是否拒绝原假设,就取决于读者或用户自己规定的显著性水平,而不会受制于研究者。易知:只要规定的,就会拒绝原假设;而对于,则不会拒绝原假设。四、区间估计与假设检验的关系区间估计和假设检验有着密切的内在联系。从直观上看,区间估计和假设检验使用相同的统计量和相同的分位数;从专业的角度看,区间估计和假设检验具有对偶关系,如图7-4所示。图7-4区间估计与假设检验的对偶关系第四节Excel在假设检验中的应用在假设检验中,主要的计算是检验统计量的值及其对应的\nP-value值的计算。计算检验统计量的值主要利用Excel的公式功能来实现,而P-value值则需要用到Excel中相应的概率函数。以下主要介绍P-value值的计算。一、计算Z检验的P-value值二、计算t检验的P-value值第八章相关与回归分析教学要求知识目标:了解相关关系的概念、特点及种类;理解相关分析的主要内容;掌握相关表的编制及相关图的绘制;掌握相关系数的计算方法;了解回归分析的基本含义;掌握一元线性回归方程的建立及估计标准误差的计算。能力目标:能够在统计实践中正确运用相关与回归分析法对经济现象间的关系进行分析;锻炼运用Excel计算相关系数、建立一元线性回归方程。教学重点相关系数的计算、一元线性回归分析。\n教学难点一元线性回归模型及其参数估计、一元线性回归模型的拟合效果、一元线性回归模型的假设检验。课时安排本章安排4课时。教学内容第一节相关分析概述一、相关关系的概念及特点1.相关关系的概念相关关系是指变量之间保持着不确定的依存关系。换句话说,变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定。当变量x取某个值时,变量y的取值可能有多个。例如,人的身高与体重这两个变量是相互依存的,但它们并不表现为一一对应的关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同的身高。2.相关关系的特点相关关系主要有以下两个特点。(1)现象之间确实存在着数量上的依存关系。(2)现象之间数量上的关系是不确定、不严格的依存关系。二、相关关系的种类相关关系按照不同的标志,可以分为不同的类型。\n1.单相关和复相关相关关系按研究变量的多少,可分为单相关和复相关。其中,单相关又称一元相关,是指两个变量之间的相关关系,即在进行现象之间相关关系研究时,只研究一个因素对某现象的影响。复相关又称多元相关,是指三个或三个以上变量之间的相关关系,即在进行现象之间相关关系研究时,研究两个或两个以上变量对现象的影响。2.线性相关和非线性相关相关关系按相关的形式,可分为线性相关和非线性相关。其中,线性相关又称直线相关,是指当一个变量变动时,另一个变量随之发生大致均等变动的相关关系。表现在平面直角坐标图中,一个现象的数值与另一个现象的数值形成的一系列散点的分布近似地表现为一条直线。例如,人均消费水平与人均收入水平通常为线性相关。非线性相关又称曲线相关,是指当一个变量变动时,另一个变量也随之发生变动,但这种变动是不均等的。从平面直角坐标图中看,其散点的分布近似地表现为一条曲线,如双曲线、指数曲线、对数曲线等。非线性相关的例子有很多,如人口死亡率与人口年龄之间的关系,施肥量与农产品收获量之间的关系等。3.正相关和负相关\n相关关系按照现象变动的方向不同,可分为正相关和负相关。当一个变量的数量变动与两一个变量的数量变动方向一致,就称为正相关。例如,社会商品零售额与居民收入水平之间、产品产量与工人劳动生产率之间的数量关系,均属于正相关。当一个变量的数量变动与另一个变量的数量变动方向相反,就称为负相关。例如,销售额与流通费用水平、肺病患者痊愈率与吸烟时期的长短等数量变动关系,均属于负相关。4.完全相关、不完全相关和完全不相关相关关系按照关系的密切程度,可分为完全相关、不完全相关和完全不相关。其中,完全相关是指两个变量之间存在确定的数量关系,即当一个变量的值发生变化时,另一个变量有唯一确定的值与之对应。完全相关实际上是函数关系,可以认为函数关系是相关关系的一种特殊情况。不完全相关是指一个变量的数值发生变化时,另一个变量的数值也会因此而发生变化,但两者不是确定的、严格的函数关系。完全不相关是指两个变量之间各自独立,当一个变量的数值发生变化时,另一个变量的数值不受影响或呈不规则变化,即两个变量之间完全没有依存关系。三、相关分析的主要内容(1)判断现象之间有无相关关系,以及相关关系的表现形式。(2)确定相关关系的密切程度。(3)建立相关关系的数学表达式。(4)测定因变量估计值的误差程度。第二节相关关系的测定一、相关表\n相关表是指将相关变量的观察值依次对应排列而形成的统计表,通过它可初步看出相关关系的形式、密切程度和相关方向。根据资料是否分组,相关表可分为简单相关表和分组相关表两种。1.简单相关表简单相关表是指资料未经分组的相关表,它将某一变量按其数值的大小顺序排列,再将与其相关的另一变量的对应值平行排列。2.分组相关表如果原始资料较多,按简单相关表来研究现象的相关关系较困难,此时应编制分组相关表。所谓分组相关表,是指在简单相关表的基础上,将原始数据进行分组而形成的统计表。由于相关表中有两个变量,所以分组相关表又可分为单变量分组相关表和双变量分组相关表两种。(1)单变量分组相关表。编制单变量分组相关表时,通常对自变量进行分组,计算出各组的频数;而对与之对应的因变量不分组,只计算其组平均值。(2)双变量分组相关表。编制双变量分组相关表时,首先分别对自变量和因变量进行分组,然后按两个变量的组数设计表格,最后将计算出的各组频数置于相对应的表格中。需要注意的是,制表时应将自变量放在横行,按变量值的大小顺序从左向右排列;将因变量放在纵栏,按因变量值的大小顺序自下而上排列。二、相关图\n相关图又称散点图、散布图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。相关图的判断方法具体如下。(1)强正相关。若变量x的数值增大时,变量y的数值也明显地增大,相关点的分布集中呈直线形状,则说明这两个变量间是强正相关,如图8-1所示。(2)弱正相关。若变量x的数值增大时,变量y的数值也增大,但其相关点的分布比较分散,则表明这两个变量间是弱正相关,如图8-2所示。图8-1强正相关图8-2弱正相关(3)强负相关。若变量x的数值增大时,变量y的数值显著地减小,相关点的分布呈直线状,则说明这两个变量间是强负相关,如图8-3所示。(4)弱负相关。若变量x的数值增大时,变量y的数值趋于下降,但相关点的分布较松散,则说明这两个变量间是弱负相关,如图8-4所示。\n图8-3强负相关图8-4弱负相关(5)非线性相关。若变量x的数值增大时,各相关点的分布呈曲线状,则表明这是非线性相关,如图8-5所示。(6)不相关。若相关图上各相关点十分分散,则说明变量x和变量y之间没有相关关系,如图8-6所示。图8-5非线性相关图8-6不相关三、相关系数1.相关系数的含义与特点相关系数是指直线相关条件下,说明两种现象之间相关关系密切程度的统计分析指标,它比相关表和相关图更能概括表现相关的形式与程度。根据其大小或将若干相关系数加以对比,可以发现现象发展中具有决定意义的因素。相关系数在统计日常工作中应用广泛,其特点如下。\n(1)相关系数应用的前提是两个变量呈直线相关。(2)当两个现象之间存在直线相关时,只能得出一个相关系数。(3)计算相关系数时,要求两个变量的数据都是随机抽选的,即计算用的资料不能以主观愿望来确定。2.相关系数的计算通常,对于所要研究的总体而言,两个相互关联的变量的相关系数称为总体相关系数,用ρ来表示。其计算公式如下:式中,Var(X)是变量X的方差;Var(Y)是变量Y的方差;Cov(X,Y)是变量X和Y的协方差。总体相关系数ρ反映了总体两个变量X和Y的线性相关程度。对于特定的总体来说,X和Y的数值是既定的,ρ是客观存在的特定数值。然而一般不可能去直接观察总体的两个变量X和Y的全部数值,所以ρ一般是不知道的,通常能做到的是从总体中随机抽取一定数量的样本,通过X和Y的样本观察值x和y去估计样本相关系数r。r的定义公式如下:(8-1)整理式(8-1)可得:\n(8-2)式中,表示变量x数列的算术平均数;表示变量y数列的算术平均数。利用式(8-2)进行计算时,使用了和,即麻烦又影响准确性。因此在实际应用中,可根据式(8-2)推导出另一个计算r的简捷公式,具体如下:(8-3)利用式(8-3),可以不用计算两个变量数列的平均值与标准差,不仅节约了工作量,还能减少计算平均值除不尽时所带来的误差。样本相关系数r是根据从总体中抽取的随机样本的观察值x和y计算出来的,它是对总体相关系数ρ的估计。可以证明,r是ρ的一致估计。3.单相关关系的判定相关系数的数值范围在-1和+1之间,即-1≤r≤+1。r的正负反映了相关关系的方向,如果r>0,表明是正相关;如果r<0,表明是负相关。r的绝对值|r|反映了相关的强度,即相关关系的密切程度。|r|越接近于1,则表示相关关系越强;越接近于0,则表示相关关系越弱。\n如果|r|=1,即r=1或r=-1,则表示两个变量之间是完全直线相关,也就是线性函数关系。如果r=0,则表示两个现象完全不相关(不是直线相关)。一般可对相关系数作如下判断。①当0<|r|≤0.3时,表示两个变量存在微弱相关。②当0.3<|r|≤0.5时,表示两个变量存在低度相关。③当0.5<|r|≤0.8时,表示两个变量存在中度相关。④当0.8<|r|<1时,表示两个变量存在高度相关。第三节一元线性回归分析相关分析只能反映出相关关系的方向和密切程度,却不能指出两个变量相互关系的具体形式,也无法根据一个变量的变化来推测另一个变量的变化。要想刻画变量之间的数量依存关系,则必须进行回归分析。一、回归分析的一般问题(一)回归分析的概念及特点回归分析是对具有相关关系的现象,根据其形态,选择一个合适的数学模型来近似地表示变量间的平均变化关系的一种统计分析方法。这里的数学模型称为回归方程,它可以是直线方程,也可以是曲线方程;其中用于配合的直线或曲线称为回归直线或回归曲线。回归分析实际上是相关现象间不确定、不规则的数量关系的一般化和规则化,与相分析相比较,其具有以下特点。\n(1)相关分析中的两个变量是对等的,不必区分哪一个是自变量,哪一个是因变量。(2)相关分析中要求无论是自变量还是因变量,其数值都必须是随机抽选的,据此研究者只能根据计算出反映两个变量间密切程度的相关系数。(二)回归分析的主要内容回归分析的主要内容包括以下三点。(1)确定现象之间关系的数学模型。(2)由自变量的数值估计因变量的相应值。(3)确定因变量估计值的误差。(三)回归分析的种类根据回归方程表现在坐标图上的形态不同,可将回归分析分为线性回归(直线回归)和非线性回归(曲线回归)。根据自变量的数量多少,可将回归分析分为一元回归和多元回归。其中,只有一个自变量的回归分析称为一元回归,又称简单回归;有两个或两个以上自变量的回归分析称为多元回归,又称复回归。以下主要介绍一元线性回归的相关知识。二、一元线性回归模型及其参数估计1.一元线性回归模型一元线性回归模型是描述两个变量之间相互联系的最简单的回归模型,通过它的建立过程,可以了解回归分析方法的基本思想及其在经济问题研究中的应用原理。\n如果两个变量呈现完全的直线相关关系,即两个变量的增长比率为常数时,其变动的规律可用一条直线来说明:y=a+bx。而如果变量y的数值不仅受x变动的影响,还受其他随机因素的影响,x与y的关系就不会表现为完全的线性相关关系。反映在相关图上,各个相关点并不都落在一条直线上,而是在直线上上下波动,散布在一条直线的周围,即x与y仅呈线性相关的趋势。一元线性回归分析的任务就是在这些分散的具有线性关系的相关点之间配合一条最优的直线,用以说明现象之间的具体变动关系。其一般方程如下:式中,表示y的估计值;a表示回归直线在y轴上的截距,代表现象经过修匀的基础水平;b表示直线的斜率,称为y依x的回归系数,表明x每变动一个单位时y的平均变动数量;a和b表示确定回归直线模型的两个待定参数。2.一元线性回归模型的参数估计在一元线性回归方程中,a与b两个待定参数可以利用最小二乘法进行估计。应用最小二乘法配合回归直线的基本思想是:在所有的相关点中,通过数学方法配合一条较为理想的直线,而这条直线必须满足以下两点。(1)原数列与趋势线的离差之和等于0,即。(2)原数列与趋势线的离差平方和为最小值,即。\n换句话说,这条直线与相关图上的散点的距离比任何其他直线与相关图上的散点的距离都小,因此,这条直线是最优的、最理想的回归直线。设Q为y对的离差平方和,根据最小二乘法的原理,为使Q值达到最小,其必要条件是Q对a和b的一阶偏导等于0,即:整理上式,可得如下标准方程组:进一步求解该标准方程组,可得:三、一元线性回归模型的拟合效果(一)估计标准误差估计标准误差又称为估计标准差或估计标准误,是用来说明回归方程代表性大小的统计指标。若估计标准误差小,表明估计的准确性高,代表性好;反之,则表明估计不够准确,代表性差。估计标准误差的计算原理与标准差基本相同,它是因变量实际值与理论值离差的平均数,其定义公式如下:式中,代表估计标准误差;n-2为自由度,因为一元线性回归方程中有两个参数,在利用n个样本点来拟合一元线性回归方程时,样本数据就有了两个约束条件,从而失去了两个自由度。\n(二)判定系数判定系数又称决定系数或拟合优度,是指在x或y的总变异中,能够相互以直线关系说明的部分所占的比率。在直线回归分析中,容易发现因变量y的取值各不相同。y值的这种波动产生的原因有两点:一是受自变量x的影响,二是受其他因素的影响。为了分析这两方面的影响,需要对总误差进行分解。对于每一个观察值而言,误差的大小可以用实际观察值y与其平均数的离差来表示,而这个误差由两部分组成,即:式中,称为总误差;称为估计误差,是配合回归直线后残留的误差量,又称剩余误差,它是由x以外的许多不可控因素引起的偶然性误差;称为回归误差,它是可由x得到解释和说明的误差。将式(8-7)两边同时平方再求和,可得:由于,所以上式可整理为:(8-8)式中,称为总误差平方和;称为剩余平方和;称为回归平方和。将式(8-8)两端同时除以,可得:\n(8-9)由式(8-9)可以看出,在总误差平方和中,回归平方和所占比例越大,相应的剩余平方和所占比例就越小,此时所有观察点离回归直线就越近,x与y的线性相关关系就越密切;回归平方和所占比例越小,相应的剩余平方和所占比例就越大,此时所有观察点离回归直线就越远,x与y的密切程度就低。如果剩余平方和为0,则表明所有观察点全部落在回归直线上,此时x与y是完全相关;如果回归平方和为0,则表明x与y是完全不相关。通常,观察点不全在回归直线上,而是呈现上下波动的情况。此时,x与y的相关关系密切程度主要依据回归平方和与总误差平方和的比值来决定,该比值就是回归分析中的判定系数,用来表示,即:(8-10)的变动范围为0≤≤1,其值越接近于1,表明两个变量相关程度越高;其值越接近于0,表明两个变量相关程度越低。由此可见,也是判断变量之间相关程度的一个重要指标。实际上,就一元线性相关关系而言,就等于其相关系数的r的平方。(三)估计标准误差与判定系数和相关系数的关系估计标准误差与判定系数和相关系数之间存在密不可分的关系,表现在数量上,三者可以相互推算。当样本容量n充分大时,三者之间的近似关系如下:(8-11)\n(8-12)从式(8-11)与式(8-12)可以看出,或与的变化方向是相反的。r越大时,就越小,两个变量间的相关关系密切程度就越高,回归直线的代表性就越好;r越小时,就越大,两个变量间的相关关系密切程度就越低,回归直线的代表性就越差。需要注意的是,在实际的一元线性相关分析中,一般不用式(8-12)计算相关系数,因为这种计算存在两点不足:一是需要先求出回归直线方程,计算出估计标准误差,而从一般认识程序来看,只有相关关系较密切的前提下,配合回归直线方程才有意义,即需要先计算相关系数来判断相关关系的密切程度;二是利用这种方法计算出的r,难以判断该相关关系是正相关还是负相关。四、一元线性回归模型的假设检验一元线性回归分析中的假设检验包括两方面的内容:一是线性相关关系检验,即检验自变量与因变量之间的关系能否用一个直线模型来表示;二是回归系数检验,即检验每个自变量对因变量的影响程度是否显著。1.线性相关关系检验由于样本的随机性,样本相关系数r与总体相关系数ρ之间总是存在一定的差异。当r等于0,有可能是随机因素造成的,而不能据此说明ρ等于0。但根据抽样原理,r的大小与ρ有关,或的数值越大,说明变量之间总体相关关系存在的可能性越大。然而或\n的数值要大到什么程度,才能断定变量之间的总体相关关系显著呢?此时,必须借助于假设检验。总体相关关系显著性检验实际上是对以下假设进行检验:在一元线性相关条件下,检验统计量为:(8-13)或(8-14)检验统计量F在H0条件服从分布F(1,n-2),其决策规则为:若F≤Fα(1,n-2),则接受原假设H0;若F>Fα(1,n-2),则接受备择假设H1。其中,Fα(1,n-2)代表显著性水平为a,第一自由度为1、第二自由度为(n-2)的F检验统计量的临界值。2.回归系数检验如果通过了线性相关关系检验,就可以进行回归系数检验了。由于在一元线性回归分析中,只有一个自变量x,因此回归系数的检验实际上是根据样本回归系数b对总体回归系数β进行检验,即对以下假设进行检验:检验统计量为:(8-15)\n式中,是b的估计量的标准差。在原假设H0成立的条件下,有t~t(n-2)。如果给定了显著性水平a,则t的临界值为,并有。也就是说,如果,则接受原假设;如果,则接受备择假设。在显著性水平a下,β的置信区间为:(8-16)第四节Excel在相关与回归分析中的应用查看更多