- 2022-08-24 发布 |
- 37.5 KB |
- 146页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学课后习题答案
附件一《统计学》学习指导书上海财经大学浙江学院2013年1月14日146\n目录第一部分学习指导5第一章绪论5一、学习目的和要求5二、内容提要5三、课后习题答案6四、课外习题7五、课外习题参考答案10第二章统计调查15一、学习目的和要求15二、内容提要15三、课后习题答案16四、课外习题18五、课外习题参考答案20第三章统计数据处理24一、学习目的和要求24二、内容提要24三、课后习题答案25四、课外习题26五、课外习题参考答案29第四章学习指导33一、学习目的和要求33二、内容提要33三、课后习题答案38四、课外习题44五、课外习题参考答案49第五章概率论基础55一、学习目的和要求55二、内容提要55三、课后习题答案59第六章抽样分布62一、学习目的和要求62二、内容提要62三、课后题答案67四、课外习题72五、课外习题参考答案79第七章参数估计86一、学习目的和要求86二、内容提要86三、课后习题88四、课外习题94五、课外习题参考答案99第八章假设检验105146\n一、学习目的和要求105二、内容提要105三、课后习题112四、课外习题135五、课外习题参考答案140第九章相关分析与回归分析147一、学习目的和要求147二、内容提要147三、课后习题答案152四、课外习题183第十章学习指导191一、学习目的和要求191二、内容提要192三、课后习题答案198四、课外习题206五、课外习题参考答案214第十一章指数分析220一、学习目的和要求220二、内容提要220世界上几种著名的股票指数2221.道·琼斯股票指数222三、课后题答案222四、课外习题226五、课外习题参考答案231第二部分EXCEL统计数据处理236一、EXCEL统计数据处理概述236二、统计数据的收集(教材第二章)238三、统计数据整理(教材第三章)241(一)数据编码241(二)数据的录入242(三)数据的筛选244(四)数据排序246(五)设计条件格式247(六)数据分类汇总249(七)创建图表和增强图表250(八)透视表252(九)直方图255四、数据描述性分析(教材第四章)257(一)函数方法257(二)描述统计工具量的使用258(三)两组或两组以上数据描述统计结果分析260146\n五、概率论基础(教材第五章)261(一)二项分布概率的计算和概率曲线图的编制261(二)正态分布概率的计算和概率曲线图的编制264(三)动态概率分布曲线的编制266(四)全概率公式和贝叶斯公式的应用275六、抽样分布(教材第六章)278七、参数估计——区间估计(第七章)281(一)用公式计算出置信区间281(二)编制活动工作表进行参数的统计量估计283八、假设检验(第八章)286(一)编制活动工作表进行一个总体参数的假设检验286(二)Z—检验工具的使用288(二)T—检验工具的使用290(三)F—检验工具295(四)方差分析297146\n第一部分学习指导第一章绪论一、学习目的和要求(一)“统计”一词的渊源及其含义是什么;(二)统计学是如何产生的;(三)统计学的性质和特点有哪些;(四)统计学的内容和一些基本概念。二、内容提要(一)“统计”一词的渊源及其含义“统计”一词的渊源:“统计(Statistics)”一词最早由德国马尔堡和格丁根大学教授阿痕瓦尔(GottfriedAchenwall1719-1772)提出,意思是指各种现象的状态和状况。我国古代的“统计”一词,原为“总计、合计”之意。具有现代意义的“统计”一词,则是20世纪初从日本传过来的。统计一词的三种含义:统计活动、统计资料和统计科学。(二)统计学的产生与发展统计学是伴随着统计活动的产生发展形成的,它的发展过程始终是沿着两条主线展开的:一是以“政治算术学派”为开端形成和发展起来的以社会经济问题为主要研究对象的社会经济统计;二是以概率论的研究为开端并以概率论为基础形成和发展起来的以方法和应用研究为主的数理统计。在统计学的产生和发展过程中,产生了许多不同的统计学派,如形成于德国的“国势学派”;形成于英国的“政治算术学派”;产生于19世纪中叶的“数理统计学派”、“社会统计学派”,等等。(三)统计学的性质和特点近年来我国统计学界提倡讨论的观点,主张统计学只有一门,包括数理统计学和社会经济统计学。它既不同于数学,也不同于经济学等其他实质性科学,而是一门研究客观事物数量方面的独立的方法论科学。统计学研究的特点:1.从研究对象来看,它研究客观事物的数量方面。2.从研究方法来看,它强调对客观事物总体进行大量观察,通过归纳推理以获得总体数量方面的综合性认识。3.从学科体系来看,统计学是一门多科性的科学,是一个学科“家族”。(四)统计学的内容和一些基本概念统计的内容:描述统计学,推断统计学。146\n统计分析中的几个重要概念:总体与总体单位(个体),指标,变量。三、课后习题答案(一)思考题1.现代的“统计”一词通常包括:统计活动、统计资料和统计科学三种涵义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。现在各国的政府统计,包括经济、社会和科技等方面的统计;联合国统计机构的活动,如世界经济发展和环境统计、各国经济比较等;以及工矿企业或经营服务部门对生产经营过程中的投入和产出所进行的各种计量行为都是统计活动。(2)统计资料是统计活动的最终成果,例如某报报道:“2011年某市实现国内生产总值1543.63亿元,按可比价格计算,比去年同期增长13.7%,增幅比去年同期高1.6个百分点,比全国平均增长速度约高4个百分点。……”。统计资料以较为专业的形式出现的有:联合国统计年鉴、统计月刊,各国出版发行的经济年鉴等。(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。三者关系为:统计学与统计工作之间的关系是理论与实践的关系;统计资料则是统计工作的成果。2.统计学作为一门系统的科学,距今只有300多年的历史,产生于欧洲资本主义社会初期,经历了古典统计学、近代统计学和现代统计学三个时期,先后产生过政治算术学、国势学、社会统计学和数理统计学等重要学派。数理统计学从其发展的时间进程看,可分为三个时代:卡尔•彼尔逊统计时代、R•A•费歇统计时代和J.柰曼—E.S.彼尔逊统计时代。但随着1946年瑞典统计学家克拉默尔发表了《统计学的数学方法》一书,用测度论系统总结了数理统计的发展,标志着统计学开始由近代转向现代。因此,上述三个时代的后两个时代可归入现代统计学范畴。3.描述统计(descriptivestatistics)是用来描绘(describe)或总结(summarize)观察量的基本情况的统计总称。推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计与推断统计紧密联系,描述统计是推断统计的前提,推断统计是描述统计的发展。4.统计总体(简称总体population)是统计研究所确定的客观对象,它是根据一定的研究目的,由客观存在的、在同质基础上由许多个别单位所组成的一个整体。146\n总体单位(unit),又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。同质性是各个总体单位所具有的某一种共同的属性或特征,是总体赖以形成的客观基础;因为每一个总体单位除了具有一个和其他总体单位性质相同的属性或特征以外,还有许多其它总体单位所不具备的属性或特征,所有总体单位所具有的各种不同的数量特征、属性或数量关系构成了总体内部的差异性。5.确定性变量受确定性的因素影响,也就是说影响变量变化的因素是明确的、可解释的;在这种因素的影响下,变量的变化幅度、变化方向是可以确定的。例如职工的工资总额一般受职工人数和职工平均工资两个因素的影响,它们各自的变化及其两者之间的交互作用对工资总额的变动影响是确定的。随机变量受随机因素的影响,随机因素的变化具有不确定性和偶然性,如气候的变化、海水潮汐的涨落等。但是,变量的随机性并不意味人类对之无能为力,统计要研究的正是现象的不确定性,就是要依据不确定因素的相互抵消的特性通过大量观察来研究随机现象的某种规律性。6.离散型变量只能取整数,例如人数、企业数、学校数等,计量单位一般为自然单位如个、匹、头等。连续型变量则可以取任意小数,例如产值、销售额、固定资产投资额等,计量单位为价值单位;或可以取任意两个变量之间中的一个无限小数,大多为某种测量器具的测量结果,一般用度量衡单位表示,如某种零件的大小尺寸、直径、重量、体积、容积等。四、课外习题 (一)单项选择题 1.人们在使用“统计”一词时,通常有三种不同的含义,其中不正确的一项是( ) A.统计工作 B.统计方法 C.统计数据 D.统计学 2.统计是从社会经济现象的( )A.质的方面去研究其量的方面B.量的方面去研究其质的方面C.质与量的辨证统一中研究其量的方面 D.质与量的辨证统一中研究其质的方面 3.根据统计方法的构成,可将统计学分为( ) A.描述统计学和推断统计学 B.描述统计学和应用统计学 B.理论统计学和推断统计学 D.理论统计学和应用统计学 4.统计学研究中使用的方法是( ) A.纯粹的演绎 B.纯粹的归纳 C.演绎与归纳相结合,以归纳为主导 D.演绎与归纳相结合,以演绎为主导146\n 5.政治算术学派的创始人之一是( ) A.高尔登 B.凯特勤 C.约翰·格朗特 D.皮尔逊 6.为运用数学理论研究概率论开辟道路的论著是( )A.《政治算术》 B.《概率论书简》C.《论赌博》 D.《概率论分析》 7.在统计史上被认为有统计学之实而无统计学之名的统计学派是( ) A.数理统计学派 B.政治算术学派 C.社会统计学派 D.国势学派 8.统计对社会经济现象总体数量认识是( ) A.从定性到定量 B.从定量到定性 C.从个体到总体 D.从总体到个体 9.最早把统计学引入我国的是( ) A.横山雅男B.高野岩三郎C.田井要助 D.犹尔 10.统计认识活动的过程逻辑上就是( )的过程。 A.理性认识 B.感性认识 C.归纳推理 D.大量观察 11.( )反映的是现象总体的相对水平或工作质量,一般表现为相对数或平均数。 A.数量指标 B.质量指标 C.实物指标 D.价值指标 12.被认为是推断统计学基础理论奠基者的是( ) A.皮埃尔 B.汤姆斯·辛普森 C.皮尔逊 D.费歇 13.第一位在数量统计和概率论领域享有国家声誉的中国数学家是( ) A.许宝禄B.金国宝C.朱君毅D.魏宗舒 14.比利时统计学家、数学家和天文学家(),把德国的国势学、英国政治算术和意大利、法国的古典概率论结合起来,开创了近代统计学的新纪元。A.高尔登 B.凯特勤 C.约翰·格朗特 D.皮尔逊 15.()年提出最小二乘法、发现了正态分布,从而奠定了统计估计的理论基础。A.高斯 B.凯特勤 C.约翰·格朗特 D.皮尔逊16.设某地区有800家独立核算的工业企业,要研究这些企业的产品生产情况,总体单位是()A.全部工业企业B.800家工业企业C.每一件产品D.800家工业企业的全部工业产品17.有200家公司每位职工的工资资料,如果要调查这200家公司的工资水平情况,则统计总体为()A.200家公司的全部职工B.200家公司C.200家公司职工的全部工资D.200家公司每个职工的工资18.以产品等级来反映某种产品的质量,则该产品等级是()A.数量标志 B.数量指标 C.品质标志 D.质量指标19.某工人月工资为550元,工资是()A.品质标志 B.数量标志 C.变量值 D.指标20.某班四名学生金融考试成绩分别为70分、80分、86分和95分,这四个数字是()A.标志 B.指标值 C.指标 D.变量值146\n21.年龄是()A变量值B离散型变量C连续型变量,但在应用中常按离散型变量处理D连续型变量.22.工业企业的职工人数、职工工资是()A连续型变量B离散型变量C前者是连续型变量,后者是离散型变量D前者是离散型变量,后者是连续型变量 (二)多项选择题 1.统计的含义一般有( )( )( )( )( ) A.统计工作 B.统计会议 C.统计学 D.统计报刊 E.统计资料 2.政治算术学派的创始人有( )( )( )( )( ) A.阿罕华尔 B.凯特勤 C.威廉·配第 D.恩格尔 E.约翰·格朗特 3.根据统计方法的构成,可将统计学分为( )( )( )( )( ) A.应用统计学 B.推断统计学 C.理论统计学 D.描述统计学 E.统计数学 4.下列属于应用统计学范畴的是( )( )( )( )( ) A.生物统计学 B.农业统计学 C.卫生统计学 D.社会统计学 E.人口统计学 5.对社会经济统计的产生和发展有一定影响的人物主要有( )( )( )( )( )A.威廉·配第 B.凯特勤 C.李·普莱 D.恩格尔 E.约翰·格朗特6.下列属于描述统计中常用的图示法有( )( )( )( )( ) A.多边图 B.直方图 C.圆形图 D.散点图 E.全距7.下列属于数量指标的有( )( )( )( )( ) A.人口总数 B.平均年龄 C.国内生产总值 D.工资总额 E.平均身高8.下列属于基本统计指标的有( )( )( )( )( ) A.社会指标体系 B.能源指标体系C.经济指标体系 D.固定资产投资指标体系 E.教育指标体系9.下列属于专题统计指标的有( )( )( )( )( ) A.社会指标体系 B.能源指标体系C.经济指标体系 D.固定资产投资指标体系 E.教育指标体系10.下列属于离散型变量的有( )( )( )( )( ) A.产值 B.人数 C.学校数 D.企业数 E.销售额146\n(三)判断题 1.统计学是随着人类社会的发展和社会管理的需要而发展起来的。( ) 2.统计数据的整理是对统计数据的加工处理过程,是统计学的核心内容。( ) 3.“政治算术学派”的创始人是威廉·配第和拉普拉斯。( ) 4.比利时统计学家凯特勤对统计学的主要贡献是将自然科学的研究方法引进社会现象的研究中来。( ) 5.以社会经济问题为主要研究对象的社会经济统计是以“国势学派”为开端形成和发展起来的。( ) 6.数学和统计学一样,并不能独立地直接研究和探索客观现象的规律,而是给各学科提供了一种研究和探索客观规律的数量方法。( ) 7.概率论最初的研究是为赌徒们找出掷骰子取胜的一套办法,所以,数理统计学研究领域最早的论著为《论赌博》。( ) 8.运用统计方法可以研究各学科的规律和解决其具体问题。( )9.统计研究事物的数量方面,指的是个别事物的数量方面,而不是总体的数量方面。( )10.总供给和总需求的平衡关系属于数量界限。( )(四)名词解释1.描述统计学2.推断统计3.参数统计学4.非参数统计学5.总体6.个体7.有限总体8.无限总体9.变量10.确定性变量11.随机性变量12.离散型变量13.连续型变量14.统计指标15.国内生产总值16.数量指标17.质量指标18.基本统计指标体系19.专题统计指标体系20.正指标21.逆指标(五)简答题1.简述统计一词的含义。2.数理统计学从其发展的时间进程看,可以分为哪三个时代?3.社会经济统计研究的对象有哪些?4.统计学研究有什么特点?5.统计指标有什么特点?6.什么是指标体系?分类有哪些?7.为什么说统计学是一门多科性的科学?8.简述有限总体和无限总体的区别。9.简述统计指标的涵义。10.总体单位有哪些特性。 五、课外习题参考答案146\n (一)单项选择题1.(B) 2.(D) 3.(A) 4.(C) 5.(C) 6.(C) 7.(B) 8.(C) 9.(A) 10.(B)11.(B) 12.(D) 13.(A) 14.(B) 15.(A)16.(D) 17.(A) 18.(C) 19.(B) 20.(D)21.(C) 22.(D) (二)多项选择题1.(A)(C)(E)2.(C)(E)3.(B)(D) 4.(A)(B)(C)(D)(E) 5.(A)(C)(D)(E)6.(A)(B)(C)(D) 7.(A)(C)(D)8.(A)(C)9.(B)(D)(E)10.(B)(C)(D) (三)判断题1.(√) 2.(×) 3.(×) 4.(√) 5.(×)6.(√) 7.(√) 8.(×) 9.(×) 10.(×)(四)名词解释1.描述统计是来描绘或总结观察量的基本情况的统计总称。描述统计学的内容包括统计数据的收集、数据的加工处理、数据的显示、数据分布的特征概括等。2.推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。3.参数统计学:推论统计学依照总体条件的差异性又可分为“参数统计学和“非参数统计学”。其中参数统计学是指总体呈正态分布的统计推论方法。4.非参数统计学:推论统计学依照总体条件的差异性又可分为“参数统计学和“非参数统计学”。其他所有应用于非正态分布总体的统计推论方法,都称为非参数统计学。5.统计总体(简称总体population)是统计研究所确定的客观对象,它是根据一定的研究目的,由客观存在的、在同质基础上由许多个别单位所组成的一个整体。6.总体单位(unit),又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。7.有限总体是指总体所包括的总体单位是可数可列的,即这些总体单位是数得清而且可以按一定的序号排列的。社会经济总体大多是有限总体,如人口数、企业数、学校数等。8.无限总体是指总体所包括的总体单位是不可数不可列或可数不可列的。不可数不可列是指总体所包括的总体单位数不清、自然无法编号。9.变量是标志的具体表现或指标的具体数值,如职工人数、年龄、工资;国内生产总值、销售总值、固定资产投资总额等。在数学中,定量变量就是变量,任意一个变量可以有一系列的取值,一般可用X、Y、Z来表示。10.确定性变量受确定性的因素影响,也就是说影响变量变化的因素是明确的、可解释的;在这种因素的影响下,变量的变化幅度、变化方向是可以确定的。11.146\n随机变量受随机因素的影响,随机因素的变化具有不确定性和偶然性,如气候的变化、海水潮汐的涨落等。12.离散型变量只能取整数,例如人数、企业数、学校数等,计量单位一般为自然单位如个、匹、头等。13.连续型变量则可以取任意小数,例如产值、销售额、固定资产投资额等,计量单位为价值单位;或可以取任意两个变量之间中的一个无限小数,大多为某种测量器具的测量结果,一般用度量衡单位表示,如某种零件的大小尺寸、直径、重量、体积、容积等。14.统计指标是综合反映统计总体的某一方面数量特征的概念和数值。15.国内生产总值是指一个国家或一个地区在一定时期内所生产和提供的最终使用的产品和服务的总价值。16.数量指标反映了现象总体的总规模、总水平或工作总量,一般表现为绝对数,如人口总数、国内生产总值、工资总额等。17.质量指标反映的是现象总体的相对水平或工作质量,一般表现为相对数或平均数。18.基本统计指标体系是反映国民经济和社会发展基本情况的指标体系,包括社会指标体系、经济指标体系和科技指标体系等。19.专题统计指标体系是反映某一方面社会经济问题的指标体系,如能源指标体系、固定资产投资指标体系、教育指标体系等。20.正指标是指这部分指标的数值越大、其所反映现象的数量特征的效果越好;反之,其所反映的现象的数量特征的效果越差。21.逆指标是指这部分指标的数值越小、其所反映现象的数量特征的效果越好;反之,其所反映的效果越差。(五)简答题1.现代的“统计”一词通常包括:统计活动、统计资料和统计科学三种涵义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。(2)统计资料是统计活动的最终成果,统计资料以较为专业的形式出现的有:联合国统计年鉴、统计月刊,各国出版发行的经济年鉴等。(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。2.数理统计学从其发展的时间进程看,可以分为卡尔·彼尔逊统计时代、R·A·费歇统计时代和J.柰曼—E.S.彼尔逊统计时代。3.社会经济统计主要研究的是社会经济现象的数量方面,具体地是指社会经济现象的规模、水平、结构、比例关系、普遍程度、差异程度和发展速度等;也即数量的多少、各种数量关系、质与量互变的数量界限等。数量关系包括平衡关系、比例关系和依存关系。数量界限如职工工资总额的增长速度低于国民收入的增长速度;企业平均工资的增长速度低于企业劳动生产率的增长速度等。4.(1)从研究对象来看,统计学研究的是客观事物的数量方面。(2)从研究方法来看,统计学研究强调对客观事物总体进行大量观察,通过归纳推理以获得总体数量方面的综合性认识。(3)从学科体系上看,统计学是一门多科性的科学,是一个学科“家族”。146\n5.统计指标的特点有:(1)综合性。任何一个指标数值总是通过对总体所有单位某种标志的登记并加以汇总所得到的结果。它说明的不是个别单位或部分单位的数量特征,而是构成总体的全部单位的综合结果。因此它抽象了现象总体各单位在某一方面的差异性,从而较为集中地概括和体现了现象总体在活动过程中某一方面的数量特征和质的属性。(2)具体性。统计指标总是总体某一方面质和量的统一,说明总体在具体时间、对象范围内的数量表现。6.单一指标只能反映总体某一方面的特征和属性,这就要求设置一整套相互有联系的指标,从不同的角度来反映总体各方面特征和属性。这些根据统计研究的需要由一系列相互有联系的指标构成的整体称作指标体系。统计指标体系有多种分类,其中最主要的是按指标的作用分为基本统计指标体系和专题统计指标体系。基本统计指标体系是反映国民经济和社会发展基本情况的指标体系,包括社会指标体系、经济指标体系和科技指标体系等;专题统计指标体系是反映某一方面社会经济问题的指标体系,如能源指标体系、固定资产投资指标体系、教育指标体系等。7.统计学的主体部分包括数理统计学和应用统计学,而应用统计学又包括社会经济统计学和自然科学技术应用统计学,每一个科目又有许多具体的分支。其中,数理统计学的性质和任务偏重于应用,但其理论阐述却必须使用专门的数学知识、特别是概率论;再者数理统计学与其他数学分支有较多的依赖关系,如数学分析、涵数论、矩阵代数、组合数学、甚至测度论、泛涵分析、拓扑学和抽象代数等。此外还有统计史,包括统计工作史、统计学说史、统计思想史和国际比较统计等。因此统计学是一门多科性的科学。8.有限总体是指总体所包括的总体单位是可数可列的,即这些总体单位是数得清而且可以按一定的序号排列的。社会经济总体大多是有限总体,如人口数、企业数、学校数等。无限总体是指总体所包括的总体单位是不可数不可列或可数不可列的。不可数不可列是指总体所包括的总体单位数不清、自然无法编号。9.指标是综合反映统计总体某一方面数量特征的概念和数值。任何一个统计指标一定是抽象的指标概念和具体的指标数值的结合。指标概念的内涵是对总体本质特征的一种抽象和概括,体现了对总体“质”的规定性,它在规定总体某一方面数量特征的理论指导下界定了指标概念的外延:指标的核算范围、计算方法和计量单位。指标数值是指标在一定时间和对象范围下具体的数量表现。10.总体单位是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。同质性是各个总体单位所具有的某一种共同的属性或特征,是总体赖以形成的客观基础;因为每一个总体单位除了具有一个和其他总体单位性质相同的属性或特征以外,还有许多其它总体单位所不具备的属性或特征,所有总体单位所具有的各种不同的数量特征、属性或数量关系构成了总体内部的差异性。146\n146\n第二章统计调查一、学习目的和要求(一)了解统计调查的概念与分类;(二)了解我国统计数据调查的组织形式有哪些;(三)了解统计调查的误差类型;(四)掌握统计调查方案的撰写方法。二、内容提要(一)统计调查的概念与分类统计调查:是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。从认识论的角度来看,统计调查属于认识的感性阶段,是认识的起点。按调查对象所包括的范围划分,统计调查可分为全面调查和非全面调查。按登记的时间是否连续划分,统计调查可分经常性调查和一次性调查。统计调查的方法有:直接观察法、采访法、试验法、问卷法以及报告法。(二)我国统计数据调查的组织形式统计报表制度,指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。我国现行的国家统计报表制度由国家统计局制定,或者由国家统计局和国务院有关部门共同制定。目的是用于收集国民经济、社会和科技发展情况,用于政府管理目的的各类统计调查,是各级国家统计部门实施国家统计调查项目的业务工作方案。按制定颁发的单位不同可划分为国家统计报表制度、部门统计报表制度以及地方统计报表制度。按调查时间的性质可划分周期性普查制度、经常性调查和非经常性调查。统计报表一般可由报表目录、表式和填表说明组成。146\n抽样调查是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。抽样调查分为随机抽样和非随机抽样。随机抽样是按照随机原则从总体中抽样。随机抽样又分为简单随机抽样、系统抽样、分层抽样和整群抽样。非随机抽样是不按照随机原则来抽取样本中的单位。非随机抽样可分为方便抽样、判断抽样、定额抽样和滚雪球抽样。(三)统计调查误差统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之为数据收集误差,又称统计调查误差简称统计误差(statisticalerror)。一般来说,这种误差有两种:登记性误差和代表性误差。代表性误差按照其产生原因又分为两种,即系统性误差和抽样误差。调查误差有两种测度,总误差率和净误差率。(四)统计调查方案一项计划周密、体系完整、结构合理的统计调查方案应包括以下内容:确定调查目的,确定调查对象,撰写调查提纲,明确调查时间以及制定实施计划。调查表是用以登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。调查表的结构与统计表大致相同,一般由表头、表身和表脚三部分组成。问卷也是调查表的一种类型,其特点是在表中的项目以一系列选择性问答的形式出现,要求被调查人员(investigator)根据事实或对某一个问题的看法来选择问卷事先给定答案中的一个或若干个,作为被调查人员的回答。问卷设计的程序包括:前期调查、初步设计、使用问卷和修订问卷等。问卷一般由说明词、指导语、调查内容和编码四部分所组成。三、课后习题答案(一)思考题1.统计调查是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。从认识论的角度来看,统计调查属于认识的感性阶段,是认识的起点。统计调查到的资料可分为:原始资料和次级资料。2.按调查对象所包括的范围划分,统计调查可分为全面调查和非全面调查。按登记的时间是否连续划分,统计调查可分经常性调查和一次性调查。3.统计调查的方法有:直接观察法、采访法、试验法、问卷法以及报告法。146\n4.统计报表制度是指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。5.普查是为某种特定目的而专门组织的一次性全面调查,用来调查社会现象的全面资料。普查的特点有:(1)专门调查(2)周期性调查(3)全面调查(4)普查对资料的准确性和实效性要求高,调查工作面广、量大,必须集中领导和统一行动,规定统一的标准时点、统一的普查期限和统一的普查项目。6.抽样调查是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。7.统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之为数据收集误差,又称统计调查误差简称统计误差(statisticalerror)。一般来说,这种误差有两种:登记性误差和代表性误差。代表性误差按照其产生原因又分为两种,即系统性误差和抽样误差。8.调查对象就是要进行调查的社会经济现象的总体。调查单位是需要对它的标志进行登记的每一个总体单位,也就是需要进行登记的标志的承担者。9.调查表是用以登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。调查表的结构与统计表大致相同,一般由表头、表身和表脚三部分组成。10.问卷也是调查表的一种类型,其特点是在表中的项目以一系列选择性问答的形式出现,要求被调查人员(investigator)根据事实或对某一个问题的看法来选择问卷事先给定答案中的一个或若干个,作为被调查人员的回答。问卷设计的程序包括:前期调查、初步设计、使用问卷和修订问卷等。问卷一般由说明词、指导语、调查内容和编码四部分所组成。11.净误差率为-6%,不能计算总误差率。(二)填空题1.专门调查2.一次性3.随机4.询问调查法5.无法消除6.排序(三)单选题146\n1.A2.B3.A4.C5.C(四)多选题1.(1)BCE2.ABC3.ABCDE(五)判断题1.X2.√3.√4.×四、课外习题 (一)单项选择题 1.某地区为了掌握该地区水泥生产的质量情况,拟对占该地区水泥总产量的80%的五个大型水泥厂的生产情况进行调查,这种调查方式是()。A.普查B.典型调查C.抽样调查D.重点调查2.某灯泡厂为了掌握该厂的产品质量,拟进行一次全厂的质量大检查,这种检查应选择()。A.统计报表B.重点调查C.全面调查D.抽样调查3.人口普查规定统一的标准时间是为了()。A.避免登记的重复与遗漏B.确定调查的范围C.确定调查的单位D.登记的方便4.以下哪种场合宜采用标准式访问()。A.居民入户调查B.座谈会C.当事人或知情者个别采访D.观察法5.某地进行国有商业企业经营情况调查,则调查对象是()。A.该地所有商业企业B.该地所有国有商业企业C.该地每一国有商业企业D.该地每一商业企业6.以下哪种调查的报告单位与调查单位是一致的()。A.工业普查B.工业设备调查C.职工调查D.未安装设备调查7.调查项目通常以表的形式表示,称作调查表,一般可分为()。A.单一表和复合表B.单一表和一览表C.简单表和复合表D.简单表和一览表8.通过调查大庆、胜利、辽河等油田,了解我国石油生产的基本情况。这种调查方式是()。A.典型调查B.重点调查C.抽样调查D.普查9.统计调查的基本任务是取得原始统计资料,所谓原始统计资料是()。A.统计部门掌握的资料B.对历史统计资料进行整理后取得的资料C.直接向调查单位进行登记所取得的资料D.统计年鉴或统计公报上发布的资料10.某市进行工业企业生产设备普查,要求在7月1日至7月10日全部调查完毕,则这一时间规定是()。146\nA.调查时间B.调查期限C.标准时间D.登记期限11.调查某市工业企业职工的工种、工龄、文化程度等情况()。A.填报单位是每个职工B.调查单位是每个企业C.调查单位和填报单位都是企业D.调查单位是每个职工,填报单位是每个企业12.统计调查所搜集的可以是原始资料,也可以是次级资料,原始资料与次级资料的关系是()。A.原始资料来源于基层单位,次级资料来源于上级单位B.次级资料是由原始资料加工整理而成C.原始资料与次级资料之间无必然联系D.原始资料与次级资料没有区别 (二)多项选择题 1.普查是一种()。A.非全面调查B.专门调查C.全面调查D.一次性调查E.经常性调查2.某地对集市贸易个体户的偷漏税情况进行调查,1月5日抽选5%样本检查,5月1日抽选10%样本检查,这种调查是()。A.非全面调查B.一次性调查C.不定期性调查D.定期性调查E.经常性调查3.邮寄问卷适用以下哪些调查对象()。A.企业B.机关团体C.个人D.特定的群体E.所有的人群4.询问调查法有以下几种()。A.访问调查B.邮寄调查C.电话调查D.计算机辅助调查E.观察法5.对于社会、经济和管理的统计研究而言,统计数据质量的衡量标准是()。A.效度B.及时性C.信度D.一致性E.准确度6.非全面调查是指()。A.普查B.统计报表C.重点调查D.典型调查E.抽样调查7.某市对全部工业企业生产设备的使用情况进行普查,则每—台设备是()。A.调查单位B.调查对象C.总体单位D.填报单位E.报告单位8.根据调查的不同目的,实验法可分为()。A.室内实验法B.市场实验法C.研究性实验D.应用性实验E.可靠性实验9.实验数据搜集方法有()。A.观察记录B.笔试C.自我评估D.访问和测量E.采访10.下列各调查中,调查单位和填报单位一致的是()。A.企业设备调查B.人口普查C.工业企业普查D.商业企业调查E.商品价格水平调查(三)判断题 1.重点调查是在调查对象中选择一部分样本进行的一种全面调查。()2.报告单位是指负责报告调查内容的146\n单位。报告单位与调查单位有时一致,有时不一致,这要根据调查任务来确定。()3.访问调查回答率较低,但其调查成本低。()4.当调查对象分布区域较广时宜采用邮寄调查。()5.电话调查的问题要明确且数量要少。()6.观察法是一种盲目性的被动感受。()7.观察法可获得大量真实的第一手资料,但要花费大量的人力、物力、财力和时间。()8.实验法是一种特殊的观察法。()9.一览表是指一份表格上只体现一个调查单位的情况表。()(四)名词解释1.统计调查2.原始资料3.次级资料4.统计报表制度5.抽样调查6.随机抽样7.简单随机抽样8.分层抽样9.整群抽样10.方便抽样11.判断抽样12.定额抽样13.滚雪球抽样14.统计误差15.登记性误差16.代表性误差17.系统性误差18.抽样误差(五)简答题1.简述统计调查的作用和意义。2.衡量原始资料质量的标准有哪些?3.什么是全面调查和非全面调查并举例说明。4.统计调查的方法有哪些?5.统计报表制度有哪些特点?6.随机抽样有什么优点?7.整群抽样与分层抽样有何区别?8.简述任意抽样的理论依据及其优缺点。9.定额抽样有什么优缺点?10.简述统计调查方案包含的内容。五、课外习题参考答案 (一)单项选择题1.(D) 2.(C) 3.(A) 4.(A) 5.(B) 6.(A) 7.(B) 8.(B) 9.(C) 10.(B) 11.(D) 12.(B) 13.(A) 14.(A) 15.(C) (二)多项选择题1.(B)(C)(D)2.(A)(B)(C)3.(A)(B)(C)(D) 4.(A)(B)(C)(D) 5.(A)(C)6.(C)(D)(E)146\n7.(A)(C)8.(C)(D)9.(A)(B)(C)(D) 10.(C)(D) (三)判断题1.(×) 2.(√) 3.(×) 4.(√) 5.(√)6.(×) 7.(√) 8.(√) 9.(×) (四)名词解释1.统计调查:是指按照统计研究的目的和任务,运用科学的调查方法、有组织有计划地向客观现象收集统计资料的工作过程。2.原始资料:又称初级资料,它是未经任何加工整理的第一手资料,是总体各单位有关标志的变异、变量,收集反映总体各单位的个别特征和属性的数据。3.次级资料:又称二手资料,它是由原始资料过渡过来、已经过加工整理的资料。4.统计报表制度:指由政府主管部门以统计表格形式和行政手段自上而下布置,而后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。5.抽样调查:是从总体中抽取部分单位组成样本,对样本指标进行测定并据此对总体数量特征进行估计或做出判断。6.随机抽样:是按照随机原则从总体中抽样。所谓随机原则是根据概率的基本原理,使得总体中每一个单位都有同等被选中的机会,也称为机会均等原则。因而,总体所包括的每一个单位都有被抽中的可能性,使样本单位在总体中的分布保持均匀性,从而保证了样本的代表性。7.简单随机抽样:也称纯随机抽样,是指对总体不进行任何处理的情况下,所进行的等概率抽样。8.分层抽样:也可以称为类型抽样,即根据一些相同的特征,把总体中的N个单位分成不同的层,尽量使每一层各单位更具有相似性,层与层之间具有差异性,接着在每一层中都采用简单随机抽样,最后把每层的简单随机样本合并起来。9.整群抽样:又称聚类抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本,然后对选中的单位进行全面调查的一种抽样方式。10.方便抽样:也叫便利抽样或任意抽樣,是指调查人员本着随意性原则去选择样本的抽样方式。根据方便为原则进行抽选。11.判断抽样:又称为典型抽样或立意抽样,由调查人员的主观经验,按照一定的标准在总体中选择若干有代表性的单位组成样本进行调查。12.定额抽样:也称“配额抽样”,根据一定的身份配额抽选受访者进行调查。13.滚雪球抽样:是一种针对稀疏总体进行的抽样方法,抽选时,先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象,然后通过这些受访者找到更多符合条件的受访者,逐步外推,直至达到要求的样本数。14.统计误差:统计调查所得到的资料与现象总体在某一方面的数量特征的现实必定会存在一定的差距,这种差距称之数据收集误差,又称统计调查误差简称统计误差。15.登记性误差:它是在调查登记过程中产生的误差,这种误差在全面调查或非全面调查中都有可能发生。146\n16.代表性误差:这种误差只有在抽样调查中才有可能发生,是指根据样本去推断总体时所产生的误差。17.系统性误差:是进行抽样调查时违反了随机原则所造成的误差,所以又称随机误差。18.抽样误差:是由于用样本来推断总体时的偶然性因素所造成的误差。(五)简答题1.统计调查属于认识的感性阶段,是认识的起点。所以数据收集是整个统计工作的基础环节,以后阶段的资料整理、计算汇总和分析研究都在它的基础上进行。因此,统计调查工作的好坏、所取得的资料质量的好坏,将直接影响以后各阶段工作的好坏、影响整个统计工作成果的成败。2.(1)准确性,是指各项原始资料必须真实可靠、符合客观实际。原始资料只有真实可靠,才能对问题作出正确的判断,得出科学的结论。(2)完整性,是指各项原始资料全面、系统,能够尽最大的可能反映事物的全貌和全过程。原始资料是否全面,一般包括以下几个方面:是否包括全部调查单位,是否包括全部应登记的标志以及是否全部问题都有答案。(3)及时性,是指必须在调查规定的时间内完成调查任务、上报调查资料。由于统计是对现象的事后计量,必须抓紧时间、充分利用资料的时效性。3.全面调查是对被调查的对象所包括的单位无一遗漏的全部进行调查,目的是要取得总体的全面、系统、完整的数据资料。各种普查,如人口普查、工业普查和全国耕地面积普查等都是全面调查。非全面调查是对被调查的对象所包括的部分单位所进行的调查。例如,要了解全国或某一个地区的职工家庭生活状况,选择其中一部分有代表性的单位进行调查。4.(1)直接观察法,由调查员直接到调查现场进行盘点或计量的方法,如农产量抽样调查、牲畜头数调查等。(2)采访法,由调查员面对被调查人员提问,通过被调查人员对问题的直接回答来收集数据的方法。(3)试验法,由调研人员改变一些因素或变量,用以观察由此所引起其他因素或变量的变化的方法。(4)问卷法,是调查人员通过某种途径把统一设计的问卷分发给被调查人员、由被调查人员按表中的项目如实填报,然后由调查人员在规定的时间内收回的一种调查方法。(5)报告法,是被调查单位以各种原始记录和核算单据为依据,通过定期按规定填写报表的方法向上级有关部门提供统计资料的方法。5.(1)指标的内容和报表的报送时间由国家主管部门统一规定,报表由上至下发放,由填报单位按规定填报后再由下至上层层上报,各填报单位必须严格执行,以保证资料的时效性,便于国家计划部门制定计划、检查计划的执行情况提供依据;(2)报表中所有指标的含义、计算口径和方法也由国家主管部门统一设计和颁布,以便资料的汇总和综合,以保证资料的统一性和相对的稳定性、时间上的连续性,便于积累资料、形成时间序列,为国家决策机构和科研部门提供长期经济分析所需要的依据;(3)报表的数据应以原始记录为基础,以保证资料的可靠性。6.随机抽样是现代推断统计的核心。作为一种非全面调查、它最显著的特点也是其他非全面调查所不具备的优点是:以概率论阐明的有关分布规律为依据,可以推断总体、并具有一定的可靠性和精确度,对抽样误差可以事先加以控制。随机抽样适用于一些不可能进行全面调查,或虽可能取得全面资料,但不必进行全面调查的情况,也可用于全面调查的资料的验证和修正。146\n7.(1)分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大;(2)分层抽样的样本是从每个层内抽取若干单元或个体构成,而整群抽样则是要么整群抽取,要么整群不被抽取。8.任意抽样的基本理论依据是,认为被调查总体的每个单位都是相同的,因此把谁选为样本进行调查,其调查结果都是一样的。而事实上并非所有调查总体中的每一个单位都是一样的。只有在调查总体中各个单位大致相同的情况下,才适宜应用任意抽样法。任意抽样的优缺点:任意抽样技术简便易行,可以及时取得所需的数据,节约时间和费用。这种方法适用于探测性调查,或调查前的准备工作。一般在调查总体中每一个体都是同质时,才能采用此类方法。但是,实践中并非所有总体中每一个体都是相同的,所以抽样结果偏差较大,可信程度较低,它的样本没有足够的代表性。9.定额抽样的优点:适用于设计调查者对总体的有关特征具有一定的了解而样本数较多的情况下,实际上,定额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体);费用不高,易于实施,能满足总体比例的要求。定额抽样的缺点:容易掩盖不可忽略的偏差。10.(1)首先要确定调查目的,明确统计调查需要解决的具体问题,收集什么资料、采取怎样的手段或方式方法来收集资料。(2)确定调查对象就是要明确规定被调查总体的调查范围。确定调查单位的同时、还要确定填报单位。填报单位就是向上级提交报表或调查表的单位。(3)调查提纲是所要进行调查的具体内容,包括调查单位所要登记的标志和项目。(4)调查时间有两个含义,一是指调查资料所属的时间。二是整个调查工作的起止时间,包括收集资料和报送资料所经历的时间。(5)调查的组织计划是从组织上保证调查工作顺利进行的依据,其主要内容包括:调查的组织机构;参加调查的单位和人员;调查的方式方法;调查的时间和地点;调查前的准备工作,如调查的宣传、调查员的培训、调查的文件和经费预算等。对于规模大而又缺乏经验的调查,在正式调查前需要进行试点调查,这就需要明确试点调查的各项细节。以上五个方面是统计调查方案的主要内容,但调查方案应根据实际情况予以调整,不能教条主义、流于形式,一般可通过试点来进行纠正,使之更趋完善;也可在实际调查中进行检验,及时加以修改和补充,以保证调查顺利进行。146\n第三章统计数据处理一、学习目的和要求(一)了解统计数据的含义及其层次尺度;(二)了解统计数据处理的概念和内容;(三)掌握统计数据分组的方法;(四)掌握频数分布的制作方法。(五)掌握一些最基本的统计表和统计图的制作方法。二、内容提要(一)统计数据的含义及分类统计数据,简称数据,是变量(包括定性和定量变量)的取值,也就是说统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。调查取得的统计数据按其时空形态可分为三种形式:时间序列数据、截面数据及面板数据。数据按其内在性质可分为定性数据和定量数据。测定数据层次类型应遵循以下两个原则:互斥原则和穷尽原则。统计数据的尺度可划分为四个层次:定类尺度、定序尺度、定距尺度以及定比尺度。统计数据可划分为:定类数据、定序数据、定局数据以及定比数据。统计数据质量是一个具有丰富内涵的综合性概念。具体来说,它包括统计数据的内容质量、表述质量及约束标准这三大方面。(二)统计数据处理的概念和内容统计数据处理,是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的数据资料的工作过程。统计整理的资料包括原始资料和次级资料两个方面。统计数据处理一般包括以下几方面的内容:(1)审核和检查原始资料(2)修正统计数据的调查误差(3)编制统计数据处理方案(4)处理次级资料。(三)统计数据分组统计数据分组,是一种在定性基础上的定量分析方法,它是根据研究的目的和要求,将调查到的统计数据按其不同的变量、依据四种数据层次的划分尺度把总体划分为若干个部分的方法。146\n在统计研究中,统计分组的作用有:(1)划分社会经济现象的类型(2)揭示社会经济现象总体的内部结构(3)揭示社会现象之间的依存关系。正确选择分组变量的原则有:(1)必须根据统计研究的目的与任务来选择分组变量(2)选择能反映现象本质和主要特征的变量(3)结合历史条件、地点条件和具体的情况来选择分组变量。统计分组有多种类型,归纳起来有以下几种:(1)按分组变量的性质不同,可以分为定性变量分组和定量变量分组(2)按选择分组变量的个数不同分简单分组、复合分组和分组体系。为了便于国际间的统计对比,联合国统计委员会和有关国际组织颁布制定了各种标准分类。这些分类称作国际标准分类。(四)频数分布把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数、所形成的数列叫做分配数列或分布数列。通过分配数列可以说明总体各单位在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的单位“次数”在统计上被称做“频数(frequency)”,因此次数分布也可以叫做频数分布。按分组变量的性质不同,频数分布可分为定性变量分布(或品质分布)和定量变量数列(变量分布)。由于定量变量有离散型变量和连续型变量之分,因而,按分组变量的不同又分为单项数列和组距数列。(五)统计表与统计图把经过分组、汇总的数字资料按一定的顺序在表格上反映出来,这种表格叫做统计表。从形式上看,统计表是一张由纵横交叉的直线、左右两边不封口所组成的表格。从内容上看,统计表由四部分组成:总标题、横行标目、纵栏标目以及数字资料。统计图是展示数据特征的另一种形式。常用的统计图主要有两大类,一类是反映数据总体的分布状况的图形,如表示定性分布状况的柱形图。用于描述频数、频率分布的直方图,分布折线图或多边形图,分布曲线图。另一类是反映两个变量之间关系的统计图:散点图、折线图和曲线图。三、课后习题答案(一)填空题1.排序2.组距数列3.显示统计数据4.数字资料5.U(二)单选题146\n1.C2.D3.A4.A5.D6.D(三)多选题1.AD2.CDE3.BCE4.ABCDE5.AB(四)判断题1.√2.√3.√4.×5.√(五)简答题1.从统计活动的过程来看,统计数据处理是整个统计工作过程的第三阶段。因为统计调查所得到的原始资料是分散的、凌乱的、不系统的,无法利用各种统计方法对其直接进行分析,必须对之进行汇总、分组、整理,然后才能进行下一步的统计分析。所以,统计数据处理是统计调查的继续,也是统计分析的前提。它承前启后,是统计工作的重要环节,在整个统计活动过程中具有十分重要的意义。统计数据处理的质量,不仅直接关系到调查资料能否发挥其应有的作用,而且也直接影响到统计分析能否得出正确的结论。统计数据处理一般包括以下几方面的内容:(1)审核和检查原始资料(2)修正统计数据的调查误差(3)编制统计数据处理方案(4)处理次级资料。2.需先分组,然后计算各组数据出现的次数,即可获得该数据集合的次数分组。3.统计数据处理的方法有统计数据的汇总、分组、编制频数分布和制作统计图表等,但统计数据分组是其中的核心。4.分组与频数。5.(1)必须根据统计研究的目的与任务来选择分组变量(2)选择能反映现象本质和主要特征的变量(3)结合历史条件、地点条件和具体的情况来选择分组变量。四、课外习题 (一)单项选择题 1.统计分组的关键问题是()A确定分组标志和划分各组界限B确定组距和组数C确定组距和组中值D确定全距和组距2.要准确地反映异距数列的实际分布情况,必须采用()A次数B累计频率C频率D次数密度3.按品质标志分组,分组界限的确定有时会发生困难,这是由于()A组数较多B标志变异不明显C两种性质变异间存在过渡形态D分组有粗有细4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为()A260B215C230D1855.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的上限为()A1100B1000C900D800146\n6.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的组中值分别为()A900B1000C950D8007.下列分组中按品质标志分组的是()A人口按年龄分组B产品按质量优劣分组C企业按固定资产原值分组D乡镇按工业产值分组8.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于()A简单分组B平行分组C复合分组D再分组9.用组中值代表各组内的一般水平的假定条件是()A各组的次数均相等B各组的组距均相等C各组的变量值均相等D各组次数在本组内呈均匀分布10.对统计总体按两个及以上标志分组后形成的统计表叫()A简单表B简单分组表C复合分组表D汇总表11.对某地区的全部商业企业按实现的销售额多少进行分组,这种分组属于()A变量分组B属性分组C分组体系D复合分组12.在频数分布中,频率是指()A各组频数之比B各组频率之比C各组频数与总频数之比D各组频数与各组次数之比13.频数分布用来表明()A总体单位在各组的分布状况B各组变量值构成情况C各组标志值分布情况D各组变量值的变动程度14.在分组时,若有某单位的变量值正好等于相邻组的下限时,一般应将其归在()A上限所在组B下限所在组C任意一组均可D另设新组15.在编制组距数列时,当全距不变的情况下,组距与组数的关系是()A正例关系B反比例关系C乘积关系D毫无关系16.统计表的宾词是用来说明总体特征的()A标志B总体单位C统计指标D统计对象17.统计表的主词是统计表所要说明的对象,一般排在统计表的()A左方B上端中部C右方D下方18.用组中值与次数求坐标点连接而成的统计图是()A直方图B条形图C曲线图D折线图19.按字母的顺序或笔画数的多少顺序排序的统计数据一般是()A、定类型数据B定距数据C定比数据D定序数据20.多指标的图示方法是()A直方图B条形图C环行图D雷达图 (二)多项选择题 1.统计分组的作用在于()A区分现象的类型B反映现象总体的内部结构变化C比较现象间的一般水平D分析现象的变化关系E研究现象之间数量的依存关系2.指出下表表示的分布数列所属的类型()按劳动生产率分组(件/人)职工人数(人)146\n50——6060——7070——8080——10010202617总和73A品质数列B变量数列C分组数列D组距数列E等距数列3.指出下列分组哪些是属性分组()A人口按性别分组B企业按产值多少分组C家庭按收入水平分组D在业人口按文化程度分组E宾馆按星级分组4.对统计数据准确性审核的方法有()A计算检查,B逻辑检查C时间检查D调查检查E平衡检查5.统计数据的预处理,包括()A数据分类B数据筛选C数据审核D数据订正E数据排序6.从形式上看,统计表由哪些部分构成()A总标题B主词C纵栏标题D横行标题E宾词7.统计数据的审核主要是审核数据的()A准确性B及时性C完整性D科学性E代表性8.统计数据整理的内容一般有()A对原始数据进行预处理B对统计数据进行分组C对统计数据进行汇总D对统计数据进行分析E编制统计表、绘制统计图9.国民经济中常用的统计分组有()A经济成分分组B登记注册类型分组C国民经济行业分类D三次产业分类E机构部门分类10.某单位100名职工按工资额分为300以下、300-400、400-600、600-800、800以上等五个组。这一分组()A是等距分组B分组标志是连续型变量C末组组中值为800D相邻的组限是重叠的E某职工工资600元,应计在"600-800"元组内11.变量数列中频率应满足的条件是()A各组频率大于1B各组频率大于0C各组频率之和等于1D各组频率之和小于1E各组频率之和大于0(三)判断题 1.统计数据整理就是对原始资料的整理()。2.能够对统计总体进行分组,是由统计总体中各个单位所具有的差异性特点决定的()。3.统计分组的关键是正确选择分组标志和划分各组的界限()。4.简单分组涉及总体的某一个标志,复合分组则涉及总体两个以上标志,因此,将两个简单分组排列起来,就是复合分组()。5.单项式频数分布的组数等于变量所包含的变量值的种数()。6.凡是分组表都是次数分布表()。146\n7.次数密度表示单位组距上分布的次数()。8.异距数列是各组组距不都相等的组距数列()。9.统计表的主词是说明总体的各种指标()。10.品质分布数列是一种单项数列()。11.在组距相等的条件下,次数分布和次数密度的分布是一致的()。12.统计表是表达统计数据整理结果的唯一形式()。13.年代都是以数字表示的,所以按年代排列各种指标属于按数量标志分组()。14.统计数据的整理就是对统计报表数据的整理()。15.圆形图是以圆的面积或圆内各扇形的面积来表示数值大小或总体内部结构的一种图形()。16.绘制圆形结构图的关键是正确计算各扇形的面积()。(四)名词解释1.统计数据2.数据处理3.时间序列数据4.截面数据5.面板数据6.虚拟变量7.定类数据8.定序数据9.定距数据10.定比数据11.定性数据12.定量数据13.分组14.组限15.频数16.组距17.开口组18.闭口组19.频数分布20.统计表21.统计图(五)简答题1.简述统计数据的分类。2.简述测定数据层次类型应遵循的原则。3.简述四类层次测定数据之间的描述功能的关系与区别。4.简述统计数据的内容质量的主要特征。5.统计数据的表述质量有哪些。6.统计数据的约束标准有哪些。7.遗漏数据的处理方法有哪些。8.简述统计数据处理方案的内容。9.统计数据分组有哪些作用。10.常见的统计图有哪些并举例。五、课外习题参考答案 (一)单项选择题1.(A) 2.(D) 3.(C) 4.(C) 5.(B) 6.(C) 7.(B) 8.(C) 9.(D) 10.(C)11.(A) 12.(C) 13.(A) 14.(B) 15.(B) 16.(C) 17.(A) 18.(D) 19.(A) 20.(D) (二)多项选择题146\n1.(A)(B)(E)2.(B)(C)(D)3.(A)(D) 4.(A)(B) 5.(A)(C)(D)6.(A)(C)(D)7.(A)(B)(C)8.(A(B)(C)(E) 9.(A)(B)(C)(D)(E)10.(B)(D)(E) 11.(B)(C)(三)判断题1.(×) 2.(√) 3.(√) 4.(×) 5.(√)6.(×) 7.(√) 8.(√) 9.(×) 10.(×)11.(√) 12.(×) 13.(×) 14.(×) 15.(√) 16.(√) (四)名词解释1.统计数据:统计数据(statisticaldata)简称数据(data),是变量(包括定性和定量变量)的取值,也就是说统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。2.数据处理:是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的数据资料的工作过程。3.时间序列数据:按时间顺序排列的数据称时间序列数据(timeseriesdata),如GDP、失业、就业、货币供给、政府赤字等。4.截面数据:是指一个或多个变量在某一时点上的数据的集合。5.面板数据:是截面数据与时间序列数据综合起来的一种数据类型。它有时间序列和截面两个维度。6.虚拟变量:都是一些用文字表现的无量纲,如产品有合格、不合格之分,性别有男、女之分,季节分为春、夏、秋、冬等。7.定类数据:也称定名数据,表现为类别,但不区分顺序,是由定类尺度计量形成的,只对事物的某种属性和类别进行具体的定性描述。8.定序数据:也称序列数据,是对事物所具有的属性顺序进行描述,表现为类别,但有顺序,是按定序尺度测定的结果。9.定距数据:也称间距数据,是比定序数据的描述功能更好一些的定量数据,表现为数值,可进行加、减运算,是由定距尺度计量形成的。10.定比数据:也称比率数据,表现为数值,是由定比尺度计量形成的,是比定距数据更高一等的定量数据,它不仅可以进行加减运算,而且还可以作乘除运算。11.定性数据或品质数据:定类数据和定序数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据。12.定量数据或数值型数据:定距数据和定比数据说明的是现象的数量特征,能够用数值来表现,因此统称为定量数据或数值型数据。13.统计数据分组:是一种在定性基础上的定量分析方法,它是根据研究的目的和要求,将调查到的统计数据按其不同的变量、依据四种数据层次的划分尺度把总体划分为若干个部分的方法。14.组限:组距数列各组的取值的界限称为组限,凡是各组变量取值的起点组限称为下限;反之,各组变量取值的终点则称为上限。146\n15.频数密度:是指频数与组距之比,以反映单位组距所出现的次数,即把各组的频数与其所在组的组距对比所得的商。16.开口组数列:是指数列中同时不显示第一组的下限和(或)最后一组的上限,即第一组只有上限而无下限、或者最后一组只有下限而无上限、或者两者皆无。17.闭口组数列:闭口组组距数列是指其第一组有下限、最后一组有上限的的组距数列,适用于数据不存在极端值的情况。18.频数分布或频率分布:把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数、所形成的数列叫做分配数列或分布数列。通过分配数列可以说明统计数据在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的数据“次数”在统计上被称做“频数”,因此次数分布也可以叫做频数分布。19.统计表:是把经过分组、汇总的统计数据按一定的顺序列成的表格,包括统计调查表、原始记录表、统计台帐、统计综合表、统计计算与分析表等。20.统计图:是展示数据特征的另一种形式。常用的有:柱形图,直方图,折线图,曲线图,频数、频率分布图,散点图,饼图等。(五)简答题1.调查取得的统计数据按其时空形态可分为三种形式:(1)时间序列数据(2)截面数据(3)面板数据;数据按其内在性质又可分为定性数据和定量数据。2.测定数据层次类型应遵循以下两个原则:互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类;穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。3.数据的层次运算特征举例1.定类数据计数分类产业分类2.定序数据计数排序分类排序企业等级3.定距数据计数排序加、减分类排序有基本的测量单位温度4.定比数据计数排序加、减乘、除分类排序有基本的测量单位有绝对零点商品零售额4.统计数据的内容质量是统计数据最基本的特征,它包括相关性、准确性与及时性。相关性是指统计机构所生产的数据是否正是用户感兴趣的统计数据。准确性指观测值或估计值与未知的真值之间的距离(接近程度),通常用统计误差来衡量。它是统计数据质量的基础和核心内容,及时性也是统计数据能否满足用户需求的重要特征。5.统计数据的表述质量包括可比性、可衔接性和可理解性。可比性是指同一项目的统计数据在时间上和空间上的可比程度。可衔接性是指同一统计机构内部不同统计调查项目之间、不同机构之间以及与国际组织之间统计数据的衔接程度。可理解性是指统计数据便于用户正确理解并使用的程度。6.统计数据的约束标准有可取得性和有效性。可取得性是指用户从统计部门取得统计数据的便利程度。有效性是指统计数据的利用所产生的效益要大于提供该数据的成本。7.146\n遗漏数据的处理较为复杂,一般可通过转嫁错误,采取分配或替代的方法增补。分配法是指根据前后或其他数据的启示来确定要增补的数值,因而这又称为确定法;替代法是指选择一个数据,它的大量特征与有遗漏或错误的数据具有共性,因此可从这个数据中转嫁有关遗漏的信息。所以替代法也称概率法。8.统计数据处理方案一般包括以下内容:1)拟订汇总的指标和汇总表,2)决定分组方法,3)选择汇总的方式4)确定资料审核的方法和内容。9.统计分组就是把总体内部具有某种共同特征和属性的数据归并在一起、形成一组,尽可能的缩小了组内数据在某一方面的差异,从而能明显地显示出组与组之间数据差异。鉴于统计分组的这个特点,在统计研究中,它有以下三个作用:1.划分社会经济现象的类型2.揭示社会经济现象总体的内部结构3.揭示社会经济现象之间的依存关系。10.统计图是展示数据特征的另一种形式。常用的统计图主要有两大类,一类是反映数据总体的分布状况的图形,如表示定性分布状况的柱形图。用于描述频数、频率分布的直方图,分布折线图或多边形图,分布曲线图。另一类是反映两个变量之间关系的统计图:散点图、折线图和曲线图。146\n第四章学习指导一、学习目的和要求(一)了解数据总量的定义及其分类;(二)了解数据相对量的概念及常用测度,掌握绝对数、相对数和平均数的计算方法和应用原则,能结合实际调查资料计算有关指标和进行初步的分析;(三)理解数据分布集中趋势的含义,学会测定集中趋势的指标和计算公式并能熟练运用;(四)掌握测定离散趋势的有关指标,深化对标准差的认识。(五)了解数据的形态测定方法:偏度与峰度。二、内容提要(一)数据总量描述数据总量,又称总量指标,是统计资料经过汇总整理的,反映一定时间、地点条件下,总体某一方面特征的规模、水平的数据总量,在数学上表现为有一定计量单位的绝对值。1.数据总量的分类。按数据反映总体的内容分为:总体单位总数和总体数据总值;按数据其反映总体的时间特征分为:时期总量和时点总量;按计量单位分实物总量、价值总量和劳动总量;按数据所表示的事物的性质与特点分为:流量和存量。2.数据总量的计算和运用。数据总量是通过全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出的。计算总量指标数值时,涉及一系列变量值或标志值的全部或部分相加。(二)数据相对量描述数据相对量,又称相对指标是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数。数据相对量的计量单位有两种:无名数和名数。常用的数据相对量有:计划完成相对数、结构相对数、比例相对数、比较相对数、强度相对数和动态相对数。1.计划完成相对数。计划完成相对数也称计划完成百分数,它是将某一时期的实际完成数与同期计划数进行对比,一般用百分数表示。计算公式为:计划完成相对数(%)=(实际完成数÷同期计划数)×100%。146\n2.结构相对数。结构相对数是总体内部部分单位某一方面特征的数值与总体全部单位某一方面特征的数值之比,计量单位一般用百分数或系数表示。计算公式为:结构相对数=(总体中部分单位数值÷总体全部数值)×100%。3.比例相对数。比例相对数是比例相对数同一个总体的两个部分之间的对比,计量单位一般为系数、倍数或百分数。计算公式为:比例相对数=(总体部分数值÷总体另一部分数值)×100%。4.比较相对数。指同一指标在不同总体(不同空间范围),如不同国家、地区、对象单位间的对比,计量单位一般为系数、倍数或百分数。计算公式为:比较相对数=(某一总体某一数值÷另一总体同一数值)×100%。5.强度相对数。强度相对数指同一总体,两个性质不同但相互有联系的指标数据之比,反映现象的强度、密度以及普遍程度。计算公式为:强度相对数=(某一数值÷另一有联系的不同数值)×100%。6.动态相对数。动态相对数是将总体不同时期的同一类指标对比而计算出的数值,用于表明现象在时间上发展变动的程度。其公式为:动态相对数=(报告期数值÷基期数值)×100%。(三)数据分布集中趋势的特征描述集中趋势是描述数据分布的一个重要的特征数,指一组数据向某一中心值靠拢的程度,反映了一组数据的平均水平、中等水平和代表水平,显示了数据中心点的位置所在。数据分布集中趋势特征描述的测度就是寻找数据的代表值或中心值,常用来表示数据分布集中趋向的特征描述的测度有:算术平均数、几何平均数、中位数、众数等。其中,算术平均数、几何平均数属于高层次数据分布的集中趋势测度;中位数、众数属于低层数据分布的集中趋势测度。算术平均数、中位数、众数三者之间的关系为: 1.算术平均数。也叫均值,是全部数据的算术平均,是集中趋势的最主要测度值。主要适用于定距数据和定比数据,但不适用于定类数据和定序数据。 (1)简单平均数。对于未分组资料计算平均数,采用简单平均数计算公式: (2)加权平均数。对于经过分组的资料计算平均数,需采用加权平均数计算公式: 算术平均数具有两个重要数学性质:一是各变量值与其平均数的离差之和等于零,即:146\n;二是各变量值与其平均数的离差平方之和等于最小值,即:最小值。(3)几何平均数。是N个变量值乘积的N次方根,计算公式如下: (4)调和平均数。在计算平均数时,如果掌握基本公式的分子资料而不具备分母资料时,就需要使用调和平均数的形式进行计算: 调和平均数是算术平均数的变形,二者在本质上是一致的,唯一的区别是计算时使用了不同的数据。调和平均数适用于定比数据,不适用于定距数据。(5)平方平均数。平方平均数是2次方的广义平均数的表达式,也可称为2次幂平均数。计算公式为:2.众数。众数是一组数据中出现次数最多的变量值,用Mo表示。主要用于测度定类数据的集中趋势。由单项式数列确定众数比较简单,只需找出数列中次数出现最多的那个标志值就是众数。由组距式数列确定众数,是先根据出现次数确定众数所在组,然后利用下列公式计算众数的近似值: 从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高点所对应的数值即为众数。如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。 3.中位数。中位数是一组数据按从小到大排序后,处于中间位置上的变量值,用Me表示。主要用于测度定序数据的集中趋势。 由未分组数据计算中位数时,先对数据进行排序,然后确定中位数的位置,其公式为:中位数位置=,最后确定中位数的具体数值。 由分组数据计算中位数时,先根据公式确定中位数所在的组,然后用下列公式计算中位数的近似值: 146\n 中位数是一个位置代表值,其数值大小不受极端数值影响,因此具有稳健性或耐抗性的特点。中位数的另一个特征是:各变量值与中位数的离差绝对值之和最小。 4.众数、中位数和算术平均数的比较 (1),数据是正态分布; (2),数据是左偏分布; (3),数据是右偏分布。(四)数据分布离散趋势的特征描述数据分布离散趋势的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。常用的数据分布离散趋势特征描述的测度有全距、平均差、标准差和离散系数。1.全距。全距是指整个数列中的最大值与最小值之差。计算公式为:R=最大值-最小值=。2.平均差。是各变量值与其均值离差绝对值的平均数,未分组数据计算公式为: 组距分组数据计算公式为: 平均差以均值为中心,反映了每个数据与均值的平均离差程度,它能全面准确地反映一组数据的离散状况。平均差越大,说明数据的离散程度越大。3.标准差与方差。方差是各变量值与其均值离差平方的平均数,是测度定距和定比数据离散程度的最主要方法。标准差是方差的平方根。未分组数据方差计算公式为: 组距分组数据方差计算公式为:146\n 样本方差与总体方差在计算上的区别是:总体方差的分母是总频数N,样本方差的分母是总频数减1,即n-1。4.离散系数。是消除数据水平高低影响后的纯粹反映数据间差异程度的相对指标,也即它既不受计量单位的影响,也不受数据水平高低的影响,因而便于对不同数据水平的离散程度进行比较。常用的离散系数有平均差系数和标准差系数,计算公式如下:平均差系数;标准差系数。(五)数据偏度和峰度的特征描述数据分布的偏度和峰度的特征描述,主要用于刻画数据分布的对称性,分布曲线的陡峭或平坦性特征。偏度,是指次数分布的非对称程度,分为右偏和左偏。通常可采用三阶中心矩偏度系数来测量次数分布的偏斜程度。三阶中心矩偏度系数是指三阶中心矩与之比。其计算公式为:。当,为对称分布;当,为左偏(或负偏);当,为右偏(或正偏)。峰度是衡量次数分布曲线顶峰的尖锐程度,与正态分布曲线相比较,次数分布曲线的峰度通常分为三种:常态峰度、尖顶峰度。和平顶峰度。测定峰度的测度是峰度系数,它是四阶中心矩与之比,计算公式为:。当时,次数分布曲线为正态曲线,即正态峰态;当时,次数分布曲线为平顶曲线,即低峰态;当时,次数分布曲线为尖顶曲线,即为高峰态;146\n当时,次数分布曲线为U性分布。三、课后习题答案(一)思考题1.数据总量(total),又称总量指标,是统计资料经过汇总整理的,反映一定时间、地点条件下,总体某一方面特征的规模、水平的总指标,在数学上表现为有一定计量单位的绝对值。分类:按数据反映总体的内容分为:总体单位总数和总体数据总值;按数据其反映总体的时间特征分为:时期总量和时点总量;按计量单位分实物总量、价值总量和劳动总量;按数据所表示的事物的性质与特点分为:流量和存量。计算数据总量时应注意的问题:数据总量的计算方法比较简单,但计算内容却相当复杂,涉及到一定历史条件下现象的规模和水平。因此,数据总量的计算并不是一个单纯技术性的加总问题,必须在正确规定数据总量所反映现象的概念、构成和计算范围的基础上,确定科学的计算方法,然后才能进行计算汇总,取得能真实反映现象的结果。2.数据相对量,又称相对指标,是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数。数据相对量的计量单位有两种:无名数和有名数。常用的数据相对量测度有:计划完成相对数、结构相对数、比例相对数、比较相对数、强度相对数和动态相对数。计算数据相对量时必须注意:分子分母的可比性;同数据总量结合起来运用;要把各种数据相对量结合起来运用。3.时期总量有以下三个特点:(1)可加性,时间上相邻的时期总量相加能够得到另—更长时期的总量指标;(2)时期总量数值的大小与所属时期的长短直接相关。—般来讲,时期越长,时期总量数值就越大;(3)必须连续登记而得,时期总量数值的大小取决于整个时期内所有时间上的发展状况,只有连续登记得到的时期总量才会准确。时点总量具有以下三个特点:(1)不具有可加性,不同时点上的两个时点指标数值相加不具有实际意义;(2)数值大小与登记时间的间隔长短无关,时点指标仅仅反映社会经济现象在一瞬间上的数量,每隔多长时间登记一次对它没有影响;(3)时点总量数值是间断计数的,没有必要进行连续登记,有的也是不可能连续进行登记的,如:家国的人口总数。4.数据分布集中趋势的特征描述是把数据间的绝对差异抽象化,采用截长补短的方法来表示数据的一般水平,反映数据分布的集中趋势特征。数据分布集中趋势常用测度有:算术平均数、几何平均数、中位数、众数等。146\n5.算术平均数、几何平均数属于高层次数据分布的集中趋势测度;中位数、众数属于低层数据分布的集中趋势测度。数据层次类型适用的集中趋势描述值定类定序定距定比众数※众数众数众数中位数※中位数中位数四分位数四分位数算术平均数※算术平均数※几何平均数说明:※为该层次类型数据最适合用的分布集中趋势描述的测度6.在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。从理论上讲,权数决定指标的结构,如果权数变动,绝对指标值和平均数也变动,所以权数是影响指标数值变动的一个重要因素。权数的权衡轻重作用是体现在各组单位数占总体单位数的比重大小上,在计算平均数和指数上得到广泛的应用。7.算术平均数具有两个重要数学性质:一是各变量值与其平均数的离差之和等于零,即:;二是各变量值与其平均数的离差平方之和等于最小值,即:最小值。8.几何均值也称几何平均数,它是N个变量值乘积的N次方根。几何均值是适用于特殊数据的一种平均数,它主要用于计算比率或速度的平均。9.调和平均数又称倒数平均数,它是变量值倒数的算术平均数的倒数。是数学平均数之一,也是数据分布集中趋势特征主要的测度之一,属于高层次数据的集中趋势测度,适用于定距数据和定比数据,但不适用于定类数据和定序数据。10.以相同数据计算:调和平均数<几何平均数<算术平均数。11.众数是总体中出现次数量最多的数据,是数据分布集中趋势的描述的测度之一。众数的应用范围较广,是唯一能用于定类数据分布的集中趋势描述的测度。众数的计算:(1)定类数据计算众数;(2)定序数据计算众数;(3)定距和定比数据计算众数。12.中位数是将总体数据按大小顺序排列,处于中间位置的那个标志值,也是数据分布集中趋势的特征描述的测度之一。中位数的特点是把整个经过顺序的数据分为相等的两个部分,一半数据比它小,而另一半数据比它大。146\n确定中位数的方法一般是先确定中点位次,然后再找出中点位次所对应的那个标志值。具体计算方法则视资料而定。根据数据是否分组,中位数的计算有:(1)由未分组资料计算中位数;(2)由分组资料计算中位数。13.算术平均数、众数、中位数都是都是描述数据分布集中趋势的特征值,但它们之间既有联系也有区别。(1)算术平均数包含的信息最多、最丰富,当分布比较规则,不存在极端值时,算术平均数描述集中趋势最合适。但算术平均数易受极端值的影响,而众数和中位数则不受极端值的影响;(2)根据算术平均数、众数、中位数三者的数量关系可判别次数分布的具体形态。当时,表示数据完全对称;当时,数据存在极小值,影响了算术平均数,因而分布显示左偏;当时,数据存在极大值,影响了算术平均数,因而分布显示右偏。(3)根据黄金分割的原理,三者之间的数量关系的为:众数到中位数的距离两倍于中位数到算术平均数的距离,即:。据此,可由其中已知的两个推算出第三者,三者之间推算关系如下:。(4)算术平均数适用于定距数据或定比数据;中位数适用于定序数据;众数适用于定性数据。14.数据分布离散趋势的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。常用的数据分布离散趋势特征描述的测度有全距、平均差、标准差和离散系数。15.为了消除不同组别变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。16.数据分布的偏度是指次数分布的非对称程度,分为右偏和左偏。通常可采用三阶中心矩偏度系数来测量次数分布的偏斜程度。三阶中心矩偏度系数是指三阶中心矩与之比。其计算公式为:。当,为对称分布;当,为左偏(或负偏);当,为右偏(或正偏)。17.数据分布的峰度是衡量次数分布曲线顶峰的尖锐程度,与正态分布曲线相比较,次数分布曲线的峰度通常分为三种:常态峰度、尖顶峰度。和平顶峰度。146\n测定峰度的测度是峰度系数,它是四阶中心矩与之比,计算公式为:。当时,次数分布曲线为正态曲线,即正态峰态;当时,次数分布曲线为平顶曲线,即低峰态;当时,次数分布曲线为尖顶曲线,即为高峰态;当时,次数分布曲线为U性分布。(二)计算题1.(1)恩格尔系数、生活费收入、住房、汽车、出版图书、大学生属于数据相对量中强度相对数;城乡储蓄属于数据总量中的时点总量。(2)均属于数据总量。(3)金融机构总资产每年递增24.4%属于数据相对量中的动态相对数,其余为数据总量。2.2011年2010年实际完成(亿元)2011年比2010年增长(%)实际完成(亿元)比重(%)国内生产总值100.0466其中第一产业1254.2第二产业21843.6第三产业15731.41467.53.略。4.(1)水平法计划完成相对数=(484/400)×100%=121%(2)第四年1月份计划执行进度=(25/400)×100%=6.25%第四年2月份计划执行进度=(27/400)×100%=6.75%第四年3~12月份计划执行进度分别为:6%,6.5%,7.25%,7.5%,7.75%,8%,8.5%,7.75%,8.75%,8.75%。(3)第四年第5月到第五年的第4月连续12个月的产量达到400万台,所以提前完成的时间为8个月。5.结构相对数:市区土地面积占总体(587.4/2020)×100=29.1%,郊区70.9%;市区年平均人口(741.3/1275.5)×100%=58.1%,郊区41.2%;比较相对数:市区与郊区土地面积之比(587.4/1432.6)×100%=41%市区与郊区年平均人口之比(741.3/534.2)×100%=138.8%强度相对数:市区人口密度(741.3/587.4)=126.2(万人/平方公里)郊区人口密度(534.2/1432.6)=37.3(万人/平方公里)146\n6.当年产值的计划完成相对数单位成本计划完成相对数7.(1)甲、乙、丙三个企业的计划产量分别为:甲:100/120%=83.3万件;乙:150/110%=136.4万件;丙:250/80%=312.5万件所以,该公司产量计划完成百分比为: (2)实际优质品率: 8.(1)平均等级: 二季度比一季度平均等级下降0.28级。 (2)由于质量下降而带来的损失: 所以,由于产品质量下降而损失148330元。9. 146\n所以,乙菜场比甲菜场平均价格高0.16元,理由是销售量结构变动影响。10.成绩(分)组中值人数(人)xf40-5050-6060-7070-8080-9090-1004555657585955782014622538552015001190570793.55330.1566.753.35139.95476.553967.742311.04533.9966.981959.282859.29合 计-604390-9205.06(分) (分) 或17%11.日产量(只)工人数(人)X35-4545-5555-6565-75 10 20 15 54050607016901807351445-21970-540 5145 24565285610162036015417605合 计 50-40507200740850(只) (只)计算结果表明,正偏分布146\n计算结果表明,其分布曲线为平顶曲线12.算术均值:调和均值:几何均值:可见,。四、课外习题 (一)单项选择题 1.由组距数列确定众数时,如果众数组相邻两组的次数相等,则( ) A.众数为零 B.众数组的组中值就是众数 C.众数不能确定 D.众数组的组限就是众数 2.受极端数值影响最小的集中趋势测度是( ) A.算术平均数 B.调和平均数 C.几何平均数 D.众数和中位数 3.人口数与出生人数相比,( ) A.前者是时期总量,而后者是时点总量 B.前者是时点总量,而后者是时期总量 C.两者都是时点总量 D.两者都是时期总量 4.影响平均数大小的因素有( ) A.变量 B.变量值 C.变量的个数 D.数量标志 5.平均数是将总体内各单位数量差异( ) A.抽象化 B.具体化 C.一般化 D.形象化 6.已知某班学生的平均年龄为17.8岁,其中18岁的人数最多,则该分布属于( ) A.正偏 B.左偏 C.右偏 D.正态 7.加权平均数中的权数为( ) A.变量值 B.次数的总和146\n C.变量值的总和 D.次数比重 8.标准差系数抽象了( ) A.总体单位数多少的影响 B.标志变异程度的影响 C.总体指标数值大小的影响 D.均值高低的影响 9.某车间三个班生产同种产品,6月份劳动生产率分别为2、3、4(件/工日),产量分别为400、500、600件,则该车间平均劳动生产率计算式应为( ) A. B. C. D. 10.某公司2001年管理人员年均收入35000元,生产人员为25000元;2002年各类人员年均收入水平不变,但管理人员增加15%,生产人员增加25%,则两类人员平均的年收入2002年比2001年( ) A.提高 B.下降 C.持平 D.无法判断 11.某企业5月份计划要求成本降低3%,实际降低5%,则计划完成程度为( ) A.97.94% B.166.67% C.101.94% D.1.94% 12.离散程度的测度中,由总体中最大变量值和最小变量值之差决定的是( ) A.方差 B.标准差 C.平均差 D.极差 13.离散程度的测度值愈大,则( ) A.反映变量值愈分散,均值代表性愈差B.反映变量值愈集中,均值代表性愈差C.反映变量值愈分散,均值代表性愈好D.反映变量值愈集中,均值代表性愈好 14.已知甲数列的平均数为100,标准差为12.8;乙数列的平均数为14.5,标准差为3.7。由此可以断言( )A.甲数列平均数的代表性好于乙数列B.乙数列平均数的代表性好于甲数列C.两数列平均数的代表性相同D.两数列平均数的代表性无法比较 15.计算中位数公式中的Sm-1,其涵义表示( ) A.中位数所在组的频数 B.中位数所在组的累计频数 C.中位数所在组以前各组的累计频数 D.中位数所在组以后各组的累计频数 (二)多项选择题 1.加权平均数等于简单平均数的条件是( ) A.各组频数均相等 B.各组变量值不等 C.各组频数不等 D.数列为组距数列 E.各组频数都为1 2.加权平均数的大小受下列哪些因素的影响( ) A.各组变量值大小的影响 B.各组频数多少的影响146\n C.与各组变量值大小无关 D.与各组频数多少无关 E.各组变量值和频数共同影响 3.下列现象应采用调和平均数计算的有( ) A.已知各组工人月工资和相应的工资总额,求平均工资B.已知某企业各车间废品率和废品量,求平均废品率C.已知各车间计划完成百分比和计划产量,求平均计划完成百分比D.已知各车间工人劳动生产率和产品产量,求平均工人劳动生产率E.已知某企业各产品的产量和单位成本,求平均单位成本 4.平均数是( ) A.总体数量特征的代表值 B.只能根据同质总体计算 C.总体分布集中趋势的度量 D.总体分布离中趋势的度量 E.代表现象发展的一般水平 5.在计算加权平均数选择权数时,应该考虑的条件是( ) A.权数必须是单位数比重 B.权数可以是总体单位数 C.权数可以是单位数比重 D.权数必须是总体单位数 E.权数与变量值相乘具有经济意义 6.下列离散程度测度值中,用无名数表示的有( )A.极差 B.平均差 C.标准差D.平均差系数 E.标准差系数7.下列属于时期总量的有()A.职工人数 B.大学生毕业人数 C.储蓄存款余额D.折旧额 E.出生人数 8.将所有变量值都减去10,那么其( ) A.平均数不变 B.平均数也减去10 C.方差不变 D.标准差不变 E.标准差系数不变 9.位置平均数是指( ) A.算术平均数 B.调和平均数 C.几何平均数 D.众数 E.中位数 10.平均数的数学性质有( ) A. B. C. D. E. 11.众数是( )A.由变量值在数列中的位置决定的B.依据变量值出现的次数决定的 C.总体单位变量值的平均数D.总体的一般水平 E.与总体中的极端值无关 12.几何平均数的计算应满足的条件是( ) A.若干个比率的乘积等于总比率 B.相乘的各比率必须是正数 C.若干个比率之和等于总比率 D.相乘的各速度不能是负数 E.若干个速度相乘的结果是总速度 13.不同总体间的标准差不能简单进行比较,这是因为( )146\n A.平均数不一致 B.标准差不一致 C.总体单位数不一致 D.计量单位不一致 E.与平均数离差之和不一致 14.平均差的缺点是( ) A.最易受极端值的影响 B.不能反映数据的离散程度 C.在数学性质上不是最优的 D.未充分利用每个数据信息 E.数学处理中要考虑绝对值,计算中有许多不便 15.下列指标中不可能出现负值的有( ) A.众数 B.全距 C.标准差 D.平均差 E.几何平均数16.运用相对指标时应注意可比性原则,即应在( )方面保持一致。 A.指标涵义 B.包括的范围 C.计算方法 D.计量单位 E.时间跨度(三)判断题 1.根据组距式数列计算得到的均值只能是一个近似值。( ) 2.假定每一个变量值都扩大一倍,则扩大后的平均数与原平均数相等。( ) 3.对分组数据进行不同时期比较时,如果各组平均数都有不同程度的上升,则总的平均数一定也上升。( ) 4.众数的大小取决于众数组相邻组次数的多少。( ) 5.中位数是根据变量所处的中间位置来确定的,因此它不受变量数目多少和极端数值的影响。( ) 6.若已知甲数列的标准差小于乙数列,则可断言:甲数列平均数的代表性好于乙数列。( ) 7.根据同一组数据计算全距和平均差,前者大于后者。( ) 8.根据同一组数据计算的结果,若平均数大于众数,则次数分布曲线向左偏斜。( ) 9.集中趋势是指一组数据向其最大值靠拢的倾向,测度集中趋势也就是寻找数据的最大值。( ) 10.如果数据的分布没有明显的集中趋势或最高峰点,众数可能不存在。( ) 11.平均数受各组变量值大小和各组权数大小的影响。( ) 12.若A、B、C三个公司的利润计划完成程度分别为95%、100%和105%,则这三个公司平均的利润计划完成程度应为100%。( ) 13.调和平均数与算术平均数在本质上是一致的,只是计算形式不同而已。当计算平均数缺少基本公式的分子资料时可用调和平均数来解决。( ) 14.某投资者连续三年股票投资收益率分别为4%、2%和5%,则该投资者三年内平均收益率为3.66%。( ) 15.平均差是利用绝对值来消除离差的正负号的,所以它更适合于代数运算。( ) 16.离散系数最适合于不同性质或不同水平数列均值代表性的比较。( ) 17.当α=0时,表明数据分布属于对称分布。( )(四)名词解释146\n1.总体数据总量2.实物总量3.计划完成相对数4.强度相对数5.加权平均数6.众数7.平均差8.标准差9.矩10.峰度系数(五)简答题1.统计数据分布的特征,可以从哪三个方面进行测度和描述?2.如何用水平法和累积法计算计划执行进度?3.什么是比例相对数?计算公式是什么?4.算术平均数与强度相对数的区别?5.如何用组距数列计算众数?6.离散系数的作用? (六)计算题 1.某车间工人日生产零件分组资料如下:零件分组(个)工人数(人)40-5050-6060-7070-8080-902040805010 合 计 200要求(1)计算零件的众数、中位数和平均数; (2)说明该数列的分布特征。2.某酒店到三个农贸市场买草鱼,每公斤的单价分别为:9元、9.4元、10元,若各买3公斤、4公斤、5公斤,则平均价格为多少?若分别购买100元、150元、200元则平均价格又为多少? 3.某公司所属三个企业的有关资料如下:企 业计划额(万元)实际额(万元)计划完成程度(%)甲乙丙280360432420104120合计要求:填列表中所缺数字。4.某公司所属三个企业的有关资料如下:(1)企业销售利润率(%)销售额(万元)146\n甲乙丙101213150010003000要求:计算三个企业的平均利润率。(2)企业销售利润率(%)利润额(万元)甲乙丙101213150240390要求:计算三个企业的平均利润率。5.(1)某企业某种产品需经过4个车间的流水作业才能完成,如果第一车间的产品合格率为90%,第二车间的产品合格率为97%,第三车间的产品合格率为95%,第四车间的产品合格率为98%,求平均合格率;(2)某种产品的生产需经过10道工序的流水作业,有2道工序的合格率都为90%,有3道工序的合格率为92%,有4道工序的合格率为94%,有1道工序的合格率为98%,试计算平均合格率。 6.有两个生产小组,都有5个工人,某天的日产量件数如下:甲组:810111315,乙组:1012141516要求:计算各组的算术平均数、全距、平均差、标准差和标准差系数,并说明哪个组的平均数更具有代表性。7.某地区有下列资料:人均月收入(元)户数(人)400以下400~500500~600600~700700~800800~900900以上501004502001006040合计1000要求:(1)计算算术平均数、众数、中位数;(2)计算偏度系数并予以解释。五、课外习题参考答案 (一)单项选择题1.(B) 2.(D) 3.(B) 4.(B) 5.(A)146\n 6.(B) 7.(D) 8.(D) 9.(D) 10.(B) 11.(A) 12.(D) 13.(A) 14.(A) 15.(C) (二)多项选择题1.(A)(E)2.(A)(B)(E)3.(A)(B)(D) 4.(A)(B)(C)(E) 5.(B)(C)(E)6.(D)(E)7.(B)(D)(E)8.(B)(C)(D)9.(D)(E)10.(B)(C)(D)(E) 11.(B)(D)(E)12.(A)(B)(D)(E) 13.(A)(D)14.(C)(E) 15.(B)(C)(D)(E)16.(A)(B)(C)(D)(E)(三)判断题1.(√) 2.(×) 3.(×) 4.(√) 5.(×)6.(×) 7.(√) 8.(×) 9.(×) 10.(√)11.(√) 12.(×) 13.(×) 14.(√) 15.(×) 16.(√) 17.(√) (四)名词解释1.总体数据总量是指所有总体所包含的具体数据的总和,由总体所有数据汇总求和所得的结果,用以反映总体在某一方面的数量特征在一定的时间、地点条件达到的总水平。2.实物总量是根据事物的外部特征或物理属性,从使用价值的角度反映数据总量的指标,以自然单位、度量衡、复合单位、物理量和标准实物单位为计量单位的。3.计划完成相对数也称计划完成百分数,它是将某一时期反映总体某一方面数量特征的指标的实际完成数与同期计划数对比,以反映计划任务的执行情况,计量单位一般是百分数。4.强度相对数是指同一总体,两个性质不同但相互有联系的指标数据之比,反映现象的强度、密度以及普遍程度。5.加权平均数,式中,表示变量X的不同取值;表示相应Xn的权重,表示变量X的不同取值所起的作用不尽相同,需对各变量X的不同取值赋以不同的权重以表示其重要程度。6.众数是总体中出现次数量最多的数据,是数据分布集中趋势的描述的测度之一。7.平均差是指各标志值与其平均数离差的绝对值的算术平均数。8.标准差是各标志值与其平均数离差平方的平均数的平方根。9.矩表示各变量值与某一给定值的离差的平均数,它有原点矩和中心矩之分。10.峰度系数反映峰度的测度,是四阶中心矩与之比。146\n(五)简答题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映所有数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏度和峰度,反映数据分布的形状。2.考核计划执行进度情况的方法也分为水平法和累计法两种,其计算公式分别为:水平法:累计法:3.比例相对数同一个总体的两个部分之间的对比,计量单位一般为系数、倍数或百分数,计算公式为:。4.(1)概念不同,算术平均数是总体数据总量和总体单位总数这两个绝对数之比,分子中的每一个数据都由分母的每一个总体单位来承担,反映总体数据的一般水平;而强度相对数是两个性质不同而有联系的数据总量之比。(2)作用不同,强度相对数反映现象的密度、强度和普遍程度;算术平均数反映同一现象总体的一般水平。(3)分子分母的依存关系不同,算术平均数的分子与分母间存在直接的依存关系。强度相对指标的分子、分母之间无依存关系。5.根据组距数列计算众数的步骤为:首先,根据分组数据确定众数所在组的位置,简称为众数组;然后,假定众数组内各标志值的次数成等差变化(而实际情况并不一定如此),最后,众数所在组的次数与其前后组次数的比例关系,建立近似计算公式。众数所在组的次数与其前后组次数的比例关系近似计算公式有两种:下限公式:,式中:为众数符号,为众数组的下限,为众数组次数与上一组次数之差,为众数组次数与下一组次数之差,为众数组的组距。上限公式:,式中:为众数组的上限,其他符号同下限公式。6.离散系数的作用主要用于比较不同总体或样本的离散程度,离散系数越大,说明均值的代表性越差,离散系数越小,说明均值的代表性越好。146\n (六)计算题 1.解,依题意建立计算表如下:零件分组(个)工人数(人)组中值x标志总量xf累计频数S40-5050-6060-7070-8080-90204080501045556575859002200520037508502060140190200合 计200-12900- 因为,所以,该数据分布属于左偏分布。 2.(元/公斤)(元/公斤)3.解,依题意建立计算表如下:企 业计划额(万元)实际额(万元)计划完成程度(%)甲乙丙280360350291.2432420104120120合计9901143.2115.47 4.(1) (2)146\n 5.(1)该产品总的合格率等于各车间合格率之积,故四个车间的平均合格率为: (2) 6.乙组日产量差异程度小,其平均数更有代表性。7.(1)解,依题意建立计算表如下:人均收入(元)组中值户数400以下400~500500~600600~700700~800800~900900以上350450550650750850950501004502001006040-254-154-544614624634632258002371600131220042320021316003630960478860-819353200-36522640019467200311213600893216160156869440合计-1000-178840001625328000146\n(2)(元)或计算结果说明,该地区人均月收入为正偏分配。146\n第五章概率论基础一、学习目的和要求(一)复习概率论基础知识,重点把握二项分布,正态分布,为后续各章作准备。(二)了解χ2分布、t分布、F分布与自由度的概念。二、内容提要(一)随机试验和随机事件随机试验,是指为了研究随机现象而对客观事物进行观察的过程,它具有下列三个特性:1.可在相同的条件下重复进行;2.每次试验的结果具有多种可能性,并且试验所有可能的结果是事先已知的;3.每次试验之前,不能肯定将会出现哪个结果。随机事件,是指随机试验中每一个可能结果,简称为事件。1.设有事件与,若事件发生,则事件必发生,称事件包含事件,记作。2.若事件包含事件,且事件也包含事件,则称事件与相等,记作。3.两个事件和中,至少有一个发生,即发生或发生,称为事件与B的和(或并),记作或。4.事件发生而事件不发生,称为事件与事件的差,记作。5.两个事件与同时发生,即“且”,称为事件与的积(或交),记作。6.如果事件与不能同时发生,即,称事件与互不相容(或称互斥)。显然,基本事件间是互斥(mutuallyexclusive)的。7.若事件与两者中必有一个发生且仅有一个发生,则称与B为互相对立(或互逆)事件。此时满足条件及。146\n(二)概率1.概率的统计定义在同一条件下重复进行次试验,当试验次数充分大时,事件发生的频率为(随试验次数而变化)趋向于某一数值或稳定地在值附近波动(0≤≤1),则定义为事体发生的概率,记作2.条件概率在事件已经发生的情况下,定义事件同时发生的概率3.独立事件如果,那么与相互独立。此时4.全概率公式设事件是样本空间的一个分割,即,且。从而,这里也两两互不相容,则全概率公式如下5.贝叶斯公式146\n设事件是样本空间的一个分割,即,且。则贝叶斯公式如下(三)随机变量随机变量,是对随机试验结果的数量描述,其取值有一个范围,在此范围内究竟取何值是不确定的,但取某个值或某些值却有相应的确定概率(变化规律性)。随机变量一般用等表示。1.离散型随机变量(Discreterandomvariable):所有可能取值只能是有限个或无穷可列个的随机变量。2.连续型随机变量(Continuousrandomvariable):所有可能取值是连续的随机变量。分布函数,设是随机变量,则函数称为随机变量的概率分布函数(Probabilitydistributionfunction)。数字特征1.数学期望(1),是离散型随机变量。(2),是连续型随机变量。2.方差3.协方差4.相关系数(四)常见随机变量的分布146\n1.二项分布在重伯努利试验中,设每次试验成功的概率为,则成功次数X的概率分布为此时,称X服从参数为的二项分布,记为~。2.正态分布设为连续型随机变量,它的概率密度函数为则称服从参数为和的正态分布,记~。(五)大数定律和中心极限定理1.设n次独立试验中,事件A发生的次数为m,事件A在每次试验中发生的概率为p,则对于任意正数e,有2.设随机变量X1,X2相互独立,且服从同一分布,它们的数学期望E(Xk)=m,方差D(Xk)=s2,(k=1,2,……)则对任意正数e,有:式中3.设X1,X2,…,Xn是具有相同分布且相互独立的一列随机变量,则当n®+¥时,对任意X有146\n其中.4.设是服从参数为()的两点分布的随机变量序列,即~,则对任意,有5.设随机变量相互独立,它们具有数学期望和方差,,则三、课后习题答案(一)思考题1.随机事件:随机试验中每一个可能的试验结果;基本事件:随机事件中不能分解为其它事件组合的事件;互不相容事件:设A和B分别表示两个随机事件,如果,则称事件A和事件B互不相容;对立事件:设A和B分别表示两个随机事件,如果A和B满足且,则称事件A和事件B互为对立事件;2.常见的离散型分布有二项分布、二点分布、泊松分布等。二项分布随机变量X的分布表()X0123P二点分布随机变量X的分布表()X01P0.40.6泊松分布随机变量X的分布表()146\nX0123…P3.离散型随机变量的均值和方差的计算公式分别如下,其中。第四章中整体分布的算术平均数和方差的计算分别是上述均值和方差计算的一种特殊情况,即。(二)计算题1、设A={产品为正品},B={产品经过检查为正品},则由题意知,,.从而2.(1)由题意可知所以(2)由(1)的结论可知,X服从参数的指数分布,所以它的概率密度函数为(3)由(1)的结论可知,从而(4)由(1)的结论可知,从而146\n3.(1)由题意可知,(2)设分别表示第1、2、3和4日的销售量,则即同理,运用全概率公式可以得到4.设(=1)表示随机事件{t时刻计算机中第i个终端在使用中},(=0)表示随机事件{t时刻计算机中第i个终端不在使用中},(i=1,2…150),随机变量表示t时刻计算机中运行的终端个数,则由题意可知服从和的二点分布,且服从。从而由定理4可知146\n第六章抽样分布一、学习目的和要求1.掌握抽样分布的一些基本概念。2.掌握与正态分布有关的几个重要的抽样分布以及均值、方差等几个重要统计量的分布。二、内容提要(一)抽样与抽样分布的基本概念总体和个体:通常把所要调查研究的事物或现象的全体称为总体。组成总体的每个元素称为个体,一个总体中所含的个体的数量称为总体容量。样本、样本容量与样本个数:从总体所抽取的部分个体称为样本,样本中所含个体的数量称为样本容量。从总体中可能抽取或可能构成的样本的数目称为样本个数。参数与统计量:参数是总体的数量特征,对于某个总体来说,其参数是定值。统计量是样本的数量特征,它的值是随着样本的不同而变化的,因此是个随机变量。常用的统计量有以下几种:设是从总体中抽取的一个样本,则称:(1)统计量为样本均值;(2)统计量为样本方差;(3)统计量为样本标准差;(4)统计量为样本k阶原点矩;(5)统计量为样本k阶中心矩;抽样与抽样分布:为了推断总体的某些重要特征,需要从总体中按一定抽样技术抽取若干个体,将这一抽取过程称为抽样。每个随机变量都有其概率分布,样本统计量的概率分布即抽样分布。(二)抽样方法146\n(一)抽样框与抽样单元包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。(二)放回与不放回抽样从总体中随机抽取样本有两种方法:放回与不放回抽样。1.放回抽样是从总体中随机抽取一个单位后,观察后再把它放回总体,然后抽取下一各单位。2.不放回抽样是从总体中随机抽取一个单位后,观察后不再把它放回总体。(三)抽样按顺序与不按顺序组成样本1.抽样按顺序组成样本抽样按顺序组成样本是指,抽取的样本单位按编码顺序(排列)组成样本。2.抽样不按顺序组成样本抽样不按顺序组成样本是指,抽取的样本单位不按编码顺序(组合)组成样本。(三)常见的抽样分布1.设是来自于标准正态分布的样本,即,令统计量,称随机变量服从自由度为的的分布,记为:。的密度函数为:2.设,,且与相互独立,令统计量146\n称服从自由度为n的t分布,记为,则的密度函数为:3.设,,且与相互独立。令统计量:称服从自由度为的分布,记为~,的密度函数为:(四)常见的抽样分布1.样本均值的抽样分布(1)设是来自于正态总体的样本,是样本均值,是总体方差,则(2)设是个相互独立的正态随机变量,且~则~(3)设~,则~(4)设是来自于正态总体的样本,是样本均值,是样本方差,则有:。146\n(1)方差均已知设总体,,且与相互独立,与分别为来自总体与的样本,,与,分别是其样本均值和样本方差,则(2)方差未知但相等,即时,其中(3)两个正态总体样本方差之比的抽样分布2.正态总体样本方差的抽样分布(1)一个正态总体样本方差的抽样分布设是来自于正态总体的简单随机样本,是样本均值,样本方差,则有,(2)二个正态总体样本方差之比的抽样分布设总体,,与独立;为取自总体的一个样本,为取自总体的一个样本。令:146\n则,3.样本比率的抽样分布(1)一个总体样本比率抽样分布定义设为取自总体的一个样本(若总体容量有限,则采用“有放回”的抽样;若总体容量充分大或无限大,也可采用“不放回”抽样)。则:(2)两个总体样本比率之差的抽样分布定义设,,且与相互独立;为取自两个总体的样本比率,则4.近似分布棣莫佛-拉普拉斯定理:若是次伯努利实验中事件A出现的次数,,则对任意有限区间,(1)当及时,一致地有(2)当时,一致地有146\n,其中林德伯格-列维定理定理表述一:设是相互独立的随机变量,。当充分大时,则:定理表述二:当是独立同分布时,,则当充分大时,有:,从而,即:其中,Φ(z)是标准正态分布的分布函数。三、课后题答案(一)思考题1.从总体中随机抽取的一部分单位的集合便称为总体的一个样本。简单随机样本必须具备的两个条件是每一个个体都与总体同分布,且相互独立。2.包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。3.抽样方法有随机抽样和非随即抽样。其中随机抽样包括简单随机抽样、分层抽样、系统抽样、整群抽样。非随机抽样可分为方便抽样、判断抽样、定额抽样和滚雪球抽样。随机抽样是按照随机原则从总体中抽样,使得总体中每一个单位都有同等被选中的机会,也称为机会均等原则。因而,总体所包括的每一个单位都有被抽中的可能性,使样本单位在总体中的分布保持均匀性,从而保证了样本的代表性。随机抽样适用于一些不可能进行全面调查,或虽可能取得全面资料,但不必进行全面调查的情况,也可用于全面调查的资料的验证和修正。非随机抽样又称非机率抽样法,是不按照随机原则来抽取样本中的单位。4.146\n参数是总体随机变量概率分布的特征数。统计量是样本的数量特征,它是个随机变量,随着样本的变化而发生变化。统计量一方面表示样本本身的分布状况和特征,另一方面也是总体参数的估计量,是一个不包含任何未知参数的随机样本函数。常用的统计量有以下几种:(1)样本均值;(2)样本方差;(3)样本标准差;(4)样本k阶原点矩;(5)样本k阶中心矩。5.从总体中随机抽样得到样本,获得样本观察值后可以计算一些统计量,统计量的概率分布称为抽样分布。6.与正态分布有关的重要的抽样分布有分布、t分布、F分布。分布有以下特点:分布的可加性;分布的数学期望和方差。对任意给定的,称满足条件的的为分布的上分位点。t分布有如下特点:曲线关于纵轴对称,顶部低于正态分布,而尾部高于正态分布。当n充分大的时候,t分布近似于。通常当时,用正态分布来近似,有;但对于较小的n,t分布与相差较大。对任意给定的,称满足条件的的为t分布的上分位点。对任意给定的,称满足条件的的为分布的上分位点。7.一、样本均值的抽样分布(一)正态总体,方差已知条件下的样本均值的抽样分布设是来自于正态总体的样本,是样本均值,是总体方差,则(二)正态总体、方差未知条件下的样本均值的抽样分布设是来自于正态总体的样本,是样本均值,是样本方差,则有:。(三)两个正态总体样本均值之差的抽样分布1.方差均已知。设总体,,且与相互独立,与分别为来自总体与的样本,,与,146\n分别是其样本均值和样本方差,则2.方差未知但相等,即时,其中(四)两个正态总体样本方差之比的抽样分布二、样本比率的抽样分布(一)一个总体样本比率抽样分布设为取自总体的一个样本。则:(二)两个总体样本比率之差的抽样分布设,,且与相互独立;为取自两个总体的样本比率,则(二)填空题1.总体样本总体容量2.抽样3.概率抽样非概率抽样4.样本均值5.随机原则(三)证明与推导题1.设是总体的一个样本,其中已知而未知,则以下的函数中哪些为统计量?为什么?(1);是146\n(2);是(3);是(4);是(5);不是(6);是(7);不是理由参考统计量定义。2.解:;3.解:4.证明:记(未知),易见,由于和相互独立,可见,从而146\n由正态总体样本方差的性质,知由于与独立、与以及与独立,可见与独立。于是,由服从分布的随机变量的结构,知。5.证:因为,则,其中,,那么,由于,则,因此有,即6.解:7.解:因为,则,,于是,,即,146\n由分布的定义可知,整理得8.解:(1)由于样本方差,则(2)因为,则,则9.设服从,。当时,服从分布,自由度是多少?见第3题解答四、课外习题(一)单项选择题1.设为来自的一个样本,为样本均值,记则服从自由度的分布的随机变量是()。146\n2.设是经验分布函数,基于来自总体的样本,而是总体的分布函数,则下列命题错误的为,对于每个给定的,()。A.是分布函数;B.依概率收敛于;C.是一个统计量;D.其数学期望是。3.设总体服从0-1分布,是来自总体的样本,是样本均值,则下列各选项中的量不是统计量的是()。A.;B.;C.;D..4.设为来自的一个样本,其中μ已知而未知,则下列各选项中的量不是统计量的是()。5.设为来自的一个样本,其中μ已知而未知,则下列各选项中的量不是统计量的是()。6.设和分别来自两个正态总体和的样本,且相互独立,分别为两个样本的样本方差,则服从的统计量是()。146\n7.设为来自的一个样本,和分别为样本均值和样本方差,则下面结论不成立的有()。A.和相互独立;B.和相互独立;C.和相互独立;D.和相互独立。8.设为来自的一个样本,和分别为样本均值和样本方差,则服从自由度为的-分布的随机变量是()。9.设为来自的一个样本,,则=()。10.设为来自的一个样本,和分别为样本均值和样本方差,则()(二)多项选择题1.设是从某总体中抽取的一个样本,下面哪些不是统计量?()146\n2.抽样分布是指?()A.一个样本各观测值的分布B.统计量的概率分布C.样本的分布D.样本数量的分布3.从均值为μ、方差为(有限)的任意一个总体中抽取大小为n的样本,则()A.当充分大时,样本均值的分布近似服从正态分布B.只有当时,样本均值的分布近似服从正态分布C.样本均值的分布与有关D.无论多大,样本均值的分布都为非正态分布4.下面是次序统计量的是()A.中位数B.均值C.四分位数D.方差5.假定某学校学生的年龄分布的均值为23岁,标准差为3岁。如果随机抽取100名学生,下列关于样本均值抽样分布描述正确的是()A.抽样分布的标准差等于3B.抽样分布服从卡方分布C.抽样分布的均值近似为23D.抽样分布为t分布(三)判断题1.全国第五次人口普查中全国人口数是统计总体。 ( )2.放回抽样是从总体中随机抽取一个单位后,观察后再把它放回总体,然后抽取下一各单位。( )146\n3.抽样按顺序组成样本是指,抽取的样本单位按编码顺序(排列)组成样本。( )4.设是来自于正态总体的样本,是样本均值,是样本方差,则有:。( )5.设~,则~。( )(四)填空题1.设来自总体X的一个样本观察值为:2.1,5.4,3.2,9.8,3.5,则样本均值=,样本方差=。2.设随机变量独立同分布,且,令,则__________.3.设是总体的样本,是样本均值,则当__________时,有.4.设是来自0–1分布:的样本,则__________,__________,__________.5.设总体为来自的一个样本,则_________,__________.6.设总体为的一个样本,则________,__________.7.设总体为来自的一个样本,设,则当_________时,146\n8.设是从正态总体中抽取的样本,则样本均值的标准差为。9.设为来自泊松分布的一个样本,分别为样本均值和样本方差。则=,=,=。10.设随机变量相互独立,均服从分布且与分别是来自总体的简单随机样本,则统计量服从参数为的分布。 (五)简答题1.某地电视台想了解某电视栏目在该地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。(1)该项研究的总体是什么?(2)该项研究的样本是什么?2.为了了解统计学专业本科毕业生的就业情况,我们调查了某地区50名2008年毕业的统计学专业本科生实习期满后的月薪情况。(1)什么是总体?(2)什么是样本?(3)样本量是多少?3.某厂生产的电容器的使用寿命服从指数分布,为了了解其平均寿命,从中抽出件产品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布。4.设有N个产品,其中有M个次品。进行放回抽样。定义求样本的联合分布。5.设是取自总体的一个样本。在下列三种情况下,分别写出的联合概率函数6.设为来自几何分布146\n的样本,是给出的一个充分统计量。7.设为来自的一个样本。(1)在已知时给出的一个充分统计量;(2)在已知时给出的一个充分统计量。8.设为来自均匀总体的样本,试给出参数的一个充分统计量。(六)计算及证明题1.在总体中随机地抽取一个容量为36的样本,求样本均值落在50.8与53.8之间的概率。2.设是取自总体的一个样本,为样本均值。求(1);(2)。3.求总体的容量分别为10,15的两独立样本均值差的绝对值大于0.3的概率。4.设为的一个样本,求5.设总体是来自X的样本。(1)求分布律;(2)求分布律;(3)求。6.设总体X~,是来自X的样本,求。7.设在总体X~N()中抽取一容量为16的样本,这里均为未知,(1)求,其中为样本方差;(2)求.8.设为来自的一个样本,其样本均值为,求统计量的数学期望9146\n.设从两个方差相等的正态总体中分布抽取容量为15,20的样本,其样本方差分别为,试求。10.设是独立同分布的随机变量,且都服从试证:11.设是取自正态总体的一个样本,试证:五、课外习题参考答案(一)单项选择题BABCDBDADC(二)多项选择题1.CD2.BC3.AC4.AC5.AC(三)判断题1.×2.√3.√4.×5.×(四)填空题1.4.89.232.解:设为总体的样本,则为样本方差,于是,即3.解:4.解:146\n5.解:6.解:7.解:,且独立8.9.10.解:由相互独立,均服从分布,又与分别来自总体,可知与之间均相互独立,均服从分布因而,,,,且与相互独立,因而服从参数为的分布。 (五)简答题1.解:(1)该项研究的总体是该地区全体电视观众;(2)该项研究的样本是该地区被访问的电视观众。146\n2.解:(1)总体是该地区2008年毕业的统计学专业本科生实习期满后的月薪;(2)样本是被调查的50名2008年毕业的统计学专业本科生实习期满后的月薪;(3)样本量为50。3.解:总体是该厂生产的电容器的使用寿命,或者可以说总体是指数分布;样本是该厂被抽出的个电容器的使用寿命;若记被抽出的第个电容器的使用寿命为,则,样本的联合分布为。4.解:总体的分布列为,因此样本的联合分布为5.解:(1)的联合概率函数为(2)的联合概率函数为(3)的联合概率函数为6.7.(1);(2)8.(六)计算及证明题1.解:由于,146\n故所以。于是可得2.解(1)(2)3.解设容量分别为10,15的两独立样本的均值分别为,则,从而146\n4.解由于的一个样本,故于是故即由即5.解(1)X的分布律为相互独立,于是的分布律为:(2)由有有b(n,p)其分布律为(3)146\n=6.解总体,由此得7.解(1)设为总体X一个样本,则从而=上式0.01的由及反查出:(2)由有,即故8.解:146\n9.解:不妨设正态总体的方差为,则有,于是。因此所求概率为10.证明:(1)因为独立同服从分布,所以是相互独立的标准正态变量,于是有。(2)因为独立同服从分布,所以,即,于是有11.证明:(1)由题设知相互独立都服从正态总体,所以相互独立都服从标准正态分布,则,,且它们相互独立。于是有(2)由(1)知,,,且它们相互独立。所以146\n第七章参数估计一、学习目的和要求(一)了解点估计的概念,掌握几种常用的点估计求法,并理解估计量的评价准则;(二)掌握不同条件下的均值、方差等几个重要统计量的区间估计方法;(三)学会根据估计总体均值和比率确定样本容量。二、内容提要(一)点估计1.点估计的基本概念点估计:选择一个最适当的样本统计量,作为某个总体参数的估计值。2.常用点估计的方法:数字特征法、顺序统计量法、矩估计、最大似然估计和最小二乘估计。矩估计是通过让真实矩等于样本矩,得到个方程,解这个方程组成的方程组,就可以得矩估计量;最大似然估计是在样本值已知的情况下,如何使取到这一样本观察值的概率比较大;最小二乘估计是样本的观察值与总体期望的偏差不是很大,即使得下列平方和最小。3.估计量的评价准则:无偏性、有效性、一致性。(1)无偏性。估计量的数学期望等于总体参数的真值,即,则该估计量称为无偏估计量。(2)有效性。若有E(1)=q,E(2)=q,且Var(1)30,所以仍可以认为样本均值的分布服从正态分布=352s=207n=100设定1-a=0.9545查正态分布表=2于是存款户平均每户的存款余额所在范围为:=[352-2×,352+2×]=[310.6,393.4](2)n=100×58%=58>5n=100×42%>5所以样本成数的分布近似服从正态分布已知=58%1-a=95.45%查正态分布表=2所以余额在30000元以上的户数所占比重所在范围为;=[0.58-2×,0.58+2×]=[48.13%,67.87%]10.解1:P0=14.7%,n=400,Ps=57/400=0.1425,nPs=57>5,n(1-Ps)=400×(1-0.1425)343>5,则近似服从正态分布。146\n又因为,α=0.05,Z0.025=1.96,=0.1425-1.96×(0.1425×(1-0.1425))^0.514.7%在(0.108243,0.176757)的范围内,所以,支持该市老龄化率为14.7%的看法。解2:Ho:P=0.147;H1:P=/0.147检验统计量Z=0.25746查看更多