- 2022-08-13 发布 |
- 37.5 KB |
- 4页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学基础23
第二章统计数据的整理和展示一统计数据的幣理统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使Z条理化和系统化,成为便于储存和传递的、反映总体特征的数据。排序:就是把定棗数据按从人到小或从小到人的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。统计分组对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划分成若干组。组内同质性,组间差异性。频数分布编制分组的关键变量的选择,选择与研究的问题冇关的变量。纽限的确定。应遵循穷尽和互斥原则。定性数列编制:组限的确定一般比较简单。定量变量编制:分为单项数列和组距数列两种形式。单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变暈,或离散型变量且变量的取值较多的情况。注意以下三个方面的问题1•确定组数2.确定组距:组距为上限与下限Z差。等距数列一数据分布均匀。异距数列一数据分布不均匀。3.确定组限应能把现彖的不同类型划分出来0要考虑到数据是连续性变量还是离散型变量。无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口组的形式。4.确定组中值:(上限+下限)/2,开口组二、统计数据的展示当统计数据比较多时,就应该制作表格或者图形进行展示,使数据的重要特性能从表格或者图形中直观地反映出来,这样可提高分析数据和解释数据的效率。统计表是把统计数据用表格的形式展示出来。类型:按作用分:调查表/汇总整理表/计算分析表按数据所属的时间分:截而数据表/时间序列表按分组变量的多少分:单变量分组表/多变量分纟R表(平行形式/交叉形式)统计图统计图形通常可比统计表格更纶动地描述数据。\n类型:饼图是以整个圆的360度代表全部数据的总和,按照各类纽所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。条形图屮,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定蜃数据。对于异距数列,以组距为宽,以频数密度为高來绘制直方图。折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值为频数(或频率)求他标点连接而成。Illi线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的Illi线,这是一种概括描述变量数列分布特征的理论曲线。枝叶图是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很冇价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的収值范围是如何分布的。第三章数据的描述性分析本章将讨论的是数据的总量和相对关系的测度,数据的集屮趋势、离散趋势及具形态的测度。主要内容一、绝对数和相对数(一)绝对数绝対数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。作用(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力。(2)是进行经济核算和经济活动分析的基础。(3)是计算相对指标和平均指标的基础。分类:按反映总体的内容分:变量总值/单位总数按反映的时间状态分:时期数/时点数按计量单位分:实物量/价值量(二)相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原來不能直接相比的绝对数可以进行比较。种类:计划完成相对数/结构相对数/比较相对数/强度和对数/动态相对数应用原则(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总屋指标相结合。二、集中趋势的测定一平均数概念表明同类现象在一定时间、地点、条件下所达到的一•般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。常用的儿种平均数1.算术平均数一个变量的所有观察值相加,再除以观察值的个数权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变罐值)。频率分布变了,均值也变。因此,严格地说,权数应指频率。\n算术平均数的变形数学上称其为调和平均数,只是用这种形式时,变量的収值不能为0。求某种商品三种零售价格的平均价格1.儿何平均数:儿个变虽值连乘积的n次根3•中位数(Me)是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数4.众数(Mo)是一种位置平均数,是一批数据中岀现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。位置平均数少算术平均数的关系1.众数适用于所有的定性数据和定量数据屮位数适用于定性数据中的定序数据和定量数据算术平均数只适用于定蜃数据2.定量数据:若是钟形分布,三种集中趋势指标一燉都可适用。而对J形分布,反J形分布和U形分布,屮位数和算术平均数没有任何意义。3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息。4.对于钟形分布且数据量很大时,三种集屮趋势指标有如卜-三种数量关系:应用平均指标的原则1.必须是同质的量方可平均;2.总平均数与组平均数结合分析;3.集中趋势与离散趋势结合分析.三、离散趋势的测定标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。作用(1)反映变量分布的离散趋势;(2)是対平均数的代表性程度的量度;(3)是对事物发展均衡性的量度。1.异众比率:是非众数组所占比重如百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。异众比率是反映定名数据离散趋势的唯一指标,这个指标越小,说明数据的离散程度越小,集中程度越大2.极差(R)数列中最人值与最小值之差R二最大值瑕小值R二最大组的上限展小组的下限优点:容易理解,计算方便缺点:不能反映全部数据分布状况3.四分位差:是一•批数据屮的第三四分位数与第一四分位数之差的二分之一(M3-Ml)/2在反映数据的离散程度方面比全业较为准确,但仍就粗略4.平均羌(AD)各标志值与均值离差绝对值的算术平均优点:反映全部数据分布状况缺点:取绝对值数字上不尽合理5.方差(。2s2)和标准差(。s)所有观察值与平均数离差平方平均数的平方根,亦称均\n方差。标准差的平方即为方差。优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较1.标准差系数(V。):标准差与均值之商,是无量纲的两列数据的分布进行离散程度的比较,当它们的平均数不等、计量单位不同时则应消除平均数不同和计最单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势方差(。2)和标准差(。)是应用最广的标志变界指标四、数据的形态测定偏度:是测定数据分布的偏斜程度的指标。定义M=E(X-A)k/n为变量X关于A的k阶矩。当A=0,即以原点为中心,上式称为“K阶原点矩”。K=l,2,3时,有:一•阶原点矩Ml=L(X-O)l/n=EX/n二阶原点矩M2=L(X-0)2/n=ZX2/n三阶原点矩M3=E(X-0)3/n=EX3/n当A二,即以为中心,上式称为“K阶中心矩”。K=l,2,3时,冇:一阶中心矩二阶中心矩三阶中心矩所以,m3可以测定偏度。为消除最纲,转变为系数,再除以。3。<0负偏态=0对称分布>0正偏态峰度:是用来反映数据分布曲线顶端的尖悄或扁平程度的指标。<3平顶曲线=3正态曲线>3尖顶曲线注:在EXCL等软件屮输岀的峰度是在此基础上再减3o查看更多