- 2022-09-01 发布 |
- 37.5 KB |
- 42页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学第2章
本章教学目标:掌握利用统计图表整理和表示统计数据的基本方法;掌握利用Office软件绘制各种统计图表、计算各种统计综合指标。掌握分类数据图表的制作方法。掌握数值数据图表的制作方法。了解图表汇总和制作原则。第2章统计表和统计图1\n在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。表格和图形是整理和反映统计资料的主要工具。当数据是分类数据时,可以对每一分类数据制作频率或百分比表格和图表。§2.1分类数据的图表2\n频数分布表列出了一系列分类数据的频率、总数或百分比,可以看出不同类别数据间的区别。表2-11000美元用途的频数分布表用钱做什么百分比/%购买奢侈品、旅游或礼物20向慈善机构捐款2还贷24储蓄31购买必需品16其他71.频数分布表3\n2.条形图4\n3.圆饼图5\n在帕累托图中,不同类别的数据是按其频率降序排列的,并在同一张图中画出累积百分比图。帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下剩余的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数”4.帕累托图6\n当数据量很大时,首先可以将数值数据进行排序或用茎叶图描述以获得初步信息。(1)排序从没有排序的数据中很难看出数据的整体范围。排序是把数据从小到大(或从大到小)进行排列。(2)茎叶图茎叶图就是将数据分成几组(称为茎),每组中数据的值(称为叶)放置在每行的右边。结果可以显示出数据是如何分布的,以及数据中心在哪里。为了制作茎叶图,可以将整数作为茎,把小数(叶)化整。例如,数值5.40,它的茎(行)是5,叶是4;数值4.30,它的茎(行)是4,叶是3。也可以将数据的十位数作为茎,个位数作为叶。§2.2数值数据的整理7\n当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图、时间序列、曲线图以及对数图等等。§2.3数值数据的图表8\n例:某公司汽车销售量(单位:辆)9\n1.频数分布表分组统计整理后,将杂乱无章的60个原始数据压缩到8组,清晰地反映了更多的有用信息。10\n制作频数分布表的注意事项分组的数量实际应用中分组的数量和组距应根据对象的特点和分析的需要决定。如果分组是为了揭示数据的分布规律,则分组不能过多和过少。通常应在5~15之间。在绘制直方图时可以参照下表:样本容量n参考分组数20~505~651~1007~8101~2008~9201~5009~10501~100010~111000以上11~2011\n制作频数分布表的注意事项2)分组的方法分组的方法可以有等距分组和不等距分组两类。采用哪种分组方法应根据数据的分布特点而定。通常,当数据在一定范围内基本呈对称分布时,宜采用等距分组;而当数据的分布状态极度偏斜时,则宜采用不等距分组。12\n例:按雇工人数分组的私营企业规模统计13\n制作频数分布表的注意事项3)组限:组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。重叠和组限不重叠组限重叠组限——相邻组的上下限重合。适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,即组区间是[a,b)的形式。注意:Excel在制作频数分布表时采用的是“上限在内”的规则。不重叠组限——相邻组的上下限不重合。适用于离散型变量。14\n例:离散型变量的分组(不重叠组限)某公司某月汽车销售量的频数分布表15\n例:连续型变量的分组(上限不在内)某企业职工工资的分组统计16\n制作频数分布表的注意事项4)组中值组中值是各组的代表值,在计算分组数据的许多统计指标时要用到。通常取该组上限和下限的平均值为组中值。如表2-7所示,10~19的组中值是14.5,20~29的组中值是24.5,等等。5)表格线统计表中的表格线应当是两边开口的表格。17\n使用Excel制作频数分布表①利用Excel的FREQUENCY函数语法规则:格式:FREQUENCY(<数据区域>,<接收区间>)接收区间——各组上限值组成的一列区域功能:返回各组的频数。②使用【工具】→“数据分析”→“直方图”功能18\n统计图可以形象、直观、生动、简洁地显示数据的特征。常用的统计图有以下几种:1.折线图——通常用来描述时间序列数据,用以表示某些指标的变化趋势。制作折线图时应正确选择坐标轴轴的刻度。对同样的统计资料,延伸或压缩某一坐标轴可能传达不同的甚至是误导的印象。其它数值数据统计图19\n图1.2失业人数统计图过分压缩了Y轴20\n图1.3失业人数统计图过分压缩了X轴21\n2.面积图面积图可以直观地表示时间序列各组成部分的变化情况。图某地区各产业增加值构成比例的变化情况22\n3.柱形图、条形图和直方图柱形图、条形图和直方图是使用的最为广泛的统计图表。通常将横向绘制的柱形图称为条形图,而将各柱形之间没有间隔的称为直方图,但在Office中将直方图和柱形图统称为柱形图。(1)柱形图——主要用于表示时间序列数据。23\n图1.4各类进口商品的变化情况柱形图示例24\n(2)直方图——用以表示数据的频数分布规律。图1.5比特公司啤酒销售量的频数分布25\n未分组数据的茎叶图用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20≤n≤300)个数据,茎叶图最大行数不超过L=[10×log10n]茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息26\n树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据—茎叶图(茎叶图的制作)某车间工人日加工零件数的茎叶图27\n4.频数多边形频数多边形是直方图的另一种表现形式,是由直方图的顶端中点(各组的组中值)连线而成,其中两边都要连接到横轴上的某点,以便通过覆盖的面积反映总频数。当希望在一个图上比较两种频数分布的特征时,就需要使用频数多边形。男、女学生的体重分布特征28\n5.圆饼图当要表示总体各组成部分的个体数量在总体中占的比率时,经常使用圆饼图,圆饼中各扇形的大小代表了不同组成部分的相对重要性。某企业资产、负债与所有者权益的构成情况29\n6.散点图、时间序列图和曲线图MicrosoftOffice中的曲线图属于平滑线散点图。散点图:在回归分析中,经常需要用样本数据的散点图来分析两个变量之间大致的曲线关系,如正相关关系,即一个变量的增长引起另一个变量的增长;负相关关系,即一个变量的增长引起另一个变量的减少。时间序列图:研究数值变量随时间变化的趋势。X轴代表时间,Y轴代表数值。时间序列图可用折线图来实现。曲线图:当变量是连续型数据时,通常使用曲线图来描述数据的分布情况,如连续型随机变量的密度函数和分布函数曲线。30\n6.散点图、时间序列图和曲线图⑴Office中曲线图的绘制方法一:使用“平滑线散点图”绘制方法二:将折线图转换为曲线图右击折线后选择“数据系列格式”,在“图案”标签下选“平滑线”复选框,就将折线图转换为曲线图。31\n⑵经济管理中几种常见的频数分布曲线①正态分布曲线——这是客观事物数量特征上表现得最为普遍的一类频数分布曲线。如人的身高、体重、智商,钢的含碳量、抗拉强度,某种农作物的产量等等。正态分布曲线32\n②偏态曲线图1.8偏态曲线右偏(正偏)左偏(负偏)例如收入和财富的频数分配曲线就是右偏的,大量财富都集中在极少数富豪手中,而多数人则是低收入者。此外,在产品质量管理中也普遍存在这种现象,如多数次品都集中出在少数工人手中;次品也大都出在少数几道工序上。这就要求在管理和控制上需要突出重点、抓住关键因素。——按其长尾拖向哪一方又可分为右偏(正偏)和左偏(负偏)两类。33\n③J形曲线其典型的应用分别是经济学中的供给曲线和需求曲线。供给曲线(正J形)表现为随着价格的增加,供给量以更快的速度增加;需求曲线(倒J形)表现为随着价格的增加,需求量以更快的速度减少。供给和需求曲线的交点即供求平衡点。正J形倒J形图1.9J形曲线34\n④U形曲线人和动物的的死亡率、设备的故障率等通常都服从于U形曲线分布。图1.10U形曲线——又称生命曲线或浴盆曲线35\n7.对数图人们经常对时间序列变量的相对变化率而不是绝对数值的变化感兴趣,如各种经济变量的环比发展速度。此时若要用统计图直观反映增长率等现象的变动趋势,就需要使用对数图。对数图是以时间为横轴,以10为底的对数比率刻度为纵轴的折线图。可以通过对数图中各线段的斜率比较各时期增长率的大小。考虑以下统计数据:36\n对数图可以直观反映时间序列的环比变化趋势可以在Office图表类型中选择自定义类型中的“对数图”,也可通过将一般折线图纵轴“坐标轴格式”中的“刻度”设为“对数刻度”来绘制对数图。37\n例:某公司总成本和劳动成本的增长该公司总成本和劳动成本每年增加相同的数量,因而用绝对数据作图时两条线是平行的,不小心可能会得出劳动成本占总成本固定比例的误解。实际上第1年占40%,第6年占60%。使用对数图就可以清晰反映劳动成本有更高的增长率。38\n对数图反映了劳动成本增长率大于总成本增长率39\n交叉表可以由列联表和并行条形图来表示。1.列联表列联表表示两类变量的结果。横轴表示一类变量,纵轴表示另一类变量。值位于横纵轴的交叉处,称为单元。根据列联表的结构类型,每横纵轴组合单元包含频率、总值的百分比、横行的百分比或列的百分比。2.并行条形图一个更有效的显示交叉分类数据的方式是作并行条形图。§2.4交叉表40\n分析类型数据类型数值分类单变量值的图表排序,茎叶图,频数分布表,折线图,直方图,面积图,柱形图和条形图,圆饼图,频数多边形汇总表,条形图,圆饼图,帕累托图两变量关系的图表散点图,时间序列图,曲线图列联表,并行条形图图表选择指导§2.5图表汇总和制作原则41\n图表制作原则对于分类数据和数值数据,有些图表是专用的,如帕累托图专门用于分类数据的单变量值描述;而有些图表是通用的,如条形图既可以描述单变量的数值数据,也可以描述单变量的分类数据。为了提供图表表述的合理性,在日常的统计数据整理中,应该遵循下列一些基本原则,以更精确、更形象地抽取统计数据中所蕴含的特征信息和意义:图表不能扭曲数据。图表不应有不必要的修饰图(有时是图表垃圾)。任何两维图标应尽可能地在坐标轴上标上刻度。纵轴的起始点应该合理。所有的轴应合理布置。图表应包含标题。使用最简单的图表。42查看更多