- 2022-09-01 发布 |
- 37.5 KB |
- 26页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学上机实验指导【】
数据的收集、整理与显示统计数据的收集、整理与显示是统计分析的基础和初步,其屮涉及到抽样方法的选择,数据的筛选、排序,数据的分类和分组以及频数分布的制作等。本章主要介绍如何使用Excel进行相应处理,其中第一节统计数据的收集,介绍“抽样”工具的使用;第二节数据的预处理,介绍“筛选”、“排位和百分比排位”工具的使用;笫三节品质数据的整理与显示,介绍如何使用“直方图”工具制作品质型数据的频数分布;笫四节数值型数据的整理与显示,介绍如何使用“直方图”工具制作数值型数据的频数分布以及多变量数据的雷达图制作。第一节统计数据的收集收集统计数据是统计研究的笫一步。统计数据最初都来源于直接的调查或实验,具屮抽样调査是实际中应用最广泛的一种调查方式,它是从调查对象的总体中随机抽収一部分单位作为样木进行调查,并根据样本调查结果来推断总体数屋特征的一种非全面调查方式。在Excel的“数据分析”T具中有一个“抽样”工具,可以较简单迅速地完成一些常规的抽样任务。Excel菜单栏“工具”选项中“数据分析”工具是统计分析时经常需要用到的,在初次使用时会发现在Excel相应位置中找不到这一选项,其原因在于在安装Office办公集成软件或MicrosoftExcel时,一般使用的是“自动”或“典型”安装。为此盂要使用者自己加载这一功能。如图1.1和图1.2所示,在“工具”菜单中单击“加载宏”选项,从其弹出的对话框列表中,单击“分析工具库”前面的标志复选框,然后点击“确定”。此时,MicrosoftExcel会弹出对话框询问是否要安装,点击“是”选项示,系统会提示使用者放入光盘或指定资源位置。按提示操作后,点击“确定”即可。图1.1在“工具”菜单中单击“加载宏”选项在加载成功“数据分析”选项后,下面说明如何使用数据分析工具中“抽样”工具抽取样本。首先需要编制总体单位编号表。总体单位编号,可按随机原则也可按照与调查目的有关或无关的标志排队编号。例如:某年级有100名学牛,要调查四级英语考试情况,按学牛的姓名笔画排队编号,是无关标志编号;按学牛的英语成绩排队编号,属有关标志编号。输入编号的方法很简单,这里不在详述。把100名学生的编号输入Excel表格中,如表1-1所zjiO\n表1-1总体单位编号表A|B|C|D|E|F|GH|I|j11112131415161718191221222324252627282923313233343536373839344142434445464748494551525354555657585956616263646566676869677172737475767778797881828384858687888989919293949596979899910102030405060708090100_j在Excel表中输入总体编号后,可按以下步骤操作完成抽样工作第一步:在“工具”菜单屮单击“数据分析”选项,从其对话框“分析工具”列表屮选择“抽样”,回车打开“抽样”对话框。(见图1.3〜图1.5)图1.2在“加载宏”列表中选择“分析工具库”保护(B)加载宏①…自定义©•••选项(Q)…&MicrosoftExcel-Bookl1A1B1C23闿文件(巳編辑(或视E1(生插入①格式©工具(D数据(为窗口辿)□313国I鸟血|G▼C▼|.尊拼写⑸…F7J3J=456图13在“工具”菜单中单击“数据分析”选项\n图1・4从“分析工具”列表中选择“抽样”图1.5“抽样”工具对话框第二步:在“抽样”对话框屮进行相应设置。本例在“输入区域⑴”(总体单位编号所在区域)输入A1:J1O(在Excel执行过程中自动更换为绝对引用形式,即在字符和数字前加$号,使用者没有必要考虑这两种形式的不同)。Excel将从A列开始抽样,然后按顺序抽取B列至J列。如果“输入区域⑴”的第一行或第一列有标题,则需单击“标志(L)”前面的复选框(使其岀现对钩,表示已被选定)。第三步:在“抽样方法”选择区域具体选择抽样模式:1、“周期(巳”模式,即等距抽样或机械抽样。釆用此模式,需耍将总体单位数除以所需样木数,求得取样的周期间隔。木例中如果在100名学生中抽取10名进行调查,100/10=10,可在“间隔框”屮输入10(如果计算得到的周期间隔不是整数,取整即可)。2、“随机(R)”模式适用于纯随机抽样、分层抽样、整群抽样和多阶段抽样。如采用纯随机抽样,只需在“样本数”框中输入所需的样本单位数。本例,可在“样本数”框中输入10。对于分层抽样、整群抽样和多阶段抽样的具体含义,可参考冇关教科书,这里不再详述,其貝体做法与纯随机抽样的区别在于第二步“输入区域⑴”上的不同。如采用分层抽样,事先耍计划好分几层,每层要抽取多少样本,每层的总体单位编号在何区域。在每一层中,分别采用纯随机抽样,步骤同上。第四步:指定"输出区域(O)”。“输出区域(O)”是指Excel结果输出的起始位置,输入单元格的行列号即可,本例输入“e6”。当然,也可以选择“新工作表组(P)”或“新工作薄(W)”作为放置抽样结果的位置。完成以上操作后,回车确认,即在指定的位置给出抽样结果。\n第二节数据的预处理数据的预处理是数据整理的先前步骤,是在对数据分类或分组Z前所做的必要处理,包括数据的审核、筛选、排序等。木节主要介绍Excel中筛选和排序功能的使用。一、数据筛选数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出來,対不符合特定条件的数据予以剔除。卜-面举例说明Excel进行数据筛选的过程。表1・28名学生的考试成绩数据单位:分VA1B■C1D■EI1姓名统计学数学英语经济学269688486|39119594454886778]581608664]|675968183]|7183726671]875587690)987769277]表1-2是八名学牛四门课程的考试成绩数据,使用Excel“筛选”命令分别找出统计成绩等于75分的学生;英语成绩前三名的学生;数学成绩大于80小于90的学生;统计成绩和数学成绩大于80分,或者英语成绩大于90分的学生。Excel提供了两种筛选命令:“自动筛选”(适用于简单的条件)和“高级筛选”(适用于复杂的条件)。接下先来介绍“自动筛选”的使用。首先,将表格中的数据区域选定或者只盂确保活动单元格处于数据区域既可(如表1-2所示,活动单元格为B3)o选择“数据”菜单,并选择“口动筛选”命令。如图1.6所示。数据(①窗口辿)帮助(也图1・6从“数据”菜单中选择“筛选自动”这时会在第一行(列标题)出现下拉箭头,用鼠标点击箭头会出现如下结果,如图1.7所示。\nA1B厂C厂Dre1姓名▼统卜埠▼数学▼英语▼经济学“2连部)688486]13■(HU1U|・・・•自定义…)759594]454698867785608664]68183968183]78791726671]8587690]Yb987769277]图1・7“自动筛选”命令IALB1C|D1E|1姓名▼统计学▼(数学创英语土经济呈d6赵颖759681838眾方75587690图1・8统计成绩75分的学生ABC▼-名翔华风姓王李陈2-911811871计统▼506-767学数▼4474T.967济10111213141516图1.9英语成绩前三名的学生A?|X|取消410111213_141516171819_20FM▼▼7888.田雨统计学▼数学▼英语67图1.10数学成绩大于80小于90的学生\n要筛选出统计学成绩为75分的学生,可选择75,得到图1.8的结果;要筛选出英语成绩最高的前三名学牛.,可在英语成绩下拉箭头选项中选择“前10个”,并在对话框中输入“3”,得到如图1.9所示结果。要筛选出数学成绩大于80小于90的学主,可在数学成绩下拉箭头的选项中选择“自定义”。在弹出的对话框屮,进行相应的设置,如图1.1()所示。上面介绍的筛选方法条件比较单一,要求较少,一般情况下选择“自动筛选”命令就可以完成。对于设定条件比较多的筛选,则需要使用“高级筛选”命令。“高级筛选”与“口动筛选”命令不同,它要求在一个工作表区域内单独指定条件区域(也称筛选区域)与数据区域区分开來。通常的做法是把条件区域放在数据区域的上面,-•个筛选区域至少要包含两行。如果第一行是列标题,则筛选将从第二行及其下而的行开始执行,需要注意的是条件区域的标题应和数据区域的标题一致。下面用“高级筛选”命令筛选出“统计成绩和数学成绩人于80分,或者英语成绩人于90分”的学生。第一步:建立条件区域,即在工作表的顶端插入若于新行来放置条件。具体到本例至少需要插入四行来放置条件(注意:数据区域与条件区域必须有一行间隔)。如图1.11所示。统计学>80>7037567_8910111213数学统计学数学英语经济学6968848691759594548867788160866475968183837266717558769087769277图1.11条件区域的建立[高级筛选?|x|e在原有区域显示筛选结果②C将筛选结果复制到其他位置(0)報聒区瞰◎:|pA$5:$E$131刃条件区域(£):|$A$1:$C$3复制到CT):1邑J厂选择不重复的记录®确定|取消图1.12“高级筛选”命令的使用Excel将根据以下规则解释这一区域:♦同一行中的条件之间的关系是“与”。♦不同行中的条件之间的关系是“或”。笫二步:选择“高级筛选”命令,在弹出的对话框中进行相应的设置。如图1.12所示。\n在本例在“数据区域(L)”输入A5:E13,在“条件区域(C)”输入A1:C3,回车确定即可。结果见表1・3。需要说明的是“自动筛选”和“高级筛选”命令显示筛选岀的数据时,Excel仅仅把不符介要求的行隐藏起来,并H为了提醒用户此区域是经过筛选的数据区域,Excel会用对比颜色来显示筛选出的行数。如果要取消“筛选”,可以单击“筛选”菜单上的“全部显示”命令,也可以单击下拉列表框并选择“全部”(此时使用的是“自动筛选”命令)。所以,为了保证筛选结果的正确与“安全”,通常需要把每一次筛选的结果复制到其它工作表屮。表1-3筛选结果IA1BLcLDE1F11统计学数学英语2>80>70上T条件区域3^80-45统计学数学英语经济学669688486791759594981608664107596818311837266711387769277二、数据的排序数据排序是按一定的顺序将数据排列,以便研究者通过排序后数据的特征或趋势,找出解决问题的线索。对于数值型数据的排序,即递增和递减排序,在Excel"数据”菜单中的“排序”命令可以很方便的实现这一功能,由于篇幅所限这里不再介绍。下而介绍如何利用Excel的“排位和百分比排位”分析工具来进行分析,此工具可以产生次序排位和百分比排位。以表]・2为例,步骤如下:第一步:在“工具”下拉菜单屮单击“数据分析”选项,从其对话框“分析工具”列表中选择“排位和百分比排位”,回车打开其对话框(见图1.13,图1.14)0图1.13“排位和百分比排位”命令\n?|2d排位与百分比排位「输出选项r输出区域(Q):|5Ja新工作表组②:Ir新工作薄©图1.14“排位和百分比排位”命令对话框笫二步:(以统计学成绩单列数据为例)対命令対话框进行相应设置。本例统计学成绩数据区域为“B1:B9”,“输入区域⑴”输入“B1:B9”。“分组方式”要求指出输入区域中的数据是按行还是按列排列,在木例屮选择默认设置“列”。如果“输入区域⑴”的第一行包含了标志项,则需单击选中“标志位于第一行(L)”复选框,本例显然要选中此项。在输出选项中,按照需要相应选择,本例因输出结果比较多,所以选择“新工作表组(P)”。设置完毕,回车确定,结果见表1-40表1-4排位和百分比排位结果显示■A■B■cID1皆统计学排位百分比22911100.00%3887285.70%4683371.40%5481457.10%6575528.50%7775528.50%8169714.20%93548.00%结果包括四列:第一列“点”为数据原来的排列顺序;后三列依次为数据值、数据值排序和百分比排序。百分比排序的数值指的是“好于多少的”数据,如统计学成绩87分的百分比排序值为85.7%,指的是其成绩好于85.7%的其它数据。在本例中,使用“排位和百分比排位”分析工具分析了统计学单列数据。可以使用此工具分析全部四个成绩:统计学、数学、英语、经济学,在这种情况F应指定“B1:E9”为输入区域,工具将输出16列数据。第三节品质数据的整理与显示数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理与显示时,首先要弄清是什么类型的数据,不同类型的数据适用的处理方法不同。一般情况下,对甜质数据主要是分类整理,对数值型数据主要是分组整理。木节以及下一节(数值型数据的整理与显示)主要介绍这两人类数据频数分布的制作,而对于一•般图形的制作,如:条形图、饼行图、直方图、圆环图等属于Excel的基本内容,山于篇幅所限不在这里讲述。卜•而通过一个具体的例子来说明如何使用Excel来制作定类数据的频数分布。\n表1-5是一家市场调查公司为研究不同品牌饮料的市场占有率,调查员某天对50名顾客购买饮料詁牌记录的原始数据。具体做法是:如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌记录一次。表1-5顾客购买饮料品牌的记录旭日升冰茶可口可乐」旭日升冰茶汇源果汁旭日升冰茶可口可乐露露旭日升冰茶可口可乐百事可乐可口可乐可口可乐可口可乐百事可乐頁事可乐胆旦升冰茶可口可乐露露露露百事可乐可口可乐旭日升冰茶百事可乐汇源果汁可口可乐10可口可乐旭日升冰茶旭日升冰茶汇源果汁旭日升冰茶;可口可乐可口可乐百事可乐露露可口可乐百事可乐丄可口可乐旭日升冰茶百事可乐汇源果汁汇源果汁汇源果汁可口可乐百事可乐旭日升冰茶因为Excel无法识别非数值型数据,所以为了用Excel建立饮料品牌的频数分布,首先需要将字符数字化。为此,通常的做法是将不同品牌的饮料用一个数字代码來表示。本例对各种品牌饮料指定的代码是:1.可口可乐2.旭日升冰茶3.百事可乐4.汇源果汁5.露露然后,将各品牌的代码输入到ExcelI作表屮。假定这里己将品牌代码输入到ExcelI作表中的B2:B51,这样就将定类数据转化为数值型数据。为建立频数分布表和条形图,Excel还要求将每个品牌的代码作为分类标志单独输入到任何一列,这里将代码输入到工作表的C4:C8(见表l-6)o这样,Excel就可以对数值小于或等于每一品牌代码的数据进行计算,提供的合计数就是各品牌的频数分布。下面是用Excel产生频数分布表和图形的步骤:第一步:在“工具”下拉菜单屮单击“数据分析”选项,从其对话框“分析工具”列表中选择“直方图”,回车打开其对话框(如图1.15,图1.16所示)。图1・15从对话框“分析工具”列表中选择“直方图”\n图1.16对话框的设置第二步:对命令对话框进行相应设置。本例“输入区域⑴”为B2:B51(请注意:是转换后代码的区域,而不是A2:A51字符的区域)「'接受区域(B)”为C4:C8,即分类标志的区域(注意:“接受区域(B)”不能为空且内容必须正确,即为分类标志。只有这样Excel才能识别任务,程序可以统计出数字“1”、“2”等分类标志的个数,即每一类别的个数;还可以统计岀小于等于数字“2”、“3”、“4”、“5”的个数,从而达到统计累积频率的目的)。在输出选项小可根据自己的需要确定,本例选择“输出区域(0)”并键入E1(意思是结果从本工作表E1位置开始输出结果)。选择“累积百分率(M)”(若不需要吋,此项可不选)和“图表输出(C)”,然后回车确定,结果见表1・6。表1-6频数分布结果CA品牌名称旭日升冰茶4567旭日升冰茶可口可乐百事可乐]可口可乐丄汇源果汁91011121314151617181920可口可乐可口可乐可口可乐旭日升冰茶可口可乐百事可乐_旭日升冰茶旭日升冰茶百事可乐_可口可乐B代码2521314112345接受区威1E1F1G「接收频率累积%11530.00%21152.00%3970.00%4682.00%59100.00%—0100.00%匚二|频率—■—累积%旭日升冰茶为了把输出结果转化为易读的形式,应将结果进一步修改和修饰。这里可以将频数分布\n表中的“接收”用描述性标题“饮料品牌”来代替,将“频率”改为“频数”(输出结果的频率实际上频数),将品牌的代码1,2,3,4,5用相应品牌的名称可口可乐、旭日升冰茶、百事可乐、汇源果汁、露露來代替。并将“具他”行(Excel的一个固定输出形式)去掉,换以相应的“合计”内容,结果见表1-7(这里提醒读者的是,因为表1・6输出结果屮,频数分布表和频数分布图为一个相关联的整体,所以当对频数分布表进行修改时,分布图也会相应的变化。如:将品牌的代码1,2,3,4,5用相应品牌的名称代替后,分布图中的分组标志也相应的变成品牌名称)。表1-7不同品牌饮料的频数分布|—ABC|D1饮料品牌频率比例累积(%)\2可口可乐150.300.303旭日生冰茶110.220.524百事可乐90.180.705汇源果汁60.120.8216露露90.1817合计501对于频数分布图,读者可以自己设计,如图形的背景、颜色、字体、朋标的刻度等。Excel可以很容易地绘制出漂亮的图形。需耍注意的是,初学者往往会在图形的修饰上花费太多的时间和精力,这样做得不偿失,也未必合理,或许会画蛇添足。图形的绘制应尽可能的简洁,以能够清晰地显示数据、合理地表达统计目的为依据。爱徳华-R•塔夫特(EdwardR.Tufte)在其著作77怡VisualDisplayofQuantitativeInformation(1983)中使用"图优性"(graphicalexcellent)來描述一个好图。图优性是指图能够在最短的时间内,用最少的笔墨,在授小的空间里给观众最多的思想。在他看来,一个好图能够把复杂的思想在图屮清楚、准确、有效地表达出来(转摘自:贾俊平编著,《统计学》第62页,中国人民大学出版社,2003)。第四节数值型数据的整理与显示上一节介绍了品质数据频数分布的制作,本节将介绍一些统计中常用到的数值型数据的整理与显示方法。一、数值型数据的分组与图示数值型数据包描定距和定比数据,在整理时通常要进行数据分组,就是根据统计研究的需要,将数据按某种标准化分成不同的组别。分组麻再计算出各组屮出现的次数和频数,就形成了一张频数分布表。下面结合具体的例子来说明,表1-8是某生产车间50名工人日加工零件数(单位:个),采用等距分组的形式制作频数分布表和分布图。在使用Excel前,首先需要明确分几组,组距以及每组的上下组限。一般情况F,可以按Sturges公式来确定纽•数K:K=l+如其中,n为数据的个数,对结果用四舍五入的办法取整即为组数。Lg2组距是一个组的上限和卜•限的差,可根据全部数据的最大值和最小值及所分的组数来确定,即纽距二(最人值一最小值)一组数。本例假定根据上述方法分为五组,组距为10:100-110;110-120;120-130;130-140;140-150o\nABCDE1148116128125129121401091231371193127132114107124[41201351081131305110129132123118[6104123124140107713211012013711318135108125119122912914811611912810123135118127114与品质数据一样,使用“数据分析”屮的“直方图”工具来制作频数分布。首先,需要给定数据的“输入区域”和“接受区域”。这里的“接受区域”相应的变为分组标志,但是由于Excel不能识别非数值型字符,所以不能把100-110,110-120,120-130,130-140,140-150输入一列作为“接受区域”,程序规定只能把上组限值作为分组标志,即110,120,130,140,150o需要强调的是在制作频数分布的时候,山于和邻两组的上下组限重叠,为了避免重复,通常采用“上组限不在内”的原则。由于Excel无法识别这一原则,但为了与通常的做法相一致,需要将上组限都减去1,即分组标志变为:109,119,129,139,149(读者可以自己思考一下程序的运行原理)。假定已将样木数据和分组标志输入到相应的位置(如表1・9所示),步骤同第三节品质数据的频数分布制作相同(这里做简单介绍)。表1・9生产车间50名工人加工零件数和分组标志单位:个1A1BLc1D1E1日产零件数2148分组标志3140109]4127119X接受区域5120129S,6110139[7104149181329以下省略笫一步:在“工具”下拉菜单中单击“数据分析”选项,从英対话框“分析工具”列表中选择“直方图”,回车打开具对话框。第二步:在“直方图”对话框的“输入区域(I)”输入A1:A51,“接受区域(B)”输入C2:C7,这时还需要单击选定“标志(L)”复选框(请读者白己思考为什么?)。第三步:在输出选项中,本例在“输出区域(O)”中键入D1,同时单击“累积百分率(M)”和“图表输出(C)”复选框。冋车确定即可,结果输出见表l-10o\nA1B「c—1D1E1F|1日产零件数分组标志频率累积%I2148分组标志109612.00%|31401091191338.00%41271191291874.00%5120129139992.00%61101391494100.00%7104149其他0100.00%|81321同样,为了把输出结果转化为易读的形式,应进一步修改表格和修饰图形。如下表1-11所示,把分组标志转换为标准、易懂的形式。同时,如上节所述,分布图的标志随着频数分布表的修改和丿应变化(读者可白己验证)。表1・11日产零件的频数分布ABC11分组频率累积百分比12100-110612.00%|3110-1201338.00%]|4120-1301874.00%]5130-140992.00%|6140-1504100.00%]|二、多变量数据的显示(雷达图)在本章的最后,介绍多变量数据的图示。当研究的变量只有2个时,可以在平血直角他标屮进行绘图;当有3个变量时,可以在三维坐标里绘图,但让人看起來很不方便,特别是当变量多于3个时,利用一般的点图方法就很难做到了。为此,人们研究了许多多变量的图示方法,其小有雷达图、脸谱图、星座图、连接向量图等。这里只介绍较为常见的雷达图。雷达图具体的做法是:先做一个圆,然后将圆P等分(要绘制P个变量的雷达图),得到P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的处标轴,每个变量值的大小山半径上的点到圆心的距离表示,再将同-•样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。1011121314151617181920129123116109132135129123110108148分组标志】频率-累积%雷达图在显示或对比各变量的数值总和时「分有用。假定各变量的取值具有札I同的正负号,则总的绝对值与图形围成的面积成正比。另外,利用雷达图可以研究样本Z间的相似程度,两个样本形成的多边形图越相似其相似程度越高。\n下面以2000年我国城乡居民家庭人均各项生活消费支出比重数据为例,绘制雷达图。如表1・12所示。表1・1220()()年城乡居民家庭人均生活消费支出比重(%)A1B1c11项目农村居民城镇居民2食-品49.3039.1813示着5.7510.0174家庭设备用品及服务4.528.79J5医疗保健5.246.366交通通讯5・587.907娱乐教育文化服务11.1812.568居住15.4710.019杂项商品与服务3.145.17|第一•步;选中数据所在的区域,本例为A1:C9«单击工具栏上的“图表向导”按钮,或者从“插入”菜单中选择“图表”选项。第二步:在弹出的对话框(图表向导一4步骤之1—图表类型)中,选择雷达图。如图1.17所示。第三步:点击卜•一步,在弹出的对话框(图表向导一4步骤之2—数据來源)屮,按默认设置(因为在第一步中,我们已经选屮数据区域)点击下一步,在弹出的对话框(图表向导一4步骤Z3—图表选项)中进行相应设置。图表选项设置是我们制图过程中的关键步骤,可以在其屮加图表标题,设置网格线、图例和数据标志。如图1.18所示(读者可H行体会)。笫四步:点击下一步,在弹出的对话框(图表向导一4步骤之4—图表位置)中,点击完成即讥结果如图1.23所示。这里需耍说明的是图1.23的输出结果是经过进一步修改得到的。在点击完成按钮示我们看到的图形很粗糙、模糊,共至很难看,这时需要我们对图形(图表区和绘图区)进行拖拉,将其显示清楚,然后进行美观设置。通常情况下,初次输出的图表字体、数字字号比较大并且坐标轴的刻度稀疏,需要对坐标轴格式、分类标,忐格式进行修改,其方法很简单只需在修改处点击鼠标右键即可。另外,如果我们在作图过程中冇些步骤的设置不合适,在图形输岀后还叮以返回进行修改。具体做法也很简单在图表区域点击鼠标右键,在弹出的菜单中选择图表类型、数据来源或图表选项即可(读者可自己体会)。\n图1.18图表选项图表含导-4步委之1-图表类型标准类型I自定义类型丨图表类型©:子图表类型①:形形线图柱条折饼座•◎窗彥!::按卞不预可查着羞例寸叵取消|〈上一步K)|下一步>|完成①|图1.17图表类型图1.23雷达图输出上面介绍了雷达图的貝体做法,其实在Excel中作图的步骤大体都相同,所以其他图形的制作,如品质数据图示经常用到的条形图、饼形图等,这里不再重复,读者町口行体会。最示需要强调的是:图形的绘制以简洁、清晰地显示数据、合理地表达统计思想为目的,不要在图形的修饰上花费太多的时间和精力。\n数据分布特征的测度对数据分布特征主要从三个方面进行测度和描述:一是分布的集屮趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。第一节函数的介绍本节主耍介绍在统计分析中需耍用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数佔计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。一、统计计算中经常用到的函数(函数列表)*Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文木函数、时间和口期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需耍。具屮,统计函数最多达78利|;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112利5下而将这些函数名称及功能列表显示。表2・1可用于统计分析的函数函数名称函数功能介绍一、统计函数1、用于数据整理的函数求分组数据的频数FREQUENCY2、用于描述统计的函数MODE求一组数据的众数MEDIAN求一•组数据的中位数AVERAGE求一组数据的均值AVERAGEA求数据清单中数据的均值HARMEAN求调和平均数GEOMEAN求儿何平均数TRIMMEAN求去掉最大值和最小值的平均数MAX求一组数据中的授大值MAXA求数据清单屮包含逻辑值和字符串的最人值MIN求一•组数据中的最小值MINA求数据清单屮包含逻辑值和字符串的最小值LARGE求一组数据屮第K个最人值SMALL求一组数据屮第K个最小值QUARTILE求一组数据屮的四分位数AVEDEV求样本数据与其均值的平均离差DEVSQ求样本数据为其均值离差的平方和STDEV求样木标准差本小节摘自:安维默主编,《统计电算化》第34~37页,中国统计出版社,2000\nSTDEVASTDEVP求包含逻辑值和字符串的样本标准差求总体标准差表2-1可用于统计分析的函数(续1)函数名称函数功能介绍STDEVPA求包含逻辑值和字符串的总体标准差VAR求样本方差VARA求包含逻辑值和字符串的样本方差VARP求总体方差VARPA求包含逻辑值和字符串的总体方差KURT求一组数据的峰度SKEW求一组数据的偏度3、用于概率分布的函数BINOMDIST求二项分布的概率NEGBINOMDIST求负二项分布的函数值CRITBINOM求累积二项分布大于或等于临界值的最小值PISSON求泊松分布的概率NORMDIST求非标准正态分布的累积函数NORMINV求非标准正态分布累积函数的逆函数NORMSDIST求标准正态分布的累积函数NORMSINV求标准止态分布累积函数的逆函数STANDARDIZE求Z分布的正态化数值LOGNORMDIST求对数止态分布的累积函数LOGINV求对数正态分布累积函数的逆函数HYPGEOMDIST求超儿何分布的概率BETADIST求0分布的累积函数BETA1NV求0分布累积函数的逆函数GAMMADIST求7分布的累积函数GAMMAINV求7分布累积函数的逆函数GAMMALN求y分布累积函数的自然对数EXPONDIST求指数分布WE1BULL求韦伯分布PROB求指定区域内事件对应概率之和PERMUT求从数据集合小选取若T•对象的排列数4、用于区间估计的函数CONFIDENCE求总体均值的置信区间5、用于假设检验的函数CHIDIST求/分布的单尾概率CHIINV求/分布单尾概率的逆函数CHITEST求z2分布的统计量和相应的自由度ZTEST求Z检验的双尾概率TD1ST求t分布TINV求t分布的逆函数TTEST求t检验的概率值FDIST求F分布\nFINVFTEST求F分布的逆函数求F检验的单尾概率表2-1可用于统计分析的函数(续2)函数名称函数功能介绍6、用于方差分析的函数COVRB求协方差7、用于相关和回归的函数CORREL求相关系数PEARSON求皮尔逊乘积矩相关系数RSQ求皮尔逊乘积矩相关系数的平方FISHER求费雪变换值(用于相关系数的假设检验)FISHERIVE求费雪变换的逆函数LINEST建立直线方程INTERCEPT求直线方程的截距SLOPE求直线方程的斜率FORECAST求线性趋势值(预测值)TREND求线性趋势值(预测值)STEYX求趋势值的标准误差LOGEST建立指数Illi线方程GROWTH求指数曲线趋势值(预测值)8、其他统计函数COUNT求数组中数据的个数(只计算数字型数据)COUNTA求数组中数据的个数(包含逻辑值、文本值等)RANK求某一数值在一组数据中的排位PERCENTRANK求某一数值在一组数据屮的百分比排位PERCENTILE求数组的K百分比数值点二、数据库函数DCOUNT计算数据库中符合指定条件并含冇数字的单元榕数DCOUNTA计算数据库小符合指定条件的非空单元格数DGET从数据库中抽収一个符合指定条件的记录SUBTOTAL将数据清单、数据序列和数据库中的数据分类汇总DSUM计算数据库中符合指定条件的记录字段数值Z和DPRODUCT计算数据库中符合指定条件的记录字段数值的乘积DAVERAGE计算数据库小指定项目的平均数DMAX从数据库指定项目中求最大值DMIN从数据库指定项冃中求最小值DSTDEV从数据库屮指定项目求样木标准差DSTDEVP从数据库中指定项目求总体标准差DVAR从数据库中指定项目求样本方差DVARP从数据库小指定项目求总体方差SOLREQUEST链接外部数据,从中查找数据,以数组形式求结果三、统计中常用的数学函数SUM对一组数据求和\nSUMIFPRODUCTQUOTIENT将符合条件的数据求和参数相乘求两数相除的整数部分表2・1可用于统计分析的函数(续3)函数名称函数功能介绍MOD求两数相除的余数POWER求数值的乘幕SQRT求数值的平方根RAND求0〜1之间的随机数RANDBETWEEN求指定两数之间的随机数COMBIN求指定对彖数冃的组合数COUNTIF求符合指定条件区域的非空单元格数FACT求某数的阶乘LN求某数的白然对数LOG求某数以指定底数为底的对数LOG10求某数以10为底的对数SUMPRODUCT求两组对应元索乘积之和工小SUMSQ求参数的平方和工十SUMXMY2求两数组对应值之差的平方和为(X-刃2SUMX2MYS求两数组对应值平方差Z和》(F-y2)SUMX2PY2求两数组对应值平方和Z和工(*+严)二、函数的使用1、函数的语法工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和AVERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“二SUM(327,209,176)”中的SUM两数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格屮输入使川的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号Z间输入了空格或其他字符,那么Excel会显示错谋信息“MicrosoftExcel在公式屮发现了错谋。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值#NAME?。如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“二PRODUCT(C1,C2,C5)”告诉Excel将单元格Cl,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表屮包括任意数目单元格的区域。例如,函数“=SUM(Al:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从Al到A5的所有单元格,依此类推)。反过来,弓I用的单元格屮也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式來执行功能强大的各种操作。2、函数的输入对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相同,首先输入一个号,然后将函数的正确形式输入即可。例如:“=SUM(B2:B5)”等。\n对于一些复杂或参数较多的函数,其形式难以记忆,可用“粘贴函数”对话框。其步骤如下:第一步:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮〔齐,来显示对话框(见图2.1)。第二步:从对话框左侧的“函数分类”列表中选择所需要的函数类別(表中除前述10类函数外,还有“常用”和“全部”两项);从対话框右侧的“函数名”列表中选择所需要的*1数,单击确定或回车确认,屏幕上岀现该函数的对话框。本例从“统计”函数分类屮,选择AVERAGE(平均数函数),如图2.2所示。粘贴函数?1函数分类©:常用函数全部财參日期与时间数学与三角函数函数名®:『库环据本辑息三数文逻信一2dJWERAGEABETADISTBETAINVBINOMDISTCHIDISTCHIINVCHITESTCONFIDENCECORBELAVERAGE(numberl,number2?...)计算参数的算术平均数;参数可以是数值或包含数值的名称s数组或引用.职消图2.1粘贴函数对话框图2.2AVERAGE函数对话框图2.2AVERAGE函数对话框包括两个参数,即等价于公式“二AVERAGE(A1:A5,C2:C5)”,对9个单元格的数据进行求平均数。在此对话框中,所选函数的每个参数均冇相应的编辑框。如果函数参数较多,对话框会在输入可选参数时自动进行扩展。对话框底部会显示对编辑框屮当前所包含插入符的参数描述。每个参数编辑框右边的显示区域将显示参数的当前值。对话框底部会显示函数的当前值,如本例计算结果为8。需婆说明的是参数多少的选择要根据悄况而定,本例使用了两个参数(A1:A5,C2:C5),原因是这两个数据区域不相连,如果将这两组数据放在一列,则只需一个参数。\n当然,由于不同的函数功能不同,所以在使用屮参数的形式可能也不同,这里就不逐一列举。读者在具体的使用中也可以借助Excel的帮助功能。第二节数据分布特征测度函数的使用本节就描述统计中对数据分布特征的测度,所用到的函数做具体的说明。本节以某电脑公司2002年前4个刀各天的销售量数据(单位:台)为例,见表2・2。表2-2某电脑公司2002年前4个月各天的销售量ABCDEFGH|1|JII123415918715517218318217716315821431981411671942251771891962033187160214168173178184209176188416115214921119623418518919620651501611781681741531861901601716228162223170165179186175197208715316321818017514417819119719281661961791712331791871731742109154164215233175188237194198168101742261801721901721871892002111115616517521020718120519520117212203165196172176182188195202213一、集中趋势的测度集小趋势的测度值有:众数、屮位数、简单均值、调和平均数与儿何平均数。在Excel屮用函数求这些测度值,可以打开函数的对话框操作,也可以肓接输入包含函数的公式。1、众数众数是一组数据中出现次数最多的变量值,用Mo表示。具体做法如前所述:选中某个单元格并选择“插入”菜单中的“函数”命令,或者单击“常用”工具栏上的“粘贴函数”按钮一斤,从弹出的对话框左侧“函数分类”列表中选择“统计”,从右侧“函数名”列表中选择MODE函数,回车进入MODE函数对话框(如图2.3所示)。图2.3MODE函数对话框在对话框的“Number1"框中输入原始数据所在的单元格区域,本例为A1J12;完成以上操作后在对话框底部给出计算结果,本例为172(台);单击“确定”按钮,计算结果自动计入指定位置。如采取直接输入带两数的公式计算,可单击任一空单元格,输入“二MODE(A1:J12)”回车确认,可得出同样的结果。\n2、中位数中位数是一组数据排序后,处于屮间位置上的变量值,用Me表示。采取直接输入带函数的公式计算,单击任一单元格,输入“=MEDIAN(A1:J12)”,回车确认,即得出结果182(台)。3、均值(1)简单均值对于简单均值,单击任一空格,输入“二AVERAGES1:J12)”,冋车确认,即可得出结果184.56。(2)调和平均数各变量值倒数的平均倒数,称为调和平均数,用Hm表示。在Excel-K调和平均数也可以用函数求得,但只适用于简单的计算。例如:有甲、乙、丙三种蔬菜,每种蔬菜的价格分别为每斤0.5、0.8和0.9元,现在各买1元钱的每种蔬菜,计算平均价格,就是一个求调和平均数的问题。用求调和平均数函数HARMEAN计算,单击任一单元格,输入“二HARMEAN(0.5,0.&0.9)”,回车确认,结果为0.688(元)。(3)几何平均数n个变量值乘积的n次方根,称为几何平均数,用Gm表示。儿何平均数的计算公式为:Grn=VX1=n式中,□为连乘符号。V/=i几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当我们所学握的变量值木身是比率的形式,这时就应采用儿何平均数计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。例:某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与200()年相比增长率为16%,2002年与2001年相比为20%。求各年的平均增长率。在Excel小求儿何平均数,非常简单,单击任一单元格,输入“=GEOMEAN(0.09,0.16,0.20)”,回车确认,其结果为14.2%。二、离散程度的测度离散程度的测度值主要有:异众比率、极值、四分位差、标准差、方差。这里就数值型数据离散程度的函数测度做简单介绍。1、极值在Excel屮求极值町用MAX和MIN函数求最大值和最小值,然后求其差值。单击任一单元格,输入“=MAX(A1:J⑵一MIN(A1:J⑵”,即得出其值为96。2、四分位差上四分位数与下四分位数Z差,称为四分位差,也称为内距或四分间距,用Q表示。四分位差的计算公式为:Qd=Qu-Qi其小,Q“表示上四分位数,Q表示下四分位数。四分位差反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,一定程度反映了中位数对一组数据的代表程度。在Excel-I'求四分位差,可川QUARTILE*|数。按前面所述的步骤,打开QUARTILE函数对话框,如图2.4所示。\n图2.4QUARTILE函数对话框其屮,“Array”框要求输入数据所在的区域,“Quart”框决定返I叫那一个四分位值。Quart的取值范围为[0,4J,具体來讲:♦值为0,表示最小值;♦值为1,下四分位数;♦值为2,中位数;♦值为3,上四分位数;♦值为4,最大值♦值不为整数,将被截尾取整。所以,要计算四分位差,可分别在Quan对话框屮输入3、1,然后将返回的上、下四分位数作差。本例也可以单击任一单元格,输入“二QUARTILE(A1:J12,3)—QUARTILE(A1:J12,1)”,即可得到结果为43.25(台)。3、标准差和方差方差和标准差是数值型数据测度离散程度的最主要测度值。各变量值与其均值离差平方和的平均数,称为方差。方差的平方根,称为标准差。通常情况下,总体方差用,表示,函数形式为VARP;总体标准差用c表示,其函数形式为STDEVP;样木方差用S?表示,函数形式为VAR;样木标准差用S表示,其函数形式为STDEVo本例如果要求样本方差和样本标准差,可单击单元格在其中输入“二VAR(A1:J12)”或输入“=STDEV(A1:J⑵”,即可得到样本方差或样本标准差,分别为470.05,21.68(台)(注意标准差有量纲)。三、偏态与峰态的测度集中趋势和离散程度是数据分布的两个重要特征,但要全而了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。“偏态”一词是由统计学家Pearson于1895年首次提出的,是对数据分布对称性的测度,其测度值称为偏态系数(SK),测度函数为SKEWo如果一组数据的分布是对称的,则偏态系数等于零;偏态系数人于零,为右偏分布;偏态系数小于零,为左偏分布。本例在任一单元格输入“二SKEW(A1:J12)”,可得到偏态系数为0.41,为右偏分布。“峰态”一词是由统计学家Pearson于1905年提出的,是对数据分布平峰和尖峰程度的测度,其测度值称为峰态系数(K),测度函数为KURT。峰态系数是通过与标准正态分布的峰态系数比较而言的。山于标准正态分布的峰态系数为0,当K>0时为尖峰分布;当Kv()时为扁平分布。需要注意的是,有的教课书屮其峰态系数计算公式没有减3,所以把标准正态分布的峰态系数作为3,当K>3时为尖峰分布;Kv3时为扁平分布。在Excel计算过程中,以零为比较对彖。\n本例在任一单元格输入“=KURT(A1:J12)”可得到峰态系数为一0.22,为扁平分布。第三节描述统计工具的使用上面介绍了数据分布特征的各种函数测度值,其屮多数可以通过Excel“数据分析”选项中的“描述统计”命令得出计算结果。仍以表2-2为例,其步骤如下:一、将数据输入到Al:A120区域中,在“工具”下拉菜单中单击“数据分析”选项,从其对话框“分析T具”列表中选择“描述统计”,I叫车进入“描述统计”对话框。如图2.5所示。图2.5“描述统计”对话框二、在“输入区域⑴”框中输入“Al:A120”,如果需要指出输入区域的数据是按行或按列排列的,可在“分组方式”后面单击“逐行”或“逐列”选项。选择“逐列”后,如果笫一行为标题行,则要单击“标志位于笫一行(L)”的复选框。在输出选项中,本例选择“输出区域(O)”,输入“C2”;选择“汇总统计(S)”,可给出一系列描述统计测度值;选择“第K个人值(A)”或“第K个小值(M)”,其右侧框屮将显示默认值“1”,即要求给出数据中第1个最大值或最小值。如输入“2”,则要求给出数据中2个最大值或最小值;选择“平均数置信度(N)”是指用样本平均数估计总体平均数的可信程度。如选择此复选框,则其右侧框中将显示默认值95%,如认为不合适,可自己调整。以上各项选定后,回车确认,即可在指定输出区域得到描述统计各测度值的结果,见表2-3\n1A|BICID12342143歹虹31874161平均184.56675150标准误差1.9791546228中值182)7153模式196|8166箱隹偏差21.680549154样本方差470.045910174峰值-0.2243611156偏斜度0.4052851220396]13159最小值141114198最大值237]15160隶和22148|16152计数12017161最大⑴237]18162最小⑴14119163置信度(95.0%)3.91891720196故后对表2-3的输出结果做部分解释:♦“平均”指样木均值。♦“标准误差”指样本平均数的“抽样误差”,即样本标准差除以样本单位数的均方。♦“中值”即中位数。♦“模式”即众数。♦“标准偏差”即样木标准差。“区域”即极差,最大值减最小值\n我们需要不断的学习,丰富我们的知识面,学到老,是我们良好的生活态度!查看更多