统计学之资料整理

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

统计学之资料整理

本资料来源\n第三章资料整理统计调查统计整理统计分析有组织、有计划地搜集资料。要求:准确、完整、及时对调查资料去伪存真、去粗取精、科学分类、浓缩简化描述性分析推断分析、决策分析。要求:定性定量结合统计工作的三个中心阶段\n本章主要内容第一节资料整理概述→第二节统计分组→第三节次数分布数列→第四节统计表和统计图→\n第1节资料整理概述主要任务资料审核、分组、汇总、制表、制图等。分组频数分布统计表统计图\n1.统计资料整理它是指将大量的个体单位的原始资料,进行科学性的分类、汇总,使其系统化、条理化,可以有效地展示,为下一阶段的统计分析作准备的过程。2.资料整理的内容(1)统计资料审核;完整性审核、正确性审核(2)统计资料分组;(3)汇总;(4)编制统计图表;(5)资料积累。\n3.数据的预处理(1)数据的审核;完整性审核、及时性审核、正确性审核次级资料的审核(2)资料审核后的订正。\n4.资料整理方案的设计(1)确定汇总指标与综合表;(2)确定分组方法;(3)选择资料汇总的形式;(4)确定资料的审查内容与方法。返回\n它是根据统计研究的目的和任务,按照某种标志,将总体区分为若干部分的一种统计方法。第2节统计分组统计分组的两层涵义;统计分组的基本原则;资料整理的重要环节。什么是统计分组?\n分组P57分组前分组后25%33%42%1.划分现象类型作用:例:按所有制性质划分,分为公有经济和非公有经济。公有经济包括国有及国有控股经济和集体经济;非公有经济包括私营经济、个体经济、联营经济、股份制经济、外商投资经济、港澳台投资经济等。\n2.揭示现象内部结构例:上海市按GDP计算的三次产业结构(%)1978年1990年2000年2021年GDP100100100100第一产业4.034.311.830.76第二产业77.3663.8147.5439.86第三产业18.6131.8850.6359.383.分析现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数(1984年)按收入分组(元)<200<300<400<500<600<800<1000恩格尔系数(%)64.960.256.754.450.549.943.6\n恩格尔系数介绍(由德国统计学家恩格尔的定律而得)反映人民生活水平类型的指标,用家庭或个人食品支出总额占消费支出总额比重计算。30%以下30%~40%40%~50%50%~60%60%以上最富裕水平富裕水平小康水平勉强度日水平(温饱)绝对贫困水平2000年,我国居民的恩格尔系数首次低于50%。\n最新的调查统计显示,长三角地区15个城市居民生活水平相对较高。上海市统计局城调队提供的数据表明,2003年,15个城市的恩格尔系数继续走低,全部降到35%至43%之间,其中有10个城市恩格尔系数降到40%以下。因此,长三角地区15个城市中,已有六成以上的城市居民过上富裕生活。广东顺德恩格尔系数跌破30%成为全球最富裕地区之一。(新华网2004年08月02日)\n分组标志的选择与分组形式1、正确选择分组标志的原则:形式按分组标志性质分品质标志分组数量标志分组按分组标志个数分简单分组复合分组分组体系(1)根据研究问题的目的来选择分组标志;(2)要选择最能反映被研究现象本质特征的标志作为分组标志;(3)要结合现象所处的具体历史条件或经济条件来选择分组标志。2、分组的形式返回采用一系列相互联系、相互补充的标志对现象进行多种分组,这些分组结合起来构成的一个体系称为分组体系。\n第3节次数分布数列是一种重要的分组资料,反映总体单位在各组的分布状态。基本形式:分组单位数(频数)频率(%)或比重合计………100频数分布频率分布\n分类品质数列变量数列单项数列组距数列等距数列异距数列例例例例变量数列的编制1.计算全距初步分析全距(R)=变量的最大值-变量的最小值2.估算组数与组距3.定上下限组数:K=R/IR为全距,I为组距\n变量数列的编制2.组限的确定与归类1.确定形式单项数列:离散型且取值不多。组距数列:离散型且取值多或连续型。连续变量、离散变量的组限重合式归类:上限不在内组限(上限和下限):一组的最大值和最小值。开口组具体问题\n变量数列的编制3.组距的计算4.组中值的计算组距=上限-下限离散变量组的组距:组距=上组的下限-本组的下限开口组的组距怎么办?组中值=(上限+下限)/2缺上限的组中值=下限+(邻组组距/2)缺下限的组中值=上限-(邻组组距/2)\n累计次数分布表和分布图某班统计学成绩的累计次数分布表\n累计次数分布表和分布图某班统计学成绩的累计次数分布折线图较小制累计次数分布折线较大制累计次数分布折线\n第4节统计表和统计图构成总标题横行标题:统计研究的对象。也称主词。纵栏标题:说明主词的指标名。也称宾词。数字资料分类主词简单表(表3-8)简单分组表(表3-7)复合分组表(表3-9)宾词平行形式复合(交叉)形式(表3-10)编制统计表注意点:P69统计表→\n企业按所有制形式分组企业数工人总数性别工龄男女1年以下1~3年3~5年5~10年10年以上国有单位集体单位合计某地区工业企业的工人性别和工龄平行形式\n统计图直方图图3-4折线图曲线图等距数列:(组中值,频数)异距数列:(组中值,频数密度)单项数列:(变量,频数)较小累计分布:(变量上限,累计频数)较大累计分布:(变量下限,累计频数)→变量的组数无限增多时,折线便趋于一条光滑的曲线。P72图3-5图形\n条形图书P71饼形图书P71象形图书P73\n分布类型1、正态分布(也叫钟型分布):对称和偏态特征:两头小,中间大。图→2、U型分布特征:两头大,中间小。图→3、J型分布:正J型和反J型特征:一头大,一头小。图→返回本章结束!\n某厂职工人数统计表按性别分组男职工女职工合计人数(人)(频数)比率(%)(频率)25311536868.7531.25100.00返回\n某厂职工家庭人口分组统计按家庭人口分组1合计职工户数(频数)比率(%)(频率)7返回23456381055431202.915.241.320.512.18.0255100.0\n某小区居民家庭人均月消费性支出分布表返回人均月消费性支出(元)家庭数(户)450以下5450~65021650~85023850以上8等距数列\n我国土地状况分组表返回异距数列按地高分组(米)面积(万平方公里)占面积比重(%)500以下241.725.18500~1000162.516.931000~2000239.924.992000~300067.67.043000以上248.325.86合计960.0100.00《中国统计年鉴1998》\n上海市总人口数年份1980年末总人口1147返回年份年末总人口1985198819912002200320042005200620072021202112171262128713341342135213601368137913911397\n返回\n返回\n返回\n返回
查看更多

相关文章

您可能关注的文档