- 2022-09-01 发布 |
- 37.5 KB |
- 93页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
《统计学与数据》PPT课件
什么是统计学?1.数据搜集:例如,调查与试验2.数据整理:例如,分组3.数据展示:例如,图和表4.数据分析:例如,回归分析统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识.\n普遍存在一种错误观念,认为统计学家只不过是“数据蛀虫”,或者说是一些计算和整理诸如NBA篮球手的平均得分数或失业率这种数字的人。统计学诚然涉及数字,但它包含的内容要比数字广得多.按照1994年版《兰登书屋大辞典》(ZheRandomHouseCollegeDictionary)中的解释:统计学是一门“对数据进行收集、分类、分析和解释的科学。”简单地说,统计学是关于数据的科学,是一门能使你成为熟练的数据生产者和高效率的数据使用者的科学。什么是统计学?\nStatistics的定义(不列颠百科全书)Statistics:thescienceofcollecting,analyzing,presenting,andinterpretingdata.统计学:收集、分析、呈现、而且解释数据的科学Copyright1994-2000EncyclopaediaBritannica,Inc.(不列颠百科全书)\n统计学是关于数据的科学,其内容包括数据的收集、分类、汇总、组织、分析和解释。1.收集数据CollectingData例,问卷调查Survey2.演示数据PresentingData例,图表Charts&Tables3.刻划数据CharacterizingData例,平均值Average4.分析数据DataAnalysis\n统计数据的内在规律(一些例子)正常条件下新生婴儿的性别比为107:100.投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6农作物的产量与施肥量之间存在相关关系\n统计数据的内在规律(你知道的例子—讨论)潘长江的女儿比他高还是矮?姚明之子或女比他矮还是高?(英文发音:要命)----------回归平均数从大量实验(观察)数据中利用统计方法探索内在数量规律\n统计方法统计方法描述统计推断统计参数估计假设检验\n描述统计内容搜集数据整理数据展示数据目的描述数据特征找出数据的基本规律02550Q1Q2Q3Q4¥x=30s2=105\n描述统计电冰箱消费者对广告宣传途径的效果评价?数据搜集整理描述显示您觉得哪种类型的广告宣传效果最好?(仅选一项)1.电视2.网络3.杂志4.报纸5.路牌6.宣传页电视1120.56056.0网络510.25525.5杂志90.0454.5报纸100.0505.0路牌20.0101.0宣传页160.0808.0广告类型人数(人)比例频率(%)\n推断统计内容参数估计假设检验目的对总体特征作出推断样本总体\n描述统计与推断统计的关系反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(包括分布理论、大数定律和中心极限定理等)描述统计(统计数据的搜集、整理、显示和分析等)总体数据样本数据统计学探索现象数量规律性的过程\n统计学:数学之子?统计学与数学的关系?\n统计学与数学的关系(联系)统计学运用到大量的数学知识;数学为统计理论和统计方法的发展提供基础不能将统计学等同于数学。\n统计学与数学的关系(区别)数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据统计学与数学研究中所使用的逻辑方法不同数学研究所使用的主要是的演绎。统计学则是演绎与归纳相结合,占主导地位的是归纳。\n一、统计测量尺度\n一、统计测量尺度㈠统计测量尺度的概念与种类㈡统计测量尺度的作用㈢测量层次与测量尺度的正确应用\n数据的四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度\n定类尺度(概念要点)计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有=或的数学特性\n定序尺度(概念要点)对事物分类的同时给出各类别的顺序比定类尺度精确未测量出类别之间的准确差值数据表现为“类别”,但有序具有>或<的数学特性\n定距尺度(概念要点)1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性\n定比尺度(概念要点)1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有或的数学特性\n四种计量尺度的比较四种计量尺度的比较定类尺度定序尺度定距尺度定比尺度分类(=,≠)排序(<,>)间距(+,-)比值(×,÷)√√√√√√√√√√计量尺度数学特性“√”表示该尺度所具有的特性\n测定层次特征运算功能举例1、定类尺度2、定序尺度3、定距尺度4、定比尺度分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点计数计数;排序计数;排序;加减计数;排序;加减乘除产业分类企业等级产品质量差异商品销售额\n数据类型与统计方法数据类型与统计方法定类数据定序数据品质数据数量数据定距数据定比数据参数方法非参数方法\n变量及其类型变量定序变量离散变量连续变量定类变量数字变量\n计量统计数据的类型按计量层次按收集方法按时间状况分类数据顺序数据数值型数据观测数据实验数据时间序列数据截面数据\n统计测量尺度的种类:定类测量(尺度、指标)定序测量(尺度、指标)定距测量(尺度、指标)定比测量(尺度、指标)\n定类尺度按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。\n性别种族运动项目\n定序尺度按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。定序变量或指标各类别间有高低优劣之分,不能随意排列。\n>>-≠-≠≠大学生中学生小学生\n定距尺度按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。\n温度天气预报:沈阳:最高温度3℃,最低-7℃大连:最高温度6℃,最低-2℃两地最高温度相差3℃沈阳最低温度较大连最低温度低5℃大连最高温度是沈阳最高温度的2倍\n纪年公元2000年公元元年黄帝4491年黄帝4698年黄帝4711年黄帝元年时间起点?公元2000年\n1970年出生30岁1985年出生15岁甲乙二人年龄之差:1985-1970=15岁或30-15=15岁二人年龄之比:30÷15=2(倍)1985÷1970=1.0076(倍)\n年轻的女士女士回答:具体年龄我记不清了!但我记得我和我丈夫从小青梅竹马,他6岁时,我才2岁,他的年龄是我的3倍!现在他90多岁了,90/3=30,我想我现在大概30多吧!您今年多大了?\n定比尺度按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。定比变量或指标确切的值也以数字表述,有计量单位,可以加减,定比变量或指标有绝对意义上的零点,既可以加减,可以乘除运算。\n零高度零重量零体积零面积零人口零产量零资产真正的零:一无所有绝对的零定比尺度:以地平面为标准测量的高度!\n温度零度重力势能mgh零横坐标公元零年时间零点年龄大小?名义上的零不表示没有相对的零定距尺度:以桌面为标准测量的高度!\n《统计学》第二章统计数据注意在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。Nominal定类测量定类尺度Ordinal定序测量定序尺度Scale定距定比测量尺度\n一、统计测量尺度㈠统计测量尺度的概念与种类㈡统计测量尺度的作用㈢测量层次与测量尺度的正确应用\n统计测量尺度的作用:第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法\n《统计学》第二章统计数据定类变量定序变量品质变量条形图圆形图\n定序变量定比变量茎叶图直方图频数表条形图圆形图\n典型的数据分析方法(部分)集中趋势离散趋势相关回归假设检验众数定类变量品质相关Q检验异众比中位数等级相关异众比2检验定序变量均值相关回归标准差Z、t检验定距变量均值相关回归标准差Z、t检验定比变量非参数统计参数统计\n一、统计测量尺度㈠统计测量尺度的概念与种类㈡统计测量尺度的作用㈢测量层次与测量尺度的正确应用\n对测量尺度层次的判断较低层次的测量尺度较高层次的测量尺度低测量精度高少计算方法多小信息数量大\n测量精度计算方法信息数量某甲某乙的生命现象甲、乙有生命很低不能计算,只能判断=、≠甲、乙有生命定类测量甲为中年人,乙为少年人。较低=、≠、>、<甲、乙有生命甲生命时间较乙长定序测量甲生于1940年、乙生于1985年。较高=、≠、>、<、+、-甲、乙有生命甲生命时间较乙长甲比乙大45岁定距测量甲60岁、乙15岁较高=、≠、>、<、+、-、×、÷甲、乙有生命甲生命时间较乙长甲比乙大45岁甲年龄为乙的4倍定比测量\n高层次低定类测量定序测量定距测量定比测量\n对于不同的现象,注意准确性宗教、种族、民族、性别、党派、国别、职业等等品质方面的差异定类测量定序测量定距测量定比测量×\n对于不同的现象,注意准确性你对圣亚海洋世界的评价定距以上的尺度不一定合适对于人的主观态度,定序尺度可能是最好的方法\n对数量差异的度量,注意层次定序测量定距测量定比测量文盲半文盲、小学、初中、高中、大专、大学本科、硕士研究生、博士研究生(定序测量)顺序性差异顺序性差异、绝对差异距离顺序性差异、绝对差异距离、相对差异对受教育程度的度量方法文盲半文盲博士研究生\n定序测量定距测量定比测量0年、6年、9年、12年、16年、19年、22年(定距测量)顺序性差异顺序性差异、绝对差异距离顺序性差异、绝对差异距离、相对差异对受教育程度的度量方法文盲半文盲博士研究生对数量差异的度量,注意层次\n对于指标体系,注意统一性一个指标体系中的指标应属于相同的测量尺度。实际值 标准值总资产贡献率15%10.7%资本保值增值率130%120%资产负债率60%60%全员劳动生产率20000元16500元成本费用利润率4.8%3.71%流动资产周转率1.8次1.52次产品销售率97%90%环保等级 优秀 良好\n\n二、数据收集方法\n二、数据收集方法㈠数据来源㈡统计调查组织形式㈢数据收集方法㈣数据收集误差\n(初级资料)原始数据源加工数据源(次级资料)政府统计、企业统计、民间统计等机构,数据库、出版物、账册等形式普通的数据使用者统计调查数据查询已存在数据源实验数据源对过程加以控制\n该页显示数据来源网页\n二、数据收集方法㈠数据来源㈡统计调查组织形式㈢数据收集方法㈣数据收集误差\n调查的组织形式调查者调查对象普查抽样调查重点调查典型调查报表制度\n总体单位调查单位\n总体单位调查单位普查对全部单位进行调查,也称全面调查,但调查工作量很大。\n总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。\n总体单位调查单位重点调查只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位)\n总体单位调查单位典型调查对典型单位进行调查,典型单位的选择并不一定按规模\n总体单位调查单位报表制度可以全面调查,但通常是调查限定规模以上的总体单位\n二、数据收集方法㈠数据来源㈡统计调查组织形式㈢数据收集方法㈣数据收集误差\n数据的收集方法调查者被调查者直接观察报告法访问调查\n直接观察\n调查者被调查者强制、约束报告式\n访问调查调查者被调查者平等合作\n二、数据收集方法㈠数据来源㈡统计调查组织形式㈢数据收集方法㈣数据收集误差\n真值调查值调查误差\n真值?调查值调查误差\n真值?调查值调查误差?研究调查误差的主要目的是找出导致误差产生的原因,进而采取对策避免、减少误差或控制误差水平。\n由人为因素(调查者误导、笔误等,被调查者理解错误、记忆错误、有意隐瞒等)造成的误差称为登记误差,理论上它可以用某种方法加以消除。中国的人口统计数据:公元2年(汉元始二年)59594978人公元754年(唐天宝十三载)52880488人公元1122年(宋宣和四年)46734784人公元1281年(元至元十八年)58830000人公元1578年(明万历六年)60692856人公元1711年(清康熙五十年)24621324人公元1741年(清乾隆六年)143411559人公元1763年(清乾隆二十八年)204209828人公元1790年(清乾隆五十二年)301487115人公元1835年(清道光十五年)401767053人“圣祖出巡时获悉,有五六丁之户,仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮”康熙五十一年定“滋生人丁永不加赋”30年间增加近5倍自然增长率为6.05%\n从全部学生中随机抽取20人组成样本并计算平均体重样本一:52.35样本二:50.26样本三:53.19…真值:51.18由部分单位数值来推断总体数值所产生的误差称为代表性误差(随机误差),它不可以消除,但可以加以控制。\n三、调查表与问卷设计㈠基本格式㈡问题类型㈢设计原则\n一般的调查表调查问卷表头表体表脚表头表体表脚名称、编号、制表单位、埴表日期等等被调查者基本情况、调查项目等等备注、指标解释等等说明词:解释调查意义、表达感激之情等主题问句:被调查者基本情况、调查项目作业记录:时间、操作者等\n三、调查表与问卷设计㈠基本格式㈡问题类型㈢设计原则\n您认为吸烟有哪些害处?容易滋生腐败您认为吸烟有哪些害处?①危害自身健康②影响他人健康③浪费钱财④容易引起火灾⑤破坏家庭团结封闭式问题开放式问题容易控制,但不易全面不易控制,但内容丰富您认为吸烟有哪些害处?①危害自身健康②影响他人健康③浪费钱财④容易引起火灾⑤破坏家庭团结⑥其他。\n三、调查表与问卷设计㈠基本格式㈡问题类型㈢设计原则\n问卷设计的基本原则:先封闭后开放先易后难适当控制回答时间特殊问题特别设计\n⒈您是否吸烟(如果选②,则跳过⒉、⒊题)①吸烟 ②不吸⒉您每天大约吸多少支烟 ①5支以下 ②5-10支 ③10-15支 ④15-20⑤20-25支⑥25支以上⒊您的吸烟历史大约有多长 ①1年以下 ②1-5年 ③5-10年 ④10年以上⒋您是否认为吸烟有害健康(请写出理由)调查单位中吸烟人所占比例吸烟人群日吸烟数量情况吸烟人群吸烟历史情况调查对象对吸烟的看法\n⒈您是否吸烟(如果选②,则跳过⒉、⒊题)①吸烟 ②不吸⒉您每天大约吸多少支烟 ①5支以下 ②5-10支 ③10-15支 ④15-20⑤20-25支⑥25支以上⒊您的吸烟历史大约有多长 ①1年以下 ②1-5年 ③5-10年 ④10年以上⒋您是否认为吸烟有害健康(请写出理由)调查单位中吸烟人所占比例吸烟人群日吸烟数量情况吸烟人群吸烟历史情况\n??????????????????????????????????????????答题时间:一般控制在20分钟之内过多的问题、过于难的问题将吓跑被调查者。\nSTAT《统计学》第二章统计数据特殊问题的处理方法:你曾经有过偷漏税行为吗?你身份证末位数是单数吗?你曾经有过偷漏税行为吗?你曾经有过偷漏税行为吗?你曾经有过偷漏税行为吗?你曾经有过偷漏税行为吗?你曾经有过偷漏税行为吗?你曾经有过偷漏税行为吗?你身份证末位数是单数吗?你身份证末位数是单数吗?你身份证末位数是单数吗?你身份证末位数是单数吗?你身份证末位数是单数吗?估计有偷漏税行为人的比例估计偷漏税行为比例的方差估计有偷漏税行为人比例的区间\n频数表(用SPSS制作)有效数据频数频率有效频率累计频率约2/3的人身高不超过165cm\n二、数量数据汇总与显示㈠变量数列㈡频数表㈢直方图\n直方图(Histogram)\n直方图条形图\n研究贫富差别的基本方法:将人口按收入水平等分为5组,观察收入差别。20%20%20%20%20%中国九十年代:最富的20%家庭拥有全部财富的48%,最穷的20%家庭拥有全部财富的4%。查看更多