统计学章节整理good

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

统计学章节整理good

第一章导论●统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。1.2数据统计的类型1.按计量尺度划分:定类尺度(分类数据)、定序尺度(顺序数据)、定居尺度&定比尺度(数值型数据)【品质数据(定性数据):分类数据、顺序数据;数量数据(定量数据):数值型数据】2.按搜集方法划分:观测数据、实验数据3.按时间状况划分:截面数据、时序数据变量:说明现象某种特征的概念,从一次观察到下一次观察,结果会呈现出变化。变量值:变量的具体取值分类变量顺序变量数值型变量(离散型变量&连续型变量)例:一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。要求:(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?(3)研究者所关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?(5)研究者所使用的主要是描述统计方法还是推断统计方法?第二章数据的搜集数据的直接来源——一手资料调查——>调查数据实验——>实验数据调查的方式:普查、抽样调查、统计报表……数据的间接来源——二手资料(统计公报、统计年鉴、网上资料、期刊、杂志、报纸……)2.2抽样调查——概率抽样、非概率抽样概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。特点:★以随机原则抽取样本★每个单位被抽中的概率是已知的★用样本估计总体时,要考虑入样概率(概率抽样≠等概率抽样)1)简单随机抽样:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。2)分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。3)整群抽样:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。4)系统抽样:将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。5)多阶段抽样:先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。多阶段抽样以此类推。非概率抽样方便抽样容易实施、自行确定、成本低判断抽样根据经验、判断、对研究对象的了解抽样自愿样本自愿参加滚雪球抽样针对特定稀少群体的研究配额抽样先分类,在每类中用方便抽样或判断抽样选取样本\n非概率抽样概率抽样●不依据随机原则●样本无法对总体估计,不计算估计误差、置信区间……●操作简便●时效快●成本低●前期发现问题★随机原则★样本可以对总体进行估计,计算估计误差、置信区间……★技术含量高★成本较高★适合用于验证问题作进一步的数量分析搜集数据的基本方法:自填式,面访式,电话式数据的误差:(1)抽样误差:由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中(2)非抽样误差:除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。存在于任何抽样或调查中第三章数据的图标展示3.1数据的预处理:是在队数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。1.数据审核(发现数据中的错误)2.数据筛选(找出符合条件的数据)3.数据排序(发现数据基本特征、升序和降序)分类数据的排序:字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序:(1)递增排序:设一组数据为X1,X2,…,XN,递增排序后可表示为:X(1)X(2)>…>X(N)数据透视表功能:简化数据分析人员的工作量,使其能快速准确地从各个角度查看数据。※在利用数据透视表时,数据表的首行必须有列标题。3.2品质数据的整理与展示3.2.1分类数据的整理与图示1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形展示分类数据中需要计算的指标1频数:落在各类别中的数据个数频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。2.比例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值的比值如何利用Excel计算频数(插入——函数——countif)分类数据的图示条形图:条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的3.2.2顺序数据的整理与图示1.累积频数:将各有序类别的频数逐级累加起来得到的频数。向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数;向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。2.累积频率:将各类别的百分比逐级累加3.3数值型数据的整理与显示3.3.1数据的分组:单变量值分组&组距分组(等距分组&异距分组)单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况步骤:1.排序2将一个变量值作为一组\n组距分组(要点):1.适合于连续变量,适合于变量值较多的情况;2.将变量值的一个区间作为一组;3.必须遵循“不重不漏”的原则;4.可采用等距分组,也可采用不等距分组1.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值下限值+上限值组中值=2组距分组(步骤)第1步:排序,确定组数(K)5≤K≤15能够显示数据的分布特征和规律第2步:确定组距组距=(最大值-最小值)÷组数★组距宜取5或10的倍数第3步:根据分组整理成频数分布表等距分组与不等距分组1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况分组数据—直方图1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图与条形图的区别1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。3.直方图的各矩形通常是连续排列,条形图则是分开排列。第4章数据的概括性度量数据分布特征的测度◆集中趋势的度量——反映数据向其中心值靠拢或聚集的程度◆离散程度的度量——反映数据远离其中心值的趋势◆分布的形状——反映数据分布的偏态和峰态4.1集中趋势:是指一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。*测度集中趋势就是寻找数据一般水平的代表值或中心值;*不同类型的数据用不同的集中趋势测度值分类数据——众数顺序数据——中位数和分位数数值型数据——平均数4.1.1分类数据:众数众数(MODE):一组数据中出现次数最多的变量值,用Mo表示;(1)主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据;(2)众数是位置代表值,不受极端值影响;(3)可能没有众数、有一个众数或几个众数●数值型分组数据的众数1.众数的值与相邻两组频数的分布有关2.相邻两组的频数相等时,众数组的组中值即为众数3.相邻两组的频数不相等时,众数采用下列近似公式计算(L为众数组的下限值,i为众数组的组距,f为众数组的频数,f-1为众数组前一组的频数,f+1为众数组后一组的频数。4.1.2顺序数据:中位数和分位数\n中位数:是一组数据排序后处于中间位置上的变量值,用Me表示★排序后处于中间位置上的变量值★不受极端值的影响★主要用于顺序数据,也可用数值型数据,但不能用于分类数据计算中位数的步骤1.排序2.确定中位数的位置:(N为数据的个数)●数值型分组数据的中位数1.计算累积频数2.确定中位数所在组3.采用下列近似公式计算:(L为中位数所在组的下限值,N为数据的个数;Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距)四分位数:也称四分位点,他是一组数据排序后处于25%和75%位置上的值。(1)排序后处于25%和75%位置上的值(2)不受极端值的影响(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据四分位数的计算1.排序2.确定四分位数的位置下四分位数为QL,上四分位数为QU,公式为:QL位置=n/4QU位置=3n/4*如果位置是整数,四分位数就是该位置对应的值;*如果是在0.5位置上,则取该位置两侧值的平均数;*如果是在0.25或0.75的位置上,则取该位置的下侧值加上按比例分摊位置两侧数值的差值4.1.3数值型数据:平均数平均数(均值):它是一组数据相加后除以数据的个数得到的结果。1.平均数是一组数据相加后除以数据个数得到的结果。2.集中趋势的最主要测度值3.易受极端值的影响4.用于数值型数据,不能用于分类数据和顺序数据。简单平均数(对未分组数据计算的平均数)公式为:加权平均数:对分组数据计算的平均数,设原始数据被分成k组,各组的组中值为M1,M2,…,Mk,各组频数为f1,f2,…,fk,则加权平均数为,`X★简单平均数,其数值的大小只与变量值的大小有关;★加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。几何平均数:N个变量值乘积的N次方根,用GM表示\n其计算公式为:2.主要用于计算平均比率和平均发展速度●众数、中位数和平均数的比较p941.众数、中位数和平均数的关系1.如果数据分布是对称的,则Mo=Me=x2.如果数据是左偏分布,则x0为右偏分布(3)偏态系数<0为左偏分布峰态:对数据分布平峰或尖峰程度的测度。峰态系数(K)——测度峰态的统计量(1)K=0时,为正态分布(2)K>0时,为尖峰分布(3)K<0时,为扁平分布第5章概率与概率分布5.1随机事件及其概率1.试验:在相同条件下,对事物或现象所进行的观察或实验。2.事件:随机试验的每一个可能结果。3.随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件。4.概率:是某一事件在试验中出现的可能性大小的一种度量。5.2概率的性质与运算法则(1)0≤P(A)≤1(2)必然事件的概率为1,不可能事件的概率为0,P(Ω)=1,P(Φ)=0(3)若A与B互斥,则P(A∪B)=P(A)+P(B)对于任意两个随机事件P(A∪B)=P(A)+P(B)-P(A∩B)◆条件概率:在事件B已经发生的条件下,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为P(B)P(AB)P(A|B)=◆乘法公式:P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A)事件的独立性:1.一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立2.若事件A与B独立,则P(B|A)=P(B),P(A|B)=P(A)3.概率的乘法公式可简化为P(AB)=P(A)·P(B)推广到n个独立事件,有P(A1A2…An)=P(A1)P(A2)…P(An)全概率公式和贝叶斯公式Æ设事件A1,A2,¡,An两两互斥,A1+A2+¡+An=W(满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,¡,n),则对任意事件B,有贝叶斯公式(逆概率公式)Æ与全概公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因Æ设n个事件A1,A2,…,An两两互斥,A1+A2+…+An=W(\n满足这两个条件的事件组称为一个完备事件组),且P(Ai)>0(i=1,2,…,n),则随机变量及其分布一、随机变量的概念二、离散型随机变量的概率分布三、连续型随机变量的概率分布随机变量1.一次试验的结果的数值性描述2.一般用X、Y、Z来表示3.在同一组条件下,把每次试验的结果都列举出来,即把X所有可能值x1,x2,…,xn都列举出来,其有确定概率P(x1),P(x2),…,P(xn)。则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。4.根据取值情况不同,分为离散型随机变量和连续型随机变量离散型随机变量的概率分布1.列出离散型随机变量X的所有可能取值2.列出随机变量取这些值的概率3.通常用下面的表格来表示X=xix1,x2,…,xnP(X=xi)=pip1,p2,…,pn4.P(X=xi)=pi称为离散型随机变量的概率函数(pi³0)离散型随机变量的概率分布0—1分布:离散型随机变量X只可能取0和1两个值。均匀分布:一个离散型随机变量取各个值的概率相同离散型随机变量的数字特征(1)数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和描述离散型随机变量取值的集中程度(2)方差与标准差方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)标准差:随机变量方差的平方根期望值或平均数衡量平均回报率或收益率方差或标准差反映每一个可能出现的回报率与平均回报率的平均差异方差或标准差越大,回报率的变化越大,风险越高;方差或标准差越小,回报率的变化越小,风险越低;当投资回报率相等时,风险较小的项目为最佳选择当投资回报率不相等时,通过离散系数来衡量风险。\n常见的离散型概率分布二项分布泊松分布:用于描述在一指定时间范围内或在一定的长度、面积、体积之内某一事件出现次数的分布。Eg一个城市在一个月内发生的交通事故次数&消费者协会一个星期内收到的消费者投诉次数泊松分布的公式为●l—给定的时间间隔、长度、面积、体积内“成功”的平均数●e=2.71828●x—给定的时间间隔、长度、面积、体积内“成功”的次数泊松分布的期望和方差E(X)=lD(X)=l泊松分布(作为二项分布的近似)1当试验的次数n很大,成功的概率p很小时,可用泊松分布来近似地计算二项分布的概率,即2实际应用中,当P£0.25,n>20,np£5时,近似效果良好连续型随机变量的概率分布:如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数x有则称X为连续型随机变量,其中函数f(x)为X的概率密度函数。概率密度函数1.概率密度函数具有以下性质:(3)(4)若f(x)在点x处连续2.概率密度函数f(x)表示X的所有取值x及其频数f(x)3.在平面直角坐标系中画出f(x)的图形,则对于任何实数a
查看更多

相关文章