- 2022-08-13 发布 |
- 37.5 KB |
- 85页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
《统计学复习》PPT课件
统计学StatisticsforBusinessandEconomics\n什么是统计学?不列颠百科全书统计学是一门收集、分析、表述和解释数据的科学。\n统计学的特点以归纳为主要思维方式的统计不是以演绎为主的数学。从整体观念出发,研究大量普遍存在的整体特征,说明事物的规律性。研究客观事物数量方面的方法论科学。\n描述统计推断统计统计学的分科统计学的分科\n总体、个体和样本总体(population),所研究对象的全体。分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的个体(individual),或总体单位,组成总体的元素。样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量\n参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值只要总体不发生改变,总体参数不会改变总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数大小取决于所抽取的样本样本统计量通常用小写英文字母表示参数和统计量\n平均数标准差比例统计量xsp参数总体样本\n统计数据是对客观现象计量的结果。\n数据的计量尺度定类尺度定序尺度定距尺度定比尺度一、数据的计量尺度由低级到高级分为四个层次\n二、抽样调查从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。\n抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样非概率抽样抽样方式\n误差抽样误差由抽样随机性造成,只存在于概率抽样中。(样本的特征不一定和总体完全一样,这种差异不是错误而是必然会出现)非抽样误差覆盖误差——被调查总体范围被人为减小无响应误差——调查回收率太低响应误差——没有反映真实观点(理解有误,有意欺瞒)道德误差——调查人员缺乏业务培训或职业道德测量误差——测量工具不准确\n一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。(一)实际抽样误差:抽样误差(SamplingError)\n(二)抽样极限误差一定概率下抽样误差的可能范围(也称允许误差,误差幅度):\n统计数据的收集方法1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。\n调查方案设计1、确定调查目的Why?2、确定调查对象和调查单位Who?3、拟订调查项目和调查表What?-调查项目要少而精;-调查项目含义要明确;-尽可能做到各个调查项目之间有一定的联系。4、确定调查时间和期限When?-调查时间是指调查资料所属的时间(时点或时期);-调查期限是指调查工作的起讫时间。5、编制调查的组织计划How?\n第三章描述性统计Ⅰ:数据的图表展示\n第四章描述性统计II:数值描述\n集中趋势(位置)偏态和峰态(形状)离散趋势(分散程度)数据分布的特征\n集中趋势的度量位置平均数众数中位数分位数集中趋势的度量数值平均数简单算术平均数加权算术平均数几何平均数调和平均数\n离散程度的度量(变异度)异众比率极差四分位差方差和标准差离散系数\n扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态与峰态分布的形状\n推断统计\n统计量和估计值样本的(不包含未知总体参数的)函数称为统计量;统计量是随机变量,并有其分布。如果样本已经得到,把数据带入之后,统计量就有了一个数值,称为该统计量的一个实现(realization)或取值,也称为一个估计值(estimate)。\n三种不同性质的分布总体分布样本分布抽样分布\n一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本\n样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布样本统计量是随机变量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本抽样分布(samplingdistribution)\n考察样本均值的概率分布形式。分两种况:1)总体分布已知且为正态分布;2)总体分布未知;(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。样本均值的抽样分布\n=50=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)\n(2)当总体分布未知时,需要用到中心极限定理(CentrallimitTheorem)经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。\n抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布\n样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即\n3、比例的抽样分布\n1、期望值:有限总体:无限总体2、标准差:3、样本比例抽样分布的形状(Formofthesamplingdistributionofp)根据中心极限定理有:当样本容量增大时(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。\n区间估计则是根据样本估计量以一定的可靠程度推断总体参数所在的区间范围。区间估计(IntervalEstimation)样本统计量(点估计)置信区间置信下限置信上限\n抽样极限误差一定概率下抽样误差的可能范围(也称允许误差,误差幅度):\n置信区间的一般形式点估计±(临界值)×(标准误差)临界值:根据置信水平和抽样分布确定标准误差:根据抽样分布确定\n将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-为是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平(置信度)(confidencelevel)\n置信区间(95%的置信区间)重复构造出的20个置信区间点估计值\n样本容量的确定\n估计总体均值时样本容量的确定估计总体均值时样本容量n为样本容量n与总体方差2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等定义:误差幅度(边际误差)E=\n根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定未知时,可以选取试验样本估计总体比例;也可取使方差最大值p=0.5(此时波动性p(1-p)达到最大,可确保样本量满足要求。如果抽样水平超过了承受能力,只能牺牲置信水平或增加误差幅度E。)其中:\n假设检验\n什么是假设检验?(hypothesistest)先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程有参数检验和非参数检验逻辑上运用反证法,统计上依据小概率原理\n假设检验的基本思想...因此我们拒绝假设=50...如果这是总体的假设均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20\n假设检验中的两类错误1.第Ⅰ类错误(弃真错误)原假设为正确时拒绝原假设第Ⅰ类错误的概率记为被称为显著性水平2.第Ⅱ类错误(取伪错误)原假设为错误时未拒绝原假设第Ⅱ类错误的概率记为(Beta)\n显著性水平(significantlevel)1.是一个概率值2.原假设为真时,拒绝原假设的概率抽样分布的拒绝域3.表示为(alpha)常用的值有0.01,0.05,0.104.由研究者事先确定\n假设检验需要借助样本统计量进行统计推断,称为检验统计量。标准化结果原假设H0为真点估计量的抽样分布检验统计量(teststatistic)标准化的检验统计量\n决策规则给定显著性水平,查表得出相应的临界值z或z/2,t或t/2将检验统计量的值与水平的临界值进行比较作出决策双侧检验:I统计量I>临界值,拒绝H0左侧检验:统计量<-临界值,拒绝H0右侧检验:统计量>临界值,拒绝H0\n一个总体参数的检验z检验(单尾和双尾)t检验(单尾和双尾)z检验(单尾和双尾)2检验(单尾和双尾)均值总体参数比例方差\n方差分析\n什么是方差分析(ANOVA)?(analysisofvariance)检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响一个或多个分类型自变量一个数值型因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量\n方差分析的基本思想和原理(两类误差)组内误差(withingroups)因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差组间误差(betweengroups)因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差\n问题的一般提法设因素有k个水平,每个水平的均值分别用1,2,,k表示要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:12…kH1:1,2,,k不全相等设1为零售业被投诉次数的均值,2为旅游业被投诉次数的均值,3为航空公司被投诉次数的均值,4为家电制造业被投诉次数的均值,提出的假设为H0:1234H1:1,2,3,4不全相等\n分析步骤提出假设构造检验统计量统计决策\n单因素方差分析表(基本结构)误差来源平方和(SS)自由度(df)均方(MS)F值P值F临界值组间(因素影响)SSAk-1MSAMSAMSE组内(误差)SSEn-kMSE总和SSTn-1\n关系强度的测量变量间关系的强度用自变量平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2,即其平方根R就可以用来测量两个变量之间的相关性\n方差分析中的多重比较(multiplecomparisonprocedures)\n多重比较的步骤提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)检验统计量:\n相关分析和回归分析\n相关分析及其假定相关分析要解决的问题变量之间是否存在关系?(散点图)如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?(相关系数)样本所反映的变量之间的关系能否代表总体变量之间的关系?(显著性检验)为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量\n相关系数(计算公式)样本相关系数的计算公式或化简为总体相关系数的计算公式\n回归回归是计量经济学的主要工具回归是研究一个因变量对一个或多个自变量的依赖关系的过程,其用意在于通过后者的设定去估计或预测前者的均值(总体均值)。\n模型假定的简化1)E()=0;(E(yi)=xi)2)对于所有的i,Var()=.3)是服从正态分布N(0,)的.4)、(ij)是相互独立的.术语:这些假定意味着来自n个相互独立的同方差、但是期望不同的正态总体。\n\n最小二乘估计(methodofleastsquares)德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小\n线性回归模型的检验分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性拟合优度检验显著性检验一元线性回归模型的检验\n判定系数(coefficientofdetermination)的取值范围:[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。样本拟合优度可用下面的判定系数测度:判定系数等于相关系数的平方,即R2=r2\n估计标准误差(standarderrorofestimate)对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小计算公式为注:k为自变量的个数。方差的一个无偏估计。即E(s2)=\n显著性检验显著性检验包括对各回归系数的检验对整个回归方程的检验\n整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上对被解释变量起线性作用,即各解释变量前的参数是否不全为零。因此,整个线性关系的检验是通过如下F检验进行的整个回归方程的显著性检验其中,k表示模型中自变量的个数,n为样本容量。\n回归系数的检验(检验步骤)提出假设H0:b1=0H1:b10计算检验的统计量确定显著性水平,并进行决策t>t,拒绝H0;t查看更多
相关文章
- 当前文档收益归属上传用户