统计学的世界笔记

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

统计学的世界笔记

统计学的世界参数与统计量参数是描述总体的数字。参数是一个固定的数字,但是我们实际上无法得知参数的值统计量是描述样本的数字。一旦取了样本,统计量的值就知道了,但是换个不同的样本,统计量的值就会发生改变。我们通常用统计量的值来估计未知的参数。估计时的两种误差偏差是指当我们取很多样本的时候,统计量一直朝同一个方向偏离总体的参数值。变异性描述的是,当我们取很多样本的时候,统计量的值离散到什么程度。变异性大,就代表不同样本的结果差别很大,统计量的取值非常离散。变异性性小就表示不同样本的结果差别不大,统计量的值相对比较聚集。一个好的抽样方法,应该要有小偏差和小的变异性。如何处理偏差及变异性减低偏差:利用随机抽样即可。若先将整个总体列出来,再从中抽取简单的随机样本,就会得到无偏估计值,也就是说以简单随机抽样得到的统计量既不会总是高估,又不会总是低估。减低随机抽样的变异性:只要样本量足够大,变异性多小都可以做得到。样本量越大,标准差就会越小。误差界限的含义与算法“误差界限是正负三个百分点”是以下叙述的缩写:如果我们用和抽这个样本同样的方法,去抽许许多多样本,则这些样本中有95%,其所得到的结果会在总体真正值的正负三个百分点之内。算法:假设我们是在用一个大小为n的一个简单随机样本的样本比例?̂,来估计未知的总体比例P。对应95%信心的误差界限,大致等于1√?\n置信叙述置信叙述包含两个部分:误差界限和置信水平。误差界限告诉我们。样本统计量离总体参数有多远。置信水平告诉我们所有可能的样本中有所少百分比满足这样的误差界限。抽样会发生的误差抽样误差:是抽样这个动作会产生的误差。抽样误差使得样本结果和普查结果不同随机抽样误差:样本统计量和总体参数之间的差距,在选取样本时因机遇造成的。置信叙述中的误差界限包含随机抽样误差。非抽样误差:是和“从总体中抽取样本”这个动作无关的误差。非抽样误差即使在人口普查中也可能出现。误差界限不包含什么一项抽样调查中所宣布的误差界限,只包括随机抽样误差。涵盖不全、无以回应以及其他实际困难也会造成大的偏差,但是误差界限并没有包含在这些项目以内。相关系数及性质相关系数描述两个数量变量之间直线相关的方向和强度。相关系数通常用符号r表示。正的相关系数表示变量之间正相关,负的相关系数表示负相关。相关系数的取值,永远在—1和1之间。当我们分别或者同事改变x、y的度量时,x与y之间的相关系数并不会发生改变。、相关系数不理会解释变量和反应变量之间的差别,x和y对调发硬变量和解释变量,他们之间的相关系数却并不会发生改变。相关系数度量的只是两变量直线相关的强度。和平均数、标准差一样,相关系数会受到少数异常观测值得严重影响。回归回归直线是一条直线,描述当解释变量x的值发生改变时,反映变量y的值怎样跟着变。我们常用回归直线来进行预测:对于某一个给定的x值,y值会是什么。通常使用最小二乘法进行回归直线的选择,最小二乘法是找到使得所有数据点距离直线的垂直距离的平房和最小的直线\n预测预测根据的是对数据匹配的某个“模型”,模型匹配的离数据点很接近,预测效果最好预测超出现有的数据范围是很靠不住的相关系数与回归相关系数的平方,?2,是y值得变异当中,可以用y对x的最小二乘法回归来解释的部分所占的比例。相关系数并不等于回归方程中x的系数,但是两者有关系,有可以计算的公式统计及因果即使两个变量之间有很强的相关性,也并不一定代表着改变其中的一个变量值会导致另一个变量的改变。两个变量之间的相关性,常常受到其他潜在背景中的一些变量的影响。建立因果关系最好的证据,常常来自随机比较的实验。在两个变量之间观察到的相互关系,可能来自于直接因果关系、共同反应或者是交叉。有可能其中两种因素或者全部三种因素都同时存在。观察到的相互关系不管是不是因果,都可以拿来做预测,只要从以前的数据找出来的形态仍然适用。回归不是因果,本质上还是属于相关关系。消费者物价指数(CPI)指数度量的是,以变量在某个基期的值为标准,该变量值相对于期望值的比值大小。要计算变量任一值所对应的指数,可以采用下列公式:变量值指数=×100基期值固定市场总览物价指数是根据一组特定的商品和服务的总价所计算出来的指数。CPI在本质上属于一种固定市场总览物价指数,其中包含了几百种单项,代表了所有的消费者行为。但是随着时代的发展和变迁,CPI中包含的单项物品会进行更新。要将A时间的某美元数目,转换成时间B时有同样购买力的美元数目,可用下列公式:\n时间?的???时间B的美元数目=时间A的美元数目×时间?的???\n抽样分布一个统计量的抽样分布告诉我们,从同一个总体重复抽样时,统计量会有什么样的值,以及每一个值出现的频率。我们把抽样分布看成是对统计量的可能值分配概率。因为通常值可能有很多,所以抽样分布常常是诸如生态曲线的密度曲线来描述。95%置信区间95%的置信区间:表示是从样本数据中计算出的一个区间,保证在所有的样本当中,有95%会把真正的总体参数包含在区间之中。样本比例的抽样分布一个统计量的抽样分布,是指同一个总体所抽出,同样大小的所有可能样本,其统计量的值的分布。从一个成功比例为P的很大总体抽取一个大小为n的简单随机抽样样本。用?̂表示成功样本比例:样本中的成功计数?̂=?则当样本足够大时:?̂的分布为近似正态分布抽样分布的平均数与总体的P相等抽样分布的标准差是:?(1−?)√?比例为95%的置信区间从一个成功比例P未知的大总体抽取出一个大小为n的简单随机抽样样本。把这个样本中的成功比例叫做?̂,则参数P的一个近似95%的置信区间为:?̂(1−?̂)√?̂±2?\n置信区间一个参数的水平C置信区间有两部分:一个由数据计算出来的区间置信水平C,是不断重复抽样时,区间会抓到真正参数值的概率总体比例的置信区间从一个整体抽取一个大小为n的简单随机抽样样本,总体中有比例P的成功。样本中的成功比例为?̂。当n足够大时,P的近似水平C置信区间为?̂(1−?̂)∗√?̂±?×?其中,?∗是置信水平对应的临界值,经过查表可知。显著性检验原假设:原假设通常是“没有效应”或者“没有差别”的叙述P值:是在原假设为真的假设下,所得到的样本结果会像实际观测结果那么极端或者更加极端的概率。P值越小,表示数据所提供的否定原假设的证据就越强。如果P值小于或者等于α的值,我们就称改组数据具有α的统计显著水平。
查看更多

相关文章

您可能关注的文档