《应用统计学》PPT课件

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

《应用统计学》PPT课件

应用统计学-6\n\n\nP102(107):例5.1;例5.2例5.3\n\n\n\n样本,个体哪个大?\n定义5.1抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。定义5.2定义5.3定义5.4从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会(概率)被抽中,这样的抽样方式称为简单随机抽样,也称纯随机抽样。从总体中抽取一个元素后,把这个元素放回总体中再抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称为重复抽样。一个元素后被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直至抽取n个元素为止。这样的抽样方法称为不重复抽样。\n参考定义5.5,5.6,5.7(P103-104)。见P109,分层抽样就是类型抽样或分类抽样。分层抽样与整群抽样的区别在那里?等距抽样就是系统抽样整群抽样就是分区抽样\n某大学的商学院相对今年的毕业生进行一次调查,以便了解他们的就业倾向。该学院有5个专业:会计、金融、市场营销、经营管理、信息系统。今年有1500名毕业生,其中会计专业500名,金融专业350名,市场营销专业300名,经营管理专业150名,信息系统专业200名。假定要选取180人作为样本,各专业应抽取人数:会计专业——名,金融专业——名,市场营销专业——名,经营管理专业——名,信息系统专业——名。会计专业:60名金融专业:42名市场营销专业:36名经营管理专业:18名信息系统专业:24名分层抽样还是整群抽样?\n分层抽样与整群抽样的区别在那里?(1)非随机分层,层内随机抽样;随机分群,群内全面调查(非随机)。(2)层间差异大于层内差异;群内差异大于群间差异。所以,事先对总体结构又一定认识时,可以用分层抽样;在总体没有原始资料可利用时,可以用整群抽样。例:分层抽样与整群抽样的区别:分专业抽样(分层抽样/分类型抽样)分班抽样(整群抽样)见P109\n例:各种概率抽样的区别非随机分层,层内随机抽样(测量地层)\n例:各种概率抽样的区别40m随机随机分群,群内全面调查(非随机)(计算植物样方)240m10m\n例:各种概率抽样的区别\n\n什么是样本指标的分布?什么是容量相同的所有可能的样本?为何样本统计量是随机变量?\n这是一个均匀分布,即每个元素出现的机会(概率)是一样的。Y轴和x轴分别代表什么?见P105(110)均值在那里?1.25为何概率为0.25?\n\n\n例5.4(P105;p109)M是什么?n是什么?N是什么?n变大的结果如何?所有容量为n的样本数.\n从这两张图中要明白:(1)为什么样本统计量是随机变量。(2)什么是样本均值的均值。n变大,抽样分布方差越小。\n样本均值的数学期望就是样本均值的均值。图中那条曲线的均值更接近总体的均值?\n在这张图中总体均值在那里?\n\n\n用什么估计总体均值?总体分布,样本分布,(总体的)抽样分布的关系…….μxxxxxxxµxf总体分布样本分布抽样分布μμxx\n总体元素个数、样本容量、样本(组)所有可能取值总体元素个数N(总体的所有个体)样本容量n(每一次取样的数量)容量为n的样本的所有可能取值(所有的Nn种可能都出现为止)重复抽样…….μxxxxxxxµxfx\n修正系数(当N很大时修正系数趋于1)P109\n注意标准差与标准误差的区别。\n表5.1(P106),例5.4(P105;P109)\n\n样本均值的抽样分布、样本方差的抽样分布总体的均值、方差方差的样本分布均值的样本分布方差抽样分布(均值、方差)均值抽样分布(均值、方差)…….μxxxxxxxµxfσσμDDDDDDDDµDσDDXX2\n注意:服从正态分布和服从卡方布分布的区别\nn是什么?此处红色曲线分布形成的均值是什么?由样本标准差计算出来的卡方X2\n由样本标准差0.0014mm计算出来的卡方值X2\n样本均值的抽样分布、样本方差的抽样分布总体的均值、方差方差的样本分布均值的样本分布方差抽样分布(均值、方差)均值抽样分布(均值、方差)…….μxxxxxxxµxfσσμDDDDDDDDµDσDDX\n样本均值的抽样分布、样本方差的抽样分布、…样本均值的抽样分布均值方差……样本方差的抽样分布均值方差……样本其他参数的抽样分布均值方差……\n\n\n\n=N0/N\n\n\n\nmk=E(Xk)原点矩Ck=E[X-E(X)]k中心矩\n\n定义5.9用来估计总体参数的统计量的具体数值,称为估计量,用符号θ表示。定义5.10定义5.11定义5.12用来估计总体参数时计算出来的估计量的具体数值,称为估计值。在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计值。用样本估计量θ的值直接作为总体参数θ的估计值,称为参数的点估计。\n\n第2点是什么意思?\n这是什么意思?\n\n\n\nn→∞时,x与总体参数的真值间的误差趋于0;如果一个估计量不是一致性的,即便n→∞,x仍然不能等于总体参数的真值\n总体均值μ1=[(n-a)/(n-b)]μ用某个x估计总体参数时,x不一定等于总体参数真值,但多个x的平均值一定等于总体参数的真值\n无偏估计\n点估计与抽样分布的关系…….μxxxxxxxµxxf总体分布样本分布抽样分布误差=|µx-x|nn>根据中心极限定理当n越大,样本(参数)的抽样分布越接近总体(参数)的真值。为何只用一个样本估计,而不是用抽样分布估计?x\n定义5.13估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为θ,所选择的估计量为θ,如果E(θ)=θ,称θ为θ的无偏估计。定义5.15定义5.14对同一总体参数的两个无偏估计量θ1和θ2,若D(θ1)以一定的概率出现根据中心极限定理当n越大,样本(参数)的抽样分布越接近总体(参数)的真值。|µx–x|≤△x误差?µxµ=x样本分布\n区间估计与抽样分布的关系以一定的概率(1-α)出现P(x-△x≤µx≤x+△x)=1-α△x△x抽样分布µxxf…….μ总体分布样本分布xx-△xx+△xP(μx-△x≤x≤μx+△x)=1-α|µx-x|≤△x误差x-△x≤X≤x+△xµxx区间▲x▲x△△\n抽样分布区间=样本区间xx-△xx+△xµxxx-△xx+△xµx\n△x抽样分布µxxf…….μ总体分布样本分布xx-△xx+△xµxµx-△xµx+△xμxz标准正态分布△x0zf△x△x\n此处σ是总体的标准差,还是样本的标准差?Zα/2是什么?P117(125)Zα/2N(0,1)Z=可靠性系数(临界值)μxZα/2(σ/n)估计误差=△x=置信上(下)限Z=σ/nx-µN(0,1)~\n置信下(上)限风险值置信水平边际误差误差范围可靠性系数临界值这是什么?P125μxZα/2(σ/n)估计误差=△x=置信上(下)限ɑ1-ɑZα/2△x△xZα/2\n\n\n\n此处σ为总体标准差,σ未知时以样本标准差s代替。\n1.求产品平均重量的范围,而不是平均重量.2.需要多大的范围.才能以概率为95%(0.95)的准确率包含真正的平均重量。\nα/2=0.025,查(1-0.025),(0.975-0.5)\nα/2=0.025,查(1-0.025),(0.975-0.5)反查正态概率分布表\n和上题的差别:没有总体标准差.\n总体标准差未知,以样本标准差代替。查0.95\n查0.95\n\n自由度为n-1的t分布\n\n\n\n查t0.025\n\nXB(n,p)pN(p,p(1–p))1n二项分布,p为成功率、比例等。N(μ,σ2)Z=N(0,1)X-µσ\n\n\n自由度为n-1的卡方分布置信下限置信上限\nα/2α/2置信下限置信上限\n\n0\nα/2α/2置信下限置信上限\n\n\n0\n\n样本容量与抽样分布的关系…….μxµxxf总体分布样本分布抽样分布误差=|x-µx|nn>根据中心极限定理当n越大,样本(参数)的抽样分布越接近总体(参数)的真值。只用一个样本估计,而不是用抽样分布估计。△x△x[]\n估计误差=△xμxZα/2(σ/n)=置信上(下)限置信区间置信水平=1-α(1)如果确定了置信区间,就可以确定估计误差(边际误差)。(2)如果确定了置信水平,就可以确定Zα/2。(3)如果确定了估计误差和置信水平,再知道总体标准差σ,就可以求一定误差范围内和一定置信水平下所需要的样本容量n。如果只知道置信区间,能否确定Zα/2?此处是非标准正态分布的置信区间\n边际误差可靠性系数不重复抽样时求样本容量n的公式(P123)。3.意义?\n样本容量n与总体方差σ2之间的关系=μxn=5σ=0μxσ=0n=10……σ→0μx1x2x3x4x5x1=x2=x3=x4=x5=……=μx总体方差越小,需要的样本容量越小。总体分布样本分布抽样分布\n样本容量n与边际(估计)误差E的关系△x△x△x△x误差越大,落入误差范围的样本(参数)越多,如果缩小误差,只有加大样本容量,使抽样分布变窄,才能使同样多的样本落入误差范围内。1-α1-α1-α1-αn=n△x>△x1-α>1-αn△x1-α=1-α△x△x△x△x误差越大,置信水平越大同样的置信水平,要减少误差,就要加大样本容量误差\n样本容量n与可靠性系数(Z或t)的关系估计误差=△xμxZα/2(σ/n)=置信上(下)限置信区间置信水平=1-α△x△xα/2α/2△x=△xα/2>α/2Zα/2nz>z\n\n\n\n\n\n\n例1:某零件加工企业生产一种螺丝钉,对某天加工的零件每隔一定时间抽出一个,共抽出12个,测得长度(单位:mm)数据见Excel中A2:A13。假定零件长度服从正态分布,试以95%的置信水平估计该企业生产的螺丝钉平均长度的置信区间。样本抽样分布的标准差\n\n=COUNT(A2:A13)=AVERAGE(A2:A13)=STDEV(A2:A13)=C4/SQRT(C2)0.95=C2-1=TINV(1-C6,C7)=C8*C5=C3-C9=C3+C9如果总体标准差σ已知,计算可直接使用σ,B8改为Z值;C8改为“=NORMSINY(1-C6/2)”,C5改为“=σ/SQRT(C2)”.样本均值抽样分布的标准差\n例2:某厂对一批产品的质量进行抽样检查,采用重复抽样抽取样本200只,样本优质品率为85%,试计算当把握度(置信水平)为90%时优质品率的允许误差。\nCONFIDENCE(α,σ,n)\n例3:从某车间加工的同类零件中抽取16件,测得零件平均长度为12.8cm,方差为0.0023。假定零件长度服从正态分布,试求总体方差及标准差的置信区间(置信度为95%)。CHIINV(probability,deg_freedom)?\n\n≤≤-BBAA≤BAB≥≤ACBCC<0,A=μ-xB=∆x∆x≤(μ-x)≤∆x(x-∆x)≤μ≤(x+∆x)|µx-x|≤△x
查看更多

相关文章

您可能关注的文档