- 2022-08-24 发布 |
- 37.5 KB |
- 58页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学课件之抽样估计
本资料来源\n例:A地区行政官员承诺:2006年农户人均纯收入达到5000元,人均纯收入在4500元以下的农户不超过25%。随机抽样该地区农户1000户,资料如下:人均纯收入(元)农户数量(户)<40001864000----45002674500----50003205000----5500282>5000105问:A地区该届政府的承诺是否兑现抽样估计\n例:某市公安系统2006年末共有500辆警车,当年上报需要维修的车辆135辆,为此申请维修费用共计120万元。由于需要维修车辆比例大大超过往年的水平,虽然2006年的实际情况有可能导致车辆损耗加大,但财务审批人员对如此高的维修比例仍有疑虑。为此委托某调查机构组织调查,随机抽查了100辆警车,检查发现其中有24辆需要维修。如果你是财务审批人员,请问你是否核准支出这笔维修费用?抽样估计\n调查A市全部1000个新雇员发现,拥有MPA文凭、无工作经验的新雇用的女性管理人员的平均月薪为3000元,而那些拥有同样文化程度也无工作经验的新雇用的男性管理人员的平均工资是3200元。--结论:存在对女性的岐视描述:对某县全部青少年罪犯的调查发现,参加某咨询项目的青少年罪犯中有25%的人在一年内又犯案了,那些没有参加某咨询项目的青少年罪犯中则有40%的人在一年内又犯案了。--结论:该咨询项目对预防青少年再次犯罪是有益的抽样估计\n调查了A市全部1000个新雇员中的100名发现,拥有MPA文凭、无工作经验的新雇用的女性管理人员的平均月薪为3000元,而那些拥有同样文化程度也无工作经验的新雇用的男性管理人员的平均工资是3200元。--可否认为:存在对女性的岐视?推断:对某县部分青少年罪犯的调查发现,参加某咨询项目的青少年罪犯中有25%的人在一年内又犯案了,那些没有参加某咨询项目的青少年罪犯中则有40%的人在一年内又犯案了。--可否认为:该咨询项目对预防青少年再次犯罪是有益的?抽样估计\n描述推断依据:对总体的全部观测对总体的部分观测(抽样总体--样本)结论:确定的随机的(存在误差)抽样估计\n参数估计基本概念和基础理论研究方法基础:现象水平的推断\n基本概念和基础理论三组基本概念两大核心理论抽样的程序抽样分布抽样误差\n推断的相关概念(1):总体、个体、样本总体:被研究对象的全体;容量为N。个体:组成总体的各个单位。样本:遵循随机原则从总体中抽取的若干个体组成的全体;容量为n。总体是确定的、未知的;样本是随机的、可观测的;从总体(N)中抽取样本(n),可能的样本个数为:重置抽样:不重置抽样:四组基本概念\n推断的相关概念(2):参数、估计量参数:反映总体某一水平的指标;未知的、需要估计的估计量:描述样本某一水平的指标;已知的,随机变量,用来估计参数。四组基本概念\n均值:方差:一般标志的平均数和方差:推断的相关概念(2):参数、估计量参 数 估计量四组基本概念\n均值:方差:是非(交替)标志的平均数和标准差异:推断的相关概念(2):参数、估计量参 数 估计量四组基本概念\n推断的相关概念(3):参数估计--点估计、区间估计参数估计:依据样本的观测,在一定的置信概率下,对总体的某一参数水平作出估计点估计:设为所需估计的总体参数,从总体中抽取一个样本得一组样本观测值 根据样本观测值计算得样本指标值即为的点估计。回答:四组基本概念\n推断的相关概念(3):参数估计--点估计、区间估计区间估计:设为所需估计的总体参数,从总体中抽取一个样本得一组样本观测值 在给定的置信概率下,根据样本观测值求得的、满足 的区间 即为的置信区间,即区间估计。回答:概率下,四组基本概念\n两大核心理论大数定律:描述大量随机变量的平均结果的稳定性无论个别随机现象的结果如何,大量随机现象的平均结果实际上与每个个别现象的特征无关,并且几乎不再是随机的了。包括:(1)统计常性法则:任何事物,在其总体内科学的抽取一部分进行观察,这部分一定具有总体的普遍特征。(2)大数恒性法则:对差异来说,大量的观测比小量观察更易于发现规律,因此,样本越大,差异越小,即越能代表总体的普遍特征。(3)小数永存法则:任何事物,凡是稀有的现象或者具有非常性者,常为少数,但总是存在。\n切贝谢夫定理(推论):两大核心理论\n切贝谢夫定理与抽样估计:两大核心理论\n贝努里定理两大核心理论\n贝努里定理与参数估计两大核心理论\n中心极限定理:说明大量的、独立的随机变量的和的分布趋于正态分布这一基本现象定理(推论):两大核心理论\n中心极限定理说明:假如被研究的随机变量可表示为大量独立随机变量的和,其中每一个别随机变量对于总和只起微小的作用(n充分大),则可以认为这个随机变量实际上是服从正态分布的,即:两大核心理论\n中心极限定理与参数估计两大核心理论\n抽样程序简单随机抽样系统随机抽样分层随机抽样整群随机抽样如何获得样本:从抽样方法看:有重置抽样、不重置抽样从抽样程序看:有五种基本程序样本指标(统计量)总体(参数)推断依据:抽样分布多阶段抽样教材P29\n抽样的程序--简单随机抽样程序:从总体的N个单位中以同等概率不加任何限制地随机抽取n个单位组成样本进行观测以推断总体参数工具:随机数据表操作:给总体的N个单位逐一编号;确定随机数据表的起始点号;依据随机数据表中出现的号码确定样本单位\n特点:总体中的每一个单位均有同等的被抽中的概率第一次被抽中的概率:第二次被抽中的概率:第三次被抽中的概率:……抽样的程序--简单随机抽样优缺点:直观、简便当总体单位大量时,无可操作性\n抽样的程序--系统随机抽样程序:按总体的N个单位在总体中的排列顺序,在起首的k个单位中随机地抽取一个单位,然后每隔一定间隔k抽取一个单位,把这样抽出的n个单位组成样本进行观测,以推断总体参数。也称等距抽样。工具:包含顺序排列的N个总体单位的表(图)、随机数据表操作:计算抽样间隔k=N/n;依据随机数据表在起首的k个单位中确定第1个样本单位i;依次确定第2、3、…个样本单位i+k、i+2k、…;由i,i+k,i+2k,…i+(n-1)k共n个单位构成样本\n特点:总体中的每一个单位均有同等的被抽中的概率样本单位在总体中分布均匀优缺点:在有可供利用图表的条件下,易于操作;由于样本单位分布均匀,可提高推断精度当总体单位按有关标志排序并有线性趋势时,会影响推断精度导致系统性误差抽样的程序--系统随机抽样?\n抽样的程序--分层随机抽样程序:将总体的N个单位按其某一标志划分为互不重叠的若干个层,再分别从各层中独立地随机地抽取一定数量的单位构成样本,用以推断总体参数。工具:随机数据表操作:将总体分为L个层,每一层内包含Nh个总体单位;确定每一层内计划抽取的样本单位数nh,h=1,2,…,L;在每一层内实施一次简单随机抽样,抽取nh个单位;n1,n2,…,nL共n(=n1+n2+…+nL)个单位构成样本(两个关键)\n特点:以各层样本水平推断相应层的总体水平,再计算总体综合水平。优缺点:降低了出现极端值的可能性;提高了每一层内的推断精度从而提高了最终推断精度;管理方便从而节约调查费用但必须保证分层及全体样本单位在各层间的分配科学总体参数的真实水平:总体参数的估计水平:抽样的程序--分层随机抽样\n原则:给定误差条件,使费用最省或:给定费用约束,使精度最高影响因素:确定方法:等比例分配适宜分配最优分配分层抽样的两个关键:1、分层:2、样本单位在各层中的分配异比分层抽样抽样的程序--分层随机抽样\n抽样的程序--整群随机抽样程序:将总体的N个单位分成S个整群,随机地抽取其中的s个整群组成样本,用以推断总体参数。工具:随机数据表操作:对总体分群;抽取其中的若干个群;对抽中的群作全面观测(或在抽中的群中再进行简单随机抽样)关鍵:总体分布特征要求群内差异大、群间差异小\n抽样分布总体分布及其特征总体分布:总体中所有个体关于某个变量(标志)的取值所形成的分布。总体参数:反映总体分布特征的指标:\n样本分布及其特征样本分布:样本中所有个体关于某个变量(标志)的取值所形成的分布。当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。如果样本容量很小,样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。抽样分布样本统计量:\n抽样分布及其特征抽样分布概念分布特征值几种重要的抽样分布\n抽样分布,是样本统计量的概率分布,由样本统计量的所有可能取值和与之相应的概率组成假设从容量为N的总体中抽取容量为n的样本最多可抽取m套不同的样本,则m个样本统计值的频率分布,即为抽样分布。抽样分布\n抽样分布设m个样本统计值按单项式分组可分为k组,则抽样分布的表现形式为:样本均值的抽样分布形式样本成数的抽样分布形式\n样本均值的抽样分布——例样本成数的抽样分布——例抽样分布\n总体分布:某车间班组5个工人日工资为34,38,42,46,50元抽样分布\n(1)重复抽样(考虑顺序)从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本,共52=25个样本所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值抽样分布\n频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本均值的抽样分布(九组)样本均值的抽样分布图抽样分布\n(2)不重复抽样从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本(考虑顺序),共5×4=20个样本。所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值抽样分布\n频率36384042444648合计10%10%20%20%20%10%10%100%样本均值的抽样分布(七组)样本均值的抽样分布图抽样分布\n总体成数为总体方差为总体分布:某总体由10个球组成,其中红球6个。现从总体中随机抽取4个球,那么在重复抽样和不重复抽样下红球比重(样本成数)的抽样分布分别如何?抽样分布\n重复抽样下红球比重的抽样分布(统一课件42)00.250.50.7510.02560.15360.34560.34560.1296抽样分布\n00.250.50.751不重复抽样下红球比重的抽样分布(统一课件44)抽样分布\n抽样分布样本均值抽样分布的期望值:在重复或不重复抽样下都等于总体均值样本均值抽样分布的方差:重复抽样方差大于不重复抽样(不重复抽样的抽样分布较为集中)\n样本成数的期望值:在重复或不重复抽样下,样本成数的均值都等于总体成数样本成数抽样分布的方差:重复抽样方差大于不重复抽样(不重复抽样下样本成数的抽样分布较为集中)抽样分布\n在各种抽样方法和抽样组织方式下,样本统计量的数学期望(均值)都等于总体参数。抽样分布越集中、样本统计量的方差越小,则样本统计值越可能接近总体参数真值,抽样估计的误差越小、估计结果就越精确。抽样分布\n实际的抽样分布形成取决于以下五个因素:总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)估计量构造(样本估计量不同,抽样分布不同)抽样分布\n抽样分布1.1、若总体服从正态分布:则样本均值也服从正态分布:总体均值估计:\n1.2、任一总体,若样本容量充分大(n>30):则样本均值也趋于正态分布:抽样分布\n1.3、若正态总体方差未知且n较小,则服从于自由度为n-1的t分布1.4、任一方差已知总体但n较小,服从自由度为n-1的t分布抽样分布\n抽样分布总体均值估计中:重复抽样大样本时:不重复抽样小样本时:正态总体、已知:正态总体、未知:任一总体、已知:未知时,用样本方差代替教材P97、104\n2、从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机抽取容量为n的样本,估计总体成数p:抽样分布小样本时:重置抽样:p服从二项分布不重置抽样:p服从超几何分布总体成数估计:大样本(nP>5,n(1-P)>5)时:重复抽样不重复抽样教材P97、105总体方差未知,用样本方差代替\n抽样误差抽样误差:遵循随机原则的条件下,总体参数与其估计量之间的离差,由随机因素、偶然因素作用而产生。测量指标:抽样平均误差(抽样标准误差)抽样极限误差影响因素:要求的置信度;总体在相关标志上的变异抽样方法;抽样程序;样本规模统一课件46-59\n抽样误差1、抽样平均误差(抽样标准误差):概念:样本统计量分布的标准差。样本样本单平均数位1样本单位2ABCDEABCDE12131415161314151617141516171815161718191617181920\n1、抽样平均误差(抽样标准误差)作用:衡量总体参数的估计量的平均精度计算(以简单随机抽样为例):抽样误差重置抽样时:其中: 为标志Xi在总体中的标准差,s为标志Xi在样本中的标准差,n为样本规模不重置抽样时:抽样比f\n2、抽样极限误差概念:根据抽样分布,在一定的置信度下,所确定的抽样实际误差变动的最大范围。(抽样实际误差无法计算,但可以在一定概率下加以控制)作用:用来估计总体参数在一定概率下的置信区间用来推算允许误差范围内的必要n;计算:抽样误差查看更多