高等统计学--new答案1

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

高等统计学--new答案1

.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:1一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.有关样本的分布,以下陈述正确的是:ABCA.如果样本X1,…,Xn独立同分布来自Gamma分布,在大样本下有近似的正态分布;B.如果样本X1,…,Xn独立同分布来自N(),在大样本情况下有精确分布N();C.如果样本X1,…,Xn独立同分布来自N(),即使样本量不大,也服从正态分布;D.如果样本X1,…,Xn来自任意分布,在大样本情况下,由X1,…,Xn组成的数据有近似的正态分布;2.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。3.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;(基线指的是什么???)B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值小于0.05;C.对数据直方图做光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。4..\n..若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.5.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而样本均值的方差。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。..\n.3.统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a)请根据这些数据求父代的p的极大似然估计;(10分)b)请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,.b)当样本数n足够多时父代基因M的频率近似服从正态分布,,从而从而参数p的置信区间为四、论述题:(25分)..\n.研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。2.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:2一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A.两样本Z检验B.两样本t检验C.单一样本t检验D.单一样本Z检验3.在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是该统计量随着样本量的增大,它与它估计的总体参数越来越近,这种评价标准称为:CA.无偏性B.有效性C.一致性D.充分性4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32..\n.在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):([-12.43,-10.36])A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]5.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。二、简答题:(10分×3=30分)1.解释p值检验的基本原理。p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。p-值度量从样本数据得到的信息对原假设的支持程度。p-值越小,就越有理由说明样本数据不支持原假设。如果p-值小于显著性水平,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。..\n.3.请说明Gamma分布与卡方分布之间有哪些区别与联系?自由度为n的卡方分布是Gamma分布Gamma(n/2,1/2)的特例.三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC91240255233315200266120228362414518389535273440431534426505322BEDN6264676970738191961001001031101271111161201221301371421.如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3.如果将床位量按(0,70],(71,110]以及(110,150]..\n.分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1.设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,..\n.从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,(a)可以采用方差分析来检验床位数对出院人数有没有显著影响,(b)也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**..\n.---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B.11~13分C.12~14分D.6~18分2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):([-12.43,-10.36])A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间一个较小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的尾概率。二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;..\n.Gamma分布的概率密度函数为,则,令得参数的矩估计1.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3.假设检验中的两类错误之间有什么关系?能否同时减少两类错误?..\n.根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2)错误的判断是:当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)..\n.研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC91240255233315200266120228362414518389535273440431534426505322BEDN6264676970738191961001001031101271111161201221301371421.如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令..\n.(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,(a)可以采用方差分析来检验床位数对出院人数有没有显著影响,(b)也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:..\n.设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:4一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A两样本Z检验B两样本t检验C单一样本t检验D单一样本Z检验2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。..\n.5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.简述损失函数和风险函数的定义损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,损失函数参数的真值为θ,决策的结果为d ,两者的不一致会带来一定的损失,这种损失是一个随机变量,用L(θ,d)表示。风险函数是损失函数的期望值,表示为:R(θ,d)= E[L(d,θ)]。  决策的目标是要找出一个决策方案d,使其对各个自然状态风险值均为最小。应用时,常常对θ(参数的真值)确定一个概率分布,并使其平均的风险值r(d,θ)达到最小,其中:  1.解释t分布和正态分布之间的差异;联系:随看自由度增大t分布趋近于标准正态分布;当n>30时二者相差很小;当n→∞时二者重合.区别:①正态分布是与自由度无关的一条曲线;t分布是依自由度而变的一组曲线.②t分布较正态分布顶部略低而尾部稍高.3.解释假设检验和置信区间的区别。抽样估计与假设检验都是统计推断的重要内容。参数估计是根据样本统计量估计总体参数的真值;假设检验是根据样本统计量来检验对总体参数的先验假设是否成立。区间估计与假设检验的主要区别:(a)区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验;(b)区间估计立足于大概率,通常以较大的把握程度(置信水平)1-α去保证总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平α去检验对总体参数的先验假设是否成立。三、计算题(25分)X1,X2,…,Xn是从两点分布Bernoulli(1,p)中抽取出来的独立同分布样本:1.求(1-p)2的极大似然估计(10分)。2.1中的估计量是无偏估计吗?如果是有偏的,请给出(1-p)2的一个无偏估计。(15分)1.解:设总体X服从b(1,p),..\n.,最大似然估计为:,(1-p)2的最大似然估计为2.,,是有偏估计,其中为无偏估计,事实上:四、论述题:(25分)研究者想了解某种产品在四家商场中购买是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去2年的销售量196万台。表1某种产品在过去2年中的销售量..\n.商场O(万)EOi-Ei(Oi-Ei)2A98B67C13D18总计1961.解释表头字母的含义;2.请将上面的表格填写完整。3.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:5一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1关于假设检验,给定一组独立同分布的随机样本,给定显著性水平如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。..\n.解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3.统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)用possion()分布参数的极大似然估计的渐进分布求置信区间。..\n.,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。2.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。..\n.O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:6一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A.两样本Z检验B.两样本t检验C.单一样本t检验D.单一样本Z检验2.置信水平为α,下列说法正确的是(BD)A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA.156;B.256;C.356;D.456...\n.二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;Gamma分布的概率密度函数为,则,令得参数的矩估计2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.假设检验与置信区间之间有哪些重要的区别?假设检验与置信区间都是根据样本信息推断总体参数,二者可相互转换,形成对偶性。 主要区别:..\n.a.参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;c.区间估计立足于大概率,假设检验立足于小概率三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a)请根据这些数据求父代的p的极大似然估计;(10分)b)请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当样本数n足够多时父代基因M的频率近似服从正态分布,,从而从而参数p的置信区间为..\n.四、论述题:(25分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC91240255233315200266120228362414518389535273440431534426505322BEDN6264676970738191961001001031101271111161201221301371421.如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,..\n.令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,b也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716..\n.---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:7一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。2.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43](带负号)D.[6.53,16.32]..\n.4.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。5.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;Gamma分布的概率密度函数为,则,令得参数的矩估计1.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。..\n.当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(20分)是从正态分布)中抽取的独立随机变量,请回答1)计算,S2是样本方差;(10分)2)请在所有的形式为aX1+bX2的估计量中,找到的最小方差无偏估计;(10分)解:(1)(2)当a+b=2的条件下,a=b=1方差最小,使得最小,为的最小方差无偏估计。四、论述题:(30分)..\n.研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。3.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:8一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.一位社会学者随机抽取3000个家庭,想研究文化程度的高低与离婚率的高低是否有关,适合采用的检验方法应是(D)A.正态分布检验B.分布检验C.拟合优度检验D.独立性度检验2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;..\n.D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。1.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.假设检验与置信区间之间有哪些重要的区别?..\n.假设检验与置信区间都是根据样本信息推断总体参数,二者可相互转换,形成对偶性。 主要区别:a.参数估计是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;b.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;c.区间估计立足于大概率,假设检验立足于小概率三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a请根据这些数据求父代的p的极大似然估计;(10分)b请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当样本数n足够多时父代基因M的频率近似服从正态分布,,从而从而参数p的置信区间为四、论述题:(25分)..\n.研究者想了解某种产品在四家商场中购买是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去2年的销售量196万台。表1某种产品在过去2年中的销售量商场O(万)EOi-Ei(Oi-Ei)2A98B67C13D18总计1961.解释表头字母的含义;2.请将上面的表格填写完整。3.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:9一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。2.在假设检验中,备择假设所表达的含义总是指(D)A.参数是正确的B.变量之间没有关系C.参数没有发生变化D.参数发生了变化3.一位社会学者随机抽取3000个家庭,想研究文化程度的高低与离婚率的高低是否有关,适合采用的检验方法应是(D)A.正态分布检验B.分布检验C.拟合优度检验D.独立性度检验4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32..\n.在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):[-12.43,-10.36]A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]二、简答题:(10分×3=30分)1.解释p值检验的基本原理。p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。p-值度量从样本数据得到的信息对原假设的支持程度。p-值越小,就越有理由说明样本数据不支持原假设。如果p-值小于显著性水平,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平。1.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。..\n.三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),数据如下:DISC:91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322BEDN:62,64,67,69,70,73,81,91,96,100,100,103,110,127,111,116,120,122,130,137,142假定我们关心的是医院出院人数小于400的比例估计,1.请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先估计出a和b,再给出p的后验估计计算公式;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1设随机变量X表示出院人数,可以引进随机变量..\n.=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,..\n.从而后验估计为3如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,b也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)..\n.a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:10一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.在估计某一总体的均值时,随机抽取了n个单元作样本,用样本均值作为估计量,在构造置信区间时,发现置信区间太宽,有可能的原因是:BCA.选择的估计量有偏B.样本量太小C.置信水平太大,应从0.10降低到0.05D.精度要求太高2.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):[-10.36,-12.43]A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;..\n.D.样本统计量的分布函数。二、简答题:(10分×3=30分)1.简述损失函数和风险函数的定义;损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,损失函数参数的真值为θ,决策的结果为d ,两者的不一致会带来一定的损失,这种损失是一个随机变量,用L(θ,d)表示。风险函数是损失函数的期望值,表示为:R(θ,d)= E[L(d,θ)]。  决策的目标是要找出一个决策方案d,使其对各个自然状态风险值均为最小。应用时,常常对θ(参数的真值)确定一个概率分布,并使其平均的风险值r(d,θ)达到最小,其中:  2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(20分)..\n.用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),数据如下:DISC:91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322BEDN:62,64,67,69,70,73,81,91,96,100,100,103,110,127,111,116,120,122,130,137,142假定我们关心的是医院出院人数小于400的比例估计,1.请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先估计出a和b,再给出p的后验估计计算公式;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。..\n.,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,..\n.b也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:11一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.指出下列的说法哪一个是正确的(BD)A在置信水平一定的条件下,要提高可靠性,就应该缩小样本量;B在置信水平一定的条件下,要提高可靠性,就应该增大样本量;C在样本量一定的条件下,要提高可靠性,就降低置信水平;D在样本量一定的条件下,要提高可靠性,就提高置信水平。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43](加负号)D.[6.53,16.32]二、简答题:(10分×3=30分)..\n.1.解释p值检验的基本原理。p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。p-值度量从样本数据得到的信息对原假设的支持程度。p-值越小,就越有理由说明样本数据不支持原假设。如果p-值小于显著性水平,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(20分)求possion()分布参数的极大似然估计的渐进分布求置信区间。..\n.,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),数据如下:DISC:91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322BEDN:62,64,67,69,70,73,81,91,96,100,100,103,110,127,111,116,120,122,130,137,142假定我们关心的是医院出院人数小于400的比例估计,1.请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先估计出a和b,再给出p的后验估计计算公式;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。..\n.,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,b也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),..\n.A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:12一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。..\n.事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量..\n.频数3425001871029a)请根据这些数据求父代的p的极大似然估计;(10分)b)请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当样本数n足够多时父代基因M的频率近似服从正态分布,,从而从而参数p的置信区间为四、论述题:(25分)研究者想了解某种产品在四家商场中购买是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去2年的销售量196万台。表1某种产品在过去2年中的销售量商场O(万)EOi-Ei(Oi-Ei)2..\n.A98B67C13D18总计1961.解释表头字母的含义;2.请将上面的表格填写完整。3.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:13一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值0.03;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。..\n.解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释t分布和正态分布之间的差异;联系:随看自由度增大t分布趋近于标准正态分布;当n>30时二者相差很小;当n→∞时二者重合.区别:①正态分布是与自由度无关的一条曲线;t分布是依自由度而变的一组曲线.②t分布较正态分布顶部略低而尾部稍高.3.解释假设检验和置信区间的区别。抽样估计与假设检验都是统计推断的重要内容。参数估计是根据样本统计量估计总体参数的真值;假设检验是根据样本统计量来检验对总体参数的先验假设是否成立。区间估计与假设检验的主要区别:(a)区间估计通常求得的是以样本估计值为中心的双侧置信区间,而假设检验以假设总体参数值为基准,不仅有双侧检验也有单侧检验;(b)区间估计立足于大概率,通常以较大的把握程度(置信水平)1-α去保证总体参数的置信区间。而假设检验立足于小概率,通常是给定很小的显著性水平α去检验对总体参数的先验假设是否成立。三、计算题(25分)X1,X2,…,Xn是从两点分布Bernoulli(1,p)中抽取出来的独立同分布样本:1).求(1-p)2的极大似然估计(10分)。2).1)中的估计量是无偏估计吗?如果是有偏的,请给出(1-p)2的一个无偏估计。(15分)1.解:设总体X服从b(1,p),,..\n.最大似然估计为:,(1-p)2的最大似然估计为2.,,是有偏估计,其中为无偏估计,事实上:四、论述题:(25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491..\n.冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。2.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:14一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B.11~13分C.12~14分D.6~18分2.一位社会学者随机抽取3000个家庭,想研究文化程度的高低与离婚率的高低是否有关,适合采用的检验方法应是(D)A.正态分布检验B.分布检验C.拟合优度检验D.独立性度检验3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43](带负号)D.[6.53,16.32]4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.02;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;..\n.D.样本统计量的分布函数。二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释t分布和正态分布之间的差异;联系:随看自由度增大t分布趋近于标准正态分布;当n>30时二者相差很小;当n→∞时二者重合.区别:①正态分布是与自由度无关的一条曲线;t分布是依自由度而变的一组曲线.②t分布较正态分布顶部略低而尾部稍高.3.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(20分)X1,X2,…,Xn是从两点分布Bernoulli(1,p)中抽取出来的独立同分布样本:1).求(1-p)2的极大似然估计(10分)。2).1)中的估计量是无偏估计吗?如果是有偏的,请给出(1-p)2的一个无偏估计。(15分)1.解:设总体X服从b(1,p),,..\n.最大似然估计为:,(1-p)2的最大似然估计为2.,,是有偏估计,其中为无偏估计,事实上:四、论述题:(30分)某种感冒冲剂规定每包重量为12克,超重或过轻都是严重问题。质检员抽取25包冲剂称重检验,得到平均每包的重量为11.85克,标准差克。假定产品重量服从正态分布()。(,)(1)感冒冲剂的每包重量是否符合标准要求?(写出详细的检验过程)(2)检验结论能否证明感冒冲剂的每包重量符合标准要求?为什么?(3)上述检验结论可能犯哪一类错误?说明这一错误的实际含义。(4)根据上述检验计算出的,解释这个值的具体含义。(1)由题意需要检验假设:拒绝域:..\n.,由样本计算=11.85,即有,不能拒绝,不能认为感冒冲剂的每包重量不符合标准。(2)检验结论不能证明感冒冲剂的每包重量符合标准要求,只是不能拒绝原建设,不一定能接收原假设。只能做出“不能认为感冒冲剂的每包重量不符合标准”(3)由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断,当原假设不成立时,接受原假设,此类取假错误称为第II类错误。从而上述检验结论可能犯第二类错误。(4)p值是在原假设下出现检验统计量的实现值的概率。p-值越小,就越有理由说明样本数据不支持原假设。此时p-值大于显著性水平,那么就不能拒绝原假设。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:15一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B.11~13分C.12~14分D.6~18分2.在假设检验中,备择假设所表达的含义总是指(D)A.参数是正确的B.变量之间没有关系C.参数没有发生变化D.参数发生了变化3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):C带符号A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;..\n.Gamma分布的概率密度函数为,则,令得参数的矩估计2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.假设检验中,两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:..\n.当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2)错误的判断是:当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(20分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数3425001871029a)请根据这些数据求父代的p的极大似然估计;(10分)b)请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当样本数n足够多时父代基因M的频率近似服从正态分布,..\n.,从而从而参数p的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),数据如下:DISC:91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322BEDN:62,64,67,69,70,73,81,91,96,100,100,103,110,127,111,116,120,122,130,137,142假定我们关心的是医院出院人数小于400的比例估计,1.请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先估计出a和b,再给出p的后验估计计算公式;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。解:1设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;..\n.解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3设变量y为出院人数,自变量x为床位量的等级变量,(a)可以采用方差分析来检验床位数对出院人数有没有显著影响,(b)也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716..\n.---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:16一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.一位社会学者随机抽取3000个家庭,想研究文化程度的高低与离婚率的高低是否有关,适合采用的检验方法应是(D)A.正态分布检验B.分布检验C.拟合优度检验D.独立性度检验2.在假设检验中,备择假设所表达的含义总是指(D)A.参数是正确的B.变量之间没有关系C.参数没有发生变化D.参数发生了变化3.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:DA.9~15分B.6~18分C.12~14分D.11~13分4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]二、简答题:(10分×3=30分)1.解释p值检验的基本原理。p值是在原假设下出现检验统计量的实现值及(向备择假设方向)更极端的值的概率。p-值度量从样本数据得到的信息对原假设的支持程度。p-值越小,就越有理由说明样..\n.本数据不支持原假设。如果p-值小于显著性水平,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.统计推断与描述统计之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。..\n.,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),数据如下:DISC:91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322BEDN:62,64,67,69,70,73,81,91,96,100,100,103,110,127,111,116,120,122,130,137,142假定我们关心的是医院出院人数小于400的比例估计,1.请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先估计出a和b,再给出p的后验估计计算公式;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。..\n.,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计.(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,b也可用y对x的线性回归来分析。..\n.(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:17一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某调查公司接受委托满意度调查,满意度分数在0~20之间,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B.11~13分C.12~14分D.6~18分2.在假设检验中,备择假设所表达的含义总是指(D)A.参数是正确的B.变量之间没有关系C.参数没有发生变化D.参数发生了变化3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):A.[5.68,15.56]B.[8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间一个较小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的尾概率。二、简答题:(10分×3=30分)1.求Gamma分布的矩估计;..\n.Gamma分布的概率密度函数为,则,令得参数的矩估计2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)。解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。3.假设检验中的两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:..\n.当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2)错误的判断是:当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(20分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(30分)研究者想了解某地区的医院出院人数(DISC)和床位量(BEDN),调查了21家医院数据,分为甲级(I)和乙级(II)两类如下:等级IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIDISC91240255233315200266120228362414518389535273440431534426505322..\n.BEDN6264676970738191961001001031101271111161201221301371421.如果我们感兴趣的问题是医院出院人数小于400的比例估计,请给出通过抽取样本研究这一问题的统计推断问题和估计量;2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;3.如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。1.设随机变量X表示出院人数,可以引进随机变量=,则Y~b(1,p),医院出院人数小于400的比例估计转化为两点分布中参数p的估计。,最大似然估计为:.2.如果假定p来自先验分布beta(a,,b),请先根据甲级医院估计出a和b,再给出对乙级医院p的后验估计计算公式和计算结果;解:设p服从beta(a,,b),则,令(其中对应于甲级医院数据)得参数a,b的矩估计..\n..(甲级医院出院人数都小于400,是不是题目有些问题?)p服从beta(a,b),Y服从b(1,p),即,利用共轭先验的性质,后验分布仍为beta分布,从而后验估计为3如果将床位量按(0,70],(71,110]以及(110,150]分为大,中,小,请给出用来判断床位数和出院人数关系的统计模型和解答。设变量y为出院人数,自变量x为床位量的等级变量,a可以采用方差分析来检验床位数对出院人数有没有显著影响,b也可用y对x的线性回归来分析。(a)方差分析:利用R程序检验F=data.frame(y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322),A=factor(c(1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)))plot(F$A,F$y)a=aov(y~A,data=F);summary(a)最终得到:DfSumSqMeanSqFvaluePr(>F)A2139764698825.9650.0103*Residuals1821088911716---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1床位数对出院人数有有显著影响。(b)线性回归:..\n.设变量y为出院人数,自变量x为床位量的等级变量,假设满足线性回归模型:,利用最小二乘可得a,b的参数估计,利用R计算的y=c(91,240,255,233,315,200,266,120,228,362,414,518,389,535,273,440,431,534,426,505,322)x=c(0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)a=lm(y~x);summary(a)结果是:(Intercept)218.1241.165.2994.09e-05***x104.8529.823.5160.00231**---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:105.7on19degreesoffreedomMultipleR-squared:0.3942,AdjustedR-squared:0.3623F-statistic:12.36on1and19DF,p-value:0.002311..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:18一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.统计量是数理统计的基本概念,以下陈述正确的是:某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A.两样本Z检验B.两样本t检验C.单一样本t检验D.单一样本Z检验2.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。..\n.5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.中位数检验与均值t检验之间的区别与联系;需要指出的是,我们现在处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布.这时候,均值(平均数)、中位数是一样的,从而中位数检验与均值t检验相同.只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数的区别.所以说,如果是正态的话,用哪个统计量都行.如果偏态的情况特别严重的话,可以用中位数检验.2.简述损失函数和风险函数的定义;损失函数是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数,损失函数参数的真值为θ,决策的结果为d ,两者的不一致会带来一定的损失,这种损失是一个随机变量,用L(θ,d)表示。风险函数是损失函数的期望值,表示为:R(θ,d)= E[L(d,θ)]。  决策的目标是要找出一个决策方案d,使其对各个自然状态风险值均为最小。应用时,常常对θ(参数的真值)确定一个概率分布,并使其平均的风险值r(d,θ)达到最小,其中:  3.假设检验中的两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2)错误的判断是:当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(25分)X1,X2,…,Xn是从两点分布Bernoulli(1,p)中抽取出来的独立同分布样本:a)求(1-p)2的极大似然估计(10分)。b)1中的估计量是无偏估计吗?如果是有偏的,请给出(1-p)2的一个无偏估计。(15分)1.解:设总体X服从b(1,p),..\n.,最大似然估计为:,(1-p)2的最大似然估计为2.,,是有偏估计,其中为无偏估计,事实上:四、论述题:(25分)研究者想了解某种产品在四家商场中购买是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去2年的销售量196万台。..\n.表1某种产品在过去2年中的销售量商场O(万)EOi-Ei(Oi-Ei)2A98B67C13D18总计196解释表头字母的含义;2.请将上面的表格填写完整。3.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n...\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:19一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:B销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A.如果样本X1,…,Xn独立同分布来自N(),Y1,…,Yn独立同分布来自N(),在大样本下有近似的正态分布,可以检验;B.如果样本X1,…,Xn独立同分布来自N(),Y1,…,Yn独立同分布来自N(),在大样本下有正态分布,可以检验;C.如果样本X1,…,Xn独立同分布来自N(),Y1,…,Yn独立同分布来自N(),有t分布,可以检验;D.如果样本X1,…,Xn独立同分布来自N(),Y1,…,Yn独立同分布来自N(),有分布,可以检验;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.有关检验的p值,下面说法正确的是:BCA.一般为[0,0.1]之间的一个很小的概率;..\n.B.接受备择假设的最小显著性水平;C.如果p值小于显著性水平,则拒绝零假设;D.样本统计量的分布函数。4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.01;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.假设检验的零假设和备择假设的设立对于检验的结论影响不大,请问这样的理解有问题吗?请给出你的解释。解:对同一样本信息,由于零假设的不同选择,可能会得到不同的结论。由于显著性检验只控制第一类错误的概率,而不考虑犯第二类错误的概率,因而寻找拒绝域的时候只涉及到原假设,不涉及备择假设。于是零假设的确定在假设检验中非常重要。事实上,假设检验所依据的小概率事件在一次实验中几乎不可能发生的原理。小概率事件在一次试验中发生与小概率事件原理相‘矛盾’并非形式逻辑的绝对矛盾。如果统计量落入拒绝域,也就是小概率事件居然在一次实验中居然发生了,根据小概事件原理,说明零假设显著不成立,应该否定原假设。如果统计量落入接收域,并不能肯定原假设的正确性,只能说明观测结果与零假设不矛盾,没有足够理由拒绝零假设。此时假设检验并不能检验出零假设的正确性。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,..\n.=当总体N充分大的时候,接近于放回抽样的均值方差。3.统计推断与数据汇总之间有哪些重要的区别?描述统计是指统计数据的搜集、整理、显示和分析等,统计推断是利用样本信息和概率论对总体的数量特征进行估计和检验等。三、计算题(25分)用possion()分布参数的极大似然估计的渐进分布求置信区间。,最大似然估计为:.当n充分大时,渐进正态N(,),,从而从而参数的置信区间为四、论述题:(25分)..\n.研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。2.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n.中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)课程代码:123101考题卷号:20一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。将答案填写在答题纸上,填写在试题上无效。得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.1.关于假设检验,给定一组独立同分布的随机样本,给定显著性水平,如下理解正确的是:DA.单边检验拒绝,双边检验一定拒绝;B.双边检验接受,一定有一个单边检验是拒绝的;C.单边检验拒绝,双边检验一定拒绝。D.双边检验拒绝,一定有一个单边检验是拒绝的;2.置信水平为α,下列说法正确的是(BD),A在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B在置信水平一定的条件下,提高置信估计精度需要增加样本量;C在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D在样本量一定的条件下,提高置信估计精度,需要增大置信水平。3.某汽车生产厂家为增加某型号汽车的销售量,采用促销手段,促销一个月后,分别收集了8个销售点处促销前一个月和促销后一个月该车型的销售辆,如果不考虑其他影响销售量因素,仅通过观察和分析这些样本数据,是否认为这次促销有助于提高汽车的销售量。请将合适的可用于分析该类问题的检验过程选出来:C销售点代号:12345678促销前(辆):9083105971107855123促销后(辆):9780110931238457110A两样本Z检验B.两样本t检验C.单一样本t检验D.单一样本Z检验4.请问以下哪些方法可以用来判断数据可能背离正态分布:BA.Q-Q图上,如果数据和基线之间几乎吻合;B.Kolmogrov-Smirnov正态检验中的统计量所对应的p值小于0.05;C.对数据直方图做光滑后没有发现数据有很大的发散趋势;..\n.D.拟合优度检验,统计量的值偏小。5.若抽样误差为5,总体标准差为40,如果样本量足够大,正态分布的0.975分位数近似为2,要估计总体均值的95%的置信区间所需要的样本量大概为:BA156;B256;C356;d)456.二、简答题:(10分×3=30分)1.简述置信区间估计和假设检验之间的关系。2.解释下面符号的区别:,和(提示:请按有放回和无放回抽样分别叙述)解:分别是样本方差,总体方差与样本均值的方差。一般来说,从总体中抽样的方式不同,会影响到样本均值的方差。样本的抽取方式为有放回的情况下,获得的样本为简单随机样本,即从总体中抽出的样本为相互独立并且与总体同分布。从总体中抽出容量为n的样本,并且与总体同分布,从而,样本均值的方差=。当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。此时,设总体中包含N个个体,从总体中抽取容量为n的样本,=当总体N充分大的时候,接近于放回抽样的均值方差。1.假设检验中,两类错误之间有什么关系?能否同时减少两类错误?根据样本观察值进行检验时,由于样本的随机性,我们可能作出正确的判断,也可能作出错误的判断。(1)正确的判断是:当原假设成立时,接受原假设;或当原假设不成立时,拒绝原假设;(2)错误的判断是:..\n.当原假设成立时,拒绝原假设,此类弃真错误称为第I类错误;或当原假设不成立时,接受原假设,此类取假错误称为第II类错误。一个“好”的检验方法,应该使得犯这两类错误的概率都尽可能的小,但一般来说,当样本容量固定时,不能使第I类错误和第II类错误同时很小。三、计算题(25分)1.Hardy-Weinberg平衡问题中,父代有两种基因M和N,M在种群中的分布为b(1,p)现在测量到了子代基因分布为:MMNN总量频数34250018710291)请根据这些数据求父代的p的极大似然估计;(10分)2)请给出p的置信区间的求解公式,并解释;(15分)解:a)设父代样本X服从b(1,p),,最大似然估计为:由于Hardy-Weinberg平衡,群体的基因频率在一代一代繁殖传代中保持不变。从而子代的基因型频率分别为,从而,b)当样本数n足够多时父代基因M的频率近似服从正态分布,,从而从而参数p的置信区间为..\n.四、论述题:(25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。如果用销售量来解释这一问题,对这一问题可能提出的最简单的零假设可能是什么?在这一假设之下,研究者调查了有关这种产品过去3年的销售量2070万台。表1某种电子设备产品在过去3年中的销售量季节O(万)EOi-Ei(Oi-Ei)2春季495夏季503秋季491冬季581总计20701.解释表头字母的含义;2.请将上面的表格填写完整。2.如果,请给出你的推断过程和据此可能的结论。解:1.这一问题可能提出的最简单的零假设可能是H0:各个季节里被购买的情况是相同。O表示各个季度观察次数,E表示各个季度的理论次数,表示卡方统计量。2.季节O(万)EOi-Ei(Oi-Ei)2春季495517.5-22.5506.250.98夏季503517.514.5210.250.41秋季491517.5-26.5702.251.36冬季581517.563.54032.257.79总计2070207010.543.由于,拒绝原假设,认为各个季节里被购买的情况是显著差异的。..\n...
查看更多

相关文章

您可能关注的文档