- 2021-06-16 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020届二轮复习统计案例复习学案(全国通用)
统计案例复习 学习目标 1.会求回归直线方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤. 1.最小二乘法 对于一组数据(xi,yi),i=1,2,…,n,如果它们线性相关,则线性回归方程为=x+,其中==,=- . 2.2×2列联表 2×2列联表如表所示: B 总计 A a b a+b c d c+d 总计 a+c b+d n 其中n=a+b+c+d为样本容量. 3.K2检验 常用随机变量 K2=来检验两个变量是否有关系. 类型一 回归分析 例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示: 年份201x(年) 0 1 2 3 4 人口数y(十万) 5 7 8 11 19 (1)请画出上表数据的散点图. (2)请根据上表提供的数据,求出y关于x的线性回归方程=x+. (3)据此估计2016年该城市人口总数. 解 (1)散点图如图: (2)因为==2, ==10, 0×5+1×7+2×8+3×11+4×19=132, 02+12+22+32+42=30, 所以==3.2, =- =3.6; 所以线性回归方程为=3.2x+3.6. (3)令x=6,则=3.2×6+3.6=22.8, 故估计2016年该城市人口总数为22.8(十万). 反思与感悟 解决回归分析问题的一般步骤 (1)画散点图.根据已知数据画出散点图. (2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程. (3)回归分析.画残差图或计算R2,进行残差分析. (4)实际应用.依据求得的回归方程解决实际问题. 跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为: x(元) 14 16 18 20 22 y(件) 12 10 7 5 3 且知x与y具有线性相关关系,求出y关于x的回归直线方程,并说明拟合效果的好坏. 解 =×(14+16+18+20+22)=18, =×(12+10+7+5+3)=7.4, =142+162+182+202+222=1 660, =122+102+72+52+32=327, iyi=14×12+16×10+18×7+20×5+22×3=620, 所以===-1.15. 所以=7.4+1.15×18=28.1, 所以y对x的回归直线方程为=-1.15x+28.1, 列出残差表为 yi-i 0 0.3 -0.4 -0.1 0.2 yi- 4.6 2.6 -0.4 -2.4 -4.4 所以(yi-i)2=0.3, (yi-)2=53.2, R2=1-≈0.994. 所以R2≈0.994,拟合效果较好. 类型二 独立性检验的思想与方法 例2 下表是某地区的一种传染病与饮用水的调查表: 得病 不得病 合计 干净水 52 466 518 不干净水 94 218 312 合计 146 684 830 (1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由. (2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水不干净有关. 解 (1)假设H0:传染病与饮用水无关.把表中的数据代入公式得 K2的观测值k=≈54.21. ∵54.21>6.635, ∴在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水的卫生程度有关. (2)依题意得2×2列联表: 得病 不得病 合计 干净水 5 50 55 不干净水 9 22 31 合计 14 72 86 此时,K2的观测值k=≈5.785. 因为5.785>5.024, 所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 反思与感悟 独立性检验问题的求解策略 (1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性. (2)K2统计量法:通过公式 k= 先计算观测值k,再与临界值表作比较,最后得出结论. 跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.) (1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯. (2)根据以上数据完成如表所示的2×2列联表. 主食蔬菜 主食肉类 合计 50岁以下 50岁以上 总计 (3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”? 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主. (2)2×2列联表如表所示: 主食蔬菜 主食肉类 合计 50岁以下 4 8 12 50岁以上 16 2 18 总计 20 10 30 (3)k==10>6.635, 故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”. 类型三 数形结合思想在独立性检验中的应用 例3 吃零食是在中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利影响,并影响他们的健康成长.下表是性别与喜欢吃零食的列联表: 男 女 合计 喜欢吃零食 5 12 17 不喜欢吃零食 40 28 68 合计 45 40 85 试用等高条形图分析性别与吃零食是否有关系. 解 根据列联表所给的数据,可得出男生中喜欢吃零食的频率为≈0.11,女生中喜欢吃零食的频率为=0.3,两者差距是|0.3-0.11|=0.19. 两者相差较大,作出等高条形图如图所示,比较图中两个深色的条形可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与喜欢吃零食有关系. 反思与感悟 “数缺形时少直观,形缺数时难入微”恰当地应用数形是提高解题速度、优化解题过程的一种重要方法. 跟踪训练3 某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系. 解 作2×2列联表如下: 性格内向 性格外向 总计 考前心情紧张 332 213 545 考前心情不紧张 94 381 475 总计 426 594 1 020 相应的等高条形图如图所示: 图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关. 1.若某地财政收入x与支出y满足回归方程=bx+a+ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( ) A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元 答案 C 解析 =0.8×10+2+ei=10+ei, ∵|ei|<0.5,∴<10.5. 2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据: 作文成绩优秀 作文成绩一般 总计 课外阅读量较大 22 10 32 课外阅读量一般 8 20 28 总计 30 30 60 由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( ) A.没有充足的理由认为课外阅读量大与作文成绩优秀有关 B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关 D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关 答案 D 解析 根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关. 3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归方程,分别得到以下四个结论: ①y与x负相关且 =2.347x-6.423; ②y与x负相关且 =-3.476x+5.648; ③y与x正相关且 =5.437x+8.493; ④y与x正相关且 =-4.326x-4.578. 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D 解析 ①中,回归方程中x的系数为正,不是负相关;④回归方程中,x 的系数为负,不是正相关,所以①④一定不正确. 4.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是 . 答案 =1.23x+0.08 解析 由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得-5=1.23(x-4), 即=1.23x+0.08. 1.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.(5)得出结果后分析残差图是否有异常. 2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K2的值来判断更精确些. 一、选择题 1.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是,纵轴上的截距是.那么必有( ) A.与r的符号相同 B.与r的符号相同 C.与r的符号相反 D.与r的符号相反 答案 A 解析 因为>0时,两变量正相关,此时r>0;<0时,两变量负相关,此时r<0. 2.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是( ) x 4 5 6 7 8 9 10 y 14 18 19 20 23 25 28 A.线性函数模型 B.二次函数模型 C.指数函数模型 D.对数函数模型 答案 A 解析 画出散点图(图略)可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型. 3.下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x 1 2 3 4 用水量y 4.5 4 3 2.5 由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是=-0.7x+,则等于( ) A.10.5 B.5.15 C.5.2 D.5.25 答案 D 解析 样本点的中心为(2.5,3.5),将其代入线性回归方程可解得=5.25. 4.下面的等高条形图可以说明的问题是( ) A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的 B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同 C.此等高条形图看不出两种手术有什么不同的地方 D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握 答案 D 解析 由等高条形图可知选项D正确. 5.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程为=7.19x+73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是( ) A.身高一定为145.83 cm B.身高大于145.83 cm C.身高小于145.83 cm D.身高在145.83 cm左右 答案 D 解析 用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=145.83 ,只能说身高在145.83左右. 6.经过对K2的统计量的研究,得到了若干个临界值,当K2=2.706时,我们认为事件A与B( ) A.在犯错误的概率不超过0.05的前提下有关系 B.在犯错误的概率不超过0.01的前提下有关系 C.没有充分理由认为A与B有关系 D.不能确定 答案 C 解析 因为K2≤2.706,而犯错误的概率约为10%,所以没有充分理由认为A与B有关系. 7.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则在犯错误的概率不超过0.005的前提下推断实验效果与教学措施( ) 优、良、中 差 总计 实验班 48 2 50 对比班 38 12 50 总计 86 14 100 A.有关 B.无关 C.关系不明确 D.以上都不正确 答案 A 解析 K2的观测值k=≈8.306>7.879,则在犯错误的概率不超过0.005的前提下认为“实验效果与教学措施有关”. 二、填空题 8.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了 的热茶销售杯数变化,而随机误差贡献了剩余的 ,所以气温对热茶销售杯数的效应比随机误差的效应大得多. 答案 85% 15% 解析 由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%. 9.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场以降低生产成本,某白酒酿造企业市场部对该企业9月份的产品销量(千箱)与单位成本(元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481,=≈-1.818 2,=71 -(-1.818 2)×≈77.36,则销量每增加1千箱,单位成本下降 元. 答案 1.818 2 解析 由已知得:=-1.818 2x+77.36,销售量每增加1千箱,则单位成本下降1.818 2元. 10.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅表来确定“X与Y有关系”的可信程度.如果k≥5.024,那么认为“X与Y有关系”的可信度约为 . P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 k0 0.455 0.708 1.323 2.072 2.706 P(K2≥k0) 0.05 0.025 0.010 0.005 0.001 k0 3.841 5.024 6.635 7.879 10.828 答案 97.5% 解析 k=5.024,对应0.025是“X和Y有关系”不合理的程度,因此两个分类变量有关系的可信度约为97.5%. 11.某高校“初步统计”课程的教师随机调查了选该课的一些学生情况,具体数据如下表: 专业 性别 非统计专业 统计专业 男 13 10 女 7 20 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到k=≈4.844,因为P(K2≥3.841)≈0.05,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 . 答案 0.05 解析 ⇒⇒ 三、解答题 12.如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据. x 3 4 5 6 y 2.5 3 4 4.5 (1)请画出如表数据的散点图; (2)请根据如表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? 解 (1)由题设所给数据,可得散点图如图. (2)由数据,计算得:=86, ==4.5, ==3.5, iyi=66.5, 所以,由最小二乘法确定的回归方程的系数为: = ==0.7, =- =3.5-0.7×4.5=0.35, 因此,所求的线性回归方程为 =0.7x+0.35. (3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤). 13.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动. (1)请根据题目所提供的调查结果填写下列2×2列联表; 看电视 运动 总计 女 男 总计 (2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”? 注:K2=,(其中n=a+b+c+d为样本容量) P(K2≥k0) 0.10 0.05 0.025 0.010 k0 2.706 3.841 5.024 6.635 解 (1)根据题目所提供的调查结果,可得下列2×2列联表: 看电视 运动 总计 女 30 25 55 男 20 35 55 总计 50 60 110 (2)根据列联表中的数据,可计算K2的观测值k: k=≈3.667, 因为k≈3.667查看更多
- 当前文档收益归属上传用户