- 2021-06-15 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2020届一轮复习人教B版 统计案例学案
考查角度 1 统计案例 分类透析一 统计图表与数字特征分析 例 1 从某食品厂生产的面包中抽取 100 个,测量这些面包的一 项质量指标值,由测量结果得如下频数分布表: 质量 指标 值分 组 [75, 85) [85, 95) [95, 105) [105 ,115 ) [115 ,125 ] 频数 8 22 37 28 5 (1)在相应位置上画出这些数据的频率分布直方图; (2)估计这种面包质量指标值的平均数 X(同一组中的数据用该 组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该食品厂生产的这种面包 符合“质量指标值不低于 85 的面包至少要占全部面包 90%的规 定”? 分析 (1)根据题设中的数据,可画出频率分布直方图; (2)利用平均数的计算公式,可求得平均数 X; (3)计算质量指标值不低于 85 的面包所占比例的估计值,再做出 判断. 解析 (1)画图. (2)质量指标值的样本平均数为 ― x =80×0.08+90×0.22+100×0.37+110×0.28+120×0.05=100. 所以这种面包质量指标值的平均数的估计值为 100. (3)质量指标值不低于 85 的面包所占比例的估计值为 0.22+0.37+0.28+0.05=0.92, 由于该估计值大于 0.9,故可以认为该食品厂生产的这种面包符 合“质量指标值不低于 85 的面包至少要占全部面包 90%的规定”. 方法技巧 在频率分布直方图中,小矩形的高表示“频率/组 距”,而不是频率;利用频率分布直方图求平均数时,平均数是频率分 布直方图的“重心”,可以估计为频率分布直方图中每个小长方形的 面积乘以小长方形底边中点的横坐标之和. 分类透析二 线性回归的综合应用 例 2 某市为了引导居民合理用水,居民生活用水实行二级阶梯 式水价计算办法,具体如下:第一阶梯,每户居民月用水量不超过 12 吨,价格为 4 元/吨;第二阶梯,每户居民月用水量超过 12 吨,超过部 分的价格为 8 元/吨.为了了解全市居民月用水量的分布情况,通过抽 样获得了 100 户居民的月用水量(单位:吨),将数据按照 [0,2],(2,4],…,(14,16](全市居民月用水量均不超过 16 吨)分成 8 组,制成了如图①所示的频率分布直方图. (1)求频率分布直方图中字母 a 的值,并求该组的频率. (2)通过频率分布直方图,估计该市居民每月的用水量的中位数 m 的值(保留两位小数). (3)图②是该市居民张某 2018 年 1~6 月份的月用水费 y(元)与 月份 x 的散点图,其拟合的线性回归方程是^ y=2x+33.若张某 2018 年 1~7 月份水费总支出为 312 元,试估计张某 7 月份的用水吨数. 分析 (1)根据矩形面积和为 1 可得结果; (2)利用 m 左右面积都是1 2列方程可得结果; (3)根据回归直线过样本点的中心,算出前六个月平均费用,总费 用减去前六个月的费用和即可得结果. 解析 (1)∵(0.02+0.04+0.08+a+0.13+0.08+0.03+0.02)×2=1, ∴a=0.10. 故第四组的频率为 0.1×2=0.2. (2)∵0.02×2+0.04×2+0.08×2+0.10×2+(m-8)×0.13=0.5, ∴m=8+0.5 - 0.48 0.13 ≈8.15. (3)∵ ― x =1 + 2 + 3 + 4 + 5 + 6 6 =3.5,且^ y=2x+33, ∴ ― y =2×3.5+33=40. ∴张某 7 月份的用水费用为 312-6×40=72(元), 设张某 7 月份的用水 x 吨, ∵12×4=48<72, ∴12×4+(x-12)×8=72,解得 x=15. 则张某 7 月份用水 15 吨. 方法技巧 (1)要能够从统计图表中获取数据来解决问题. (2)若已知回归直线方程,则可以直接将数值代入求得特定要求 下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过 点( ― x , ― y )求参数. 分类透析三 独立性检验的综合应用 例 3 某校工会对全校教职工在平昌冬季奥运会期间每天收看比 赛转播的时间做了一次调查,得到如下频数分布表: 收看 时间 (单 位:小 时) [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6] 收看 人数 14 30 16 28 20 12 (1)若将每天收看比赛转播时间不低于 3 小时的教职工定义 为“体育达人”,否则定义为“非体育达人”,请根据频数分布表补 全 2×2 列联表: 男 女 合计 体育达人 40 非体育达 人 30 合计 并判断能否有 90%的把握认为该校教职工是否为“体育达 人”与“性别”有关. (2)在全校“体育达人”中按性别分层抽样抽取 6 名,再从这 6 名“体育达人”中任意选取 2 名做冬奥会知识讲座.求取出的 2 名 “体育达人”中至少有 1 名女职工的概率. 附表及公式: P(K2 ≥k0) 0.1 5 0.1 0 0.0 5 0.0 25 0.0 10 0.0 05 0.0 01 k0 2.0 72 2.7 06 3.8 41 5.0 24 6.6 35 7.8 79 10. 828 附:K2= 푛(푎푑 - 푏푐)2 (푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑)(其中 n=a+b+c+d 为样本容量). 分析 (1)根据表格中的数据,计算 K2,对照附表,做出判断; (2)先利用分层抽样方法抽取 6 名“体育达人”,并确定其中男 女职工人数,再利用概率知识求解即可. 解析 (1)由题意得下表: 男 女 合计 体育达人 40 20 60 非体育达 人 30 30 60 合计 70 50 120 k=120 × (1200 - 600)2 70 × 50 × 60 × 60 =24 7 >2.706. 所以有 90%的把握认为该校教职工是否为“体育达人”与“性 别”有关. (2)由题意知抽取的 6 名“体育达人”中有 4 名男职工(记作 a,b,c,d),2 名女职工(记作 m,n), 则从这 6 名“体育达人”中任意选取 2 名有 ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共 15 种取法,取 出的 2 名“体育达人”中至少有 1 名女职工有 am,an,bm,bn,cm,cn,dm,dn,mn,共 9 种取法,所以所求概率 P= 9 15=3 5. 方法技巧 独立性检验的方法的解题步骤 ①构造 2×2 列联表;②计算 K2 的观测值 k;③查表确定有多大的 把握判定两个变量有关联. 1.(2018 年全国Ⅲ卷,文 18 改编)PM2.5 是指大气中直径小于或等于 2.5 微米的颗粒物,也称为可入肺颗粒物,一般情况下 PM2.5 浓度越 大,大气环境质量越差.我国 PM2.5 的标准是:24 小时 PM2.5 的平均 浓度在 0~35μg/m3 范围内,则空气质量是优,在 35~75μg/m3 范围内, 则空气质量是良好,在 75~115μg/m3 范围内,则空气质量是轻度污 染.在 115~150μg/m3 范围内,则空气质量是中度污染.甲、乙两座城 市 2016 年底经评估 PM2.5 的年平均浓度均在 80μg/m3 左右,空气质 量是轻度污染,甲、乙两座城市采取不同的环境综合治理方式,通过 各个监测站的大数据汇总得到 2017 年每个月 PM2.5 的平均浓度数据 如下(单位:μg/m3). 甲城市:83,74,55,62,47,65,58,61,56,50,54,46. 乙城市:82,68,61,65,68,68,71,67,82,70,66,72. (1)根据以上统计数据判断 2017 年哪座城市的大气环境质量总体较 好?并说明理由. (2)求两座城市 24 个 PM2.5 的平均浓度的中位数,并将两座城市超过 和不超过中位数的月份数填入下面的列联表: 不超过 超过 甲城市 乙城市 (3)根据(2)中的列联表,能否有 99%的把握认为甲、乙两座城市的大 气环境质量与该城市综合治理的方式有关? 附:K2= 푛(푎푑 - 푏푐)2 (푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑), P(K2≥k0 ) 0.05 0.0100.001 k0 3.8416.63510.82 8 解析 (1)甲城市的大气环境质量总体较好. 理由如下: ― x 甲= 1 12×(83+74+55+62+47+65+58+61+56+50+54+46)= 711 12 =59.25, ― x 乙= 1 12×(82+68+61+65+68+68+71+67+82+70+66+72)=840 12 =70,所以 ― x 甲< ― x 乙, 所以甲城市的大气环境质量总体较好. (2)把 24 个数据由小到大排序可得中位数为 m=65 + 66 2 =66.5. 列联表如下: 不超过 超过 甲城市 10 2 乙城市 2 10 (3)由于 k=24 × (10 × 10 - 2 × 2)2 12 × 12 × 12 × 12 ≈10.667>6.635, 所以有 99%的把握认为甲、乙两座城市的大气环境质量与他们 综合治理的方式有关. 2.(2018 年全国Ⅱ卷,文 18 改编)一只药用昆虫的产卵数 y(单位:个) 与一定范围内的温度 x(单位:℃)有关,现收集了该种药用昆虫的 6 组观测数据如下表所示. 温度 x/℃ 21 23 24 27 29 32 产卵 y/个 6 11 20 27 57 77 经计算得 ― x =1 6 6 푖 = 1 xi=26, ― y =1 6 6 i = 1 yi=33, 6 푖 = 1 (xi- ― x )(yi- ― y )=557, 6 푖 = 1 (xi- ― x )2=84, 6 푖 = 1 (yi- ― y )2=3930,线性回归模型的残差平方和 6 푖 = 1 (yi- ^ y푖)2=236.64,e8.0605≈3167,其中 xi,yi 分别为观测数据中的温度和产 卵数,i=1,2,3,4,5,6. (1)若用线性回归模型拟合,求 y 与 x 的回归方程^ y=bx+a(结果准确 到 0.1). (2)若用非线性回归模型拟合求得 y 与 x 的回归方程为^ y =0.06e0.2303x,且相关指数 R2=0.9522. ①试用(1)中的回归模型相比,用 R2 说明哪种模型的拟合效果更好. ②用拟合效果好的模型预测当温度为 35℃时,该种药用昆虫的产卵 数(结果取整数). 附:一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线^ y=bx+a 的斜率 和截距的最小二乘估计分别为 b= 푛 푖 = 1 (푥푖 - ― x )(푦푖 - ― y ) 푛 푖 = 1 (푥푖 - ― x )2 = 푛 푖 = 1 푥푖푦푖 - n ― x ― y 푛 푖 = 1 푥2푖 - n ― x 2 ,a= ― y - b ― x ;R2=1- 푛 푖 = 1(푦푖 - ^ y푖)2 푛 푖 = 1 (푦푖 - ― y )2 . 解析 (1)由题意得,b= 6 푖 = 1 (xi - ― x )(yi - ― y ) 6 i = 1 (푥푖 - ― x )2 =557 84 ≈6.6, 所以 a=33-557 84 ×26=-139.4, 所以 y 关于 x 的线性回归方程为^ y=6.6x-139.4. (2)①由所给数据求得的线性回归方程为^ y=6.6x-139.4,相关指 数为 R2=1- 6 푖 = 1(푦푖 - ^ y푖)2 6 푖 = 1 (푦푖 - ― y )2 =1-236.64 3930 ≈0.9398. 因为 0.9398<0.9522, 所以回归方程^ y=0.06e0.2303x 比线性回归方程^ y=6.6x-139.4 拟合 效果更好. ②由①得当温度 x=35℃时,^ y =0.06e0.2303×35=0.06e8.0605≈0.06×3167≈190(个). 即当温度 x=35℃时,该种药用昆虫的产卵数估计为 190 个. 3.(2018 全国Ⅰ卷,文 19 改编)某超市计划销售某种食品,现邀甲、 乙两个商家进场试销 5 天.两个商家提供的返利方案如下:甲商家每 天固定返利 60 元,且每卖出一件食品商家再返利 2 元;乙商家无固定 返利,卖出 30 件以内(含 30 件)的食品,每件食品商家返利 4 元,超出 30 件的部分每件返利 6 元.经统计,两个商家的试销情况茎叶图如 下: (1)现从甲商家试销的 5 天中抽取两天,求这两天的销售量都小于 30 的概率; (2)超市拟在甲、乙两个商家中选择一家长期销售,如果仅从日平均 返利额的角度考虑,请利用所学的统计学知识为超市做出选择,并说 明理由. 解析 (1)记“抽取的两天销售量都小于 30”为事件 A, 则 5 天中抽取两天的情况有(29,28),(29,29),(29,32), (29,32),(28,29),(28,32),(28,32),(29,32),(29,32),(32,32) ,共 10 种, 两天的销售量都小于 30 的情况有(29,28),(29,29),(28,29), 共 3 种, 所以 P(A)= 3 10. (2)依题意, 甲商家的日平均销售量为1 5×(29+28+29+32+32)=30. 所以甲商家的日平均返利额为 60+30×2=120 元. 乙商家的日平均返利额为 1 5×(28×4+28×4+30×4+2×6+30×4+1×6+30×4+1×6)=121.6 元. 因为 121.6>120, 所以推荐该超市选择乙商家长期销售. 1.(2018 安徽淮南二模)2018 年春,为响应中国大豆参与世界贸易的 竞争,某市农科院积极研究,加大优良品种的培育工作.其中一项基础 工作就是研究昼夜温差大小与大豆发芽率之间的关系.为此科研人员 分别记录了 5 天中每天 100 粒大豆的发芽数,得如下数据表格: 日期 4 月 4 日 4 月 5 日 4 月 6 日 4 月 7 日 4 月 8 日 温差 x(℃) 10 11 13 12 8 发芽 数 y(粒) 23 26 32 26 16 科研人员确定研究方案如下:从 5 组数据中选 3 组数据求线性回归方 程,再用求得的回归方程对剩下的 2 组数据进行检验. (1)求剩下的 2 组数据恰是不相邻的 2 天数据的概率; (2)若选取的是 4 月 5 日、6 日、7 日三天的数据,据此求 y 关于 x 的 线性回归方程^ y=bx+a; (3)若由线性回归方程得到的估计数据与实际数据的误差绝对值均不 超过 1 粒,则认为得到的线性回归方程是可靠的,请检验(2)中回归方 程是否可靠. 附:b= 푛 푖 = 1(xi - ― x )(yi - ― y ) n i = 1 (푥푖 - ― x )2 = 푛 푖 = 1 푥푖푦푖 - n ― x ― y 푛 푖 = 1 푥2푖 - n ― x 2 ,a= ― y -b ― x . 解析 (1)剩下的 2 组数据的情况有(4 日,5 日),(4 日,6 日),(4 日,7 日),(4 日,8 日),(5 日,6 日),(5 日,7 日),(5 日,8 日),(6 日,7 日),(6 日,8 日),(7 日,8 日),共 10 种, 恰好是不相邻的 2 天数据的情况有(4 日,6 日),(4 日,7 日),(4 日,8 日),(5 日,7 日),(5 日,8 日),(6 日,8 日),共 6 种, 所以恰好是不相邻的 2 天数据的概率是 6 10=3 5. (2)由数据得 3 푖 = 1 xiyi=11×26+13×32+12×26=1014, ― x =1 3×(11+13+12)=12, ― y =1 3×(26+32+26)=28, 3 ― x ― y =3×12×28=1008, ∴ n i = 1 xiyi-n ― x ― y = 3 푖 = 1 xiyi-3 ― x ― y =1014-1008=6, 3 푖 = 1 푥2푖 =112+132+122=434, 3 ― x 2 =3×122=432, ∴ 푛 푖 = 1 푥2푖 -n ― x 2 = 3 푖 = 1 푥2푖 -3 ― x 2 =434-432=2, ∴b= 3 푖 = 1 푥푖푦푖 - 3 ― x ― y 3 푖 = 1 푥2푖 - 3 ― x 2 =6 2=3, ∴a= ― y -b ― x =28-3×12=-8, 故 y 关于 x 的线性回归方程为^ y=3x-8. (3)当 x=10 时,^ y=3×10-8=22,|22-23|≤1; 当 x=8 时,^ y=3×8-8=16,|16-16|≤1. 故得到的线性回归方程是可靠的. 2.(2018 云南保山统考)某校进行文科、理科数学成绩对比,某次考 试后,各随机抽取 100 名同学的数学考试成绩进行统计,其频率分布 表如下. 分组 频数 频率 [135,15 0] 8 0.08 [120,13 5) 17 0.17 [105,12 0) 40 0.4 [90,105 ) 21 0.21 [75,90) 12 0.12 [60,75) 2 0.02 总计 100 1 理科 分组 频数 频率 [135,15 0] 4 0.04 [120,13 5) 18 0.18 [105,12 0) 37 0.37 [90,105 ) 31 0.31 [75,90) 7 0.07 [60,75) 3 0.03 总计 100 1 文科 (1)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值; (2)请填写下面的列联表,并根据列联表判断是否有 90%的把握认为 数学成绩与文理科有关. 数学成绩 ≥120 分 数学成绩 <120 分 合计 理 科 文 科 合 计 200 附:K2= 푛(푎푑 - 푏푐)2 (푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑),其中 n=a+b∈c+d. P(K2≥ k0) 0.10 0.05 0.02 5 0.01 0 0.00 1 k0 2.70 6 3.84 1 5.02 4 6.63 5 10.8 28 解析 (1)理科数学成绩的频率分布表中,成绩小于 105 分的频率 为 0.35, 成绩小于 120 分的频率为 0.75, 故理科数学成绩的中位数的估计值为 105+15 × (0.5 - 0.35) 0.40 =110.625(分). (2)根据数学成绩的频率分布表得如下列联表: 数学成绩 ≥120 分 数学成绩 <120 分 合计 理 科 25 75 100 文 科 22 78 100 合 计 47 153 200 k=200(25 × 78 - 22 × 75)2 100 × 100 × 47 × 153 ≈0.250<2.706, 故没有 90%的把握认为数学成绩与文理科有关. 3.(2018 辽宁凌源二中模考)某大型高端制造公司为响应《中国制造 2025》中提出的坚持“创新驱动、质量为先、绿色发展、结构优 化、人才为本”的基本方针,准备加大产品研发投资,下表是该公司 2017 年 5~12 月份研发费用(百万元)和产品销量(万台)的具体数据: 月份 5 6 7 8 9 10 11 12 研发费用 x(百万 元) 2 3 6 10 21 13 15 18 产品销量 y(万台) 1 1 2 2. 5 6 3. 5 3. 5 4. 5 (1)根据数据可知 y 与 x 之间存在线性相关关系. ①求出 y 关于 x 的线性回归方程(系数精确到 0.001); ②若 2018 年 6 月份研发投入为 25(百万元),根据所求的线性回归方 程估计当月产品的销量. (2)公司在 2017 年年终总结时准备从该年 8~12 月份这 5 个月中抽取 3 个月的数据进行重点分析,求没有抽到 9 月份数据的概率. 参考数据: 8 푖 = 1 xiyi=347, 8 i = 1 푥2푖 =1308. 参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线^ y =bx+a 的斜率和截距的最小二乘估计分别为 b= 푛 푖 = 1 푥푖푦푖 - n ― x ― y 푛 푖 = 1 푥2푖 - n ― x 2 ,a= ― y -b ― x . 解析 (1)①因为 ― x =11, ― y =3, 所以 b= 8 푖 = 1 xiyi - n ― x ― y 8 i = 1 푥2푖 - n ― x 2 =347 - 8 × 11 × 3 1308 - 8 × 121 = 83 340≈0.244,a=3- 83 340 ×11≈0.315, 所以 y 关于 x 的线性回归方程为^ y=0.244x+0.315. ②当 x=25 时,^ y=0.244×25+0.315=6.415(万台). (2)记 8~12 月份这 5 个月的数据分别为 a,A,b,c,d,从中抽取 3 个月有 a,A,b;a,A,c;a,A,d;a,b,c;a,b,d;a,c,d;A,b,c;A,b,d;A,c,d;b,c,d ,共 10 个基本事件. 没有抽到 9 月份的有 a,b,c;a,b,d;a,c,d;b,c,d,共 4 个基本事 件,所以概率 P= 4 10=2 5. 4.(2018 广东省江门市一模)为探索课堂教学改革,江门某中学数学 老师用传统教学和“导学案”两种教学方式,在甲、乙两个平行班进 行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽 取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70 分 为“成绩优良”. (1)请大致判断哪种教学方式的教学效果更佳,并说明理由; (2)构造一个教学方式与成绩优良的列联表,并判断能否在犯错误的 概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”. 附公式及表:K2= 푛(푎푑 - 푏푐)2 (푎 + 푏)(푐 + 푑)(푎 + 푐)(푏 + 푑)(其中 n=a+b+c+d 为样本容量) P(K2≥ k0) 0.1 0 0.0 5 0.0 25 0.0 10 0.0 05 k0 2.7 06 3.8 41 5.0 24 6.6 35 7.8 79 解析 (1)乙班(“导学案”教学方式)教学效果更佳. 理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩 70 分以下的明显更多. 理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩 的平均分为 79.05,高 10%以上. 理由 3:甲班样本数学成绩的中位数为68 + 72 2 =70;乙班样本数学 成绩的中位数为77 + 78 2 =77.5,高 10%以上. (2)列联表如下: 甲 班 乙 班 总 计 成绩 优良 10 16 26 成绩 不优 良 10 4 14 总计 20 20 40 由上表可得 K2 的观测值 k=40 × (10 × 4 - 10 × 16)2 20 × 20 × 26 × 14 ≈3.956>3.841. 所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与 教学方式有关”.查看更多