- 2021-07-01 发布 |
- 37.5 KB |
- 93页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2018届二轮复习统计、统计案例课件(全国通用)
第二讲 统计、统计案例 【 必备知识 】 1. 三种抽样方法的特点 简单随机抽样 : 操作简便、适当 , 总体个数较少 分层抽样 : 按比例抽样 系统抽样 : 等距抽样 2. 必记公式 数据 x 1 ,x 2 ,x 3 , … ,x n 的数字特征公式 (1) 平均数 : =_______________. (2) 方差 :s 2 =____________________________. (3) 标准差 :s=_______________________________. 3. 重要性质及结论 (1) 频率分布直方图的三个结论 ①小长方形的面积 = = 频率 ; ② 各小长方形的面积之和等于 1; ③ 小长方形的高 = . (2) 回归直线方程 : 一组具有线性相关关系的数据 (x 1 ,y 1 ),(x 2 ,y 2 ), … ,(x n ,y n ). 其回归方程 = , 其过样本点中心 . (3) 独立性检验 K 2 = ( 其中 n=a+b+c+d 为样本容量 ). 【 真题体验 】 1.(2016 · 全国卷 Ⅲ) 某旅游城市 为向游客介绍本地的气温情况 , 绘制了一年中各月平均最高气温 和平均最低气温的雷达图 . 图中 A 点表示十月的平均 最高气温约为 15℃,B 点表示四月的平均最低气温约为 5℃. 下面叙述不正确的是 ( ) A. 各月的平均最低气温都在 0℃ 以上 B. 七月的平均温差比一月的平均温差大 C. 三月和十一月的平均最高气温基本相同 D. 平均最高气温高于 20℃ 的月份有 5 个 【 解析 】 选 D. 根据雷达图可知全年最低气温都在 0℃ 以上 , 故 A 正确 ; 一月平均最高气温是 6℃ 左右 , 平均最 低气温 2℃ 左右 , 七月平均最高气温 22℃ 左右 , 平均最 低气温 13℃ 左右 , 所以七月的平均温差比一月的平 均温差大 ,B 正确 ; 三月和十一月的平均最高气温都是 10 ℃ , 三月和十一月的平均最高气温基本相同 ,C 正确 ; 平均最高气温高于 20 ℃ 的有七月和八月 , 故 D 错误 . 2.(2015 · 全国卷 Ⅰ) 根据下面给出的 2004 年至 2013 年我国二氧化硫排放量 ( 单位 : 万吨 ) 柱形图 , 以下结论不正确的是 ( ) A. 逐年比较 ,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 【 解析 】 选 D. 由柱形图得 , 从 2006 年以来 , 我国二氧化硫排放量呈下降趋势 , 故年排放量与年份负相关 . 3.(2017 · 全国卷 Ⅲ) 某城市为了解游客人数的变化规律 , 提高旅游服务质量 , 收集并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量 ( 单位 : 万人 ) 的数据 , 绘制了下面的折线图 根据该折线图 , 下列结论错误的是 ( ) A. 月接待游客量逐月增加 B. 年接待游客量逐年增加 C. 各年的月接待游客量高峰期大致在 7,8 月份 D. 各年 1 月至 6 月的月接待游客量相对 7 月至 12 月 , 波动性更小 , 变化比较平稳 【 解析 】 选 A. 由题图可知 ,2014 年 8 月到 9 月的月接待游客量在减少 , 则 A 选项错误 . 【 大数据易错点 】 排序 1: 忽视两个比例关系致误 . 分层抽样中 , 易忽视每层抽取的个体的比例是相同的 . 排序 2: 忽视纵轴意义致误 . 在绘制或应用频率分布直方图时 , 忽视纵轴的意义 , 在计算频率、平均值、中位数时容易导致错误 . 排序 3: 混淆茎叶含义致误 . 在绘制茎叶图时 , 易遗漏重复出现的数据 , 重复出现的数据要重复记录 , 同时不能混淆茎叶图中茎与叶的含义 . 排序 4: 混淆概念致误 . 相关关系与函数关系区别在于 : 函数关系是一种确定的关系 , 相关关系是一种非确定关系 排序 5: 认识错误致误 . 对于回归直线方程易误认为样本数据必在回归直线上 , 实际上回归直线必过样本点中心 , 可能所有的样本点都不在直线上 . 热点考向一 抽样方法 命题解读 : 主要考查抽样的三种方法 , 特别是系统抽样和分层抽样 , 常以选择题、填空题为主 . 【 典例 1】 (1)(2017 · 贵阳一模 ) 从编号为 01, 02, … , 49,50 的 50 个个体中利用下面的随机数表选取 5 个个体 , 选取方法从随机数表第 1 行第 5 列的数开始由左到右依 次抽取 , 则选出来的第 5 个个体的编号为 ( ) A.14 B.07 C.32 D.43 (2)(2017 · 长沙一模 ) 某班 50 名学生中有女生 20 名 , 按男女比例用分层抽样的方法 , 从全班学生中抽取部分学生进行调查 , 已知抽到的女生有 4 名 , 则本次调查抽取的人数是 ( ) 世纪金榜导学号 92494067 A.8 B.10 C.12 D.15 【 解题导引 】 (1) 抽取出来的五个个体的编号必须在 01 至 50 之间 , 并且不能有重复编号 , 由此能求出结果 .(2) 可依据分层抽样各层的抽样比相等来求解 . 【 规范解答 】 (1) 选 D. 由题意知选定的第一个数为 65( 第 1 行的第 5 列和第 6 列 ), 按由左到右选取两位数 ( 大于 50 的跳过、重复的不选取 ), 前 5 个个体编号为 08,12,14,07,43. 故选出来的第 5 个个体的编号为 43. (2) 选 B. 因为 50 名学生中有女生 20 名 , 按男女比例用分 层抽样的方法 , 抽到的女生有 4 名 , 所以本次调查抽取 的人数是 50× =10. 【 规律方法 】 两种抽样方法的注意点 1. 系统抽样 (1) 所分段数等于样本容量 , 即每段取一个 . (2) 第一段入样个体编号为 a 1 , 当每段含有 n 0 个个体时 , 第 k 段入样个体编号为 a 1 +(k-1) · n 0 . (3) 当总体不能分成整数段时 , 要先在总体中等可能剔 除若干个体 . 2. 分层抽样 (1) 适用于总体由差异明显的几部分组成的情况 . (2) 当总体容量为 N, 样本容量为 n 时 , 有下列关系式 : 【 变式 1+1】 1.(2017 · 昆明一模 ) 某班有学生 60 人 , 将这 60 名学生随机编号为 1-60 号 , 用系统抽样的方法从中抽出 4 名学生 , 已知 3 号、 33 号、 48 号学生在样本中 , 则样本中另一个学生的编号为 ( ) A.28 B.23 C.18 D.13 【 解析 】 选 C. 抽样间隔为 15, 故另一个学生的编号为 3+15=18. 2.( 新题预测 ) 某校有高级教师 90 人 , 一级教师 120 人 , 二级教师 75 人 , 现按职称用分层抽样的方法抽取 38 人参加一项调查 , 则抽取的一级教师人数为 ( ) A.10 B.12 C.16 D.18 【 解析 】 选 C. 根据分层抽样性质 , 设抽取的一级教师 人数为 m, 则 , 解得 m=16. 【 加练备选 】 1.(2017 · 重庆一模 ) 采用系统抽样方法 从 960 人中抽取 32 人做问卷调查 , 为此将他们随机编号 为 1,2, … ,960, 分组后在第一组采用简单随机抽样的 方法抽到的号码为 9. 抽到的 32 人中 , 编号落入区间 [1,450] 的人做问卷 A, 编号落入区间 [451,750] 的人做 问卷 B, 其余的人做问卷 C, 则抽到的人中 , 做问卷 B 的人 数为 ( ) A.7 B.9 C.10 D.15 【 解析 】 选 C. 抽取号码的间隔为 =30, 从而区间 [451,750] 包含的段数为 =10, 则编号落入区 间 [451,750] 的人数为 10 人 , 即做问卷 B 的人数为 10. 2.(2017 · 阳泉一模 ) 学校高中部共有学生 2000 名 , 高中部各年级男、女生人数如表 , 已知在高中部学生中随机抽取 1 名学生 , 抽到高三年级女生的概率是 0.18, 现用分层抽样的方法在高中部抽取 50 名学生 , 则应在高二年级抽取的学生人数为 ( ) 高一年级 高二年级 高三年级 女生 373 y x 男生 327 z 340 A.14 B.15 C.16 D.17 【 解析 】 选 B. 由已知得高三女生数 x=2000×0.18=360. 故高三年级总共有 360+340=700( 人 ). 而高一年级共有 373+327=700( 人 ). 所以高二年级共有 2000-700-700=600( 人 ). 设高二年级应抽取的学生数为 n, 则由分层抽样的特点 知 , , 解得 n=15. 热点考向二 用样本估计总体 命题解读 : 主要考查用频率分布直方图、茎叶图以及样本数字特征估计总体数字特征 , 主要以选择题、填空题为主 . 【 典例 2】 (1)(2017 · 湘潭一模 ) 某中学奥数培训班共 有 14 人 , 分为两个小组 , 在一次阶段测试中两个小组成 绩的茎叶图如图所示 , 其中甲组学生成绩的平均数是 88, 乙组学生成绩的中位数是 89, 则 n-m 的值为 ( ) A.5 B.6 C.7 D.8 (2)(2016 · 山东高考 ) 某高校调查了 200 名学生每周的 自习时间 ( 单位 : 小时 ), 制成了如图所示的频率分布直 方图 , 其中自习时间的范围是 [17.5,30], 样本数据分 组为 [17.5,20),[20,22.5),[22.5,25),[25,27.5), [27.5,30]. 根据直方图 , 这 200 名学生中每周的自习时 间不少于 22.5 小时的人数是 ( ) 世纪金榜导学号 92494068 A.56 B.60 C.120 D.140 【 解题导引 】 (1) 利用茎叶图、平均数、中位数的性质 , 列出方程组 , 求出 m,n, 由此能求出结果 .(2) 利用频率乘以总容量等于频数求解 . 【 规范解答 】 (1) 选 B. 由题意得 : 解得 m=3,n=9, 所以 n-m=9-3=6. (2) 选 D. 由频率分布直方图可知 , 每周自习时间不少于 22.5 小时的学生所占频率为 2.5×(0.16+0.08+0.04) =0.7, 所以每周自习时间不少于 22.5 小时的学生人数为 200×0.7=140. 【 规律方法 】 与频率分布直方图有关问题的常见类型及解题策略 (1) 已知频率分布直方图中的部分数据 , 求其他数据 . 可根据频率分布直方图中的数据求出样本与整体的关系 , 利用频率和等于 1 就可求出其他数据 . (2) 已知频率分布直方图 , 求某种范围内的数据 . 可利用图形及某范围结合求解 . (3) 与概率有关的综合问题 , 可先求出频率 , 再利用古典概型等知识求解 . 【 变式训练 】 (2017 · 太原一模 ) 某小卖部销售某品牌饮料的零售价与销量间的关系统计如下 : 单价 x( 元 ) 3.0 3.2 3.4 3.6 3.8 4.0 销量 y( 瓶 ) 50 44 43 40 35 28 已知 x,y 的关系符合回归方程 , 其中 =-20. 若该品牌饮料的进价为 2 元 , 为使利润最大 , 零售价应 定为 ______ 元 . 【 解析 】 依题意得 : =3.5, =40, 所以 =40-(-20)×3.5=110, 所以回归直线方程为 : =-20x+110, 利润 L=(x-2)(-20x+110)=-20x 2 +150x-220, 所以 x= =3.75 元时 , 利润最大 , 答案 : 3.75 【 加练备选 】 1.(2017 · 太原一模 ) 某公司 10 位员工的 月工资 ( 单位 : 元 ) 为 x 1 ,x 2 , … ,x 10 , 其均值和方差分别 为 和 s 2 , 若从下月起每位员工的月工资增加 100 元 , 则这 10 位员工下月工资的均值和方差分别为 ( ) A. ,s 2 +100 2 B. +100,s 2 +100 2 C. ,s 2 D. +100,s 2 【 解析 】 选 D. 利用样本的均值、方差公式求解 . ,y i =x i +100, 所以 y 1 ,y 2 , … ,y 10 的均值为 +100, 方差不变 . 2.(2017 · 郑州一模 )PM2.5 是指大气中直径小于或等于 2.5 微米的颗粒物 , 也称为可入肺颗粒物 . 如图是根据某地某日早 7 点到晚 8 点甲、乙两个 PM2.5 监测点统计的数据 ( 单位 : 毫克 / 立方米 ) 列出的茎叶图 , 则甲、乙两地浓度的方差较小的是 ( ) A. 甲 B. 乙 C. 甲、乙相等 D. 无法确定 【 解析 】 选 A. 从茎叶图上可以观察到 : 甲监测点的样本数据比乙监测点的样本数据更加集中 , 因此甲地浓度的方差较小 . 热点考向三 回归分析与独立性检验 类型一 回归分析 【 典例 3】 (2016 · 全国卷 Ⅲ) 如图是我国 2008 年至 2014 年生活垃圾无害化处理量 ( 单位 : 亿吨 ) 的折线图 . 世纪金榜导学号 92494069 注 : 年份代码 1-7 分别对应年份 2008-2014. (1) 由折线图看出 , 可用线性回归模型拟合 y 与 t 的关系 , 请用相关系数加以说明 . (2) 建立 y 关于 t 的回归方程 ( 系数精确到 0.01), 预测 2016 年我国生活垃圾无害化处理量 . 附注 : 参考数据 : 参考公式 : 相关系数 回归方程 中斜率和截距的最小二乘估计公式 分别为 : 【 题目拆解 】 高考大题综合性较强 , 求解时 , 把这类复杂问题拆解成若干个小问题来解决 , 可化难为易 , 得步骤分 . 学会了快速拆解题目 , 就能在解大题时得高分、得满分 . 解答本题第 (2) 问 , 可拆成三个小题 : ① 求 、 的值 ; ② 求线性回归方程 ; ③ 预测 2016 年我国生活垃圾无害化处理量 . 【 规范解答 】 (1) 由折线图中的数据和附注中参考数 据得 所以 r≈ 因为 y 与 t 的相关系数近似为 0.99, 说明 y 与 t 的线性相关程度相当高 , 从而可以用线性回归模型拟合 y 与 t 的关系 . (2) 由 =1.331 及 (1) 得 ≈ 1.331-0.103×4≈0.92. 所以 ,y 关于 t 的回归方程为 =0.92+0.10t. 将 2016 年对应的 t=9 代入回归方程得 : =0.92+0.10×9=1.82. 所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨 . 类型二 独立性检验 【 典例 4】 (2017 · 昆明一模 ) 某公司即将推出一款新 型智能手机,为了更好地对产品进行宣传,需预估市 民购买该款手机是否与年龄有关,现随机抽取了 50 名 市民进行购买意愿的问卷调查,若得分低于 60 分,说 明购买意愿弱;若得分不低于 60 分,说明购买意愿 强,调查结果用茎叶图表示如图所示 . 世纪金榜导学号 92494070 (1) 根据茎叶图中的数据完成 2×2 列联表,并判断是否有 95% 的把握认为市民是否购买该款手机与年龄有关? 购买意愿强 购买意愿弱 总计 20 ~ 40 岁 大于 40 岁 总计 (2) 从购买意愿弱的市民中按年龄进行分层抽样,共 抽取 5 人,从这 5 人中随机抽取 2 人进行采访,求这 2 人 都是年龄大于 40 岁的概率 . 附: K 2 = . P(K 2 ≥k 0 ) 0.100 0.050 0.010 0.001 k 0 2.706 3.841 6.635 10.828 【 解题导引 】 (1) 根据题意,填写 2 × 2 列联表,计 算观测值,对照临界值表得出结论 .(2) 按分层抽样 方法,购买意愿弱的市民共有 20 人,抽样比例 为 ,利用列举法得出基本事件数,求出对应 的概率 . 【 规范解答 】 (1) 由茎叶图可得: 购买意愿强 购买意愿弱 总计 20 ~ 40 岁 20 8 28 大于 40 岁 10 12 22 总计 30 20 50 由列联表可得, K 2 的观测值 k= ≈3.46<3.841. 所以,没有 95% 的把握认为市民是否购买该款手机与 年龄有关 . (2) 购买意愿弱的市民共有 20 人,抽样比例为 , 所以年龄在 20 ~ 40 岁的抽取了 2 人,记为 a , b , 年龄大于 40 岁的抽取了 3 人,记为 A , B , C , 从这 5 人中随机抽取 2 人,所有可能的情况为 (a , b) , (a , A) , (a , B) , (a , C) , (b , A) , (b , B) , (b , C) , (A , B) , (A , C) , (B , C) ,共 10 种, 其中 2 人都是年龄大于 40 岁的有 3 种情况,所以概率 为 . 【 规律方法 】 1. 求回归方程的关键及实际应用 (1) 关键 : 正确理解计算 的公式和准确地计算 . (2) 实际应用 : 在分析实际问题中两个变量的相关关系时 , 可根据样本数据作出散点图 , 确定两个变量之间是否具有相关关系 , 若具有线性相关关系 , 则可通过回归方程估计和预测变量的值 . 2. 独立性检验的关键 (1) 根据 2×2 列联表准确计算 K 2 的观测值 k, 若 2×2 列联表没有列出来 , 要先列出此表 . (2)K 2 的观测值 k 越大 , 对应假设事件 H 0 成立 ( 两类变量相互独立 ) 的概率越小 ,H 0 不成立的概率越大 . 【 变式训练 】 某企业为了对生产的一种新产品进行合理定价 , 将该产品按事先拟定的价格进行试销 , 得到以下数据 : 世纪金榜导学号 9294071 单价 x( 元 / 件 ) 60 62 64 66 68 70 销量 y( 件 ) 91 84 81 75 70 67 (1) 画出散点图 , 并求 y 关于 x 的回归方程 . (2) 已知该产品的成本是 36 元 / 件 , 预计在今后的销售中 , 销量与单价仍然服从 (1) 中的关系 , 为使企业获得最大利润 , 该产品的单价应定为多少元 ( 精确到元 )? 附 : 回归直线 的斜率和截距的最 小二乘法估计公式分别为 : 【 解析 】 (1) 散点图如图 , 由图得销量 y 与单价 x 线性相关 , 【 加练备选 】 1.(2017 · 怀化三模 ) 某医疗研究所为了 检验某种血清能起到预防感冒的作用 , 把 500 名使用血 清的人与另外 500 名未使用血清的人一年中的感冒记 录作比较 , 利用 2×2 列联表计算得 K 2 的观测值 k≈3.918. 附表 : P(K 2 ≥k 0 ) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 则作出 “ 这种血清能起到预防感冒的作用 ” 出错的可能性不超过 ( ) A.95% B.5% C.97.5% D.2.5% 【 解析 】 选 B. 根据题意 , 得 : 因为观测值 k≈3.918>3.841, 所以对照题目中的附表 , 得 P(K 2 ≥k 0 )=0.05=5%. 2.(2017 · 荆州一模 ) 从某高中随机选取 5 名高三男生 , 其身高和体重的数据如表所示 : 身高 x(cm) 160 165 170 175 180 体重 y(kg) 63 66 70 72 74 根据上表可得线性回归方程 =0.56x+ , 据此模型预 测身高为 172cm 的高三男生的体重为 ( ) A.70.09kg B.70.12kg C.70.55kg D.71.05kg 【 解析 】 选 B. 由表中数据可得 因为 ( ) 一定在回归直线 =0.56x+ 上 , 故 69=0.56×170+ , 解得 =-26.2. 故 =0.56x-26.2. 当 x=172 时 , =0.56×172-26.2=70.12.查看更多