- 2021-06-30 发布 |
- 37.5 KB |
- 40页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习(文)第十章统计与统计案例、概率第3节课件(40张)(全国通用)
第 3 节 变量间的相关关系与统计案例 最新考纲 1. 会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系; 2. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 ( 线性回归方程系数公式不要求记忆 ) ; 3. 了解独立性检验 ( 只要求 2 × 2 列联表 ) 的基本思想、方法及其简单应用; 4. 了解回归分析的基本思想、方法及其简单应用 . 1 . 相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是 : ; 统计量有相关系数与相关指数 . (1) 在散点图中,点散布在 从 到 的 区域,对于两个变量的这种相关关系,我们将它称为正相关 . (2) 在散点图中,点散布在 从 到 的 区域,两个变量的这种相关关系称为负相关 . (3) 如果散点图中点的分布从整体上看大致 在 附近 ,称两个变量具有线性相关关系 . 知 识 梳 理 散点图 左下角 右上角 左上角 右下角 一条直线 2 . 线性回归方程 距离的平方和 斜率 3 . 回归分析 (1) 定义:对 具有 的 两个变量进行统计分析的一种常用方法 . (2) 样本点的中心:对于一组具有线性相关关系的数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) , 其中 称为 样本点的中心 . 相关关系 (3) 相关系数 当 r >0 时,表明两个 变量 ; 当 r <0 时,表明两个 变量 . r 的绝对值越接近于 1 ,表明两个变量的线性相关 性 . r 的绝对值越接近于 0 ,表明两个变量之间几乎不存在线性相关关系 . 通常 | r | 大于 时 ,认为两个变量有很强的线性相关性 . (4) 相关指数: R 2 = . 其中 是 残差平方和,其值越小,则 R 2 越大 ( 接近 1) ,模型的拟合效果越好 . 正相关 负相关 越强 0.75 4 . 独立性检验 (1) 利用随机变量 K 2 来判断 “ 两个分类 变量 ” 的方法称为独立性检验 . (2) 列联表:列出的两个分类变量的频数表,称为列联表 . 假设有两个分类变量 X 和 Y ,它们的可能取值分别为 { x 1 , x 2 } 和 { y 1 , y 2 } ,其样本频数列联表 (2×2 列联表 ) 为 则随机变量 K 2 = , 其中 n = 为 样本容量 . y 1 y 2 总计 x 1 a b x 2 c d c + d 总计 a + c a + b + c + d 有关系 a + b b+d a + b + c + d 1 . 思考辨析 ( 在括号内打 “√” 或 “×”) ( 1)“ 名师出高徒 ” 可以解释为教师的教学水平与学生的水平成正相关关系 . ( ) ( 2) 通过回归直线 方程 可以 估计预报变量的取值和变化趋势 . ( ) ( 3) 因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验 . ( ) ( 4) 事件 X , Y 关系越密切,则由观测数据计算得到的 K 2 的观测值越大 . ( ) 答案 (1)√ (2)√ (3)× (4)√ 诊 断 自 测 2 . ( 必修 3P90 例题改编 ) 某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,所得数据如表: 答案 C x 6 8 10 12 y 2 3 5 6 3 . 两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R 2 如下,其中拟合效果最好的模型是 ( ) A . 模型 1 的相关指数 R 2 为 0.98 B . 模型 2 的相关指数 R 2 为 0.80 C . 模型 3 的相关指数 R 2 为 0.50 D . 模型 4 的相关指数 R 2 为 0.25 解析 在两个变量 y 与 x 的回归模型中,它们的相关指数 R 2 越近于 1 ,模拟效果越好,在四个选项中 A 的相关指数最大,所以拟合效果最好的是模型 1. 答案 A 4 . (2015· 全国 Ⅱ 卷 ) 根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量 ( 单位:万吨 ) 柱形图,以下结论不正确的是 ( ) A . 逐年比较, 2008 年减少二氧化硫排放量的效果最显著 B . 2007 年我国治理二氧化硫排放显现成效 C . 2006 年以来我国二氧化硫年排放量呈减少趋势 D . 2006 年以来我国二氧化硫年排放量与年份正相关 解析 对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多,故 A 正确 . 对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B 正确 . 对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年下降的,所以 C 正确 . 由图知 2006 年以来我国二氧化硫年排放量与年份负相关, D 不正确 . 答案 D 5 . 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下 2×2 列联表: 理科 文科 男 13 10 女 7 20 解析 K 2 的观测值 k ≈4.844 ,这表明小概率事件发生 . 根据假设检验的基本原理,应该断定 “ 是否选修文科与性别之间有关系 ” 成立,并且这种判断出错的可能性约为 5%. 答案 5% 考点一 相关关系的判断 【例 1 】 (1) 已知变量 x 和 y 近似满足关系式 y =- 0.1 x + 1 ,变量 y 与 z 正相关 . 下列结论中正确的是 ( ) A . x 与 y 正相关, x 与 z 负相关 B . x 与 y 正相关, x 与 z 正相关 C . x 与 y 负相关, x 与 z 负相关 D . x 与 y 负相关, x 与 z 正相关 (2) 甲、乙、丙、丁四位同学各自对 A , B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表: 则哪位同学的试验结果体现 A , B 两变量有更强的线性相关性 ( ) A . 甲 B . 乙 C . 丙 D . 丁 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 解析 (1) 由 y =- 0.1 x + 1 ,知 x 与 y 负相关,即 y 随 x 的增大而减小,又 y 与 z 正相关,所以 z 随 y 的增大而增大,减小而减小,所以 z 随 x 的增大而减小, x 与 z 负相关 . (2) 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于 1 ,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A , B 两变量有更强的线性相关性 . 答案 (1)C (2)D 【训练 1 】 (1) 某公司在 2018 年上半年的收入 x ( 单位:万元 ) 与月支出 y ( 单位:万元 ) 的统计资料如下表所示: 根据统计资料,则 ( ) A . 月收入的中位数是 15 , x 与 y 有正线性相关关系 B . 月收入的中位数是 17 , x 与 y 有负线性相关关系 C . 月收入的中位数是 16 , x 与 y 有正线性相关关系 D . 月收入的中位数是 16 , x 与 y 有负线性相关关系 月份 1 月份 2 月份 3 月份 4 月份 5 月份 6 月份 收入 x 12.3 14.5 15.0 17.0 19.8 20.6 支出 y 5.63 5.75 5.82 5.89 6.11 6.18 (2) x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为 ________ . 答案 (1)C (2) ①② 考点二 线性回归方程及应用 【例 2 】 (2015· 全国 Ⅰ 卷 ) 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x ( 单位:千元 ) 对年销售量 y ( 单位: t) 和年利润 z ( 单位:千元 ) 的影响,对近 8 年的年宣传费 x i 和年销售量 y i ( i = 1 , 2 , … , 8) 数据作了初步处理,得到下面的散点图及一些统计量的值 . 故年宣传费为 46.24 千元时,年利润的预报值最大 . 【训练 2 】 (2018· 日照调研 ) 某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款 ( 年底余额 ) ,如下表 1 : 为了研究计算的方便,工作人员将上表的数据进行了处理, t = x - 2 012 , z = y - 5 得到下表 2 : 年份 x 2013 2014 2015 2016 2017 储蓄存款 y ( 千亿元 ) 5 6 7 8 10 表 1 时间代号 t 1 2 3 4 5 z 0 1 2 3 5 表 2 所以预测到 2022 年年底,该地储蓄存款额可达 15.6 千亿元 . 考点三 独立性检验 【例 3 】 (2017· 全国 Ⅱ 卷 ) 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量 ( 单位: kg) ,其频率分布直方图如下: (1) 记 A 表示事件 “ 旧养殖法的箱产量低于 50 kg” ,估计 A 的概率; (2) 填写下面列联表,并根据列联表判断是否有 99% 的把握认为箱产量与养殖方法有关; (3) 根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较 . 附: 箱产量 <50 kg 箱产量 ≥ 50 kg 旧养殖法 新养殖法 解 (1) 旧养殖法的箱产量低于 50 kg 的频率为 (0.012 + 0.014 + 0.024 + 0.034 + 0.040)×5 = 0.62 ,因此,事件 A 的概率估计值为 0.62. (2) 根据箱产量的频率分布直方图得列联表: 由于 15.705>6.635 ,故有 99% 的把握认为箱产量与养殖方法有关 . 箱产量 <50 kg 箱产量 ≥ 50 kg 旧养殖法 62 38 新养殖法 34 66 (3) 箱产量的频率分布直方图表明:新养殖法的箱产量平均值 ( 或中位数 ) 在 50 kg 到 55 kg 之间,旧养殖法的箱产量平均值 ( 或中位数 ) 在 45 kg 到 50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高 . 因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法 . 【训练 3 】 (2018· 合肥质检 ) 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查 . 现从高一年级学生中随机抽取 180 名学生,其中男生 105 名;在这 180 名学生中选择社会科学类的男生、女生均为 45 名 . ( 1) 试问:从高一年级学生中随机抽取 1 人,抽到男生的概率约为多少? ( 2) 根据抽取的 180 名学生的调查结果,完成下面的 2×2 列联表 . 并判断能否在犯错误的概率不超过 0.025 的前提下认为科类的选择与性别有关? 选择自然科学类 选择社会科学类 合计 男生 女生 合计 P ( K 2 ≥ k 0 ) 0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 (2) 根据统计数据,可得 2×2 列联表如下: 所以能在犯错误的概率不超过 0.025 的前提下认为科类的选择与性别有关 . 选择自然科学类 选择社会科学类 合计 男生 60 45 105 女生 30 45 75 合计 90 90 180查看更多