- 2021-06-16 发布 |
- 37.5 KB |
- 46页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习 变量间的相关关系与统计案例课件(46张)(全国通用)
第 3 节 变量间的相关关系与统计案例 最新考纲 1. 会作两个有关联变量的数据的散点图 , 会利用散点图认识变量间的相关关系; 2. 了解最小二乘法的思想 , 能根据给出的线性回归方程系数公式建立线性回归方程 ( 线性回归方程系数公式不要求记忆 ) ; 3. 了解独立性检验 ( 只要求 2 × 2 列联表 ) 的基本思想、方法及其简单应用; 4. 了解回归分析的基本思想、方法及其简单应用 . 1. 相关关系与回归分析 回归分析 是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是 : __________ ; 统计量有相关系数与相关指数 . ( 1) 在散点图中,点散布在 从 _________ 到 _________ 的 区域,对于两个变量的这种相关关系,我们将它称为正相关 . ( 2) 在散点图中,点散布在 从 _________ 到 ________ 的 区域,两个变量的这种相关关系称为负相关 . ( 3) 如果散点图中点的分布从整体上看大致 在 ____________ 附近 ,称两个变量具有线性相关关系 . 知 识 梳 理 散点图 左下角 右上角 左上角 右下角 一条直线 距离的平方和 斜率 3. 回归分析 ( 1) 定义:对 具有 ___________ 的 两个变量进行统计分析的一种常用方法 . (3) 相关系数 当 r >0 时,表明两个 变量 _________ ; 当 r <0 时,表明两个 变量 _________ . 相关关系 正相关 负相关 r 的绝对值越接近于 1 ,表明两个变量的线性相关 性 _______ . r 的绝对值越接近于 0 ,表明两个变量之间几乎不存在线性相关关系 . 通常 | r | 大于 ______ 时 ,认为两个变量有很强的线性相关性 . 越强 0.75 4. 独立性检验 ( 1) 利用随机变量 K 2 来判断 “ 两个分类 变量 _________ ” 的方法称为独立性检验 . ( 2) 列联表:列出的两个分类变量的频数表,称为列联表 . 假设有两个分类变量 X 和 Y ,它们的可能取值分别为 { x 1 , x 2 } 和 { y 1 , y 2 } ,其样本频数列联表 (2 × 2 列联表 ) 为 有关系 y 1 y 2 总计 x 1 a b _______________ x 2 c d c + d 总计 a + c _____________ a + b + c + d a + b b + d a + b + c + d 答案 (1) √ (2) √ (3) × (4) √ 诊 断 自 测 2. ( 必修 3P90 例题改编 ) 某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,所得数据如表: x 6 8 10 12 y 2 3 5 6 答案 C 3. 两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R 2 如下,其中拟合效果最好的模型是 ( ) A . 模型 1 的相关指数 R 2 为 0.98 B . 模型 2 的相关指数 R 2 为 0.80 C . 模型 3 的相关指数 R 2 为 0.50 D . 模型 4 的相关指数 R 2 为 0.25 解析 在两个变量 y 与 x 的回归模型中 , 它们的相关指数 R 2 越近于 1 , 模拟效果越好 , 在四个选项中 A 的相关指数最大 ,所以拟合效果最好的是模型 1. 答案 A 4. (2015· 全国 Ⅱ 卷 ) 根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量 ( 单位:万吨 ) 柱形图,以下结论不正确的是 ( ) A. 逐年比较, 2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 解析 对于 A 选项 , 由图知从 2007 年到 2008 年二氧化硫排放量下降得最多 , 故 A 正确 . 对于 B 选项 , 由图知 , 由 2006 年到 2007 年矩形高度明显下降 , 因此 B 正确 . 对于 C 选项 , 由图知从 2006 年以后除 2011 年稍有上升外 , 其余年份都是逐年下降的 , 所以 C 正确 . 由图知 2006 年以来我国二氧化硫年排放量与年份负相关 , D 不正确 . 答案 D 5. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下 2 × 2 列联表: 理科 文科 男 13 10 女 7 20 解析 K 2 的观测值 k ≈ 4.844 , 这表明小概率事件发生 . 根据假设检验的基本原理 , 应该断定 “ 是否选修文科与性别之间有关系 ” 成立 , 并且这种判断出错的可能性约为 5%. 答案 5% 考点一 相关关系的判断 【例 1 】 (1) 已知变量 x 和 y 近似满足关系式 y =- 0.1 x + 1 ,变量 y 与 z 正相关 . 下列结论中正确的是 ( ) A. x 与 y 正相关, x 与 z 负相关 B. x 与 y 正相关, x 与 z 正相关 C. x 与 y 负相关, x 与 z 负相关 D. x 与 y 负相关, x 与 z 正相关 (2) 甲、乙、丙、丁四位同学各自对 A , B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表: 则哪位同学的试验结果体现 A , B 两变量有更强的线性相关性 ( ) A. 甲 B . 乙 C . 丙 D . 丁 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 解析 (1) 由 y =- 0.1 x + 1 , 知 x 与 y 负相关 , 即 y 随 x 的增大而减小 , 又 y 与 z 正相关 , 所以 z 随 y 的增大而增大 , 减小而减小 , 所以 z 随 x 的增大而减小 , x 与 z 负相关 . (2) 在验证两个变量之间的线性相关关系时 , 相关系数的绝对值越接近于 1 , 相关性越强 , 在四个选项中只有丁的相关系数最大;残差平方和越小 , 相关性越强 , 只有丁的残差平方和最小 , 综上可知丁的试验结果体现了 A , B 两变量有更强的线性相关性 . 答案 (1)C (2)D 【训练 1 】 (1) 某公司在 2018 年上半年的收入 x ( 单位:万元 ) 与月支出 y ( 单位:万元 ) 的统计资料如下表所示: 月份 1 月份 2 月份 3 月份 4 月份 5 月份 6 月份 收入 x 12.3 14.5 15.0 17.0 19.8 20.6 支出 y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则 ( ) A. 月收入的中位数是 15 , x 与 y 有正线性相关关系 B. 月收入的中位数是 17 , x 与 y 有负线性相关关系 C. 月收入的中位数是 16 , x 与 y 有正线性相关关系 D. 月收入的中位数是 16 , x 与 y 有负线性相关关系 (2) x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为 ________. 答案 (1)C (2) ①② 考点二 线性回归方程及应用 【例 2 】 (2015· 全国 Ⅰ 卷 ) 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x ( 单位:千元 ) 对年销售量 y ( 单位: t) 和年利润 z ( 单位:千元 ) 的影响,对近 8 年的年宣传费 x i 和年销售量 y i ( i = 1 , 2 , … , 8) 数据作了初步处理,得到下面的散点图及一些统计量的值 . 【训练 2 】 (2018· 日照调研 ) 某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款 ( 年底余额 ) ,如下表 1 : 年份 x 2013 2014 2015 2016 2017 储蓄存款 y ( 千亿元 ) 5 6 7 8 10 表 1 为了研究计算的方便,工作人员将上表的数据进行了处理, t = x - 2 012 , z = y - 5 得到下表 2 : 表 2 (1) 求 z 关于 t 的线性回归方程; (2) 通过 (1) 中的方程,求出 y 关于 x 的回归方程; (3) 用所求回归方程预测到 2022 年年底,该地储蓄存款额可达多少? 时间代号 t 1 2 3 4 5 z 0 1 2 3 5 考点三 独立性检验 【例 3 】 某高校共有学生 15 000 人,其中男生 10 500 人,女生 4 500 人 . 为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了 300 位学生每周平均体育运动时间的样本数据 ( 单位:小时 ). ( 1) 应收集多少位女生的样本数据? ( 2) 根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图 ( 如图所示 ) ,其中样本数据的分组区间为: [0 , 2] , (2 , 4] , (4 , 6] , (6 , 8] , (8 , 10] , (10 , 12]. 估计该校学生每周平均体育运动时间超过 4 小时的概率; (3) 在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时,请完成每周平均体育运动时间与性别列联表,并判断是否有 95% 的把握认为 “ 该校学生的每周平均体育运动时间与性别有关 ”. P ( K 2 ≥ k 0 ) 0.10 0.05 0.010 0.005 k 0 2.706 3.841 6.635 7.879 又因为样本数据中有 210 份是关于男生的, 90 份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 男生 女生 总计 每周平均体育运动时间不超过 4 小时 45 30 75 每周平均体育运动时间超过 4 小时 165 60 225 总计 210 90 300 【训练 3 】 (2018· 合肥质检 ) 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查 . 现从高一年级学生中随机抽取 180 名学生,其中男生 105 名;在这 180 名学生中选择社会科学类的男生、女生均为 45 名 . ( 1) 试问:从高一年级学生中随机抽取 1 人,抽到男生的概率约为多少? ( 2) 根据抽取的 180 名学生的调查结果,完成下面的 2 × 2 列联表 . 并判断能否在犯错误的概率不超过 0.025 的前提下认为科类的选择与性别有关? 选择自然科学类 选择社会科学类 合计 男生 女生 合计 P ( K 2 ≥ k 0 ) 0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 选择自然科学类 选择社会科学类 合计 男生 60 45 105 女生 30 45 75 合计 90 90 180查看更多