- 2021-06-30 发布 |
- 37.5 KB |
- 94页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习变量间的相关关系统计案例课件(94张)(全国通用)
§ 11.3 变量间的相关关系、统计 案例 第十一章 统计 与统计 案例 ZUIXINKAOGANG 最新考纲 1. 通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系 . 2. 经历用不同估算方法描述两个变量线性相关的过程 . 知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 . 3. 通过对典型案例的探究,了解独立性检验的基本思想、方法及其初步应用 . 4. 通过对典型案例的探究,进一步了解回归分析的基本思想、方法及简单应用 . NEIRONGSUOYIN 内容索引 基础 知识 自主学习 题型分类 深度 剖析 课时作业 1 基础知识 自主学习 PART ONE (1) 正相关 在散点图中,点散布在 从 _______ 到 _______ 的 区域,对于两个变量的这种相关关系,我们将它称为正相关 . (2) 负相关 在散点图中,点散布在 从 _______ 到 _______ 的 区域,两个变量的这种相关关系称为负相关 . (3) 线性相关关系、回归直线 如果散点图中点的分布从整体上看大致 在 ______________ , 就称这两个变量之间具有线性相关关系,这条直线叫做回归直线 . 1. 两个变量的线性相关 知识梳理 ZHISHISHULI 左下角 右上角 左上角 右下角 一条直线附近 2. 回归方程 (1) 最小二乘法 求回归直线,使得样本数据的点到它 的 __________________ 的 方法叫做最小二乘法 . (2) 回归方程 距离的平方和最小 3. 回归分析 (1) 定义:对 具有 _________ 的 两个变量进行统计分析的一种常用方法 . (2) 样本点的中心 对于一组具有线性相关关系的数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) ,其中 ( ) 称为样本点的中心 . (3) 相关系数 当 r >0 时,表明两个 变量 _______ ; 当 r <0 时,表明两个 变量 _______ . r 的绝对值越接近于 1 ,表明两个变量的线性相关 性 _____ . r 的绝对值越接近于 0 ,表明两个变量 之间 _______________________ . 通常 | r | 大于 ____ 时 ,认为两个变量有很强的线性相关性 . 相关关系 正相关 负相关 越强 几乎不存在线性相关关系 0.75 4. 独立性检验 (1) 分类变量:变量的不同 “ 值 ” 表示个体所属 的 _________ , 像这样的变量称为分类变量 . (2) 列联表:列出的两个分类变量 的 _______ , 称为列联表 . 假设有两个分类变量 X 和 Y ,它们的可能取值分别为 { x 1 , x 2 } 和 { y 1 , y 2 } ,其样本频数列联表 ( 称为 2 × 2 列联表 ) 为 2 × 2 列联表 y 1 y 2 总计 x 1 a b a + b x 2 c d c + d 总计 a + c b + d a + b + c + d 不同类别 频数表 (3) 独立性检验 利用 随机变量 ___ 来 判断 “ 两个分类 变量 _______ ” 的方法称为独立性检验 . a + b + c + d K 2 有关系 1. 变量的相关关系与变量的函数关系有什么区别? 提示 相同点:两者均是指两个变量的关系 . 不同点: ① 函数关系是一种确定的关系,相关关系是一种非确定的关系 . ② 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系 . 2. 如何判断两个变量间的线性相关关系? 提示 散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断 . 【 概念方法微思考 】 3. 独立性检验的基本步骤是什么? 提示 列出 2 × 2 列联表,计算 k 值,根据临界值表得出结论 . 4. 线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确? 提示 (1) 不一定都有实际意义 . 回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义 . (2) 根据回归方程进行预报,仅是一个预报值,而不是真实发生的值 . 题组一 思考辨析 1. 判断下列结论是否正确 ( 请在括号中打 “√” 或 “×” ) (1) 相关关系与函数关系都是一种确定性的关系,也是一种因果关系 .( ) (2) “ 名师出高徒 ” 可以解释为教师的教学水平与学生的水平成 正相关 关系 .( ) (3) 只有两个变量有相关关系,所得到的回归模型才有预测价值 .( ) (4) 某同学研究卖出的热饮杯数 y 与气温 x ( ℃ ) 之间的关系,得线性回归 方程 =- 2.352 x + 147.767 ,则气温为 2 ℃ 时,一定可卖出 143 杯热饮 .( ) (5) 事件 X , Y 关系越密切,则由观测数据计算得到的 K 2 的观测值越大 .( ) × 基础自测 JICHUZICE 1 2 3 4 5 6 × √ √ √ 题组二 教材改编 1 2 3 4 5 6 2 . 为 调查中学生近视情况,测得某校男生 150 名中有 80 名近视,在 140 名女生中有 70 名近视 . 在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有 说服力 A. 回归分析 B . 均值与 方差 C . 独立性检验 D . 概率 √ 解析 “ 近视 ” 与 “ 性别 ” 是两类变量,其是否有关,应用独立性检验判断 . 则表中 a , b 的值分别 为 A.94,72 B.52,50 C.52,74 D.74,52 √ 1 2 3 4 5 6 3 . 下面 是 2 × 2 列联表: y 1 y 2 总计 x 1 a 21 73 x 2 22 25 47 总计 b 46 120 解析 ∵ a + 21 = 73 , ∴ a = 52. 又 a + 22 = b , ∴ b = 74. 4 . 某 车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验 . 根据收集到的数据 ( 如下表 ) ,由最小二乘法求得 回归方程 = 0.67 x + 54.9 . 现 发现表中有一个数据看不清,请你推断出该数据的值为 ____. 设表中的 “ 模糊数字 ” 为 a , 则 62 + a + 75 + 81 + 89 = 75 × 5 , ∴ a = 68. 1 2 3 4 5 6 零件数 x ( 个 ) 10 20 30 40 50 加工时间 y (min) 62 75 81 89 68 题组三 易错自纠 5. 某医疗机构通过抽样调查 ( 样本容量 n = 1 000) ,利用 2 × 2 列联表和 K 2 统计量研究患肺病是否与吸烟有关 . 计算得 K 2 = 4.453 ,经查阅临界值表知 P ( K 2 ≥ 3.841) ≈ 0.05 ,现给出四个结论,其中正确的 是 A. 在 100 个吸烟的人中约有 95 个人患肺病 B. 若某人吸烟,那么他有 95% 的可能性患肺病 C. 有 95% 的把握认为 “ 患肺病与吸烟有关 ” D. 只有 5% 的把握认为 “ 患肺病与吸烟有关 ” 1 2 3 4 5 6 √ 解析 由已知数据可得,有 1 - 0.05 = 95% 的把握认为 “ 患肺病与吸烟有关 ”. 1 2 3 4 5 6 6. 在一次考试中, 5 名学生的数学和物理成绩如下表: ( 已知学生的数学和物理成绩具有线性相关关系 ) 现 已知其线性回归方程 为 , 则根据此线性回归方程估计数学得 90 分的同学的物理成绩为 ____.( 四舍五入到整数 ) 学生的编号 i 1 2 3 4 5 数学成绩 x 80 75 70 65 60 物理成绩 y 70 66 68 64 62 73 1 2 3 4 5 6 2 题型分类 深度剖析 PART TWO 题型一 相关关系的判断 例 1 (1) 观察下列各图形 , 其中两个变量 x , y 具有相关关系的图 是 A. ①② B . ①④ C . ③④ D . ②③ 师生共研 解析 由散点图知 ③ 中的点都分布在一条直线附近 . ④ 中的点都分布在一条曲线附近 , 所以 ③④ 中的两个变量具有相关关系 . √ (2)(2018· 广州质检 ) 根据下面给出的 2004 年至 2013 年我国二氧化硫排放量 ( 单位:万吨 ) 的柱形图 . 以下结论不正确的是 A. 逐年比较, 2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 √ 解析 从 2006 年,将每年的二氧化硫排放量与前一年作差比较,得到 2008 年二氧化硫排放量与 2007 年排放量的差最大, A 选项正确; 2007 年二氧化硫排放量较 2006 年降低了很多, B 选项正确; 虽然 2011 年二氧化硫排放量较 2010 年多一些,但自 2006 年以来,整体呈递减趋势, C 选项正确; 自 2006 年以来我国二氧化硫年排放量与年份负相关, D 选项错误,故选 D. 判定两个变量正,负相关性的方法 (1) 画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关 . (2) 相关系数:当 r >0 时,正相关;当 r <0 时,负相关 . (3) 线性回归方程中:当 > 0 时,正相关;当 < 0 时,负相关 . 思维升华 跟踪训练 1 (1) 在一组样本数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n )( n ≥ 2 , x 1 , x 2 , … , x n 不全相等 ) 的散点图中,若所有样本点 ( x i , y i )( i = 1,2 , … , n ) 都在直线 y =- x + 1 上,则这组样本数据的样本相关系数 为 A. - 1 B.0 C . - D.1 解析 完全的线性关系,且为负相关,故其相关系数为- 1 ,故选 A. √ (2) x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为 _____. ① x , y 是负相关关系; ② 在该相关关系中,若用 y = 拟合 时的相关指数 为 ,用 拟合 时的相关指数 为 ,则 ; ③ x , y 之间不能建立线性回归方程 . ①② 解析 在散点图中,点散布在从左上角到右下角的区域,因此 x , y 是负相关关系,故 ① 正确; x , y 之间可以建立线性回归方程,但拟合效果不好,故 ③ 错误 . 题型二 回归分析 命题点 1 线性回归分析 多维探究 例 2 下图是我国 2011 年至 2017 年生活垃圾无害化处理量 ( 单位:亿吨 ) 的折线图 . 注:年份代码 1 ~ 7 分别对应年份 2011 ~ 2017. (1) 由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明 ; 因为 y 与 t 的相关系数近似为 0.99 , 说明 y 与 t 的线性相关程度相当高 , 从而 可以用线性回归模型拟合 y 与 t 的关系 . 解 由 折线图中数据和附注中参考数据得 (2) 建立 y 关于 t 的回归方程 ( 系数精确到 0.01) ,预测 2019 年我国生活垃圾无害化处理量 . 附注: 所以预测 2019 年我国生活垃圾无害化处理量约为 1.83 亿吨 . 命题点 2 非线性回归 例 3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x ( 单位:千元 ) 对年销 售量 y ( 单位: t) 和年利润 z ( 单位:千元 ) 的影响,对近 8 年的年宣传费 x i 和年销售量 y i ( i = 1,2 , … , 8) 数据作了初步处理,得到下面的散点图及一些统计量的值 . 46.6 563 6.8 289.8 1.6 1 469 108.8 (1) 根据散点图判断, y = a + bx 与 y = c + d 哪 一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型? ( 给出判断即可,不必说明理由 ) 解 由 散点图可以判断, y = c + d 适宜 作为年销售量 y 关于年宣传费 x 的回归方程类型 . (2) 根据 (1) 的判断结果及表中数据,建立 y 关于 x 的回归方程; (3) 已知这种产品的年利润 z 与 x , y 的关系为 z = 0.2 y - x . 根据 (2) 的结果回答下列问题: ① 年宣传费 x = 49 时,年销售量及年利润的预报值是多少? ② 年宣传费 x 为何值时,年利润的预报值最大? 解 ① 由 (2) 知,当 x = 49 时, ② 根据 (2) 的结果知,年利润 z 的预报值 故年宣传费为 46.24 千元时,年利润的预报值最大 . 回归分析问题的类型及解题方法 (1) 求回归方程 ① 根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关 . ② 利用公式,求出 回归系数 . ③ 待定系数法:利用回归直线过样本点的中心求 系数 . (2) 利用回归方程进行预测,把线性回归方程看作一次函数,求函数值 . (3) 利用回归直线判断正、负相关;决定正相关还是负相关的是 系数 . (4) 回归方程的拟合效果,可以利用相关系数判断,当 | r | 越趋近于 1 时,两变量的线性相关性越强 . 思维升华 跟踪训练 2 (2018· 全国 Ⅱ ) 下图是某地区 2000 年至 2016 年环境基础设施投资额 y ( 单位:亿元 ) 的折线图 . 为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模 型 . 根据 2000 年至 2016 年的数据 ( 时间变量 t 的值依次为 1,2 , … , 17) 建立模型 ① : =- 30.4 + 13.5 t ;根据 2010 年至 2016 年的数据 ( 时间变量 t 的值依次为 1,2 , … , 7) 建立模型 ② := 99 + 17.5 t . (1) 分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; 解 利用 模型 ① ,可得该地区 2018 年的环境基础设施投资额的预测值为 =- 30.4 + 13.5 × 19 = 226.1( 亿元 ). 利用模型 ② ,可得该地区 2018 年的环境基础设施投资额的预测值为 = 99 + 17.5 × 9 = 256.5( 亿元 ). (2) 你认为用哪个模型得到的预测值更可靠?并说明理由 . 解 利用模型 ② 得到的预测值更可靠 . 理由如下: ( ⅰ ) 从折线图可以看出, 2000 年至 2016 年的数据对应的点没有随机散布在直线 y =- 30.4 + 13.5 t 上 下,这说明利用 2000 年至 2016 年的数据建立的线性模型 ① 不能很好地描述环境基础设施投资额的变化趋势 .2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型 = 99 + 17.5 t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型 ② 得到的预测值更可靠 . ( ⅱ ) 从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型 ① 得到的预测值 226.1 亿元的增幅明显偏低,而利用模型 ② 得到的预测值的增幅比较合理,说明利用模型 ② 得到的预测值更可靠 . 题型三 独立性检验 师生共研 例 4 (2017· 全国 Ⅱ ) 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量 ( 单位: kg) ,其频率分布直方图如下: (1) 记 A 表示事件 “ 旧养殖法的箱产量低于 50 kg ” ,估计 A 的概率; 解 旧 养殖法的箱产量低于 50 kg 的频率为 (0.012 + 0.014 + 0.024 + 0.034 + 0.040) × 5 = 0.62. 因此,事件 A 的概率估计值为 0.62. (2) 填写下面列联表,并根据列联表判断是否有 99% 的把握认为箱产量与养殖方法有关: 箱产量 <50 kg 箱产量 ≥ 50 kg 旧养殖法 新养殖法 解 根据 箱产量的频率分布直方图得列联表如下: 箱产量 <50 kg 箱产量 ≥ 50 kg 旧养殖法 62 38 新养殖法 34 66 由于 15.705>6.635 ,故有 99% 的把握认为箱产量与养殖方法有关 . (3) 根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较 . 附: P ( K 2 ≥ k 0 ) 0.050 0.010 0.001 k 0 3.841 6.635 10.828 解 箱产量的频率分布直方图表明:新养殖法的箱产量平均值 ( 或中位数 ) 在 50 kg 到 55 kg 之间,旧养殖法的箱产量平均值 ( 或中位数 ) 在 45 kg 到 50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法 . (1) 比较几个分类变量有关联的可能性大小的方法 ① 通过计算 K 2 的大小判断: K 2 越大,两变量有关联的可能性越大 . ② 通过计算 | ad - bc | 的大小判断: | ad - bc | 越大,两变量有关联的可能性越大 . (2) 独立性检验的一般步骤 ① 根据样本数据制成 2 × 2 列联表 . ③ 比较 k 与临界值的大小关系,做统计推断 . 思维升华 跟踪训练 3 微信是现代生活进行信息交流的重要工具,某公司 200 名员工中 90% 的人使用微信,其中每天使用微信时间在一小时以内的有 60 人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年 ( 年龄小于 40 岁 ) 和中年 ( 年龄不小于 40 岁 ) 两个阶段,那么使用微信的人中 75% 是青年人 . 若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中 有 是 青年人 . (1) 若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出 2 × 2 列联表: 青年人 中年人 总计 经常使用微信 不经常使用微信 总计 解 由 已知可得,该公司员工中使用微信的有 200 × 90% = 180( 人 ). 经常使用微信的有 180 - 60 = 120( 人 ) , 使用微信的人中青年人有 180 × 75% = 135( 人 ) , 故 2 × 2 列联表如下: 青年人 中年人 总计 经常使用微信 80 40 120 不经常使用微信 55 5 60 总计 135 45 180 (2) 根据 2 × 2 列表中的数据利用独立性检验的方法判断是否有 99.9% 的把握认为 “ 经常使用微信与年龄有关 ” ? P ( K 2 ≥ k 0 ) 0.010 0.001 k 0 6.635 10.828 由于 13.333>10.828 ,所以有 99.9% 的把握认为 “ 经常使用微信与年龄有关 ”. 数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程 . 主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论 . 核心素养之 数据分析 HEXINSUYANGZHISHUJUFENXI 线性回归方程及其应用 例 某地最近十年粮食需求量逐年上升,下表是部分统计数据: 年份 2006 2008 2010 2012 2014 需求量 / 万吨 236 246 257 276 286 解 由 所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表 . 年份- 2010 - 4 - 2 0 2 4 需求- 257 - 21 - 11 0 19 29 (2) 利用 (1) 中所求出的线性回归方程预测该地 2019 年的粮食需求量 . 解 利用所求得的线性回归方程,可预测 2019 年的粮食需求量大约为 6.5 × (2019 - 2010) + 260.2 = 6.5 × 9 + 260.2 = 318.7( 万吨 ). 素养提升 例题中利用所给数据求回归方程的过程体现的就是数据分析素养 . 3 课时作业 PART THREE 1. 已知变量 x 和 y 满足 关系 =- 0.1 x + 1 ,变量 y 与 z 正相关 . 下列结论中正确的 是 A. x 与 y 正相关, x 与 z 负相关 B. x 与 y 正相关, x 与 z 正相关 C. x 与 y 负相关, x 与 z 负相关 D. x 与 y 负相关, x 与 z 正相关 √ 基础 保分练 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 所以 x 与 z 负相关 . 故选 C. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2.(2018· 湖南省五市十校联考 ) 下表提供了某工厂节能降耗技术改造后,一种产品的产量 x ( 单位:吨 ) 与相应的生产能耗 y ( 单位:吨 ) 的几组对应数据 : 根据上表提供的数据,求得 y 关于 x 的线性回归方程 为 = 0.7 x + 0.35 ,那么表格中 t 的值 为 A.3 B.3.15 C.3.25 D.3.5 √ x / 吨 3 4 5 6 y / 吨 2.5 t 4 4.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解得 t = 3. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 3.(2018· 广东省百校联盟联考 ) 下表是我国某城市在 2017 年 1 月份至 10 月份期间各月最低温度与最高温度 ( 单位: ℃ ) 的数据一览表 . 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的 是 A . 最低温度与最高温度为正相关 B. 每月最高温度与最低温度的平均值在前 8 个月逐月增加 C. 月温差 ( 最高温度减最低温度 ) 的最大值出现在 1 月 D.1 月至 4 月的月温差 ( 最高温度减最低温度 ) 相对于 7 月至 10 月,波动性更 大 √ 月份 1 2 3 4 5 6 7 8 9 10 最高温度 / ℃ 5 9 9 11 17 24 27 30 31 21 最低温度 / ℃ - 12 - 3 1 - 2 7 17 19 23 25 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解析 将最高温度、最低温度、温差列表如下: 由表格可知,最低温度大致随最高温度的升高而升高, A 正确; 每月最高温度与最低温度的平均值在前 8 个月不是逐月增加, B 错误; 月温差的最大值出现在 1 月, C 正确; 1 月至 4 月的月温差相对于 7 月至 10 月,波动性更大, D 正确 . 月份 1 2 3 4 5 6 7 8 9 10 最高温度 / ℃ 5 9 9 11 17 24 27 30 31 21 最低温度 / ℃ - 12 - 3 1 - 2 7 17 19 23 25 10 温差度 / ℃ 17 12 8 13 10 7 8 7 6 11 4. 对具有线性相关关系的变量 x , y 有一组观测数据 ( x i , y i )( i = 1,2 , … , 8) ,其线性回归方程 是 , 且 x 1 + x 2 + x 3 + … + x 8 = 2( y 1 + y 2 + y 3 + … + y 8 ) = 6 ,则 实数 的 值是 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 √ 5.(2018· 惠州调研 ) 某商场为了了解毛衣的月销售量 y ( 单位:件 ) 与月平均气温 x ( 单位: ℃ ) 之间的关系,随机统计了某 4 个月的销售量与当月平均气温,其数据如下表 : 由表中数据算出线性回归 方程 中的 =- 2 ,气象部门预测下个月的平均气温为 6 ℃ ,据此估计该商场下个月毛衣销售量 为 A.46 件 B.40 件 C.38 件 D.58 件 √ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 月平均气温 x / ℃ 17 13 8 2 月销售量 y / 件 24 33 40 55 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 6.(2018· 开封模拟 ) 下列说法错误的 是 A. 回归直线过样本点的中心 ( ) B. 线性回归方程对应的 直线 至少 经过其样本数据点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) 中的一个点 C. 在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 D. 在回归分析中, R 2 为 0.98 的模型比 R 2 为 0.80 的模型拟合的效果好 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 √ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解析 回归直线必过样本点的中心, A 正确 ; 由 残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高, C 正确 ; 在 回归分析中, R 2 越接近于 1 ,模拟效果越好, D 正确; 但不一定经过样本的数据点,所以 B 错误,故选 B. 7. 某市居民 2010 ~ 2014 年家庭年平均收入 x ( 单位:万元 ) 与年平均支出 y ( 单位:万元 ) 的统计资料如下表所示 : 根据统计资料,居民家庭年平均收入的中位数是 ___ , 家庭年平均收入与年平均支出有 ____ 相关 关系 .( 填 “ 正 ” 或 “ 负 ” ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 年份 2010 2011 2012 2013 2014 收入 x 11.5 12.1 13 13.3 15 支出 y 6.8 8.8 9.8 10 12 13 正 解析 中位数是 13. 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 8. 某公司为确定明年投入某产品的广告支出,对近 5 年的年广告支出 m 与年销售额 t ( 单位:百万元 ) 进行了初步统计,得到下列表格中的数据 : 经测算,年广告支出 m 与年销售额 t 满足线性回归 方程 = 6.5 m + 17.5 ,则 p = ___. 年广告支出 m 2 4 5 6 8 年销售额 t 30 40 p 50 70 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 9. 以下四个命题,其中正确的序号是 _____. ① 从匀速传递的产品生产流水线上,质检员每 20 分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样; ② 两个随机变量相关性越强,则相关系数的绝对值越接近于 1 ; ③ 在线性回归 方程 = 0.2 x + 12 中,当解释变量 x 每增加一个单位时,预报 变量 平均 增加 0.2 个单位; ④ 对分类变量 X 与 Y 的统计量 K 2 来说, K 2 越小, “ X 与 Y 有关系 ” 的把握程度越大 . ②③ 解析 ① 是系统抽样 ; 对于 ④ ,统计量 K 2 越小,说明两个相关变量有关系的把握程度越小 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 10. 为了判断高中三年级学生选修文科是否与性别有关,现随机抽取 50 名学生,得到如图所示 2 × 2 列联表: 理科 文科 总计 男 13 10 23 女 7 20 27 总计 20 30 50 95% 因为 4.844>3.841 ,所以有 95% 的把握认为选修文科与性别有关 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 11. 某地区 2009 年至 2015 年农村居民家庭人均纯收入 y ( 单位:千元 ) 的数据如下表 : (1) 求 y 关于 t 的线性回归方程; 年份 2009 2010 2011 2012 2013 2014 2015 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (2) 利用 (1) 中的线性回归方程,分析 2009 年至 2015 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2019 年农村居民家庭人均纯收入 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 故 2009 年至 2015 年该地区农村居民家庭人均纯收入逐年增加,平均每年增加 0.5 千元 . 故预测该地区 2019 年农村居民家庭人均纯收入为 7.8 千元 . 12. 某省会城市地铁将于 2019 年 6 月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他们的收入与态度如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 月收入 ( 单位:百元 ) [15 , 25) [25 , 35) [35 , 45) [45 , 55) [55 , 65) [65 , 75] 赞成定价者人数 1 2 3 5 3 4 认为价格偏高者人数 4 8 12 5 2 1 (1) 若以区间的中点值为该区间内的人均月收入,求参与调查的人员中 “ 赞成定价者 ” 与 “ 认为价格偏高者 ” 的月平均收入的差异是多少 ( 结果保留 2 位小数 ) ; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解 “ 赞成定价者 ” 的月平均收入为 “ 认为价格偏高者 ” 的月平均收入为 ∴“ 赞成定价者 ” 与 “ 认为价格偏高者 ” 的月平均收入的差距 是 x 1 - x 2 = 50.56 - 38.75 = 11.81( 百元 ). (2) 由以上统计数据填下面 2 × 2 列联表,分析是否有 99% 的把握认为 “ 月收入以 55 百元为分界点对地铁定价的态度有差异 ” . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 赞成定价者 总计 P ( K 2 ≥ k 0 ) 0.05 0.01 k 0 3.841 6.635 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解 根据条件可得 2 × 2 列联表如下: ∴ 没有 99% 的把握认为 “ 月收入以 55 百元为分界点对地铁定价的态度有差异 ”. 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计 10 40 50 技能提升练 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 13. 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了 500 位老年人,结果如下: 性别 是否需要志愿者 男 女 需要 40 30 不需要 160 270 (1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例; 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (2) 能否有 99% 的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? 因为 9.967>6.635 , 所以 有 99% 的把握认为该地区的老年人是否需要帮助与性别有关 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (3) 根据 (2) 的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由 . 附: P ( K 2 ≥ k 0 ) 0.050 0.010 0.001 k 0 3.841 6.635 10.828 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解 由 (2) 的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 14. 如图是某企业 2010 年至 2016 年的污水净化量 ( 单位:吨 ) 的折线图 . 注:年份代码 1 ~ 7 分别对应年份 2010 ~ 2016 . (1) 由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相关系数加以说明 ; 解 由 折线图中的数据得, 因为 y 与 t 的相关系数近似为 0.94 , 说明 y 与 t 的线性相关程度相当大 , 所以 可以用线性回归模型拟合 y 与 t 的关系 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (2) 建立 y 关于 t 的回归方程,预测 2019 年该企业的污水净化量; 所以预测 2019 年该企业污水净化量约为 58.5 吨 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 (3) 请用数据说明回归方程预报的效果 . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 所以 “ 污水净化量的差异 ” 有 87.5% 是由年份引起的,这说明回归方程预报的效果是良好的 . 拓展冲刺练 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 解析 令 t = x 2 ,则曲线的回归方程变为线性的回归方程, 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16. 针对时下的 “ 韩剧热 ” ,某校团委对 “ 学生性别和喜欢韩剧是否有关 ” 作了一次调查,其中女生人数是男生人数 的 , 男生喜欢韩剧的人数占男生人数 的 , 女生喜欢韩剧的人数占女生人数 的 . 若有 95% 的把握认为是否喜欢韩剧和性别有关,则男生至少有 ____ 人 . P ( K 2 ≥ k 0 ) 0.050 0.010 0.001 k 0 3.841 6.635 10.828 18查看更多