- 2021-07-01 发布 |
- 37.5 KB |
- 17页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
专题11-4 热点题型三 相关关系与线性回归方程-《奇招制胜》2017年高考数学(理)热点+题型全突破
热点题型三 相关关系与线性回归方程及独立性检验 近年来在高考中对相关关系及线性回归方程的考查经常出现,主要考查学生数据处 理能力,运算能力,阅读能力及概率与统计思想,题目难度为中等。为了便于学习 和掌握此类问题的求解方法,下面结合高考题进行了以下归纳: 类型一 :相关性与线性回归方程 类型二 :独立性检验 【基础知识整合】 第一部分:变量间的相关性 1.两个变量的线性相关 (1)正相关;在散点图中,点散布在从左下角到右上角的区域,对于两个变量的 这种相关关系, 我们将它称为正相关. (2)负相关;在散点图中,点散布在从左上角到右下角的区域,对于两个变量的 这种相关关系, 我们将它称为负相关. (3)线性相关;如果散点图中点的分布从整体上看大致在一条直线附近,称两个 变量具有线性相关关 系,该直线叫做回归直线. 2.回归方程: (1) 最小二乘法;使得样本数据的点到回归直线的距离的平方的和最小的方法叫最 小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn, yn). 其回归方程为y^=b^x+a^,则 .ˆˆ , )( ))(( ˆ 1 22 1 1 2 1 xbya xnx yxnyx xx yyxx b n i i n i ii n i i n i ii 其中( x , y )称为样本点的中心. 3.残差分析; (1)残差;对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为 ei=yi-bxi-a,i=1,2,…,n,其估计值为 e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n.e^i 称为相应于点 (xi,yi)的残差. (2) 利 用 相 关 指 数 R2 = 1 - 2 1 2 1 n i i i n i i y y y y 刻 画 回 归 效 果 时 ,R2 越 大 , 意 味 着 残 差 平 方 和 2 1 n i i i y y 越小,模型的拟合效果越好. 第二部分:独立性检验 .独立性检验(1) 2×2 列联表;假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1, x2}和{y1,y2}, 其样本频数列联表(2×2 列联表)为 Y X y1 y2 合计 x1 a b a+b x2 c d c+d 合计 a+c b+d a+b+c+d (2) K2 统计量;K2= 2n ad bc a c a b c d b d n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ;(其 中 n=a+b+c+d 为样本容量). 名师点睛:(1)回归直线与样本点的中心( x ,y ),回归直线y^=b^x+a^必过样本点的中 心( x , y ). (2)相关系数与线性相关性:①相关系数的计算公式: ②当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负相关. ③当|r|∈0.75,1]时,表明两个变量相关性很强;当|r|∈0.30,0.75)时,表明两个变量 相关性一般; 当|r|∈0,0.25]时,表明两个变量相关性较弱. (3)回归分析是处理变量相关关系的一种数学方法.主要解决: ①确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; ②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求出线性回归 方程. (4)根据 K2 的值可以判断两个分类变量有关的可信程度. 类型一 :相关性与线性回归方程 【典例 1】【2015 高考新课标 2 理 3】根据下面给出的 2004 年至 2013 年我国二氧化硫排放量 (单位:万吨)柱形图。以下结论不正确的是( ) A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 【答案】D 【解析】由柱形图得,从 2006 年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年 份负相关,故选 D. 考点;正、负相关. 【思路点拨】本题以实际背景考查回归分析中的正、负相关,利用增长趋势或下降趋势理解正 负相关的概念是解题关键. 【典例 2】【2016 高考新课标 3 理数】下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单 位:亿吨)的折线图 (I)由折线图看出,可用线性回归模型拟合 y 与的关系,请用相关系数加以说明; (II)建立 y 关于的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量. 附注: 参考数据: 7 1 9.32i i y , 7 1 40.17i i i t y , 7 2 1 ( ) 0.55i i y y , 7≈2.646. 参考公式:相关系数 1 2 2 1 1 ( )( ) ( ) (y y) n i i i n n i i i i t t y y r t t , 回归方程 y a b 中斜率和截距的最小二乘估计公式分别为: 1 2 1 ( )( ) ( ) n i i i n i i t t y y b t t ,a y bt . 【答案】(Ⅰ)理由见解析;(Ⅱ)1.82 亿吨. 【解析】 (Ⅱ)由 331.17 32.9 y 及(Ⅰ)得 103.028 89.2 )( ))(( ˆ 7 1 2 7 1 i i i ii tt yytt b , 92.04103.0331.1ˆˆ tbya , 所以, y 关于的回归方程为: ty 10.092.0ˆ . 将 2016 年对应的 9t 代入回归方程得: 82.1910.092.0ˆ y , 所以预测 2016 年我国生活垃圾无害化处理量将约 1.82 亿吨. 考点:线性相关与线性回归方程的求法与应用. 【思路点拨】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直 观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程 时在严格按照公式求解时,一定要注意计算的准确性. 【典例 3】【2015 高考新课标 1 理 19】某公司为确定下一年度投入某种产品的宣传费,需了解 年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的年宣传费 ix 和年销售量 iy (=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统 计量的值. y w 8 2 1 ( )i i x x 8 2 1 ( )i i w w 8 1 ( )( )i i i x x y y 8 1 ( )( )i i i w w y y 46.6 56. 3 6.8 289.8 1.6 1469 108.8 表中 i iw x , w = 1 8 8 1 i i w (Ⅰ)根据散点图判断,y=a+bx 与 y=c+d x 哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立 y 关于 x 的回归方程; (Ⅲ)已知这种产品的年利率 z 与 x、y 的关系为 z=0.2y-x.根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费 x=49 时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费 x 为何值时,年利率的预报值最大? 附:对于一组数据 1 1( , )u v , 2 2( , )u v ,……, ( , )n nu v ,其回归线 v u 的斜率和截距的最小 二乘估计分别为: 1 2 1 ( )( ) = ( ) n i i i n i i u u v v u u , =v u 【答案】(Ⅰ) y c d x 适合作为年销售 y 关于年宣传费用的回归方程类型; (Ⅱ) 100.6 68y x (Ⅲ)46.24 【解析】(Ⅰ)由散点图可以判断, y c d x 适合作为年销售 y 关于年宣传费用的回归方 程类型. (Ⅱ)令 w x ,先建立 y 关于 w 的线性回归方程, 由于 8 1 8 2 1 ( )( ) ( ) i i i i i w w y y d w w =108.8 =6816 , ∴ c y dw =563-68×6.8=100.6. ∴ y 关于 w 的线性回归方程为 100.6 68y w , ∴ y 关于的回归方程为 100.6 68y x . 考点;非线性拟合;线性回归方程求法;利用回归方程进行预报预测;应用意识 【思路点拨】本题考查了非线性拟合及非线性回归方程的求解与应用,是源于课本的试题类型, 解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设出回归方程,利 用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归 方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程 进行预报预测,注意计算要细心,避免计算错误. 【变式练习】 1.【2014 湖北高考卷 4】根据如下样本数据 3 4 5 6 7 8 y 4.0 2.5 5.0 0.5 0.2 0.3 得到的回归方程为 abxy ˆ ,则( ) A. 0a , 0b B. 0a , 0b C. 0a , 0b D. 0a , 0b 【答案】B 【解析】:依题意,画散点图知,两个变量负相关,所以 0b , 0a .选 B. 考点:已知样本数判断线性回归方程中的与的符号。 2.【2014 高考重庆理 3】已知变量与 y 正相关,且由观测数据算得样本平均数 3x , 3.5y , 则由该观测的数据算得的线性回归方程可能是( ) . 0.4 2.3A y x . 2 2.4B y x . 2 9.5C y x . 0.3 4.4C y x 【答案】A 【解析】:因为变量与正相关,所以排除选项,又因为回归直线必过样本中心点 3,3.5 ,代入 检验知,只有直线 0.4 2.3y x 过点 3,3.5 ,故选 A. 考点:1、变量相关性的概念;2、回归直线. 3.【2015 高考福建理 4】为了解某社区居民的家庭年收入和年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表: 收入 (万元) 8.2 8.6 10.0 11.3 11.9 支出 y (万 元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程 ˆˆ ˆy bx a ,其中 ˆ ˆˆ0.76,b a y bx ,据此估计,该社区一户 收入为 15 万元家庭年支出为( ) A.11.4 万元 B.11.8 万元 C.12.0 万元 D.12.2 万元 【答案】B 【 解 析 】 由 已 知 得 8.2 8.6 10.0 11.3 11.9 105x ( 万 元 ) , 6.2 7.5 8.0 8.5 9.8 85y (万元),故 8 0.76 10 0.4a ,所以回归直线方程为 ˆ 0.76 0.4y x ,当社区一户收入为 15 万元家庭年支出为 ˆ 0.76 15 0.4 11.8y (万元), 故选 B. 考点;线性回归方程 4.【2014 全国课标 2 理 19】某地区 2007 年至 2013 年农村居民家庭纯收入 y(单位:千元)的 数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (Ⅰ)求 y 关于 t 的线性回归方程; (Ⅱ)利用(Ⅰ)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变 化情况,并预测该地区 2015 年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘法估计公式分别为: 1 2 1 n i i i n i i t t y y b t t , ˆˆa y bt 考点;线性回归. 【解题技巧与方法总结】 1.两变量相关关系的判断方法 (1)利用散点图判断,利用散点图可以直观地判断出两变量是正相关,还是负相 关,以及是否具有线性相关关系. (2)利用相关系数 r 判断,当|r|越趋近于 1 时,两变量的线性相关性越强. 2.线性回归分析问题的类型及解题方法 (1)求线性回归方程的步骤: ①利用公式,先把数据制成表, ②从表中计算出 x 、 y , 2 2 2 1 2 nx x x 、 1 1 2 2 n nx y x y x y 的值; ③计算回归系数 ,a b ; ④写出线性回归方程 ˆy bx a . (2)待定系数法:利用回归直线过样本点中心求系数. 3.利用回归方程进行预测;把回归直线方程看作一次函数,求函数值. 4.利用回归直线判断正、负相关:决定正相关还是负相关的是系数 b. 类型二 :独立性检验 【典例 1】【2014 安徽高考】某高校共有 15000 人,其中男生 10500 人,女生 4500 人,为调查 该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集 300 位学生每周平均体育 运动时间的样本数据(单位:小时) (Ⅰ)应收集多少位女生样本数据? (Ⅱ)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示), 其中样本数据分组区间为: .估计该校 学生每周平均体育运动时间超过 4 个小时的概率. (Ⅲ)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 个小时.请完成每周平均体 育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时 间与性别有关”. 附: 2 2 ( ) ( )( )( )( ) n ad bcK a b c d a c b d 2 0( )P K k 0.10 0.05 0.010 0.005 0k 2.706 3.841 6.635 7.879 【答案】(I)90;(2)0.75;(3)有 95% 的把握认为“该校学生的每周平均体育运动时间与性 别有关”. 【解析】(I)利用分层抽样的应用可以算出 4500300 9015000 ,所以应收集 90 位女生的样本 数据. (II)由频率分布直方图得1 2 (0.100 0.025) 0.75 ,该校学生每周平均体育运动时间 超过 4 个小时的概率为 0.75 . (III)由(II)知,300 位学生中有 300 0.75 225 人的每周平均体育运动时间超过 4 小时, 75 人的每周平均体育运动时间不超过 4 小时.又因为样本数据中有 210 份是关于男生的,90 份 是关于女生的.所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间 不超过 4 小时 45 30 75 每周平均体育运动时间 超过 4 小时 165 60 225 总计 210 90 300 结合列联表可算得 2 300 (45 60 30 165) 100 4.762 3.84175 225 210 90 21K . 有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 考点:1.频率分布直方图的应用;2.列联表的画法及 2K 的求解. 【思路点拨】由频率分布直方图进行相关计算时,需掌握下列关系式:(1) 频率 组距×组 距=频率.(2) 频数 样本容量 =频率,此关系式的变形为频数 频率 =样本容量,样本容量×频 率=频数.在 2×2 列联表中,如果两个变量没有关系,则应满足 ad-bc≈0.|ad-bc| 越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.解 决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论. 【变式训练】 1.【2014 江西高考】某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变 量的关系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的 可能性最大的变量是( ) 表 1 成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计 16 36 52 表 2 视力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52 表 3 智商 性别 偏高 正常 总计 男 8 12 20 女 8 24 32 总计 16 36 52 表 4 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 A.成绩 B.视力 C.智商 D.阅读量 【答案】 D 考点;1、独立性检验; 2.【2016 哈尔滨模拟】某班主任对全班 50 名学生的学习积极性和对待班级工作的 态度进行了调查,统计数据如下表所示: 积极参加班级 工作 不太主动参 加班级工作 合计 学习积极性高 18 7 25 学习积极性一般 6 19 25 合计 24 26 50 (1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多 少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少? (2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是 否有关系? 并说明理由. (参考下表) P(K2 ≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82 8 【答案】(1)P= 7 10. (2)没有 90%的把握认为“生产能手与工人所在的年龄组有关 考点;1、简单随机抽样、2、古典概型 3、独立性检验; 3.【2017 兰州模拟】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽 样方法从该地区调查了 500 位老年人,结果如下: 性别 是否需要志愿者 男 女 需要 40 30 不需要 160 270 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例; (2)能否有 99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者 提供帮助的老年人的比例?说明理由. 参考公式:K2= 2n ad bc a c a b c d b d ,其中 n=a+b+c+d. P(K2 ≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 【答案】 (1)14%. (2)有 90%的把握认为该地区的老年人是否需要志愿者提供帮助与性 别有关 (3)见解析 【解析】 (1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此该地区老 年人中,需要帮助的老年人的比例的估计值为 70 500%=14%. (2)K2=500×(40×270-30×160)2 200×300×70×430 ≈9.967. 由于 9.967>6.635,所以有 99%的把握认为该地区的老年人是否需要志愿者提供帮 助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出 该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先 确定该地区老年人中男,女的比例,再把老年人分成男,女两层并采用分层抽样方 法,比采用简单随机抽样方法更好. 考点; 1. 独立性检验; 2、抽样方法 【解题技巧与方法总结】 1.比较几个分类变量有关联的可能性大小的方法 (1)通过计算 K2 的大小判断:K2 越大,两变量有关联的可能性越大. (2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤 (1)根据样本数据制成 2×2 列联表. (2)根据公式;K2= 2n ad bc a c a b c d b d n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ;(其 中 n=a+b+c+d 为样本容量). 计算 K2 的观测值 k. (3)比较 k 与临界值的大小关系,作统计推断.查看更多