- 2021-06-30 发布 |
- 37.5 KB |
- 18页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习第十章第3节 变量的相关性学案(全国通用)
第3节 变量的相关性 最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用. 知 识 梳 理 1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报. (1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归直线方程的求法——最小二乘法. 其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n21+n12+n22. (2)χ2统计量 χ2=. (3)两个临界值:3.841与6.635 当χ2>3.841时,有95 的把握说事件A与B有关; 当χ2>6.635时,有99 的把握说事件A与B有关; 当χ2≤3.841时,认为事件A与B是无关的. [常用结论与微点提醒] 1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(x,y). 2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大. 3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值. 诊 断 自 测 1.思考辨析(在括号内打“√”或“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√ 2.(教材例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表: x 6 8 10 12 y 2 3 5 6 则y对x的线性回归直线方程为( ) A.=2.3x-0.7 B.=2.3x+0.7 C.=0.7x-2.3 D.=0.7x+2.3 解析 易求=9,=4,样本点中心(9,4)代入验证,满足=0.7x-2.3. 答案 C 3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1. 答案 A 4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( ) A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确. 答案 D 5.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表: 理 文 男 13 10 女 7 20 根据表中数据,得到χ2=≈4.844.则有 的把握认为选修文 与性别有关系. 解析 χ2≈4.844>3.841,有95 的把握认为选修文 与性别有关系. 答案 95 考点一 相关关系的判断 【例1】 (1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与 正相关.下列结论中正确的是( ) A.x与y正相关,x与 负相关 B.x与y正相关,x与 正相关 C.x与y负相关,x与 负相关 D.x与y负相关,x与 正相关 (2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲 B.乙 C.丙 D.丁 解析 (1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与 正相关,所以 随y的增大而增大,减小而减小,所以 随x的增大而减小,x与 负相关. (2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性. 答案 (1)C (2)D 规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关. 2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关. 3.线性回归直线方程中:>0时,正相关;<0时,负相关. 【训练1】 (1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示: 月份 1月份 2月份 3月份 4月份 5月份 6月份 收入x 12.3 14.5 15.0 17.0 19.8 20.6 支出y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则( ) A.月收入的中位数是15,x与y有正线性相关关系 B.月收入的中位数是17,x与y有负线性相关关系 C.月收入的中位数是16,x与y有正线性相关关系 D.月收入的中位数是16,x与y有负线性相关关系 (2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为 . ② x,y是负相关关系; ②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R>R; ③x,y之间不能建立线性回归方程. 解析 (1)从统计图表中看出,月收入的中位数是(15+17)=16,收入增加,则支出也增加,x与y正线性相关. (2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①② 考点二 线性回归方程及应用 【例2】 (2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润 (单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理, 得到下面的散点图及一些统计量的值. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)? (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润 与x,y的关系为 =0.2y-x.根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为: 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程,由于 所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68. (3)①由(2)知,当x=49时,年销售量y的预报值 =100.6+68=576.6, 年利润 的预报值=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润 的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 规律方法 1.(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程=x+必过样本点中心(x,y). 2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测. (2)本例中y与x不具有线性相关,先作变换,转化为y与w具有线性相关,求出y关于w的线性回归方程,然后进一步求解. 【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1: 年份x 2013 2014 2015 2016 2017 储蓄存款y(千亿元) 5 6 7 8 10 表1 为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012, =y -5得到下表2: 时间代号t 1 2 3 4 5 0 1 2 3 5 表2 (1)求 关于t的线性回归方程; (2)通过(1)中的方程,求出y关于x的回归方程; (3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? ==1.2, = -=2.2-3×1.2=-1.4, 所以=1.2t-1.4. (2)将t=x-2 012, =y-5,代入=1.2t-1.4, 得y-5=1.2(x-2 012)-1.4,即=1.2x-2 410.8. (3)因为=1.2×2 022-2 410.8=15.6, 所以预测到2022年年底,该地储蓄存款额可达15.6千亿元. 考点三 独立性检验 【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率; (3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95 的把握认为“该校学生的每周平均体育运动时间与性别有关”. 附:χ2= P(χ2≥k0) 0.10 0.05 0.010 0.005 k0 2.706 3.841 6.635 7.879 解 (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. (3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时. 又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时 165 60 225 总计 210 90 300 将2×2列联表中的数据代入公式计算,得χ2的观测值 k==≈4.762>3.841. 所以,有95 的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足n11n22-n12n21≈0.|n11n22-n12n21|越小,说明两个变量之间关系越弱;|n11n22-n12n21|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论. 【训练3】 (2018·潍坊质检)某校在高一年级学生中,对自然 学类、社会 学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会 学类的男生、女生均为45名. (1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表. 并根据列联表判断是否有95 的把握认为 类的选择与性别有关? 选择自然 学类 选择社会 学类 合计 男生 女生 合计 解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=. (2)根据统计数据,可得2×2列联表如下: 选择自然 学类 选择社会 学类 合计 男生 60 45 105 女生 30 45 75 合计 90 90 180 则χ2==≈5.142 9>3.841, 所以有95 的把握认为 类的选择与性别有关. 基础巩固题组 (建议用时:40分钟) 一、选择题 1.为了判定两个分类变量X和Y是否有关系,应用独立性检验法算得χ2=5,则下列说法正确的是( ) A.有95 的把握认为“X和Y有关系” B.有95 的把握认为“X和Y没有关系” C.有99 的把握认为“X和Y有关系” D.有99 的把握认为“X和Y没有关系” 解析 依题意χ2=5>3.841,因此有95 的把握认为“X和Y有关系”. 答案 A 2.(2018·石家庄模拟)下列说法错误的是( ) A.回归直线过样本点的中心(,) B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C.对分类变量X与Y,随机变量χ2的值越大,则判断“X与Y有关系”的把握程度越小 D.在回归直线方程=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位 解析 根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量χ2值越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C 3.(2017·阜新模拟)已知两个随机变量x,y之间的相关关系如表所示: X -4 -2 1 2 4 Y -5 -3 -1 -0.5 1 根据上述数据得到的回归方程为=x+,则大致可以判断( ) A.>0,>0 B.>0,<0 C.<0,>0 D.<0,<0 解析 作出散点图,画出回归直线直观判定>0,<0. 答案 C 4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由χ2=算得, χ2=≈7.8. 得到的正确结论是( ) A.有99 的把握认为“爱好该项运动与性别有关” B.有99 的把握认为“爱好该项运动与性别无关” C.有95 的把握认为“爱好该项运动与性别有关” D.有95 的把握认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由χ2≈7.8>6.635,有99 的把握认为“爱好该项运动与性别有关”. 答案 A 5.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170 解析 由已知得x=22.5,y=160, ∵回归直线方程过样本点中心(x,y),且=4, ∴160=4×22.5+,解得=70. ∴回归直线方程为=4x+70,当x=24时,=166. 答案 C 二、填空题 6.(2017·滨州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9. 零件数x(个) 10 20 30 40 50 加工时间y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为 . 解析 由x=30,得y=0.67×30+54.9=75. 设表中的“模糊数字”为a, 则62+a+75+81+89=75×5,∴a=68. 答案 68 7.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人) 几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计 30 20 50 根据上述数据,有 的把握推断视觉和空间想象能力与性别有关系. 解析 由列联表计算χ2=≈5.556>3.841.有95 的把握推断视觉和空间想象能力与性别有关系. 答案 95 8.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 气温(℃) 18 13 10 -1 用电量(度) 24 34 38 64 由表中数据得回归直线方程=x+中的=-2,预测当气温为-4 ℃时,用电量约为 度. 解析 根据题意知x==10,y==40.所以=40-(-2)×10=60,=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度. 答案 68 三、解答题 9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表: 满意 不满意 男用户 30 10 女用户 20 20 (1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率; (2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由. 解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为=. 所以在满意产品的用户中应抽取女用户20×=2(人),男用户30×=3(人). 抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs. 其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs. 故所求的概率为P==0.6. (2)由题意,得χ2= =≈5.333>3.841. 故有95 的把握认为“产品用户是否满意与性别有关”. 10.(2018·惠州模拟)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表: 超市 A B C D E F G 广告费支出xi 1 2 4 6 11 13 19 销售额yi 19 32 40 44 52 53 54 (1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程; (2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额. ∴=-x=42-1.7×8=28.4, 故y关于x的线性回归方程是=1.7x+28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x=3时,=33.47. 故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元. 能力提升题组 (建议用时:20分钟) 11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表: 男性市民 女性市民 认为能缓解交通拥堵 48 30 认为不能缓解交通拥堵 12 20 则下列结论正确的是( ) A.有95 的把握认为“对能否缓解交通拥堵的认识与性别有关” B.有95 的把握认为“对能否缓解交通拥堵的认识与性别无关” C.有99 的把握认为“对能否缓解交通拥堵的认识与性别有关” D.有99 的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析 由2×2列联表,可求χ2= ≈5.288>3.841. ∴有95 的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A 12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示: 价格x 9 9.5 m 10.5 11 销售量y 11 n 8 6 5 由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n= . 解析 ==8+, ==6+. 回归直线一定经过样本中心(,), 即6+=-3.2+40,即3.2m+n=42. 又因为m+n=20,即 解得故n=10. 答案 10 13.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示: (1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势; (3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润. 月份 1 2 3 4 利润y(单位:百万元) 4 4 6 6 解 (1)由折线图可知5月和6月的平均利润最高. (2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势. (3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴==0.8,∴=5-2.5×0.8=3. 因此线性回归方程为=0.8x+3. 当x=8时,=0.8×8+3=9.4. ∴估计第3年8月份的利润为9.4百万元.查看更多