【数学】2020届一轮复习人教版(理)第9章第3讲变量间的相关关系与统计案例学案
第3讲 变量间的相关关系与统计案例
[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)
2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.
[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;
②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在
一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距,=xi,=yi,(,)称为样本点的中心.
说明:回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(4)样本相关系数
r=,用它来衡量两个变量间的线性相关关系.
①当r>0时,表明两个变量正相关;
②当r<0时,表明两个变量负相关;
③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2
},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
1.概念辨析
(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(2)通过回归方程=x+可以估计和观测变量的取值和变化趋势.( )
(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案 (1)√ (2)√ (3)√ (4)×
2.小题热身
(1)设回归方程为=3-5x,则变量x增加一个单位时( )
A.y平均增加3个单位 B.y平均减少5个单位
C.y平均增加5个单位 D.y平均减少3个单位
答案 B
解析 因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.
(2)在下列各图中,两个变量具有相关关系的图是( )
A.①② B.①③ C.②④ D.②③
答案 D
解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.
(3)下面是一个2×2列联表
则表中a,b处的值分别为________.
答案 52,54
解析 因为a+21=73,所以a=52.又因为a+2=b,所以b=54.
(4)已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
答案 2.6
解析 ∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
题型 相关关系的判断
1.下列两变量中不存在相关关系的是( )
①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.
A.①②⑤ B.①③⑥ C.④⑤⑥ D.②⑥
答案 A
解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
答案 D
解析 由回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,
∴①④一定错误.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
0时,正相关;r<0时,负相关.见举例说明3.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn
不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
答案 D
解析 所有点均在直线上,则样本相关系数最大即为1,故选D.
2.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用=x+拟合时的相关系数的平方为r,则r>r;
③x,y之间不能建立线性回归方程.
答案 ①②
解析 ①显然正确;散点图趋向于曲线而非直线,所以用y=c1ec2x拟合的效果比用=x+拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确.
题型 回归分析
角度1 线性回归方程及应用
1.(2018·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
0.5
1.2
2.2
3.3
4.5
维修总费用y/万元
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年 C.10年 D.11年
答案 D
解析 由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,由=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年.故选D.
2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:=,=-.
参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.
解 (1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由表中2月份至5月份的数据可得=11,=24,
xiyi=1092,=498,所以==,则=-=-,所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,=<2;
当x=6时,=,=<2.
所以,该小组所得线性回归方程是理想的.
角度2 非线性回归模型的应用
3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
=,=- .
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.利用线性回归方程时的关注点
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
2.非线性回归方程的求法
(1)根据原始数据(x,y)作出散点图.
(2)根据散点图选择恰当的拟合函数.
(3)作恰当的变换,将其转化成线性函数,求线性回归方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
1.据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.
(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x之间具有较强的线性相关关系,试建立y关于x的回归方程;
(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.
参考数据及公式:xi=25,yi=5.36, (xi-)(yi-)=0.64,回归方程=x+中斜率和截距的最小二乘估计公式分别为=,=-.
解 (1)==5,==1.072, (xi-)2=10,所以==0.064,=-=1.072-0.064×5=0.752.
所以从3月份至7月份y关于x的线性回归方程为=0.064x+0.752.
(2)将x=12代入回归方程得=0.064×12+0.752=1.52,
所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.
2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=cedx拟合,得到回归方程分别为(1)=0.24x-8.81,(2)=1.70e0.022x,作残差分析,如下表:
(1)求表中空格内的值;
(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;
(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
解 (1)根据残差分析,把x=80代入(1)=0.24x-8.81中,得(1)=10.39.
∵10-10.39=-0.39,
∴表中空格内的值为-0.39.
(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,
模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.
∵2.62<3.7,
∴模型①的拟合效果比较好,选择模型①.
(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:
由公式=,=-,
得回归方程为=0.24x-8.76.
题型 独立性检验
1.假设有两个分类变量X和Y的2×2列联表如下:
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
答案 A
解析 根据2×2列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,即a,c相差越大,与相差越大.故选A.
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m
,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
解 (1)第二种生产方式的效率更高.理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.)
(2)由茎叶图知m==80.列联表如下:
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量K2的观测值k,查表确定临界值k0;
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
1.(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:
根据表中数据,通过计算统计量
K2=,并参考以下临界数据:
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )
A.0.10 B.0.05 C.0.025 D.0.01
答案 A
解析 由题意可得K2=≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.
2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.
(1)求抽取的90名同学中的男生人数;
(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?
附:K2=,其中n=a+b+c+d.
解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.
(2)2×2列联表如下:
由K2=,代入数据得
K2==≈5.844>5.024.
所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.