2021版高考数学一轮复习第十章统计与统计案例10-3变量的相关性与统计案例练习苏教版
10.3 变量的相关性与统计案例
考点一 相关关系的判断
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是 ( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性 ( )
A.甲 B.乙
C.丙 D.丁
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是 ( )
A.r2
0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:>0时,正相关;<0时,负相关.
考点二 独立性检验
【典例】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图所示:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg”,估计A的概率.
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
- 14 -
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
【解题导思】
序号
联想解题
(1)
以频率代替概率,相互独立时交事件概率等于两事件概率的积
(2)
填入数据,代入卡方公式计算观测值,与临界值比较
(3)
中位数把频率分布直方图分为面积相等的两部分
【解析】(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及χ2的计算公式得,
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).
- 14 -
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)比较χ2与临界值的大小关系,作统计推断.
(2020·南京模拟)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否有97.5%的把握认为科学类的选择与性别有关?
选择自然
科学类
选择社会
科学类
合计
男生
女生
合计
【解析】(1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如表:
选择自然
科学类
选择社会
科学类
合计
男生
60
45
105
- 14 -
女生
30
45
75
合计
90
90
180
则χ2==≈5.142 9>5.024,
所以有97.5%的把握认为科学类的选择与性别有关.
考点三 回归分析
命
题
精
解
读
考什么:(1)考查线性回归方程的求法及运用回归方程进行预测;(2)考查散点图、相关系数等判断两个变量是否相关的方法;(3)考查数学运算、数据分析的核心素养及数形结合等思想方法.
怎么考:与频率分布表、频率分布直方图、折线图等结合考查回归分析的方法.
新趋势:以回归分析为载体,与频率分布、概率等交汇命题.
学
霸
好
方
法
1.回归分析方法
(1)利用公式,求出回归系数;(2)利用回归方程进行预测;(3)与计算数值对比,确定模型是否合适,及时修正.
2.交汇问题
与频率分布直方图、折线图等交汇时,分析图形提供的数据信息,获得计算相关系数、回归系数等需要的数据,最后计算比较.
线性回归方程及其应用
【典例】现代社会,“鼠标手”已成为常见病,一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率等指标.
(1)10 名实验对象实验前、后握力(单位:N)测试结果如下:
实验前:346,357,358,360,362,362,364,372,373,376
实验后:313,321,322,324,330,332,334,343,350,361
完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?
- 14 -
(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率的中值频率y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),
(100,78),(120,76),(140,77),(160,75).建立y关于时间t的线性回归方程;
(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?
参考数据:(ti-)(yi-)=-1 800;
参考公式:回归方程=x+中斜率和截距的最小二乘估计公式分别为:
=,=-.
【解析】(1)根据题意得到茎叶图如图所示:
由图中数据可得=×(346+357+358+360+362+362+364+372+373+376)=363,
=×(313+321+322+324+330+332+334+343+350+361)=333,
所以-=363-333=30(N),
所以实验后比实验前握力的平均值下降30N.
(2)由题意得=(0+20+40+60+80+100+120+140+160)=80,
- 14 -
=(87+84+86+79+78+78+76+77+75)=80,
(ti-)2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24 000,
又(ti-)(yi-)=-1 800,
所以===-0.075,
所以=-=80-(-0.075)×80=86,
所以y关于时间t的线性回归方程为=-0.075t+86.
(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.
相关系数及其应用
【典例】如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:yi=9.32,
- 14 -
tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
【解析】(1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.10.
=-≈1.331-0.10×4≈0.93.
所以y关于t的回归方程为=0.93+0.10t.
- 14 -
将2016年对应的t=9代入回归方程得=0.93+0.10×9=1.83.所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.
非线性回归分析
【典例】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到如图散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)
·(yi-)
(wi-)
·(yi-)
46.6
563
6.8
289.8
1.6
1.469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为:
- 14 -
=,=-.
【解析】(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由===68.
得=-=563-68×6.8=100.6.
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
1.已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为=x+,则大致可以判断 ( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
- 14 -
【解析】选C.作出散点图,画出回归直线直观判定>0,<0.
2.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为 ( )
A.160 B.163 C.166 D.170
【解析】选C.由题意可知=4x+,
又=22.5,=160,
因此160=22.5×4+,解得=70,所以=4x+70.
当x=24时,=4×24+70=166.
3.某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程.
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,xiyi=2 794,=708.
参考公式:=,=-.
【解析】(1)===1.7.
所以=-=42-1.7×8=28.4,
- 14 -
故y关于x的线性回归方程是=1.7x+28.4.
(2)因为0.75<0.93,所以二次函数回归模型更合适.
当x=3时,=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
1.(2020·成都模拟)某汽车销售公司统计了某款汽车行驶里程x(万公里)与维修保养费用y(万元)的五组数据,并根据这五组数据求得y与x的线性回归方程为=0.46x+0.16.由于工作人员疏忽,行驶8万公里的数据被污损了,如表所示.
行驶里程x
(单位:万公里)
1
2
4
5
8
维修保养费用y
(单位:万元)
0.50
0.90
2.3
2.7
则被污损的数据为 ( )
A.3.20 B.3.6 C.3.76 D.3.84
【解析】选B.设被污损的数据为t,由已知有=(1+2+4+5+8)=4,=
(0.50+0.90+2.3+2.7+t)=(6.4+t),而线性回归方程=0.46x+0.16经过点,
代入有(6.4+t)=0.46×4+0.16,解得t=3.6.
2.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程=x+中的=-2,预测当气温为-4℃时,用电量约为________度.
- 14 -
【解析】根据题意知==10,==40.所以=40-(-2)×10=60,=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.
答案:68
3.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付,某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),绘制了如图所示的散点图:
(1)根据散点图判断在推广期内,y=a+bx与y=c·dx(c,d为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
xiyi
xivi
100.54
4
62
1.54
2 535
50.12
140
3.47
其中vi=lg yi,=vi
附:对于一组数据,,…,,其回归直线=+u的斜率和截距的最小二乘估计分别为:=,=-.
- 14 -
【解析】(1)根据散点图判断,y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)因为y=c·dx,两边取常用对数得:
lg y=lg=lg c+lg d·x,
设lg y=v,所以v=lg c+lg d·x
因为=4,=1.54,=140,
所以lg d====0.25,
把样本点的中心(4,1.54)代入v=lg c+lg d·x得:
lg c=0.54,所以=0.54+0.25x,
则lg y=0.54+0.25x
所以y关于x的回归方程为=100.54+0.25x,
把x=8代入上式得:=100.54+0.25×8≈347,
故活动推出第8天使用扫码支付的人次约为3 470.
- 14 -