2021届北师大版高考理科数一轮复习教师用书:第十一章 第3讲 变量间的相关关系、统计案例
第3讲 变量间的相关关系、统计案例
一、知识梳理
1.相关性
(1)线性相关
若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线来拟合.
(2)非线性相关
若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条曲线来拟合.
(3)不相关
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.最小二乘法
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2,使得上式达到最小值的直线y=a+bx即为所求直线,这种方法称为最小二乘法.
(2)线性回归方程
线性回归方程为y=bx+a,其中b==,a=-b.
3.相关系数r
(1)r==.
(2)当r>0时,称两个变量正相关.
当r<0时,称两个变量负相关.
当r=0时,称两个变量线性不相关.
r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近0,表明两个变量之间的线性相关程度越低.
4.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1,通过观察得到下表所示数据:
B
A
B1
B2
总 计
A1
a
b
a+b
A2
c
d
c+d
总 计
a+c
b+d
n=a+b+c+d
则χ2=,用它的大小来检验变量之间是否独立.
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联.
常用结论
1.求解线性回归方程的关键是确定回归系数a,b,应充分利用线性回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据线性回归方程计算的y值,仅是一个预报值,不是真实发生的值.
二、教材衍化
1.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
解析:选C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.
3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.y=2.3x-0.7 B.y=2.3x+0.7
C.y=0.7x-2.3 D.y=0.7x+2.3
解析:选C.因为xiyi=6×2+8×3+10×5+12×6=158,==9,==4.所以b==0.7,a=4-0.7×9=-2.3.故线性回归直线方程为y=0.7x-2.3.故选C.
一、思考辨析
判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.( )
(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
二、易错纠偏
(1)混淆相关关系与函数关系;
(2)对独立性检验χ2值的意义不清楚;
(3)不知道线性回归直线必过样本点中心.
1.两个变量的相关关系有①正相关,②负相关,③不相关,
则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
解析:选C.由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.故选C.
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.
零件数x/个
10
20
30
40
50
加工时间y/min
62
○
75
81
89
现发现表中有一个数据模糊看不清,则该数据为________.
解析:设表中那个模糊看不清的数据为m.由表中数据得=30,=,所以样本点的中心为,因为样本点的中心在线性回归直线上,所以=0.67×30+54.9,解得m=68.
答案:68
相关关系的判断(自主练透)
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v
有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2.某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析:选C.月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.
3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,
变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强.
回归分析(多维探究)
角度一 线性回归方程及其应用
(2020·福建福州模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:
日期
2日
7日
15日
22日
30日
温度x/℃
10
11
13
12
8
产卵数y/个
23
25
30
26
16
(1)从这5天中任选2天,记这两天药用昆虫的产卵数分别为m,n,求事件“m,n均不小于25”的概率;
(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(i)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;
(ii)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(i)中所得的线性回归方程是否可靠?
附:线性回归直线的斜率和截距的最小二乘估计公式分别为b=,a=-b
【解】 (1)依题意得,m,n的所有情况有{23,25},{23,30},{23,26},{23,16},{25,30},{25,26},{25,16},{30,26},{30,16},{26,16},共10个.
设“m,n均不小于25”为事件A,则事件A包含的基本事件有{25,30},{25,26},{30,26},共3个.
所以P(A)=,即事件A的概率为.
(2)(i)由数据得=12,=27,
(xi-)(yi-)=5,(xi-)2=2,
a=-b=27-×12=-3,
所以y关于x的线性回归方程为y=x-3.
(ii)由(i)知,y关于x的线性回归方程为y=x-3,
当x=10时,y=×10-3=22,且|22-23|<2,
当x=8时,y=×8-3=17,且|17-16|<2.
所以所得到的线性回归方程=x-3是可靠的.
角度二 相关系数及其应用
某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时
3070
光照控制仪运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:r=,
参考数据:≈0.55,≈0.95.
【解】 (1)由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当3010.828.
故有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关.
(3)依题意知,抽取的5台电视机中使用寿命在[0,4)内的有1台,使用寿命在[4,20]内的有4台,则从5台电视机中随机抽取2台,所有的情况有C=10(种),其中满足条件的有C=6(种),故所求概率P==.
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式χ2=计算K2的值;
③查表比较χ2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.
某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:χ2=,
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解:(1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于χ2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
化非线性回归分析为线性回归分析
某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程(回归系数的结果精确到0.01);
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其线性回归直线υ=α+βω的斜率和截距的最小二乘估计分别为β,α=υ-βω.
【解】 (1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的线性回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于d
所以c=-d·=3.63-8.96×0.269≈1.22,
所以y关于u的线性回归方程为y=1.22+8.96u,
所以y关于x的线性回归方程为y=1.22+.
(3)假设印刷x千册,依题意得10x-(1.22+)x≥78.840,所以x≥10,
所以至少印刷10 000册才能使销售利润不低于78 840元.
对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.
某市一中学课外活动小组为了研究经济走势,对该市1996~2018年的GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.
其中zi=ln yi,wi=ln xi.e6.42≈614.003,e6.63≈757.482,e6.84≈934.489,ln 24≈3.18,ln 25≈3.22,ln 26≈3.26.
(1)根据散点图判断,y=a+bx,y=ec+dx与y=m+nln x哪一个适合作为该市GDP值y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程;
(3)试预测该市2020年的GDP值.
解:(1)由散点图可以判断,y=ec+dx适宜作为该市GDP值y关于年份代码x的回归方程类型.
(2)令z=ln y,则z=c+dx,由参考数据得,
所以z关于x的线性回归方程为z=1.38+0.21x,
所以y关于x的线性回归方程为y=e1.38+0.21x.
(3)由(2)可知,当x=25时,y=e1.38+0.21×25=e6.63≈757.482.
所以预测2020年该市GDP值约为757.482亿元.
[基础题组练]
1.根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
得到的线性回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:选B.根据给出的数据可发现:整体上y与x呈现负相关,所以b<0,由样本点(3,4.0)及(4,2.5)可知a>0,故选B.
2.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.
3.(2020·山东德州模拟)已知某产品连续4个月的广告费xi(千元)与销售额yi(万元)(i=1,2,3,4)满足xi=15, yi=12.若广告费用x和销售额y之间具有线性相关关系,且回归直线方程为y=bx+a,b=0.6,当广告费用为5千元时,可预测销售额为( ),
A.3万元 B.3.15万元
C.3.5万元 D.3.75万元,
解析:选D.由已知xi=15,y i=12,得==3.75,==3,所以3=3.75×0.6+a,解得a=0.75.所以回归直线方程为y=0.6x+0.75.则当x=5时,y=3.75万元.故选D.
4.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计
年份(届)
2014
2015
2016
2017
学科竞赛获省级一等奖
及以上的学生人数x
51
49
55
57
被清华、北大等世界名校录取的学生人数y
103
96
108
107
根据上表可得回归方程y=bx+a中的b为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )
A.111 B.117
C.118 D.123
解析:选B.因为=53,=103.5,所以a=-=103.5-1.35×53=31.95,所以回归直线方程为y=1.35x+31.95.当x=63时,代入解得y=117,故选B.
5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由χ2=,
得χ2=≈9.616.
参照下表,
P(χ2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C.因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
6.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为y=0.6x+1.2.若某城市职工人均工资为5千元,
估计该城市人均消费额占人均工资收入的百分比为________.
解析:因为y与x具有线性相关关系,满足回归方程y=0.6x+1.2,该城市居民人均工资为x=5,所以可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为=84%.
答案:84%
7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案:1
8.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==
,==,代入y=bt-,得=b×-,解得b=.
答案:
9.(2020·云南昆明诊断)某公司准备派出选手代表公司参加某职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间t(单位:秒)及挑战失败(用“×”表示)的情况如表1:
序号x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
t甲
×
96
93
×
92
×
90
86
×
×
83
80
78
77
75
t乙
×
95
×
93
×
92
×
88
83
×
82
80
80
74
73
据表1中的数据,应用统计软件得表2:
均值(单位:秒)
方差
线性回归方程
甲
85
50.2
t甲=-1.59x+99.31
乙
84
54
t乙=-1.73x+100.26
(1)根据上述回归方程,预测甲、乙分别在下一次完成该项关键技能挑战所用的时间;
(2)若该公司只有一个参赛名额,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.
解:(1)当x=16时,t甲=-1.59×16+99.31=73.87(秒),
t乙=-1.73×16+100.26=72.58(秒).
(2)甲、乙两位选手完成关键技能挑战成功的次数都为10次,失败次数都为5次,所以,只需要比较他们完成关键技能挑战成功的情况即可,根据所给信息,结合(1)中预测结果,综合分析,选手乙代表公司参加技能挑战赛更合适,理由如下:
因为在相同次数的挑战练习中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,x甲>x乙,乙选手用时更短;
由于S6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为=,
设备改造后产品为合格品的概率为=>,
显然设备改造后产品合格率更高,因此设备改造后性能更优.
[综合题组练]
1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟退休”的人数
15
5
15
28
17
(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下
45岁以上
总计
支持
不支持
总计
(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人.
①抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率;
②记抽到45岁以上的人数为X,求随机变量X的分布列及数学期望.
参考数据及公式:
P(χ2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
χ2=
解:(1)列联表如下:
45岁以下
45岁以上
总计
支持
35
45
80
不支持
15
5
20
总计
50
50
100
因为χ2===6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.
①抽到1人是45岁以下的概率为=,抽到1人是45岁以下且另一人是45岁以上的概率为=.
故所求概率为=.
②X=0,1,2.
P(X=0)==,P(X=1)===,
P(X=2)==.
可得随机变量X的分布列为
X
0
1
2
P
故EX=1×+2×=.
2.某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;
(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得=×(7×6-6)=7.2,,
=×(30×6-31.8)=29.64.
所以y关于x的回归方程为y=3x+8.04.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得y=3×18+8.04=62.04,
故预报值为62.04万元.