【数学】2018届一轮复习人教A版第十章第3讲变量间的相关关系、统计案例学案
第3讲 变量间的相关关系、统计案例
, [学生用书P193])
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为=x+,其中=,=-.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.非线性回归分析
如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.
4.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
1.辨明四个易误点
(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上.
(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
(4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.
2.求回归方程的方法
(1)求线性回归方程的方法
求解回归方程的关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有=+,可确定.
(2)非线性回归分析的步骤
①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;
②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;
③利用变量替换转化为线性问题,解决后要再转化回来.
1.有关线性回归的说法,不正确的是( )
A.具有相关关系的两个变量是非确定性关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.散点图中的点越集中,两个变量的相关性越强
[答案] D
2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
附:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.1% B.1%
C.99% D.99.9%
C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.
3. 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x作为自变量得到四条回归直线.
省城=2.84x+9.50,地级市=2.52x+8.35,
县城=2.31x+6.76,农村=0.42x+1.80,
则四个区域中,大学入学率年增长率最快的区域是( )
A.省城 B.地级市
C.县城 D.农村
A [解析] 四条回归直线,斜率最大的是省城,故选A.
4.对于下列表格所示的五个散点,已知求得的回归直线方程为=0.8x-155.则实数m的值为( )
x
196
197
200
203
204
y
1
3
6
7
m
A.8 B.8.2
C.8.4 D.8.5
A [解析] 依题意得=×(196+197+200+203+204)=200,=×(1+3+6+7+m)=,因为回归直线必经过样本点的中心,所以=0.8×200-155,解得m=8,选A.
5.下面是一个2×2列联表
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a、b处的值分别为________.
[解析] 因为a+21=73,所以a=52.
又因为a+2=b,所以b=54,
[答案] 52、54
相关关系的判断[学生用书P194]
[典例引领]
(1)(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z
正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【解析】 (1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
(2)由题图①可知,各点整体呈递减趋势,x与y负相关;由题图②可知,各点整体呈递增趋势,u与v正相关.
【答案】 (1)C (2)C
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关:r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
[通关练习]
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
D [解析] 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
10.828.
所以至少有99.9%的把握认为疫苗有效.
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的值;
(3)查表比较K2与临界值的大小关系,作出统计判断.
(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.
分数段
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
男
3
9
18
15
6
9
女
6
4
5
10
13
2
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.
优分
非优分
合计
男生
女生
合计
100
附表及公式
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=,n=a+b+c+d
[解] (1)男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,
女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,
从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.
(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:
优分
非优分
合计
男生
15
45
60
女生
15
25
40
合计
30
70
100
可得K2=≈1.79,
因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.
, [学生用书P197])
——回归直线方程的求解与运用
(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
[思维导图]
(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=,先建立y关于w的线性回归方程.
由于==68,(4分)
=-=563-68×6.8=100.6,(5分)
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(6分)
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
(9分)
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
(12分)
(1)求解本题的思路
①根据散点图中的点的分布规律作出判断.
②若x,y为线性相关,可直接求其线性回归方程,若x,y为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.
③利用②中求出的回归方程求最大预报值.
(2)求解本题渗透的思想
①通过散点图判断回归类型,体现了数形结合思想.
②通过换元法将问题转化为线性回归分析,体现了化归转化思想.
, [学生用书P289(独立成册)])
1.已知变量x,y呈线性相关关系,线性回归方程为=0.5+2x,则变量x,y是( )
A.线性正相关关系
B.由回归方程无法判断其正负相关
C.线性负相关关系
D.不存在线性相关关系
A [解析] 随着变量x增大,变量y有增大的趋势,则x,y称为正相关.
2.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-5x+150,则下列结论正确的是( )
A.y与x具有正的线性相关关系
B.若r表示y与x之间的线性相关系数,则r=-5
C.当销售价格为10元时,销售量为100件
D.当销售价格为10元时,销售量为100件左右
D [解析] 由回归直线方程知,y与x具有负的线性相关关系,A错,若r表示y与x之间的线性相关系数,则|r|≤1,B错.当销售价格为10元时,=-5×10+150=100,即销售量为100件左右,C错,故选D.
3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:
售价x
4
4.5
5.5
6
销售量y
12
11
10
9
为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为=-1.4x+,那么方程中的值为( )
A.17 B.17.5
C.18 D.18.5
B [解析] ==5,
==10.5,
因为回归直线过样本点的中心,
所以=10.5+1.4×5=17.5.故选B.
4.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差的平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
D [解析] 相关系数r越接近于1和残差平方和m越小,两变量A,B
的线性相关性越强.故选D.
5.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
D [解析] 因为y与x具有线性相关关系,满足回归方程=0.6x+1.2,该城市居民人均工资为x=5,所以可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为=84%.
6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
A [解析] 由2×2列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得K2的观测值k=≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
7.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
[解析] x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
[答案] 0.245
8.某单位为了了解用电量y千瓦·时与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.
气温/℃
14
12
8
6
用电量/千瓦·时
22
26
34
38
由表中数据得线性回归方程=+x中=-2,据此预测当气温为5℃时,
用电量的千瓦·时数约为________.
[解析] 因为回归直线经过样本中心点,故由已知数表可得=10,=30,即(10,30)在回归直线上,代入方程可得=50,即回归直线方程为=50-2x,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.
[答案] 40
9.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).
(1)根据以上数据完成下列2×2列联表.
主食蔬菜
主食肉类
合计
50岁以下
50岁以上
合计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
[解] (1)2×2列联表如下:
主食蔬菜
主食肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
(2)因为K2==10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:
天数t(天)
3
4
5
6
7
繁殖个数y(千个)
2.5
3
4
4.5
6
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,预测t=8时,细菌繁殖个数.
[解] (1)由表中数据计算得,=5,=4,(ti-)(yi-)=8.5,(ti-)2=10,
==0.85,=-=-0.25.
所以回归方程为=0.85t-0.25.
(2)将t=8代入(1)的回归方程中得=0.85×8-0.25=6.55.
故预测t=8时,细菌繁殖个数为6.55千个.
11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
[解析] ==8+,==6+,回归直线一定经过样本中心(,),即6+=-3.2+40,
即3.2m+n=42.
又因为m+n=20,即
解得故n=10.
[答案] 10
12.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).
第30届
伦敦
第29届
北京
第28届
雅典
第27届
悉尼
第26届
亚特兰大
中国
38
51
32
28
16
俄罗斯
24
23
27
32
26
(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;
(2)下表是近五届奥运会中国代表团获得的金牌数之和y(从第26届算起,不包括之前已获得的金牌数)随时间x变化的数据:
时间x(届)
26
27
28
29
30
金牌数之和y(枚)
16
44
76
127
165
作出散点图如下:
由图可以看出,金牌数之和y与时间x之间存在线性相关关系,请求出y关于x的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?
参考数据:=28,=85.6,(xi-)(yi-)=381,(xi-)2=10.
[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:
(2)===38.1,
=-=85.6-38.1×28=-981.2,
所以金牌数之和y关于时间x的线性回归方程为
=38.1x-981.2.
当x=32时,中国代表团获得的金牌数之和的预报值
=38.1×32-981.2=238,
故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.
13.已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,
男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?
附:
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
K2=,n=a+b+c+d
[解] (1)依题意得
解得b=0.01,
因为成绩在[90,100]内的有6人,所以n==60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,
则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
于是本次测试的及格情况与性别的2×2列联表如下:
及格
不及格
合计
男
22
8
30
女
26
4
30
合计
48
12
60
结合列联表计算可得K2=≈1.666 7<2.706,
故没有90%的把握认为“本次测试的及格情况与性别有关”.