- 2021-06-16 发布 |
- 37.5 KB |
- 19页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2019届一轮复习北师大版(文科数学)第十一章第3讲 变量间的相关关系、统计案例学案
第3讲 变量间的相关关系、统计案例 [学生用书P193] 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为=x+,其中,=-. (4)相关系数 当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性. 3.非线性回归分析 如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析. 4.独立性检验 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d K2=(其中n=a+b+c+d为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( ) 答案:(1)√ (2)√ (3)× (4)√ 有关线性回归的说法,不正确的是( ) A.具有相关关系的两个变量是非确定性关系 B.散点图能直观地反映数据的相关程度 C.回归直线最能代表线性相关的两个变量之间的关系 D.散点图中的点越集中,两个变量的相关性越强 答案:D 已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 解析:选C.因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关. 某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有______的把握认为“学生性别与支持该活动有关系”.( ) 附: P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 A.0.1% B.1% C.99% D.99.9% 解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”. 下面是一个2×2列联表 y1 y2 总计 x1 a 21 73 x2 2 25 27 总计 b 46 则表中a、b处的值分别为________. 解析:因为a+21=73,所以a=52. 又因为a+2=b,所以b=54. 答案:52、54 对于下列表格所示的五个散点,已知求得的回归直线方程为=0.8x-155,则实数m的值为________. x 196 197 200 203 204 y 1 3 6 7 m 解析:依题意得=×(196+197+200+203+204)=200,=×(1+3+6+7+m)=,因为回归直线必经过样本点的中心,所以=0.8×200-155,解得m=8. 答案:8 相关关系的判断[学生用书P194] [典例引领] (1)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ (2)x和y的散点图如图所示,则下列说法中所有正确的序号为________. ①x,y是负相关关系; ②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用=x+拟合时的相关系数的平方为r,则r>r; ③x、y之间不能建立线性回归方程. 【解析】 (1)由线性回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,所以①④一定错误. (2)①显然正确;由散点图知,用y=c1ec2x拟合的效果比用=x+拟合的效果要好,故②正确;x,y之间能建立线性回归方程,只不过预报精度不高,故③不正确. 【答案】 (1)D (2)①② 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关;r<0时,负相关. (3)线性回归方程中:>0时,正相关;<0时,负相关. [通关练习] 1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( ) A.-1 B.0 C. D.1 解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D. 2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13, 5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( ) A.r2<r1<0 B.0<r2<r1 C.r2<0<r1 D.r2=r1 解析:选C.由线性相关系数公式知 r= . 因为==11.72,==3, Xi=Ui(i=1,2,…,5),Yi=V6-i(i=1,2,…,5), 所以 所以A>0,B<0,所以r1>0,r2<0. 线性回归分析[学生用书P194] [典例引领] (2017·高考全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (i)从这一天抽检的结果看,是否需对当天的生产过程进行检查? (ii)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(xi,yi)(i=1,2,…,n)的相关系数r=.≈0.09. 【解】 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为 r= =≈-0.18. 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(i)由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02, x=16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 (1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09. 线性回归分析问题的类型及解题方法 (1)求线性回归方程 ①利用公式,求出回归系数,. ②待定系数法:利用回归直线过样本点的中心求系数. (2)样本数据的相关系数 r=, 反映样本数据的相关程度,|r|越大,则相关性越强. [通关练习] (2016·高考全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1-7分别对应年份2008-2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 解:(1)由折线图中数据和附注中参考数据得 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系. (2)由=≈1.331及(1)得=≈0.103, =-=1.331-0.103×4≈0.92. 所以,y关于t的回归方程为=0.92+0.10t. 将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 独立性检验[学生用书P195] [典例引领] (2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关: 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 , K2=. 【解】 (1)旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 K2=≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大. ②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表. ②根据公式K2=计算K2的观测值k. ③比较k与临界值的大小关系,作统计推断. [通关练习] (2018·惠州第三次调研)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示. (1)求a的值,并计算所抽取样本的平均值(同一组中的数据用该组区间的中点值作代表); (2)填写下面的2×2列联表,并判断能否有95%的把握认为“获奖与学生的文、理科有关”? 文科生 理科生 合计 获奖 5 不获奖 合计 200 附表及公式: K2= P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解:(1)a=[1-(0.01+0.015+0.03+0.015+0.005)×10]÷10=0.025, =45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69. (2)2×2列联表如下: 文科生 理科生 合计 获奖 5 35 40 不获奖 45 115 160 合计 50 150 200 因为K2==≈4.167>3.841, 所以有95%的把握认为“获奖与学生的文、理科有关”. 求回归方程,关键在于正确求出系数,,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误. 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间比较接近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 独立性检验是根据K2的值判断两个分类变量有关的可信程度. 回归分析及独立性检验中的两个易误点 (1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是确定的值. (2)独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错. [学生用书P337(单独成册)] 1.某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-5x+150,则下列结论正确的是( ) A.y与x具有正的线性相关关系 B.若r表示y与x之间的线性相关系数,则r=-5 C.当销售价格为10元时,销售量为100件 D.当销售价格为10元时,销售量为100件左右 解析:选D.由回归直线方程知,y与x具有负的线性相关关系,A错,若r表示y与x之间的线性相关系数,则|r|≤1,B错.当销售价格为10元时,=-5×10+150=100,即销售量为100件左右,C错,故选D. 2.(2018·湖南湘中名校联考)利用独立性检验来考虑两个分类变量X和Y是否有关系时, 通过查阅下表来确定“X和Y有关系”的可信度.如果k>3.841,那么有把握认为“X和Y有关系”的百分比为( ) P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 A.5% B.75% C.99.5% D.95% 解析:选D.由图表中数据可得,当k>3.841时,有95%的把握认为“X和Y有关系”,故选D. 3.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( ) A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20% D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20% 解析:选B.因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%. 4.(2018·湖北七市(州)联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x和销售额y进行统计,得到统计数据如下表(单位:万元): 广告费x 2 3 4 5 6 销售额y 29 41 50 59 71 由上表可得回归方程为=10.2x+,据此模型,预测广告费为10万元时销售额约为( ) A.101.2万元 B.108.8万元 C.111.2万元 D.118.2万元 解析:选C.根据统计数据表,可得=×(2+3+4+5+6)=4,=×(29+41+50+59+71)=50,而回归直线=10.2x+经过样本点的中心(4,50),所以50=10.2×4+,解得=9.2,所以回归方程为=10.2x+9.2,所以当x=10时,y=10.2×10+9.2=111.2,故选C. 5.下列说法错误的是( ) A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系 B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好 解析:选B.根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C、D正确,故选B. 6.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元. 解析:x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元. 答案:0.245 7.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示: 价格x 9 9.5 m 10.5 11 销售量y 11 n 8 6 5 由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则n=________. 解析:==8+,==6+,回归直线一定经过样本中心(,),即6+=-3.2+40, 即3.2m+n=42. 又因为m+n=20,即解得故n=10. 答案:10 8.已知x,y之间的一组数据如下表: x 2 3 4 5 6 y 3 4 6 8 9 对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=x-;④y=x.其中正确的是________. 解析:由数据可知==4,==6.那么拟合直线必过点(4,6),经验证可知,满足该点的方程为③. 答案:③ 9.某公司的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据: x 2 4 5 6 8 y 30 40 60 50 70 (1)画出散点图,并判断广告费与销售额是否具有相关关系; (2)根据表中提供的数据,求出y与x的回归方程=x+; (3)预测销售额为115万元时,大约需要多少万元广告费. 解:(1)散点图如图. 由图可判断:广告费与销售额具有相关关系. (2)=×(2+4+5+6+8)=5,=×(30+40+60+50+70)=50, xiyi=2×30+4×40+5×60+6×50+8×70=1 380, x=22+42+52+62+82=145, ===6.5, =-=50-6.5×5=17.5. 所以线性回归方程为=6.5x+17.5. (3)由题得y=115时,6.5x+17.5=115,得x=15. 故预测销售额为115万元时,大约需要15万元的广告费. 10.(2018·郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下: PM2.5 指数 [0,50] (50,100] (100,150] (150,200] (200,250] (250,300] >300 空气 质量 优 良 轻微污染 轻度污染 中度污染 中度重 污染 重度污染 天数 4 13 18 30 9 11 15 记某企业每天由空气污染造成的经济损失为S(单位:元),PM2.5指数为x.当x在区间[0,100]内时对企业没有造成经济损失;当x在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元. (1)试写出S(x)的表达式; (2)试估计在本年内随机抽取一天,该天经济损失S大于500元且不超过900元的概率; (3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关? 非重度污染 重度污染 合计 供暖季 非供暖季 合计 100 附: P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 K2=,其中n=a+b+c+d. 解:(1)依题意,可得S(x)= (2)设“在本年内随机抽取一天,该天经济损失S大于500元且不超过900元”为事件A, 由500查看更多