- 2021-07-01 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2019届文科一轮复习人教A版9-4变量间的相关关系与统计案例教案
第四节 变量间的相关关系与统计案例 [考纲传真] (教师用书独具)1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用. (对应学生用书第139页) [基础知识填充] 1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.两个变量的线性相关 从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. 3.线性回归分析 (1)最小二乘法:通过求Q=(yi-bxi-a)2的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则有 其中是回归方程的斜率,是回归直线在y轴上的截距. (3)相关系数: ①样本(xi,yi)(i=1,2,…,n)的相关系数: r= ②相关系数的正负、大小与相关性的关系: 当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强. r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性. (4)样本点的中心: 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心,线性回归直线一定过样本点的中心(,). 4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为 2×2列联表 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K2=,其中n=a+b+c+d为样本容量. (3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. [基本能力自测] 1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( ) [答案] (1)√ (2)× (3)× (4)× 2.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( ) A.=0.4x+2.3 B.=2x-2.4 C.=-2x+9.5 D.=-0.3x+4.4 A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5)在回归直线上,排除B,选项A满足.] 3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) 图941 A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.] 4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是 ( ) A.有99%的人认为该电视栏目优秀 B.有99%的人认为该电视栏目是否优秀与改革有关系 C.有99%的把握认为该电视栏目是否优秀与改革有关系 D.没有理由认为该电视栏目是否优秀与改革有关系 D [只有K2≥6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.] 5.(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9. 零件数x(个) 10 20 30 40 50 加工时间y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为________. 68 [由=30,得=0.67×30+54.9=75. 设表中的“模糊数字”为a, 则62+a+75+81+89=75×5,∴a=68.] (对应学生用书第148页) 相关关系的判断 (1)(2015·湖北高考)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) 【导学号:79170333】 A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 (2)对四组数据进行统计,获得如图942所示的散点图,关于其相关系数的比较,正确的是( ) 图942 A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3 C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3 (1)C (2)A [(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关. (2)由散点图知,图①与图③是正相关,故有r1>0,r3>0,图②与图④是负相关,则r2<0,r4<0,且图①与图②中的样本点集中在一条直线附近,因此有r2<r4<0<r3<r1.] [规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关. 2.利用相关系数判定,当|r|越趋近于1,相关性越强. 当残差平方和越小,相关指数R2越大,相关性越强. [变式训练1] (1)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中一定不正确的结论的序号是( ) 【导学号:79170334】 A.①② B.②③ C.③④ D.①④ (2)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( ) A.r2<r1<0 B.0<r2<r1 C.r2<0<r1 D.r2=r1 (1)D (2)C [(1)由线性回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,∴①④一定错误. (2)对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.]] 线性回归方程及应用 (2016·全国卷Ⅲ)如图943是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 图943 注:年份代码1~7分别对应年份2008~2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646. 参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-. [解] (1)由折线图中的数据和附注中的参考数据得 =4, (ti-)2=28,=0.55,2分 (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89, 所以r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系. 5分 (2)由=≈1.331及(1)得 ==≈0.103. 8分 =-≈1.331-0.103×4≈0.92. 所以y关于t的回归方程为=0.92+0.10t. 10分 将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 12分 [规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.(1)正确运用计算,的公式和准确的计算,是求线性回归方程的关键.(2)回归直线=x+必过样本点的中心(,). [变式训练2] (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 图944 (xi-)2 (wi-)2 (xi-)(yi-) (wi-)(yi-) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中wi=,w]=wi. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- . [解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. 2分 (2)令w=,先建立y关于w的线性回归方程. 由于===68, 4分 =- =563-68×6.8=100.6, 5分 所以y关于w的线性回归方程为=100.6+68w, 6分 因此y关于x的回归方程为=100.6+68. 7分 (3)①由(2)知,当x=49时, 年销售量y的预报值=100.6+68=576.6, 8分 年利润z的预报值=576.6×0.2-49=66.32. 9分 ②根据(2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 10分 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12分 独立性检验 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: 图945 (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关; 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 K2=. [解] (1)旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 2分 因此,事件A的概率估计值为0.62. 4分 (2)根据箱产量的频率分布直方图得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 5分 K2=≈15.705. 7分 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. 8分 (3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. 12分 [规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤: (1)根据样本数据制成2×2列联表; (2)根据公式K2=计算K2的观测值k; (3)比较k与临界值的大小关系,作统计推断. [变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 【导学号:79170335】 月收入(单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 赞成定价者人数 1 2 3 5 3 4 认为价格偏高者人数 4 8 12 5 2 1 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数); (2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 月收入不低于 55百元的人数 月收入低于55 百元的人数 总计 认为价格偏高者 赞成定价者 总计 附:K2=. P(K2≥k0) 0.05 0.01 k0 3.841 6.635 [解] (1)“赞成定价者”的月平均收入为 x1=≈50.56. “认为价格偏高者”的月平均收入为 x2==38.75, ∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元). 5分 (2)根据条件可得2×2列联表如下: 月收入不低于55 百元的人数 月收入低于55 百元的人数 总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计 10 40 50 K2=≈6.27<6.635, ∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 12分查看更多