- 2021-07-01 发布 |
- 37.5 KB |
- 35页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2019届一轮复习人教A版变量间的相关关系与统计案例(1)学案
9.3 变量间的相关关系与统计案例 [知识梳理] 1.相关关系与回归方程 (1)相关关系的分类 ①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1; ②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2. (2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线. (3)回归方程 ①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距,=xi,=yi,(,)称为样本点的中心. 说明:回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据. (4)样本相关系数 r=,用它来衡量两个变量间的线性相关关系. ①当r>0时,表明两个变量正相关; ②当r<0时,表明两个变量负相关; ③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 2.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为 2×2列联表 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K2=,其中n=a+b+c+d为样本容量. (3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. [诊断自测] 1.概念思辨 (1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程=x+可以估计和观测变量的取值和变化趋势.( ) (3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) 答案 (1)√ (2)√ (3)√ (4)× 2.教材衍化 (1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据: x 2 4 5 6 8 y 30 40 60 50 70 由最小二乘法得到线性回归直线方程=x+,则此直线一定经过点( ) A.(5,60) B.(5,50) C.(6,50) D.(8,70) 答案 B 解析 回归直线样本点的中心为(,),而=×(2+4+5+6+8)=5,=×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B. (2)(选修A1-2P96T2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表: 女 男 总计 读生产日期 16 28 44 不读生产日期 20 8 28 总计 36 36 72 则有________的把握认为性别与是否读生产日期有关. 答案 99.5% 解析 由表中数据得k=≈8.416>7.879,所以可知有99.5%的把握认为性别与是否读生产日期有关. 3.小题热身 (1)设回归方程为=3-5x,则变量x增加一个单位时 ( ) A.y平均增加3个单位 B.y平均减少5个单位 C.y平均增加5个单位 D.y平均减少3个单位 答案 B 解析 因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B. (2)(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9. 零件数x(个) 10 20 30 40 50 加工时间y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68 解析 由=30,得=0.67×30+54.9=75. 设表中的“模糊数字”为a, 则62+a+75+81+89=75×5,∴a=68. 题型1 相关关系的判断 对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②,由这两个散点图可以判断( ) A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 散点分布向右上升为正相关,反之为负相关. 答案 C 解析 题图①的散点分布在斜率小于0的直线附近,y随x的增大而减小,故变量x与y负相关;题图②的散点分布在斜率大于0的直线附近,u随v的增大而增大,故变量u与v正相关,故选C. 甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲 B.乙 C.丙 D.丁 考查r的取值与1的关系. 答案 D 解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性,故选D. 方法技巧 判定两个变量正、负相关性的方法 1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.见典例1. 2.相关系数:r>0时,正相关;r<0时,负相关. 3.线性回归直线方程中:>0时,正相关;<0时,负相关. 冲关针对训练 下面是水稻产量与施化肥量的一组观测数据(单位:千克/亩): 施化肥量 15 20 25 30 35 40 45 水稻产量 320 330 360 410 460 470 480 (1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗? 解 (1)散点图如下: (2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长. 题型2 线性回归分析 角度1 线性回归方程及应用 (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表: (1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: =,=-. 收集相关数据,代入公式. 解 (1)由所给数据计算得 =×(1+2+3+4+5+6+7)=4, =×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, (ti-)2=9+4+1+0+1+4+9=28, (ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, ===0.5, =-=4.3-0.5×4=2.3, 所求回归方程为=0.5t+2.3. (2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入(1)中的回归方程, 得=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 角度2 非线性回归模型的应用 (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 表中wi=,=wi. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 =,=- . (1)散点图趋势是曲线,推断y=c+d适宜;(2)将非线性回归方程y=c+d用换元法w=转化为线性回归方程y=c+dw,进而求解. 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程.由于 ===68, =-=563-68×6.8=100.6, 所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68. (3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6, 年利润z的预报值=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 方法技巧 1.利用线性回归方程时的关注点 (1)正确理解计算,的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程=x+必过样本点中心(,). (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.见角度1典例. 2.非线性回归方程的求法 (1)根据原始数据(x,y)作出散点图. (2)根据散点图选择恰当的拟合函数. (3)作恰当的变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.见角度2典例. 冲关针对训练 (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:yi=9.32,tiyi=40.17, =0.55,≈ 2.646. 参考公式:相关系数r=, 回归方程=+t中斜率和截距的最小二乘估计公式分别为: =,=- . 解 (1)由折线图中数据和附注中参考数据得 =4, (ti-)2=28, =0.55, (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89, r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系. (2)由=≈1.331及(1)得==≈0.103,=-≈1.331-0.103×4≈0.92. 所以,y关于t的回归方程为=0.92+0.10t. 将2016年对应的t=9代入回归方程得 =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 题型3 独立性检验 (2018·广州测试)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图. (1)根据上图,估计乙流水线产品的该项质量指标值的中位数; (2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件? (3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”? 附:K2=(其中n=a+b+c+d). 解 (1)设乙流水线产品的该项质量指标值的中位数为x,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86, 所以(0.012+0.032+0.052)×5+0.076×(x-205)=0.5, 解得x=. (2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为=, 乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=. 所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线生产的不合格品件数分别为 5000×=1500,5000×=1000. (3)2×2列联表: 乙流水线 合计 甲流水线 合格品 35 40 75 不合格品 15 10 25 合计 50 50 100 则K2==≈1.3, 因为1.3<2.072, 所以没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”. 方法技巧 独立性检验的一般步骤 (1)根据样本数据列出2×2列联表; (2)计算随机变量K2的观测值k,查表确定临界值k0; (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.见典例. 冲关针对训练 (2017·洛阳模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.) (1)根据以上数据完成下列2×2列联表. 主食蔬菜 主食肉类 总计 50岁以下 50岁以上 总计 (2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析. (3)能否说有99%的亲属的饮食习惯与年龄有关? 附:K2=,n=a+b+c+d. P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 解 (1)2×2列联表如下: 主食蔬菜 主食肉类 总计 50岁以下 4 8 12 50岁以上 16 2 18 总计 20 10 30 (2)因为K2的观测值k==10>6.635,所以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关. (3)这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关. 1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知 i=225, i=1600,=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170 答案 C 解析 ∵ i=225,∴= i=22.5. ∵ i=1600,∴= i=160. 又=4,∴=-=160-4×22.5=70. ∴回归直线方程为=4x+70. 将x=24代入上式得=4×24+70=166. 故选C. 2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x(万元) 8.2 8.6 10.0 11.3 11.9 支出y(万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( ) A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元 答案 B 解析 由统计数据表可得 ==10.0, ==8.0,则=8.0-0.76×10.0=0.4,所以回归直线方程为=0.76x+0.4, 当x=15时,=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元.故选B. 3.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表. 非一线城市 一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 由K2=,得 K2=≈9.616.参照下表, P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 正确的结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” 答案 C 解析 K2≈9.616>6.635, ∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C. 4.(2018·广东广州检测)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) A.成绩 B.视力 C.智商 D.阅读量 答案 D 解析 K2=, 令=m, 则K=82m,同理,K=m×(4×20-12×16)2=1122m, K=m×(8×24-8×12)2=962m,K=m×(14×30-6×2)2=4082m,∴K>K>K>K,则与性别有关联的可能性最大的变量是阅读量,故选D. [重点保分 两级优选练] A级 一、选择题 1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中一定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D 解析 由回归直线方程=x+,知当>0时,y与x正相关;当<0时,y与x负相关.∴①④一定错误.故选D. 2 .对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( ) A.r2查看更多