2019届二轮复习(理)专题51变量相关关系与统计案例学案(全国通用)

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

2019届二轮复习(理)专题51变量相关关系与统计案例学案(全国通用)

‎1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;‎ ‎2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;‎ ‎3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;‎ ‎4.了解回归分析的基本思想、方法及其简单应用.‎ 一、变量间的相关关系 ]‎ ‎1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.‎ ‎2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.‎ 二、回归方程与回归分析 ]‎ ‎1.线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ‎ ‎2.回归方程 ‎(1)最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.‎ ‎(2)回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定数.‎ ‎3.回归分析 ‎(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.‎ ‎(2)样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,=(x1+…+xn),‎ =(y1+…+yn),=-,(,)称为样本点的中心.‎ ‎(3)相关系数r=,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越强,当|r|≤1且|r|越接近于0,相关程度越弱.‎ 三、独立性检验 ‎1.独立性检验的有关概念 ‎(1)分类变量 可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.‎ ‎(2)2×2列联表 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为 y1‎ y2‎ 总计 x1‎ a b a+b x2‎ c d c+d 总计 a+c b+d a+b+c+d ‎2.独立性检验 利用随机变量K2=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.‎ 步骤如下:‎ ‎(1)计算随机变量K2的观测值k,查表确定临界值k0:‎ P(K2≥k0)‎ ‎0.5‎ ‎0.40‎ ‎0.25‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k0‎ ‎0.455‎ ‎0.708‎ ‎1.323‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ ‎(2)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.‎ ‎【必会结论】‎ ‎1.相关关系与函数关系的异同 共同点:二者都是指两个变量间的关系;‎ 不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.‎ ‎2.从散点图看相关性 正相关:样本点分布在从左下角到右上角的区域内;‎ 负相关:样本点分布在从左上角到右下角的区域内.‎ ‎3.回归直线=x+必过样本点的中心.‎ 高频考点一 线性回归分析 例1、某百货公司1 6月份的销售量x与利润y的统计数据如下表:‎ 月份 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ 销售量x(万件)‎ ‎10‎ ‎11‎ ‎13‎ ‎12‎ ‎8‎ ‎6 ‎ 利润y(万元)‎ ‎22‎ ‎25‎ ‎29‎ ‎26‎ ‎16‎ ‎12‎ ‎(1)根据2至5月份的数据,求出y关于x的回归直线方程=x+;‎ ‎(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?‎ 参考公式:=,=-.‎ 解 (1)根据表中2至5月份的数据,计算得=11,=24,‎ xiyi=11×25+13×29+12×26+8×16=1092,‎ x=112+132+122+82=498,‎ 则= ‎ ‎==,‎ =-=24-×11=-.‎ 故y关于x的回归直线方程为=x-.‎ ‎【方法技巧】‎ ‎(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.‎ ‎(2)回归直线方程=x+必过样本点中心(,).‎ ‎(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.‎ ‎【变式探究】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:‎ 时间 周一 周二 周三 周四 周五 ‎ 车流量x(万辆)‎ ‎100‎ ‎102‎ ‎108‎ ‎114‎ ‎116 ‎ PM2.5的浓度y(微克/立方米)‎ ‎78‎ ‎80‎ ‎84‎ ‎88‎ ‎90‎ ‎(1)根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+;‎ ‎(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?‎ 参考公式:=,=-;参考数据:xi=540,yi=420 ‎ ‎ ‎(2)当x=200时,=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.‎ 高频考点二  两个变量的相关性 例2、对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )‎ A.r26.635,故有99 的把握认为箱产量与养殖方法有关.‎ ‎【方法技巧】利用统计量K2进行独立性检验的步骤 ‎(1)根据数据列出2×2列联表;‎ ‎(2)根据公式计算K2找观测值k;‎ ‎(3)比较观测值k与临界值表中相应的检验水平,作出统计推断.‎ ‎【举一反三】 某校在高一年级学生中,对自然 学类、社会 学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会 学类的男生、女生均为45名.‎ ‎(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?‎ ‎(2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为 类的选择与性别有关?‎ 选择自然 学类 选择社会 学类 合计 男生 女生 合计 附:K2=,其中n=a+b+c+d.‎ P(K2≥k0)‎ ‎0.50‎ ‎0.40‎ ‎0.25‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001 学 ]‎ k0‎ ‎0.455‎ ‎0.708‎ ‎1.323‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ 解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.‎ ‎(2)根据统计数据,可得2×2列联表如下:‎ 选择自然 学类 选择社会 学类 合计 男生 ‎60‎ ‎45‎ ‎105‎ 女生 ‎30‎ ‎45‎ ‎75‎ 合计 ‎90‎ ‎90‎ ‎180‎ ‎∴K2==≈5.1429>5.024.‎ ‎∴在犯错误的概率不超过0.025的前提下可以认为 类的选择与性别有关.‎ 高频考点三 性回归中的函数思想 例3、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润 (单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.‎ 表中wi=,=wi.‎ ‎(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)‎ ‎(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;‎ ‎(3)已知这种产品的年利润 与x,y的关系为 =0.2y-x.根据(2)的结果回答下列问题:‎ ‎①年宣传费x=49时,年销售量及年利润的预报值是多少?‎ ‎②年宣传费x为何值时,年利润的预报值最大?‎ 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 =,=-.‎ 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.‎ ‎ ‎ ‎(3)①由(2)知,当x=49时,年销售量y的预报值 =100.6+68=576.6,‎ 年利润 的预报值 =576.6×0.2-49=66.32.‎ ‎②根据(2)的结果知,年利润 的预报值 =0.2(100.6+68)-x=-x+13.6+20.12.‎ 所以当==6.8,即x=46.24时,取得最大值.‎ 故年宣传费为46.24千元时,年利润的预报值最大. ‎ ‎【变式探究】某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据:‎ ‎(1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程=x+;‎ ‎(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?‎ 附:=,=-.‎ ‎ ‎ ‎(2)设该款汽车的单价应为x万元,‎ 则利润f(x)=(x-12)(-20x+449)‎ ‎=-20x2+689x-5388,‎ f′(x)=-40x+689,令-40x+689=0,解得x≈17.2,‎ 故当x≈17.2时,f(x)取得最大值.‎ ‎∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.‎ ‎1. (2018年全国Ⅱ卷理数)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.‎ ‎ 为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.‎ ‎(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;‎ ‎(2)你认为用哪个模型得到的预测值更可靠?并说明理由.‎ ‎【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.‎ ‎【解析】‎ ‎(2)利用模型②得到的预测值更可靠.‎ 理由如下:‎ ‎(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.‎ ‎(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.‎ 以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. ‎ ‎1.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为(  )‎ A.160 B.163‎ C.166 D.170‎ 答案:C ‎1、[2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:‎ 经计算得=i=9.97,s= =≈0.212, ≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.‎ ‎(1)求(xi,i)(i=1,2,…,16)的相关系数r ‎,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);‎ ‎(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.‎ ‎(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?‎ ‎(ⅱ)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)‎ 附:样本(xi,yi)(i=1,2,…,n)的相关系数r=.≈0.09.‎ ‎ ‎ ‎(2)(ⅰ)由于=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查. ‎ ‎ ‎ ‎2. [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧 ‎ 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:‎ 旧养殖法 新养殖法 ‎(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;‎ ‎(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关;‎ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 ‎(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).‎ ‎ K2=.‎ ‎ ‎ ‎(2)根据箱产量的频率分布直方图得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 ‎62‎ ‎38‎ 新养殖法 ‎34‎ ‎66‎ K2=≈15.705.‎ 由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关. ‎ ‎(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为 ‎(0.004+0.020+0.044)×5=0.34<0.5,‎ 箱产量低于55 kg的直方图面积为 ‎(0.004+0.020+0.044+0.068)×5=0.68>0.5,‎ 故新养殖法产量的中位数的估计值为 ‎50+≈52.35(kg).‎ ‎1.[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润 (单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.‎ 表中wi=,=wi.‎ ‎(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)‎ ‎(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;‎ ‎(3)已知这种产品的年利润 与x,y的关系为 =0.2y-x.根据(2)的结果回答下列问题:‎ ‎①年宣传费x=49时,年销售量及年利润的预报值是多少?‎ ‎②年宣传费x为何值时,年利润的预报值最大?‎ 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 =,=-.‎ 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.‎ ‎(2)令w=,先建立y关于w的线性回归方程.由于 ===68,‎ =-=563-68×6.8=100.6, ‎ 所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.‎
查看更多

相关文章

您可能关注的文档