- 2021-06-16 发布 |
- 37.5 KB |
- 12页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2018届二轮复习 回归分析、独立性检验学案(全国通用)
第7讲 回归分析、独立性检验 题型1 回归分析 (对应 生用书第23页) ■核心知识储备………………………………………………………………………· 1.变量的相关性 (1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域. (3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低. 2.线性回归方程 方程=x+称为线性回归方程,其中=,=-.(,)称为样本中心点. ■典题试解寻法………………………………………………………………………· 【典题】 (2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 图71 表中wi=,w]=. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 【导 号:07804047】 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为,=-. [解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程. 由于===68, =- =563-68×6.8=100.6, 所以y关于w的线性回归方程为=100.6+68w, 因此y关于x的回归方程为=100.6+68. (3)①由(2)知,当x=49时, 年销售量y的预报值=100.6+68=576.6, 年利润z的预报值=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. [类题通法]求线性回归方程的步骤: ■对点即时训练………………………………………………………………………· 某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据: 4S店 甲 乙 丙 丁 戊 单价x/万元 18.0 18.6 18.2 18.8 18.4 19.0 18.3 18.5 18.5 18.7 销量y/辆 88 78 85 75 82 66 82 78 80 76 (1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程=x+; (2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)? 附:=,=-. [解] (1)五家4S店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80) ,(18.6,78), ∴==18.5, ==79, ∴===-20. ∴=-=79-(-20)×18.5=79+370=449, ∴=-20x+449. (2)设该款汽车的单价应为x万元, 设利润f(x)=(x-12)(-20x+449)=-20x2+689x-5 388, f′(x)=-40x+689,令-40x+689=0,解得x≈17.2, 故当x≈17.2时,f(x)取得最大值. ∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元. ■题型强化集训………………………………………………………………………· (见专题限时集训T1、T3、T5、T6、T7、T9、T10、T11、T12、T14) 题型2 独立性检验 (对应 生用书第24页) ■核心知识储备………………………………………………………………………· 独立性检验的步骤 (1)确定分类变量,获取样本频数,得到列联表. (2)求观测值:k=. (3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”. ■典题试解寻法………………………………………………………………………· 【典题】 (2017·郑州第一次质量预测)人机大战也引发全民对围棋的关注,某 校社团为调查 生 习围棋的情况,随机抽取了100名 生进行调查.根据调查结果绘制的 生日均 习围棋时间的频率分布直方图如图72所示,将日均 习围棋时间不低于40分钟的 生称为“围棋迷”. 图72 (1)根据已知条件完成下面的列联表,并据此资料判断是否有95 的把握认为“围棋迷”与性别有关? 非围棋迷 围棋迷 合计 男 女 10 55 合计 (2)将上述调查所得到的频率视为概率.现在从该地区大量 生中,采用随机抽样方法每次抽取1名 生,抽取3次,记被抽取的3名 生中的“围棋迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X). 附:K2=,其中n=a+b+c+d. P(K2≥k0) 0.05 0.01 k0 3.841 6.635 [思路分析] (1)频率分布直方图2×2列联表下结论; (2)频率计算二项分布计算E(X)、D(X). [解] (1)由频率分布直方图可知,在抽取的100人中,“围棋迷”有25人, 从而2×2列联表如下: 非围棋迷 围棋迷 合计 男 30 15 45 女 45 10 55 合计 75 25 100 将2×2列联表中的数据代入公式计算,得 K2== =≈3.030, 因为3.030<3.841,所以没有95 的把握认为“围棋迷”与性别有关. (2)由频率分布直方图知抽到“围棋迷”的频率为0.25,将频率视为概率,即从该地区 生中抽取一名“围棋迷”的概率为.由题意知,X~B,从而X的分布列为 X 0 1 2 3 P E(X)=3×=,D(X)=3××=. [类题通法] 独立性检验的方法 (1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. (2)解决独立性检验的应用问题,一定要按照独立性检验的步骤进行求解. ■对点即时训练………………………………………………………………………· 某课题组对全班45名同 的饮食习惯进行了一次调查,并用如图73所示的茎叶图表示45名同 的饮食指数.说明:饮食指数低于70的人被认为喜食蔬菜,饮食指数不低于70的人被认为喜食肉类. 图73 (1)根据茎叶图,完成下面2×2列联表,并判断是否有90 的把握认为“喜食蔬菜还是喜食肉类与性别有关”,说明理由; 喜食蔬菜 喜食肉类 合计 男同 女同 合计 (2)用分层抽样的方法按照喜食蔬菜、喜食肉类从全班同 中随机抽取15名同 进行进一步调查,记抽到的喜食肉类的女同 的人数为ξ,求ξ的分布列和数 期望E(ξ). 【导 号:07804048】 附:K2=. P(K2≥k0) 0.10 0.05 0.01 k0 2.706 3.841 6.635 [解] (1)根据茎叶图,完成的2×2列联表如下: 喜食蔬菜 喜食肉类 合计 男同 19 6 25 女同 17 3 20 合计 36 9 45 计算得K2==0.562 5<2.706, 对照临界值得出,没有90 的把握认为“喜食蔬菜还是喜食肉类与性别有关”. (2)因为从喜食肉类的同 中抽取的人数为9×=3,所以ξ的可能取值有0,1,2,3. P(ξ=0)==, P(ξ=1)==, P(ξ=2)==, P(ξ=3)==. 所以ξ的分布列为 ξ 0 1 2 3 P 所以ξ的数 期望E(ξ)=0×+1×+2×+3×=1. ■题型强化集训………………………………………………………………………· (见专题限时集训T2、T4、T8、T13) 三年真题| 验收复习效果 (对应 生用书第26页) 1.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) 图74 A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以 我国二氧化硫年排放量呈减少趋势 D.2006年以 我国二氧化硫年排放量与年份正相关 D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以 我国二氧化硫年排放量与年份负相关,故选D.] 2.(2016·全国Ⅲ卷)如图75所示,是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 图75 注:年份代码1-7分别对应年份2008-2014. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 【导 号:07804049】 参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646. 参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-. [解] (1)由折线图中的数据和附注中的参考数据得 =4, (ti-)2=28,=0.55, (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89, 所以r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系. (2)由=≈1.331及(1)得 ==≈0.103. =-≈1.331-0.103×4≈0.92. 所以y关于t的回归方程为=0.92+0.10t. 将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 3.(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如76所示: 图76 (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关; 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附: K2=. [解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50 kg的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 K2=≈15.705. 由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg的直方图面积为 (0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+≈52.35(kg).查看更多