- 2021-06-19 发布 |
- 37.5 KB |
- 11页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020高中数学 第三章 统计案例 3
3.1 回归分析的基本思想及其初步应用 学习目标:1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点).3.了解最小二乘法的思想方法,理解回归方程与一般函数的区别与联系.了解判断模型拟合效果的方法(相关指数和残差分析).(难点) [自 主 预 习·探 新 知] 1.回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 2.回归直线方程 方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为: 其中=i,=i,(,)称为样本点的中心. 思考:如何求回归直线方程? [提示] (1)计算:,,,,iyi. (2)代入公式计算,. (3)写出回归方程. 3.线性回归模型 (1)表达式y=bx+a+e. (2)基本概念: ①a和b为模型的未知参数. ②e是y与bx+a之间的误差.通常e为随机变量,称为随机误差. ③x称为解释变量,y称为预报变量. 4.衡量回归方程的预报精度的方法 (1)残差平方和法: ①称为相应于点(xi,yi)的残差. ②残差平方和越小,模型的拟合效果越好. (2)残差图法: 11 残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型的拟合精度越高. (3)利用相关指数R2刻画回归效果: 其计算公式为:R2=1-; 其几何意义:R2越接近于1,表示回归的效果越好. [基础自测] 1.判断(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验. ( ) (2)在残差图中,纵坐标为残差,横坐标可以选为样本编号. ( ) (3)随机误差也就是残差. ( ) [解析] (1)× 因为如果两个变量之间不具有线性相关关系,就不用求线性回归方程了,求出的回归直线方程当然也不能很好的反映两变量间的关系. (2)√ 因为由残差图的方法步骤可知,该说法正确. (3)× 因为随机误差e是真实值y与bx之间的误差,而残差=y-是随机误差e的估计量. [答案] (1)× (2)√ (3)× 2.下列变量是相关关系的是( ) 【导学号:95032232】 A.正方体的棱长和体积 B.角的弧度数和它的正弦值 C.日照时间与水稻的亩产量 D.人的身高与视力 C [A、B均为一种确定性关系(函数关系),而D为互不相关的.] 3.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的R2分别为: 模型1的R2为0.98,模型2的R2为0.80,模型3的R2为0.50,模型4的R2为0.25.其中拟合效果最好的模型是( ) A.模型1 B.模型2 C.模型3 D.模型4 A [R2能够刻画用回归模型拟合数据的效果,R2的值越接近于1,说明回归模型拟合数据的效果越好.] 4.若y与x之间的一组数据为 11 x 0 1 2 3 4 y 1 3 5 5 6 则y对x的回归直线一定经过的点是________. 【导学号:95032233】 (2,4) [由表中数据得==2,==4. 因回归直线必过样本点的中心(,),所以y与x的回归直线一定经过的点是(2,4).] [合 作 探 究·攻 重 难] 线性回归分析 某种产品的广告费用支出x与销售额y(单位:百万元)之间有如下的对应数据: x/百万元 2 4 5 6 8 y/百万元 30 40 60 50 70 (1)画出散点图; (2)求线性回归方程; (3)试预测广告费用支出为10百万元时的销售额. [解] (1)散点图如图所示: (2)列出下表,并用科学计算器进行有关计算: i 1 2 3 4 5 合计 xi 2 4 5 6 8 25 yi 30 40 60 50 70 250 xiyi 60 160 300 300 560 1 380 x 4 16 25 36 64 145 所以,==5,==50,=145, iyi=1 380. 于是可得===6.5, 11 =-=50-6.5×5=17.5. 所以所求的线性回归方程为=6.5x+17.5. (3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时, =6.5×10+17.5=82.5(百万元), 即广告费用支出为10百万元时,销售额大约为82.5百万元. [规律方法] (1)求线性回归方程前必须判断两个变量是否线性相关,如果两个变量本身不具备相关关系,或者它们之间的相关关系不显著,那么即使求出回归方程也是毫无意义的. (2)写出回归直线方程=x+,并用回归直线方程进行预测说明:当x取x0时,由线性回归方程可得0的值,从而可进行相应的判断. [跟踪训练] 1.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据: x 3 4 5 6 y 2.5 3 4 4.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) [解] (1)由题设所给数据,可得散点图如图. (2)由数据,计算得:=86, ==4.5, ==3.5, 11 又已知iyi=66.5. 所以,由最小二乘法确定的回归方程的系数为: ===0.7, =-=3.5-0.7×4.5=0.35, 因此,所求的回归直线方程为=0.7x+0.35. (3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65吨标准煤. 残差分析 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据: x(元) 14 16 18 20 22 y(件) 12 10 7 5 3 求y对x的回归直线方程,并说明回归模型拟合效果的好坏. 【导学号:95032234】 [思路探究] 先利用求线性回归直线方程的方法步骤求出回归直线方程,再利用相关指数R2说明拟合效果. [解] =×(14+16+18+20+22)=18, =×(12+10+7+5+3)=7.4, x=142+162+182+202+222=1 660, y=122+102+72+52+32=327, xiyi=14×12+16×10+18×7+20×5+22×3=620, ∴===-1.15. =-=7.4+1.15×18=28.1, ∴所求回归直线方程为=-1.15x+28.1. 11 列出残差表: yi-i 0 0.3 -0.4 -0.1 0.2 yi- 4.6 2.6 -0.4 -2.4 -4.4 ∴ (yi-i)2=0.3, (yi-)2=53.2, R2=1-≈0.994, 故回归模型的拟合效果很好. [规律方法] 1.该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. 2.刻画回归效果的三个方式 (1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和 (yi-i)2越小,模型的拟合效果越好. (3)相关指数法:R2=1-越接近1,表明回归的效果越好. [跟踪训练] 2.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下: x 15.0 25.8 30.0 36.6 44.4 y 39.4 42.9 42.9 43.1 49.2 (1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和; (4)求R2,并说明残差变量对有效穗的影响占百分之几? [解] (1)散点图如下. 11 (2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系. 设回归方程为=x+.=30.36,=43.5, =5 101.56,=9 511.43. =1 320.66,2=921.729 6, iyi=6 746.76. 则=≈0.29,=-≈34.70. 故所求的回归直线方程为=0.29x+34.70. 当x=56.7时,=0.29×56.7+34.70=51.143. 估计成熟期有效穗为51.143. (3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:≈8.43. (4)(yi-)2=50.18,故R2=1-≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%. 非线性回归分析 [探究问题] 1.如果两个相关变量x,y满足回归方程y=c1x2+c2,那么x,y具有线性相关关系吗?如何把它化归为线性回归方程问题? [提示] x,y不具有线性相关关系,但是若令z=x2,则y=c1x2+c2可变换为y=c1z+ 11 c2,即化归为线性回归方程问题. 2.如果两个相关变量x,y满足非线性回归方程y=c1ec2x,如何转化为线性回归方程问题?如果两个变量呈非线性相关关系,怎样求回归方程? [提示] 令z=ln y,则原回归方程可变换为z=bx+a(a=ln c1,b=c2).若两个变量呈非线性相关关系可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程. 3.若对同一个问题建立的两种不同回归模型,怎样比较它们的拟合效果? [提示] 有两种比较方法:(1)计算残差平方和,残差平方和小的模型拟合效果好;(2)计算相关指数R2,R2越接近于1的模型拟合效果越好. 下表为收集到的一组数据: x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 (1)作出x与y的散点图,并猜测x与y之间的关系; (2)建立x与y的关系,预报回归模型并计算残差; (3)利用所得模型,预报x=40时y的值. 【导学号:95032235】 [思路探究] →→ →→→→ [解] (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数. (2)对两边取对数把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为: x 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784 求得回归直线方程为=0.272x-3.849, ∴=e0.272x-3.849. 11 残差列表如下: yi 7 11 21 24 66 115 325 i 6.443 11.101 19.125 32.950 56.770 128.381 290.325 i 0.557 -0.101 1.875 -8.950 9.23 -13.381 34.675 (3)当x=40时,y=e0.272×40-3.849≈1 131. [规律方法] 非线性回归问题的处理方法 1.指数函数型y=ebx+a (1)函数y=ebx+a的图象: (2)处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b. 2.对数函数型y=bln x+a (1)函数y=bln x+a的图象: (2)处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b. 3.y=bx2+a型 处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b. [跟踪训练] 3.某地区六年来轻工业产品利润总额y与年次x的试验数据如下表所示: 年次x 1 2 3 4 5 6 利润总额y 11.35 11.85 12.44 13.07 13.59 14.41 由经验知,年次x与利润总额y(单位:亿元)近似有如下关系:y=abxe0.其中a,b均为正数,求y关于x的回归方程. [解] 对y=abxe0两边取自然对数,得ln y=ln ae0+xln b,令z=ln y,则z与x的数据如下表: 11 x 1 2 3 4 5 6 z 2.43 2.47 2.52 2.57 2.61 2.67 由z=ln ae0+xln b及最小二乘法公式,得 ln b≈0.047 7,ln ae0=2.378, 即=2.378+0.047 7x,故=10.8×1.05x. [当 堂 达 标·固 双 基] 1.在对两个变量x,y进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图. 如果根据可行性要求能够作出变量x,y具有线性相关的结论,则在下列操作顺序中正确的是( ) A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③① D [对两个变量进行回归分析时,首先收集数据(xi,yi),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性相关关系的强弱,求相关系数,写出线性回归方程,最后依据所求出的回归直线方程作出解释.故正确顺序是②⑤④③①.] 2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表: 甲 乙 丙 丁 R2 0.98 0.78 0.50 0.85 则建立回归模型拟合效果最好的同学是( ) 【导学号:95032236】 A.甲 B.乙 C.丙 D.丁 A [相关指数R2越大,表示回归模型的拟合效果越好.] 3.在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x间的线性回归方程为( ) A.=x+1 B.=x+2 C.=2x+1 D.=x-1 A [因为==2.5, ==3.5, 这组数据的样本点的中心是(2.5,3.5)回归直线过样本点的中心,只有=x 11 +1适合.] 4.已知某车间加工零件的个数x与花费时间y(h)之间的线性回归直线方程为=0.01x+0.5,则加工600个零件大约需要________h. 6.5 [=0.01×600+0.5=6.5,所以加工600个零件大约需要6.5 h.] 5.在一段时间内,分5次测得某种商品的价格x(万元)和需求量y(t)之间的一组数据为: 1 2 3 4 5 价格x 1.4 1.6 1.8 2 2.2 需求量y 12 10 7 5 3 已知iyi=62,=16.6,且y与x呈线性相关. (1)求出y对x的回归方程; (2)如价格定为1.9万元,预测需求量大约是多少?(精确到0.01 t). 【导学号:95032237】 [解] (1)因为=×9=1.8,=×37=7.4, iyi=62,=16.6, 所以===-11.5, =-=7.4+11.5×1.8=28.1, 故y对x的回归方程为=28.1-11.5x. (2)=28.1-11.5×1.9=6.25(t). 11查看更多