- 2021-07-01 发布 |
- 37.5 KB |
- 35页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
专题62 变量间的相关关系、统计案例 -2020年领军高考数学一轮复习(文理通用) Word版含解析
专题62变量间的相关关系、统计案例 最新考纲 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.了解独立性检验的基本思想、方法及其初步应用. 4.了解回归分析的基本思想、方法及简单应用. 基础知识融会贯通 1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程 方程 = x+ 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 , 是待定参数. 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心. (3)相关系数 当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性. 4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为 2×2列联表 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K2=,其中n=a+b+c+d为样本容量. (3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 重点难点突破 【题型一】相关关系的判断 【典型例题】 两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( ) A.①②③ B.②③① C.②①③ D.①③② 【解答】解:对于(1),图中的点成带状分布,且从左到右上升,是正相关关系①; 对于(2),图中的点没有明显的带状分布,是不相关的③; 对于(3),图中的点成带状分布,且从左到右是下降的,是负相关关系②. 故选:D. 【再练一题】 对两个变量x,y进行线性相关检验,得线性相关系数r1=0.7859,对两个变量u,v进行线性相关检验,得线性相关系数r2=﹣0.9568,则下列判断正确的是( ) A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强 B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强 C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强 D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强 【解答】解:由线性相关系数r1=0.7859>0知x与y正相关, 由线性相关系数r2=﹣0.9568<0知u,v负相关, 又|r1|<|r2|, ∴变量u与v的线性相关性比x与y的线性相关性强. 故选:C. 思维升华 判定两个变量正,负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关;r<0时,负相关. (3)线性回归方程中: >0时,正相关; <0时,负相关. 【题型二】线性回归分析 【典型例题】 已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如表对应数据根据表中数据可得回归方程,其中,据此估计,当投入6万元广告费时,销售额约为( ) x 1 2 3 4 5 y 10 15 30 45 50 A.60万元 B.63万元 C.65万元 D.69万元 【解答】解:由表中数据,计算(1+2+3+4+5)=3, (10+15+30+45+50)=30, 回归方程,其中, ∴30﹣11×3=﹣3, ∴11x﹣3, x=6,11×6﹣3=63, 据此估计,当投入6万元广告费时,销售额约为63万元. 故选:B. 【再练一题】 某市食品药品监督管理局开展2019年春季校园餐饮安全检查,对本市的8所中学食堂进行了原料采购加工标准和卫生标准的检查和评分,其评分情况如表所示: 中学编号 1 2 3 4 5 6 7 8 原料采购加工标准评分x 100 95 93 83 82 75 70 66 卫生标准评分y 87 84 83 82 81 79 77 75 (1)已知x与y之间具有线性相关关系,求y关于x的线性回归方程;(精确到0.1) (2)现从8个被检查的中学食堂中任意抽取两个组成一组,若两个中学食堂的原料采购加工标准和卫生标准的评分均超过80分,则组成“对比标兵食堂”,求该组被评为“对比标兵食堂”的概率. 参考公式:,; 参考数据:xiyi=54112,xi2=56168. 【解答】解:(1)由题意,计算平均数得:(100+95+93+83+82+75+70+66)=83, (87+84+83+82+81+79+77+75)=81, 则0.3, 81﹣0.3×83=56.1; 故所求的线性回归方程为:0.3x+56.1; (2)从8个中学食堂中任选两个,共有共28种结果: 12,13,14,15,16,17,18,23,24,25,26,27,28, 34,35,36,37,38,45,46,47,48,56,57,58,67,68,78; 其中原料采购加工标准的评分和卫生标准的评分均超过80分的有10种结果: 12,13,14,15,23,24,25,34,35,45; 所以该组被评为“对比标兵食堂”的概率为P. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程 ①利用公式,求出回归系数,. ②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数. (4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强. 【题型三】独立性检验 【典型例题】 为便于对某知识竞赛的答卷进行对比研究,组委会抽取了1000名男生和1000名女生的答卷,他们的考试成绩频率分布直方图如下:(注:试卷满分为100分,成绩≥80分的试卷为“优秀”等级) (Ⅰ)从现有1000名男生和1000名女生答卷中各取一份,分别求答卷成绩为“优秀”等级的概率; (Ⅱ)能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为优秀等级与性别有关”? (Ⅲ)根据男、女生成绩频率分布直方图,对他们成绩的优劣进行比较,并说明理由. P(K2≥K) 0.050 0.025 0.010 0.001 K 3.841 5.024 6.635 10.828 (,其中n=a+b+c+d) 【解答】解:(Ⅰ)男生答卷成绩优秀概率为P=(0.058+0.034+0.014+0.010)×5=0.58,… 女生答卷成绩优秀概率为P=(0.046+0.034+0.016+0.010)×5=0.53;… (Ⅱ)根据题意填写列联表如下; 男 女 总计 优秀 580 530 1110 非优秀 420 470 890 总计 1000 1000 2000 … 经计算K2的观测值为, 所以能在犯错误概率不超过0.025的前提下认为“问卷成绩为优秀等级与性别有关”;… ( III)由频率分布直方图表明:男生成绩的平均分(或中位数)在80到85之间, 女生成绩的平均分(中位数)在75到80分之间,且男生的成绩分布集中程度较女生成绩集中程度高, 因此,可以认为男生的成绩较好且稳定… 【再练一题】 某工厂A,B两条生产线生产同款产品,若产品按照(1)根据已知数据,判断是否有99%的把握认为一等级产品与生产线有关? (2)分别计算两条生产线抽样产品获利的方差,以此作为判断依据,说明哪条生产线的获利更稳定? (3)估计该厂产量为2000件产品时的利润以及一等级产品的利润. 附:K2 P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 【解答】解:(1)根据题意完成下面的2×2列联表: 一等品 非一等品 合计 A生产线 20 80 100 B生产线 35 65 100 合计 55 145 200 将2×2列联表中的数据代入公式计算得:K25.643, ∵5.643<6.635, ∴没有99%的把握认为一等级产品与生产线有关; (2)A生产线随机抽取的100件产品获利的平均数为: (10×20+8×60+6×20)=8, 获利方差为[(10﹣8)2×20+(8﹣8)2×60+(6﹣8)2×20]=1.6; B生产线随机抽取的100件产品获利的平均数为: (10×35+8×40+6×25)=8.2, 获利方差为[(10﹣8.2)2×35+(8﹣8.2)2×40+(6﹣8.2)2×25]=2.36; 所以,说明A生产线的获利更稳定; (3)A、B生产线共随机抽取的200件产品获利的平均数为: [10×(20+35)+8×(60+40)+6×(20+25)]=8.1(元), 由样本估计总体,当产量为2000件产品时,估计该工厂获利为2000×8.1=16200(元), 又因为A、B生产线共随机抽取的200件产品中,一等品的A线产品有20件,B 线产品有35件, 由样本的频率估计总体的概率,则该工厂生产产品为一等品的概率为, 当产量为2000件产品时,估计该工厂一等品获利为200010=5500(元). 思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大. ②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表. ②根据公式K2=计算K2的观测值k. ③比较k与临界值的大小关系,作统计推断. 基础知识训练 1.下列说法中错误的是( ) A.从某社区65户高收入家庭,280户中等收入家庭,105户低收入家庭中选出100户调查社会购买力的某一项指标,应采用的最佳抽样方法是分层抽样 B.线性回归直线一定过样本中心点 C.若两个随机变量的线性相关性越强,则相关系数的值越接近于1 D.若一组数据1、、2、3的众数是2,则这组数据的中位数是2 【答案】C 【解析】 对于选项A,由于样本的个体差异比较大,层次比较多,所以应采用的最佳抽样方法是分层抽样,所以该选项是正确的; 对于选项B, 线性回归直线一定过样本中心点,所以该选项是正确的; 对于选项C, 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,所以该选项是错误的; 对于选项D, 若一组数据1、、2、3的众数是2,则这组数据的中位数是2,所以该选项是正确的. 故选:C 2.根据如下样本数据: 1 2 3 4 5 -1 0.5 2.5 得到的回归方程为.样本点的中心为,当增加1个单位,则近似( ) A.增加0.8个单位 B.减少0.8个单位 C.增加2.3个单位 D.减少2.3个单位 【答案】A 【解析】 由题得 因为0.1=3b+a,所以解方程组得a=-2.3,b=0.8. 所以=0.8x-2.3, 所以当增加1个单位,则近似增加0.8个单位. 故选:A 3.某企业的一种商品的产量与单位成本数据如下表: 产量(万件) 单位成本(元/件) 若根据表中提供的数据,求出关于的线性回归方程为,则的值等于( ) A. B. C. D. 【答案】B 【解析】 在线性回归方程上 则解得 故选B 4.下列说法错误的是( ) A.在回归模型中,预报变量的值不能由解释变量唯一确定 B.若变量,满足关系,且变量与正相关,则与也正相关 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 D.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则, 【答案】B 【解析】 对于A,y除了受自变量x的影响之外还受其他因素的影响,故A正确; 对于B, 变量,满足关系,则变量x与负相关,又变量与正相关,则与负相关,故B错误; 对于C,由残差图的意义可知正确; 对于D,∵y=cekx, ∴两边取对数,可得lny=ln(cekx)=lnc+lnekx=lnc+kx, 令z=lny,可得z=lnc+kx, ∵z=0.3x+4, ∴lnc=4,k=0.3,∴c=e4.即D正确; 故选B. 5.对具有线性相关关系的变量,,有一组观测数据,其回归直线方程为,且,则实数 的值是( ) A. B. C. D. 【答案】C 【解析】 由 知:,,又回归直线一定过样本点的中心,故,.故选 6.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表对应数据根据表中数据可得回归方程其中据此估计,当投入6万元广告费时,销售额约为( ) x 1 2 3 4 5 y 10 15 30 45 50 A.60万元 B.63万元 C.65万元 D.69万元 【答案】B 【解析】 解:由表格数据可知:, 因为回归方程过点,所以,且,得 所以,代入,得 故选:B 7.已知某种商品的广告费支出(单位:万元)与销售额(单位:万元)之间有如表对应数据根据表中数据可得回归方程 ,其中,据此估计,当投入6万元广告费时,销售额约为( )万元 1 2 3 4 5 10 15 30 45 50 A.60 B.63 C.65 D.69 【答案】B 【解析】 由表中数据可得,, 又回归方程中, ∴, ∴回归方程为. 当时, 所以可估计当投入6万元广告费时,销售额约为63万元. 故选B. 8.下列四个结论: ①在回归分析模型中,残差平方和越大,说明模型的拟合效果越好; ②某学校有男教师60名、女教师40名,为了解教师的体育爱好情况,在全体教师中抽取20名调查,则宜采用的抽样方法是分层抽样; ③线性相关系数越大,两个变量的线性相关性越弱;反之,线性相关性越强; ④在回归方程中,当解释变量每增加一个单位时,预报变量增加0.5个单位. 其中正确的结论是( ) A.①② B.①④ C.②③ D.②④ 【答案】D 【解析】 根据残差的意义,可知当残差的平方和越小,模拟效果越好,所以①错误; 当个体差异明显时,选用分层抽样法抽样,所以②正确; 根据线性相关系数特征,当相关系数越大,两个变量的线性相关性越强,所以③错误; 根据回归方程的系数为0.5,所以当解释变量每增加一个单位时,预报变量增加0.5个单位. 综上,②④正确,故选D. 9.鑫冠模具厂采用了新工艺后,原材料支出费用与销售额(单位:万元)之间有如下数据,由散点图可知,销售额与原材料支出费用有较好的线性相关关系,其线性回归方程是,则当原材料支出费用为时,预估销售额为( ) A. B. C. D. 【答案】C 【解析】 由题意得,将点代入回归方程中,得,回归方程为,当时,,故选. 10.已知变量,之间具有线性相关关系,其散点图如图所示,回归直线的方程为,则下列说法正确的是( ) A., B., C., D., 【答案】D 【解析】 由题图可知,回归直线的斜率是正数,即0;回归直线在y轴上的截距是负数,即0, 故选:D. 11.已知变量与负相关,且由观测数据得到样本的平均数,,则由观测数据得到的回归方程可能是( ) A. B. C. D. 【答案】A 【解析】 解:因为变量与负相关, 而B,C正相关, 故排除选项B,C; 因为回归直线方程经过样本中心, 把代入解得, 故A成立, 把代入解得, , 故D不成立, 故选:A. 12.对于线性相关系数,叙述正确的是( ) A.,越大相关程度越大,反之相关程度越小 B.,越大相关程度越大,反之相关程度越小 C.,且越接近1相关程度越大,越接近0,相关程度越小 D.以上说法都不对 【答案】C 【解析】 用相关系数可以衡量两个变量之间的相关关系的强弱,的绝对值越接近于1,表示两个变量的线性相关性越强, 的绝对值接近于0时,表示两个变量之间几乎不存在相关关系, 故选:. 13.如图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为1,2,…,17)建立模型 ①; 根据2010年至2016年的数据(时间变量的值依次为1,2,…,7)建立模型 ②. 利用这两个模型,该地区2018年的环境基础设施投资额的预测值分别为_____,_____;并且可以判断利用模型_____得到的预测值更可靠. 【答案】226.1(亿元) 256.5 (亿元) ② 【解析】 ①(亿元). ②(亿元). 当年份为 对于模型①:,(亿元) 对于模型②:,(亿元) 所以②的准确度较高,①偏差较大,所以选择②得到的预测值更可靠. 本题正确结果:(亿元);(亿元);② 14.为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:,,,,,根据收集到的数据可知,由最小二乘法求得回归直线方程为,则______. 【答案】375 【解析】 由题意: 则: 本题正确结果: 15.某公司对2019年1~4月份的获利情况进行了数据统计,如下表所示: 月份 1 2 3 4 利润/万元 5 6 6.5 8 利用线性回归分析思想,预测出2019年8月份的利润为11.6万元,则关于的线性回归方程为________. 【答案】. 【解析】 设线性回归方程为,因为,, 由题意可得,解得,, 即. 故答案为 16.某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表: 根据上表可得回归方程中的为9.4,则: ①回归方程__________; ②据此模型预报广告费用为6万元时销售额为___________万元。 【答案】 【解析】 ∵回归方程中的为9.4,根据线性回归直线过样本中心点, ,则,解得,即回归方程为据此模型预报广告费用为6万元时,销售额为 即答案为 (1). (2). . 17.下表是某地一家超市在2017年一月份某一周内周2到周6的时间与每天获得的利润(单位:万元)的有关数据. 星期 星期2 星期3 星期4 星期5 星期6 利润 2 3 5 6 9 (1)根据上表提供的数据,用最小二乘法求线性回归直线方程; (2)估计星期日获得的利润为多少万元. 参考公式:回归直线方程是:, 【答案】(1)(2)星期日估计活动的利润为10.1万元 【解析】 (1)由题意可得,, 因此,, 所以,所以; (2)由(1)可得,当时,(万元), 即星期日估计活动的利润为10.1万元。 18.现代研究表明,体脂率(体脂百分数)是衡量人体体重与健康程度的一个标准.为分析体脂率对人体总胆固醇的影响,从女性志愿者中随机抽取12名志愿者测定其体脂率值及总胆固醇指标值(单位:mmol/L),得到的数据如表所示: (1)利用表中的数据,是否可用线性回归模型拟合与的关系?请用相关系数加以说明.(若,则线性相关程度很高,可用线性回归模型拟合) (2)求出与的线性回归方程,并预测总胆固醇指标值为9.5时,对应的体脂率值为多少?(上述数据均要精确到0.1) (3)医学研究表明,人体总胆固醇指标值服从正态分布,若人体总胆固醇指标值在区间之外,说明人体总胆固醇异常,该志愿者需作进一步医学观察.现用样本的作为的估计值,用样本的标准差作为的估计值,从这12名女志愿者中随机抽4人,记需作进一步医学观察的人数为,求的分布列和数学期望. 附:参考公式:相关系数,,. 参考数据:,,, ,. 【答案】(1)见解析;(2)见解析;(3)见解析 【解析】 (1) 相关系数 所以线性相关程度很高,可用线性回归模型拟合. (2) , 又, 所以,所以回归直线, 当时, (3) ,所以,则, 所以在这12人中,有2人是胆固醇异常,需要进一步作医学观察的. 所以变量 ,, 所以的分布列为 X 0 1 2 P 数学期望 19.近年来,随着我国汽车消费水平的提高,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车交易前的使用时间(以下简称“使用时间”)进行统计,得到频率分布直方图如图1. 附注:①对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,; ②参考数据:,,,,. (Ⅰ)记“在2017年成交的二手车中随机选取一辆,该车的使用年限在”为事件,试估计的概率; (Ⅱ)根据该汽车交易市场的历史资料,得到散点图如图2,其中(单位:年)表示二手车的使用时间,(单位:万元)表示相应的二手车的平均交易价格.由散点图看出,可采用作为二手车平均交易价格关于其使用年限的回归方程,相关数据如下表(表中,): 5.5 8.7 1.9 301.4 79.75 385 ①根据回归方程类型及表中数据,建立关于的回归方程; ②该汽车交易市场对使用8年以内(含8年)的二手车收取成交价格的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的佣金.在图1对使用时间的分组中,以各组的区间中点值代表该组的各个值.若以2017年的数据作为决策依据,计算该汽车交易市场对成交的每辆车收取的平均佣金. 【答案】(1)(2)①,②万元 【解析】 解:(1)由题得,二手车使用时间在的频率为, 在的频率为, ∴; (2)①由题得,,即关于的线性回归方程为. ∵, , ∴关于的线性回归方程为,即关于的回归方程为; ②根据①中的回归方程和图1,对成交的二手车可预测: 使用时间在的平均成交价格为,对应的频率为0.2; 使用时间在的平均成交价格为,对应的频率为0.36; 使用时间在的平均成交价格为,对应的频率为0.28; 使用时间在平均成交价格为,对应的频率为0.12; 使用时间在的平均成交价格为,对应的频率为0.04. ∴该汽车交易市场对于成交的每辆车可获得的平均佣金为万元. 20.已知某商品每件的生产成本(元)与销售价格(元)具有线性相关关系,对应数据如表所示: (元) 5 6 7 8 (元) 15 17 21 27 (1)求出关于的线性回归方程; (2)若该商品的月销售量(千件)与生产成本(元)的关系为,,根据(1)中求出的线性回归方程,预测当为何值时,该商品的月销售额最大. 附:,. 【答案】(1);(2)预计当时,该商品的销售额最大为162元 【解析】 (1)根据题意,,,,, 所以,所以, 所以关于的线性回归方程. (2)依题意,销售额. 其对称轴为,又因为为开口向下的抛物线,故当时最大, 最大值. 答:预计当时,该商品的销售额最大为162元. 21.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据,如表所示: 单价(千元) 销量(百件) 已知. (1)若变量具有线性相关关系,求产品销量(百件)关于试销单价(千元)的线性回归方程; (2)用(1)中所求的线性回归方程得到与对应的产品销量的估计值.当销售数据对应的残差的绝对值时,则将销售数据称为一个“好数据”.现从个销售数据中任取个子,求“好数据”个数的分布列和数学期望. (参考公式:线性回归方程中的估计值分别为. 【答案】(1) (2)见解析 【解析】 (1)由,可求得, 故,,,, 代入可得, , 所以所求的线性回归方程为. (2)利用(1)中所求的线性回归方程可得,当时,;当 时,;当时,;当时,;当时,;当时,. 与销售数据对比可知满足的共有4个“好数据”:、、、 于是的所有可能取值为 ,,, ∴ 的分布列为: 1 2 3 P 所以. 22.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据,如表所示: 单价(千元) 3 4 5 6 7 8 销量(百件) 70 65 62 59 56 已知. (1)若变量,具有线性相关关系,求产品销量(百件)关于试销单价(千元)的线性回归方程; (2)用(1)中所求的线性回归方程得到与对应的产品销量的估计值.当销售数据对应的残差的绝对值时,则将销售数据称为一个“好数据”.现从个销售数据中任取个,求“好数据”至少个的概率. (参考公式:线性回归方程中,的估计值分别为,). 【答案】(1);(2). 【解析】 (1)由,可得:,解得: ,,, 代入可得 线性回归方程为 (2)利用(1)中所求的线性回归方程可得: 当时,;当时,;当时,; 当时,;当时,;当时, 与销售数据对比可知满足的共有个“好数据”:、、、 个销售数据中任取个共有:种取法 其中只有个好数据的取法有种取法 至少个好数据的概率为: 能力提升训练 1.如图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.则下列结论中表述不正确的是( ) A.从2000年至2016年,该地区环境基础设施投资额逐年增加; B.2011年该地区环境基础设施的投资额比2000年至2004年的投资总额还多; C.2012年该地区基础设施的投资额比2004年的投资额翻了两番 ; D.为了预测该地区2019年的环境基础设施投资额,根据2010年至2016年的数据(时间变量t的值依次为)建立了投资额y与时间变量t的线性回归模型,根据该模型预测该地区2019的环境基础设施投资额为256.5亿元. 【答案】D 【解析】 对于选项,由图像可知,投资额逐年增加是正确的.对于选项,投资总额为亿元,小于年的亿元,故描述正确.年的投资额为亿,翻两翻得到,故描述正确.对于选项,令代入回归直线方程得亿元,故选项描述不正确.所以本题选D. 2.某产品的广告费用x与销售额y的统计数据如表: 广告费用万元 1 2 4 5 销售额万元 6 14 28 32 根据上表中的数据可以求得线性回归方程中的,据此模型预报广告费用为10万元时销售额为 A.万元 B.万元 C.万元 D.万元 【答案】A 【解析】 解:根据表中数据,得; 且回归方程过样本中心点, 所以,解得, 所以回归方程; 当时,, 即广告费用为10万元时销售额为万元. 故选:A. 3.在一组样本数据为不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( ) A. B. C.1 D.-1 【答案】D 【解析】 根据回归直线方程是yx+2, 可得这两个变量是负相关,故这组样本数据的样本相关系数为负值, 且所有样本点(xi,yi)(i=1,2,…,n)都在直线上,则有|r|=1, ∴相关系数r=﹣1. 故选:D. 4.为了规定工时定额,需要确定加工某种零件所需的时间,为此进行了次试验,得到组数据:,由最小二乘法求得回归直线方程为.若已知,则 A. B. C. D. 【答案】C 【解析】 由题意,可得,代入回归直线的方程,可得, 所以,故选C。 5.下列说法中正确的个数是( ) ①相关系数用来衡量两个变量之间线性关系的强弱,越接近于1,相关性越弱; ②回归直线过样本点中心; ③相关指数用来刻画回归的效果,越小,说明模型的拟合效果越不好. A.0 B.1 C.2 D.3 【答案】C 【解析】 ①线性相关关系是衡量两个变量之间线性关系强弱的量,越接近于1,这两个变量线性相关关系越强,越接近于0,线性相关关系越弱,故①错误; ②回归直线过样本点中心,故②正确; ③用相关指数来刻画回归的效果,越大,说明模型的拟合效果越好;越小,说明模型的拟合效果越不好,故③正确. 综上,说法中正确的个数是2.故选C. 6.某研究机构在对具有线性相关的两个变量和进行统计分析时,得到如下数据: 1 2 3 4 2 3 由表中数据求得关于的回归方程为,则在这些样本点中任取一点,该点落在回归直线上方的概率为( ) A. B. C. D. 【答案】B 【解析】 ,因此点在回归直线上方,概率为,选B. 7.混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指标.为了解某型号某批次混凝土的抗压强度(单位: )随龄期(单位:天)的发展规律,质检部门在标准试验条件下记录了10组混凝土试件在龄期分别为2,3,4,5,7,9,12,14,17,21时的抗压强度的值,并对数据作了初步处理,得到下面的散点图及一些统计量的值. 表中,. (1)根据散点图判断与哪一个适宜作为抗压强度关于龄期的回归方程类型?选择其中的一个模型,并根据表中数据,建立关于的回归方程; (2)工程中常把龄期为28天的混凝土试件的抗压强度视作混凝土抗压强度标准值.已知该型号混凝土设置的最低抗压强度标准值为. (ⅰ)试预测该批次混凝土是否达标? (ⅱ)由于抗压强度标准值需要较长时间才能评定,早期预测在工程质量控制中具有重要的意义.经验表明,该型号混凝土第7天的抗压强度与第28天的抗压强度具有线性相关关系,试估计在早期质量控制中,龄期为7天的试件需达到的抗压强度. 附: ,, 参考数据: ,. 【答案】(1)(2)(i) 达标. (ii)估计龄期为天的混凝土试件需达到的抗压强度为. 【解析】 解:(1)由散点图可以判断,适宜作为抗压强度关于龄期的回归方程类型. 令,先建立关于的线性回归方程. 由于, , 所以关于的线性回归方程为, 因此关于的线性回归方程为. (2)(i)由(1)知,当龄期为天,即时, 抗压强度的预报值. 因为,所以预测该批次混凝土达标. (ii)令,得. 所以估计龄期为天的混凝土试件需达到的抗压强度为. 8.某手机厂商在销售200万台某型号手机时开展“手机碎屏险”活动、活动规则如下:用户购买该型号手机时可选购“手机碎屏险”,保费为元,若在购机后一年内发生碎屏可免费更换一次屏幕.该手机厂商将在这万台该型号手机全部销售完毕一年后,在购买碎屏险且购机后一年内未发生碎屏的用户中随机抽取名,每名用户赠送元的红包,为了合理确定保费的值,该手机厂商进行了问卷调查,统计后得到下表(其中表示保费为元时愿意购买该“手机碎屏险”的用户比例); (1)根据上面的数据求出关于的回归直线方程; (2)通过大数据分析,在使用该型号手机的用户中,购机后一年内发生碎屏的比例为.已知更换一次该型号手机屏幕的费用为元,若该手机厂商要求在这次活动中因销售该“手机碎屏险”产生的利润不少于万元,能否把保费定为5元? x 10 20 30 40 50 y 0.79 0.59 0.38 0.23 0.01 参考公式:回归方程中斜率和截距的最小二乘估计分别为, , 参考数据:表中的5个值从左到右分别记为,相应的值分别记为,经计算有,其中,. 【答案】(1);(2)能 【解析】 解:(1)由已知得, ,, 所以,, 关于的回归直线方程为; (2)能把保费定为5元. 理由如下:若保费定为5元,则估计. 估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为 元 (万元)(万元). ∴把保费定为5元. 9.已知某种细菌的适宜生长温度为10℃~25℃,为了研究该种细菌的繁殖数量(单位:个)随温度(单位:℃)变化的规律,收集数据如下: 温度/℃ 12 14 16 18 20 22 24 繁殖数量/个 20 25 33 27 51 112 194 对数据进行初步处理后,得到了一些统计量的值,如下表所示: 18 66 3.8 112 4.3 1428 20.5 其中,. (1)请绘出关于的散点图,并根据散点图判断与哪一个更适合作为该种细菌的繁殖数量关于温度的回归方程类型(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表格数据,建立关于的回归方程(结果精确到0.1); (3)当温度为25℃时,该种细菌的繁殖数量的预报值为多少? 参考公式:对于一组数据,其回归直线 的斜率和截距的最小二成估计分别为,. 参考数据:. 【答案】(1) 更适合作为关于的回归方程.(2) .(3)245. 【解析】 (1)由题意,关于的散点图如下图所示. 更适合作为关于的回归方程. (2)由(1)因为,则, ∴, ∴, ∴关于的回归方程为. (3)由(2)中的回归方程,令,求得, 所以当温度为时,预报值为. 10.某手机厂商在销售200万台某型号手机时开展“手机碎屏险”活动.活动规则如下:用户购买该型号手机时可选购“手机碎屏险”,保费为 元.若在购机后一年内发生碎屏可免费更换一次屏幕.该手机厂商将在这200万台该型号手机全部销售完毕一年后,在购买碎屏险且购机后一年内未发生碎屏的用户中随机抽取1000名,每名用户赠送1000元的红包.为了合理确定保费的值,该手机厂商进行了问卷调查,统计后得到下表(其中表示保费为元时愿意购买该“手机碎屏险”的用户比例): 10 20 30 40 50 0.79 0.59 0.38 0.23 0.01 (1)根据上面的数据求出关于的回归直线方程; (2)通过大数据分析,在使用该型号手机的用户中,购机后一年内发生碎屏的比例为.已知更换一次该型号手机屏幕的费用为2000元,若该手机厂商要求在这次活动中因销售该“手机碎屏险”产生的利润不少于70万元,能否把保费定为5元? 参考公式:回归方程中斜率和截距的最小二乘估计分别为,. 参考数据:表中的5个值从左到右分别记为,,,,,相应的值分别记为,,,,,经计算有,其中,. 【答案】(1) (2)见解析 【解析】 (1)由,, ,, 得, , 所以关于的回归直线方程为. (2)能把保费定为5元. 理由如下:若保费定为5元,则估计 估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为 (元)(万元)(万元) 所以能把保费定为5元. 查看更多