新课标(全国卷)高三二轮复习理科数学(十四) 统计、统计案例

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

新课标(全国卷)高三二轮复习理科数学(十四) 统计、统计案例

新课标(全国卷)高三二轮复习理科数学(十四) 统计、统计案例 ‎[全国卷 考情分析]‎ 年份 全国卷Ⅰ 全国卷Ⅱ 全国卷Ⅲ ‎2019‎ 数字特征·T5‎ 频率分布直方图、均值的应用·T17‎ ‎2018‎ 统计图的识别与分析·T3‎ 折线图、线性回归方程模型问题·T18‎ 茎叶图的应用及独立性检验·T18‎ ‎2017‎ 频率分布直方图、独立性检验·T18‎ 折线图的识别与分析·T3‎ ‎(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.‎ ‎(2)统计与统计案例在解答题中多出现在第18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.‎ ‎[题组练透]‎ ‎1.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为(  )‎ ‎81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85‎ ‎06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49‎ A.12         B.33‎ C.06 D.16‎ 解析:选C 被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.‎ ‎2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为(  )‎ A.73          B.78‎ C.77 D.76‎ 解析:选B 样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选 B.‎ ‎3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:‎ 最喜爱 喜爱 一般 不喜欢 ‎4 800‎ ‎7 200‎ ‎6 400‎ ‎1 600‎ 电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为(  )‎ A.25,25,25,25 B.48,72,64,16‎ C.20,40,30,10 D.24,36,32,8‎ 解析:选D 因为抽样比为=,所以每类人中应抽选的人数分别为4 800×=24,7 200×=36,6 400×=32,1 600×=8.故选D.‎ ‎4.某班共有学生56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.‎ 解析:由题意得,将56人按学号从小到大分成4组,则分段间隔为14,所以抽取的学号依次为2,16,30,44,故还有一位同学的学号为16.答案:16‎ ‎[解题方略] 系统抽样和分层抽样中的计算 ‎(1)系统抽样 ‎①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).‎ ‎②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).‎ ‎(2)分层抽样 按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比. ‎ ‎[例1] (2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:‎ 记C为事件:“乙离子残留在体内的百分比不低于‎5.5”‎,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).‎ ‎[解] (1)由已知得0.70=a+0.20+0.15,故a=0.35,b=1-0.05-0.15-0.70=0.10.‎ ‎(2)甲离子残留百分比的平均值的估计值为 ‎2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.‎ 乙离子残留百分比的平均值的估计值为 ‎3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.‎ ‎[解题方略]‎ ‎1.方差的计算与含义 ‎(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.‎ ‎(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.‎ ‎2.从频率分布直方图中得出有关数据的方法 频率 频率分布直方图中横轴表示组数,纵轴表示,频率=组距× 频率比 频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比 众数 最高小长方形底边中点的横坐标 中位数 平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标 平均数 频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和 ‎[多练强化]‎ ‎1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:‎ 用电量/度 ‎120‎ ‎140‎ ‎160‎ ‎180‎ ‎200‎ 户数 ‎2‎ ‎3‎ ‎5‎ ‎8‎ ‎2‎ 则这20户家庭该月用电量的众数和中位数分别是(  )‎ A.180,170        B.160,180‎ C.160,170 D.180,160‎ 解析:选A 用电量为180度的家庭最多,有8户,‎ 故这20户家庭该月用电量的众数是180;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.‎ ‎2.(2019·贵阳模拟)如图的折线图是某超市2018年一月份至五月份的营业额与成本数据,根据该折线图,下列说法正确的是(  )‎ A.该超市2018年的前五个月中三月份的利润最高B.该超市2018年的前五个月的利润一直呈增长趋势 C.该超市2018年的前五个月的利润的中位数为0.8万元D.该超市2018年前五个月的总利润为3.5万元 解析:选D 第1个月利润为3-2.5=0.5(万元),第2个月利润为3.5-2.8=0.7(万元),第3个月利润为3.8-3=0.8(万元),第4个月利润为4-3.5=0.5(万元),第5个月利润为5-4=1(万元),其中第5个月利润最高,为1万元,所以A错误.第4个月利润相比第3个月在下降,所以B错误.前五个月的利润的中位数为0.7万元,所以C错误,前五个月的总利润为0.5+0.7+0.8+0.5+1=3.5(万元),所以D正确.‎ ‎3.(2019·武昌区调研考试)对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.‎ ‎(1)根据直方图完成以下表格;‎ 成绩 ‎[50,60)‎ ‎[60,70)‎ ‎[70,80)‎ ‎[80,90)‎ ‎[90,100]‎ 频数 ‎(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);‎ ‎(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩?‎ 解:(1)填表如下:‎ 成绩 ‎[50,60)‎ ‎[60,70)‎ ‎[70,80)‎ ‎[80,90)‎ ‎[90,100]‎ 频数 ‎50‎ ‎150‎ ‎350‎ ‎350‎ ‎100‎ ‎(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,方差s2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.‎ ‎(3)进入复赛选手的成绩为80+×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.(说明:回答82分以上,或82分及其以上均可)‎ 题型一 回归分析在实际问题中的应用 ‎[例2] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.‎ 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.‎ ‎[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).‎ ‎(2)利用模型②得到的预测值更可靠理由如下:‎ ‎(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.‎ ‎(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①‎ 得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.‎ ‎(以上给出了2种理由,答出其中任意一种或其他合理理由均可)‎ ‎[解题方略] 求回归直线方程的方法 ‎(1)若所求的回归直线方程是在选择题中,常利用回归直线=x+必经过样本点的中心(,)快速选择.(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:‎ 题型二 独立性检验在实际问题中的应用 ‎[例3] (2019·武汉市调研测试)2019年,在庆祝中华人民共和国成立70周年之际,又迎来了以“创军人荣耀,筑世界和平”为口号的第七届世界军人运动会(以下简称“军运会”).据悉,这次军运会将于‎2019年10月18日至27日在美丽的江城武汉举行,届时将有来自100多个国家的近万名军人运动员参赛.相对于奥运会、亚运会等大型综合赛事,军运会或许对很多人来说还很陌生,所以武汉某高校为了在学生中更广泛地推介普及军运会相关知识内容,特在网络上组织了一次“我所知晓的武汉军运会”知识问答比赛.为便于对答卷进行对比研究,组委会抽取了1 000名男生和1 000名女生的答卷,他们的成绩(单位:分)频率分布直方图如下:‎ ‎(注:答卷满分为100分,成绩≥80的答卷为“优秀”等级)‎ ‎(1)从现有1 000名男生和1 000名女生的答卷中各取一份,分别求答卷成绩为“优秀”等级的概率;‎ ‎(2)求下面列联表中a,b,c,d的值,并根据列联表回答:能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”?‎ 男 女 总计 优秀 a b a+b 非优秀 c d c+d 总计 ‎1 000‎ ‎1 000‎ ‎2 000‎ ‎(3)根据男、女生成绩频率分布直方图,对他们的成绩的优劣进行比较.‎ 附:‎ P(K2≥k0)‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ k0‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ K2=,其中n=a+b+c+d.‎ ‎[解] (1)男生答卷成绩为“优秀”等级的概率P=(0.058+0.034+0.014+0.010)×5=0.58,‎ 女生答卷成绩为“优秀”等级的概率P1=(0.046+0.034+0.016+0.010)×5=0.53.‎ ‎(2)‎ 男 女 总计 优秀 ‎580‎ ‎530‎ ‎1 110‎ 非优秀 ‎420‎ ‎470‎ ‎890‎ 总计 ‎1 000‎ ‎1 000‎ ‎2 000‎ ‎∴a=580,b=530,c=420,d=470.由K2=得,‎ K2=≈5.061>5.024,‎ ‎∴在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”.‎ ‎(3)根据男、女生成绩频率分布直方图可得,男、女生成绩的中位数均在80到85之间,但男生的成绩分布集中程度较女生成绩分布集中程度高,因此,可以认为男生的成绩较好且稳定.‎ ‎[解题方略] 独立性检验的关键(1)根据2×2列联表准确计算K2的观测值k,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.‎ ‎[多练强化]‎ ‎1.(2019·福建质量检测)“工资条里显红利,个税新政入民心”.随着2019年新年钟声的敲响,我国自1980年以来,力度最大的一次个人所得税(简称个税)改革迎来了全面实施的阶段.某IT从业者为了解自己在个税新政下能享受多少税收红利,绘制了他在26岁~35岁(2009年~2018年)之间各年的月平均收入y(单元:千元)的散点图:‎ ‎(1)由散点图知,可用回归模型y=bln x+a拟合y与x的关系,试根据有关数据建立y关于x的回归方程;‎ ‎(2)如果该IT从业者在个税新政下的专项附加扣除为3 000元/月,试利用(1)的结果,将月平均收入视为月收入,根据新旧个税政策,估计他36岁时每个月少缴纳的个人所得税.‎ 附注:1.参考数据:i=55,i=155.5,(xi-)2=82.5,‎ (xi-)(yi-)=94.9,i=15.1,(ti-)2=4.84,‎ (ti-)(yi-)=24.2,其中ti=ln xi;取ln 11=2.4,ln 36=3.6.‎ ‎2.参考公式:回归方程v=bu+a中斜率和截距的最小二乘估计分别为=,‎ =-.‎ ‎3.新旧个税政策下每月应纳税所得额(含税)计算方法及税率表如下:‎ 旧个税税率表(个税起征点3 500元)‎ 新个税税率表(个税起征点5 000元)‎ 缴税级数 每月应纳税所得额(含税)=收入-个税起征点 税率(%)‎ 每月应纳税所得额(含税)=收入-个税起征点-专项附加扣除 税率(%)‎ ‎1‎ 不超过1 500元的部分 ‎3‎ 不超过3 000元的部分 ‎3‎ ‎2‎ 超过1 500元至4 500元的部分 ‎10‎ 超过3 000元至12 000元的部分 ‎10‎ ‎3‎ 超过4 500元至9 000元的部分 ‎20‎ 超过12 000元至25 000元的部分 ‎20‎ ‎4‎ 超过9 000元至35 000元的部分 ‎25‎ 超过25 000元至35 000元的部分 ‎25‎ ‎5‎ 超过35 000元至55 000元的部分 ‎30‎ 超过35 000元至55 000元的部分 ‎30‎ ‎...‎ ‎...‎ ‎...‎ ‎...‎ ‎...‎ 解:(1)令t=ln x,则y=bt+a.‎ ===5,‎ ===15.55,===1.51,‎ =-=15.55-5×1.51=8,‎ 所以y关于t的回归方程为y=5t+8.‎ 因为t=ln x,所以y关于x的回归方程为y=5ln x+8.‎ ‎(2)由(1)得该IT从业者36岁时月平均收入为 y=5ln 11+8=5×2.4+8=20(千元).‎ 旧个税政策下每个月应缴纳的个人所得税为 ‎1 500×3%+3 000×10%+4 500×20%+(20 000-3 500-9 000)×25%=3 120(元).‎ 新个税政策下每个月应缴纳的个人所得税为 ‎3 000×3%+(20 000-5 000-3 000-3 000)×10%=990(元).‎ 故根据新旧个税政策,该IT从业者36岁时每个月少缴纳的个人所得税为3 120-990=2 130(元).‎ ‎2.(2019·江西八所重点中学联考)‎2019年2月25日,第11届罗马尼亚数学大师赛(简称RMM)于罗马尼亚首都布加勒斯特闭幕,最终成绩揭晓,以色列选手排名第一,而中国队无一人获得金牌,最好成绩是获得银牌的第15名,总成绩排名第6.在分量极重的国际数学奥林匹克(IMO)比赛中,过去拿冠军拿到手软的中国队,已经连续4年没有拿到冠军了.人们不禁要问“中国奥数究竟怎么了?”,一时间关于各级教育主管部门是否应该下达“禁奥令”成为社会讨论的热点.某重点高中培优班共50人,现就这50人对“禁奥令”的态度进行问卷调查,得到如下的列联表:‎ 不应下“禁奥令”‎ 应下“禁奥令”‎ 总计 男生 ‎5‎ 女生 ‎10‎ 总计 ‎50‎ 若按对“禁奥令”的态度采用分层抽样的方法从50人中抽出10人进行重点调查,知道其中认为不应下“禁奥令”的同学共有6人.(1)请将上面的列联表补充完整,并判断是否有99%的把握认为对下“禁奥令”的态度与性别有关?说明你的理由.(2)现从这10人中抽出2名男生、2名女生,记此4人中认为不应下“禁奥令”的人数为ξ,求ξ的分布列和数学期望.‎ 参考公式与数据:K2= P(K2≥k0)‎ ‎0.100‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k0‎ ‎2.706‎ ‎3.841‎ ‎6.635‎ ‎10.828‎ 解:(1)由题意将列联表补充如下:‎ 不应下“禁奥令”‎ 应下“禁奥令”‎ 总计 男生 ‎20‎ ‎5‎ ‎25‎ 女生 ‎10‎ ‎15‎ ‎25‎ 总计 ‎30‎ ‎20‎ ‎50‎ 所以K2==≈8.333>6.635,‎ 所以有99%的把握认为对下“禁奥令”的态度与性别有关.‎ ‎(2)由题意,可知在这10人中,男、女生各5人,其中男生有4人、女生有2人认为不应下“禁奥令”,ξ的所有可能取值有1,2,3,4.P(ξ=1)==;P(ξ=2)==;‎ P(ξ=3)==;P(ξ=4)==.所以ξ的分布列是 ξ ‎1‎ ‎2‎ ‎3‎ ‎4‎ P 所以E(ξ)==2.4.‎ 概率与统计的综合问题 ‎[例4] 从某技术公司开发的某种产品中随机抽取200件,测量这些产品的一项质量指标值(记为Z),由测量结果得如下频率分布直方图:‎ ‎(1)公司规定:当Z≥95时,产品为正品;当Z<95时,产品为次品.公司每生产一件这种产品,若是正品,则盈利90元;若是次品,则亏损30元,记ξ为生产一件这种产品的利润,求随机变量ξ的分布列和数学期望;‎ ‎(2)由频率分布直方图可以认为,Z服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2(同一组中的数据用该区间的中点值作代表).①利用该正态分布,求P(87.80)的方差为8,则a的值为________.‎ ‎9.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:‎ x(单位:℃)‎ ‎17‎ ‎14‎ ‎10‎ ‎-1‎ y(单位:kW·h)‎ ‎24‎ ‎34‎ ‎38‎ a 由表中数据得线性回归方程:=-2x+60,则a的值为________.‎ 三、解答题 ‎10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“‎ 兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:‎ 平均每周进行长跑训练天数 不大于2‎ ‎3或4‎ 不少于5‎ 人数 ‎30‎ ‎130‎ ‎40‎ 若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.‎ ‎(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;‎ ‎(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?‎ 热烈参与者 非热烈参与者 总计 男 ‎140‎ 女 ‎55‎ 总计 附:K2=(n为样本容量)‎ P(K2≥k0)‎ ‎0.500‎ ‎0.400‎ ‎0.250‎ ‎0.150‎ ‎0.100‎ ‎0.050‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k0‎ ‎0.455‎ ‎0.708‎ ‎1.323‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ ‎11.(2019·广东六校第一次联考)某市大力推广纯电动汽车,对购买用户依照车辆出厂续驶里程R(单位:千米)的行业标准,予以地方财政补贴,其补贴标准如下表:‎ 出厂续驶里程R/千米 补贴/(万元/辆)‎ ‎150≤R<250‎ ‎3‎ ‎250≤R<350‎ ‎4‎ R≥350‎ ‎4.5‎ ‎2017年底某部门随机调查该市1 000辆纯电动汽车,统计其出厂续驶里程R,得到频率分布直方图如上图所示,用样本估计总体,频率估计概率,解决如下问题:‎ ‎(1)求该市每辆纯电动汽车2017年地方财政补贴的均值.‎ ‎(2)某企业统计2017年其充电站100天中各天充电车辆数,得如下频数分布表:‎ 辆数 ‎[5 500,6 500)‎ ‎[6 500,7 500)‎ ‎[7 500,8 500)‎ ‎[8 500,9 500]‎ 天数 ‎20‎ ‎30‎ ‎40‎ ‎10‎ ‎(同一组中的数据用该组区间的中点值作代表)‎ ‎2018年2月,国家出台政策,将纯电动汽车财政补贴逐步转移到充电基础设施建设上来,该企业拟将转移补贴资金用于添置新型充电设备.现有直流、交流两种充电桩可供购置,直流充电桩5万元/台,每台每天最多可以充电30辆车,每天维护费用500元/台;交流充电桩1万元/台,每台每天最多可以充电4辆车,每天维护费用80元/台.‎ 该企业现有两种购置方案:‎ 方案一,购买100台直流充电桩和900台交流充电桩;‎ 方案二,购买200台直流充电桩和400台交流充电桩.‎ 假设车辆充电时优先使用新设备,且充电一辆车产生25元的收入,用2017年的统计数据,分别估计该企业在两种方案下新设备产生的日利润(日利润=日收入-日维护费用).‎ ‎12.(2019·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:‎ 月份 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ 广告投入量/万元 ‎2‎ ‎4‎ ‎6‎ ‎8‎ ‎10‎ ‎12‎ 收益/万元 ‎14.21‎ ‎20.31‎ ‎31.8‎ ‎31.18‎ ‎37.83‎ ‎44.67‎ 他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:‎ iyi ‎7‎ ‎30‎ ‎1 464.24‎ ‎364‎ ‎(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.‎ ‎(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?‎ 附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:==,=-.‎ B组——大题专攻强化练 ‎1.某地一商场记录了12月份某5天当中某商品的销售量y(单位:kg)与该地当日最高气温x(单位:℃)的相关数据,如下表:‎ x ‎11‎ ‎9‎ ‎8‎ ‎5‎ ‎2‎ y ‎7‎ ‎8‎ ‎8‎ ‎10‎ ‎12‎ ‎(1)试求y与x的回归方程=x+;(2)判断y与x之间是正相关还是负相关;若该地12月某日的最高气温是‎6 ℃‎,试用所求回归方程预测这天该商品的销售量;(3)假定该地12月份的日最高气温X~N(μ,σ2),其中μ近似取样本平均数,σ2近似取样本方差s2,试求P(3.8D(ξ4)>D(ξ2)=D(ξ5)>D(ξ3)>D(ξ6).‎ ‎3解:(1)频率分布直方图中第四组的频率为1-100×(0.002+0.004+0.003)=0.1.‎ 所以用样本平均数估计Q镇明年梅雨季节的降雨量为 ‎150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).‎ ‎(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.‎ 进而完善列联表如下.‎ 降雨量 亩产量  ‎ ‎[200,400)‎ ‎[100,200)∪[400,500]‎ 总计 ‎<600‎ ‎2‎ ‎2‎ ‎4‎ ‎≥600‎ ‎5‎ ‎1‎ ‎6‎ 总计 ‎7‎ ‎3‎ ‎10‎ K2==≈1.270<1.323.‎ 故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.‎ 而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.‎ ‎4解:(1)在5份A款型理财产品的客户资料中只有1份是最满意的,把最满意客户资料记为a,其余客户资料记为b,c,d,e.‎ 则任取2份资料的基本事件有(a,b),(a,c),(a,d),(a,e),(b,c)(b,d),(b,e),(c,d),(c,e),(d,e),共10个.‎ 含有a的基本事件有(a,b),(a,c),(a,d),(a,e),共4个.‎ 则含有最满意客户资料的概率为=.‎ ‎(2)线性相关系数r==≈0.72∈[0.3,0,75),‎ 即y与x具有一般线性相关关系,没有达到较强线性相关关系.‎ 由“末位”剔除制度可知,应剔除J款型理财产品,‎ 重新计算得′==≈22.89,‎ ′==≈74.33,‎ -9′=288.9+10×21.92-132-9×22.892≈200.43,‎ iyi-9′·′=452.1+10×21.9×72.1-13×52-9×22.89×74.33≈253.27.‎ ==≈1.26≈1.3.‎ =′-′=74.33-1.26×22.89≈45.5.‎ 所求线性回归方程为=45.5+1.3x.‎ ‎(注:若用=1.3计算出a≈44.6,即=44.6+1.3x不扣分)‎
查看更多

相关文章

您可能关注的文档