【数学】2019届一轮复习北师大版 统计与统计案例学案

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

【数学】2019届一轮复习北师大版 统计与统计案例学案

第1讲 统计与统计案例 概率与统计 考向预测 ‎1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;‎ ‎2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点.‎ 知识与技巧的梳理 ‎1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.‎ ‎2.统计中的四个数据特征 ‎(1)众数:在样本数据中,出现次数最多的那个数据.‎ ‎(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.‎ ‎(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).‎ ‎(4)方差与标准差.‎ s2=[(x1-)2+(x2-)2+…+(xn-)2],‎ s=.‎ ‎3.直方图的两个结论 ‎(1)小长方形的面积=组距×=频率.‎ ‎(2)各小长方形的面积之和等于1.‎ ‎4.回归分析与独立性检验 ‎(1)回归直线=x+经过样本点的中心点(,),若x取某一个值代入回归直线方程=x+中,可求出y的估计值.‎ ‎(2)独立性检验 对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:‎ y1‎ y2‎ 总计 x1‎ a b a+b x2‎ c d c+d 总计 a+c b+d n 则K2=(其中n=a+b+c+d为样本容量).‎ 热点题型 热点一 用样本估计总体 ‎【例1】 (2016·四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5)分成9组,制成了如图所示的频率分布直方图.‎ ‎(1)求直方图中a的值;‎ ‎(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;‎ ‎(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.‎ 解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.‎ 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.‎ 由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.‎ ‎(2)由(1)可知,100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.‎ 由以上样本的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.‎ ‎(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,‎ 而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85.‎ 所以2.5≤x<3.‎ 由0.3×(x-2.5)=0.85-0.73,解得x=2.9.‎ 所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.‎ 探究提高 在本例中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.‎ ‎【训练1】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:‎ ‎(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;‎ ‎(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;‎ ‎(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.‎ 解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,‎ 所以样本中分数小于70的频率为1-0.6=0.4.‎ 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.‎ ‎(2)根据题意,样本中分数不小于50的频率为 ‎(0.01+0.02+0.04+0.02)×10=0.9,‎ 分数在区间[40,50)内的人数为100-100×0.9-5=5.‎ 所以总体中分数在区间[40,50)内的人数估计为400×=20.‎ ‎(3)由题意可知,样本中分数不小于70的学生人数为 ‎(0.02+0.04)×10×100=60,‎ 所以样本中分数不小于70的男生人数为60×=30.‎ 所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.‎ 所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.‎ 热点二 回归分析与独立性检验 ‎【例2】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:‎ 女 男 总计 喜爱 ‎40‎ ‎20‎ ‎60‎ 不喜爱 ‎20‎ ‎30‎ ‎50‎ 总计 ‎60‎ ‎50‎ ‎110‎ 试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”.‎ 参考附表:‎ P(K2≥k0)‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k0‎ ‎3.841‎ ‎6.635‎ ‎10.828‎ ‎(参考公式:K2=,其中n=a+b+c+d)‎ ‎(2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.‎ 注:年份代码1~7分别对应年份2008~2014.‎ ‎①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;‎ ‎②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.‎ 附注:‎ 参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.‎ 回归方程=+t中斜率和截距的最小二乘估计公式分别为:‎ ‎(1)解析 分析列联表中数据,可得K2的一个观测值 k=≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.‎ 答案 99%‎ ‎(2)解 ①由折线图中的数据和附注中参考数据得 ‎=4, (ti-)2=28,=0.55.‎ (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,所以r≈≈0.99.‎ 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.‎ ‎②由==1.331及(1)得==≈0.103,‎ =-≈1.331-0.103×4≈0.92.‎ 所以,y关于t的回归方程为=0.92+0.10t.‎ 将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82.‎ 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.‎ 探究提高 1.回归直线方程的关键:正确理解计算,的公式和准确地计算.‎ ‎2.独立性检验的关键:根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.‎ ‎【训练2】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.‎ 附表:‎ P(K2≥k0)‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k0‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ 则作出“这种血清能起到预防感冒的作用”出错的可能性不超过(  )‎ A.95% B.5% C.97.5% D.2.5%‎ ‎(2)(2017·唐山一模)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:‎ 超市 A B C D E F G 广告费支出xi ‎1‎ ‎2‎ ‎4‎ ‎6‎ ‎11‎ ‎13‎ ‎19‎ 销售额yi ‎19‎ ‎32‎ ‎40‎ ‎44‎ ‎52‎ ‎53‎ ‎54‎ ‎①若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;‎ ‎②用对数回归模型拟合y与x的关系,可得回归方程=12ln x+22,‎ 经计算得出线性回归模型和对数模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.‎ 参数数据及公式:=8,=42,xiyi=2 794,x=708,‎ ‎(1)解析 ∵k≈3.918>3.841,且P(K2≥k0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%.‎ 答案 B ‎(2)解 ①∵=8,=42,xiyi=2 794,x=708.‎ 因此=-=42-1.7×8=28.4.‎ 所以,y关于x的线性回归方程是=1.7x+28.4.‎ ‎②∵0.75<0.97,‎ ‎∴对数回归模型更合适.‎ 当x=8时,=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元.‎ ‎∴广告费支出8万元时,预测A超市销售额为47.2万元.‎ ‎(45分钟)‎ 限时训练 经典常规题 ‎1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )‎ A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差 C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数 ‎【解题思路】刻画评估这种农作物亩产量稳定程度的指标是标准差.‎ ‎【答案】B ‎2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是(  )‎ A.各月的平均最低气温都在0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20 ℃的月份有5个 ‎【解题思路】根据图示可得各月份的气温数据.‎ ‎【答案】根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.故选 D.‎ ‎3.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,‎ 设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为(  )‎ A.160 B.163 C.166 D.170‎ ‎【解题思路】由回归直线方程过样本点中心可得.‎ ‎【答案】由已知得=22.5,=160, ‎ ‎∵回归直线方程过样本点中心(,),且=4,‎ ‎∴160=4×22.5+,解得=70.‎ ‎∴回归直线方程为=4x+70,当x=24时,=166.故选C.‎ ‎4.(2017·全国Ⅱ卷)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:‎ ‎(1)设两种养殖方法的箱产量相互独立,记A表示事件:旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg,估计A的概率;‎ ‎(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:‎ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 ‎(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).‎ 附:K2= ‎【解题思路】(1)以其频率代表概率;(2)完成2×2列联表,并计算K2;(3)找出频率分布直方图中平方其面积的位置.‎ ‎【答案】解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,‎ C表示事件“新养殖法的箱产量不低于50 kg”.‎ 由题意知,P(A)=P(BC)=P(B)P(C).‎ 旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,‎ 故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,‎ 故P(C)的估计值为0.66.‎ 因此,事件A的概率估计值为0.62×0.66=0.409 2.‎ ‎(2)根据箱产量的频率分布直方图得列联表:‎ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 ‎62‎ ‎38‎ 新养殖法 ‎34‎ ‎66‎ K2=≈15.705.‎ 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.‎ ‎(3)因为新养殖法的箱产量的频率分布直方图中,箱产量低于50 kg的直方图面积为:‎ ‎(0.004+0.020+0.044)×5=0.34<0.5,‎ 箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,‎ 故新养殖法箱产量的中位数的估计值为50+≈52.35 (kg).‎ 高频易错题 ‎1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为(  )‎ A.7 B.9 C.10 D.15‎ ‎【解题思路】系统抽样也就是等距抽样,找出间距与所分的段数,再确定样本.‎ ‎【答案】抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.故选 C.‎ ‎2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.‎ 根据该折线图,下列结论错误的是(  )‎ A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 ‎【解题思路】由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.‎ ‎【答案】A ‎3.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y(吨)的对应数据如表:‎ x ‎30‎ ‎40‎ ‎50‎ ‎60‎ y ‎25‎ ‎35‎ ‎40‎ ‎45‎ 根据最小二乘法求得回归方程为=0.65x+,当产量为80吨时,预计需要生产能耗为________吨.‎ ‎【解题思路】由回归直线方程过样本点中心可得.‎ ‎【答案】由题意,=45,=36.25,代入=0.65x+,可得=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59.故填 59.‎ ‎4.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:‎ 最高气温 ‎[10,15)‎ ‎[15,20)‎ ‎[20,25)‎ ‎[25,30)‎ ‎[30,35)‎ ‎[35,40)‎ 天数 ‎2‎ ‎16‎ ‎36‎ ‎25‎ ‎7‎ ‎4‎ 以最高气温位于各区间的频率估计最高气温位于该区间的概率.‎ ‎(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;‎ ‎(2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.‎ ‎【解题思路】(1)以其频率代表概率;(2)根据表格分别确定不同温度时所获利润,再 确定利润大于0时的频率(也就是概率).‎ ‎【答案】解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为=0.6.‎ 所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.‎ ‎(2)当这种酸奶一天的进货量为450瓶时,‎ 若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;‎ 若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;‎ 若最高气温不低于25,则Y=450×(6-4)=900,‎ 所以,利润Y的所有可能值为-100,300,900.‎ Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8.‎ 因此Y大于零的概率的估计值为0.8.‎ 精准预测题 ‎1.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:‎ x ‎-4‎ ‎-2‎ ‎1‎ ‎2‎ ‎4‎ y ‎-5‎ ‎-3‎ ‎-1‎ ‎-0.5‎ ‎1‎ 根据上述数据得到的回归方程为=x+,则大致可以判断(  )‎ A.>0,>0 B.>0,<0 C.<0,>0 D.<0,<0‎ ‎【解题思路】作出散点图,画出回归直线直观判定>0,<0.‎ ‎【答案】C ‎2.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:‎ 男性市民 女性市民 认为能缓解交通拥堵 ‎48‎ ‎30‎ 认为不能缓解交通拥堵 ‎12‎ ‎20‎ 则下列结论正确的是(  )‎ 附:K2= P(K2≥k)‎ ‎0.05‎ ‎0.010‎ ‎0.005‎ ‎0.001‎ k ‎3.841‎ ‎6.635‎ ‎7.879‎ ‎10.828‎ A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”‎ B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”‎ C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”‎ D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”‎ ‎【解题思路】由2×2列联表,可求K2的观测值,k=≈5.288>3.841.‎ 由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.‎ ‎【答案】A ‎3.为了研究雾霾天气的治理情况,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为4,y,z,依次构成等差数列,且4,y,z+4成等比数列,若用分层抽样抽取6个城市,则乙组中应抽取的城市个数为________.‎ ‎【解题思路】根据等差数列和等比数列的定义列方程组解出y,z.‎ ‎【答案】由题意可得即解得z=12或z=-4(舍去),故y=8.‎ 所以甲、乙、丙三组城市的个数分别为4,8,12.‎ 因为一共要抽取6个城市,所以抽样比为=.‎ 故乙组城市应抽取的个数为8×=2.故填 2.‎ ‎4.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.‎ ‎(1)根据女性频率分布直方图估计女性使用微信的平均时间;‎ ‎(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?‎ ‎【解题思路】(1)取每组的中间值代表这组,平均数;(2)根据题意列出2×2列联表,并计算K2.‎ ‎【答案】解 (1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).‎ ‎(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.‎ 由题设条件得列联表 ‎ 微信控 非微信控 总计 男性 ‎38‎ ‎12‎ ‎50‎ 女性 ‎30‎ ‎20‎ ‎50‎ 总计 ‎68‎ ‎32‎ ‎100‎ ‎∴K2==≈2.941>2.706.‎ 所以有90%的把握认为“微信控”与“性别”有关.‎
查看更多

相关文章

您可能关注的文档