- 2021-06-16 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2019届一轮复习北师大版 统计与统计案例学案
第1讲 统计与统计案例 概率与统计 考向预测 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小; 2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点. 知识与技巧的梳理 1.抽样方法 抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征 (1)众数:在样本数据中,出现次数最多的那个数据. (2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn). (4)方差与标准差. s2=[(x1-)2+(x2-)2+…+(xn-)2], s=. 3.直方图的两个结论 (1)小长方形的面积=组距×=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验 (1)回归直线=x+经过样本点的中心点(,),若x取某一个值代入回归直线方程=x+中,可求出y的估计值. (2)独立性检验 对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d n 则K2=(其中n=a+b+c+d为样本容量). 热点题型 热点一 用样本估计总体 【例1】 (2016·四川卷)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5)分成9组,制成了如图所示的频率分布直方图. (1)求直方图中a的值; (2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由. 解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02. 由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30. (2)由(1)可知,100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12. 由以上样本的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000. (3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85, 而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85. 所以2.5≤x<3. 由0.3×(x-2.5)=0.85-0.73,解得x=2.9. 所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 探究提高 在本例中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错. 【训练1】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图: (1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率; (2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例. 解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4. 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9, 分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60, 所以样本中分数不小于70的男生人数为60×=30. 所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2. 所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 热点二 回归分析与独立性检验 【例2】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表: 女 男 总计 喜爱 40 20 60 不喜爱 20 30 50 总计 60 50 110 试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”. 参考附表: P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 (参考公式:K2=,其中n=a+b+c+d) (2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1~7分别对应年份2008~2014. ①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; ②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646. 回归方程=+t中斜率和截距的最小二乘估计公式分别为: (1)解析 分析列联表中数据,可得K2的一个观测值 k=≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”. 答案 99% (2)解 ①由折线图中的数据和附注中参考数据得 =4, (ti-)2=28,=0.55. (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,所以r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系. ②由==1.331及(1)得==≈0.103, =-≈1.331-0.103×4≈0.92. 所以,y关于t的回归方程为=0.92+0.10t. 将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 探究提高 1.回归直线方程的关键:正确理解计算,的公式和准确地计算. 2.独立性检验的关键:根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表. 【训练2】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918. 附表: P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( ) A.95% B.5% C.97.5% D.2.5% (2)(2017·唐山一模)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下: 超市 A B C D E F G 广告费支出xi 1 2 4 6 11 13 19 销售额yi 19 32 40 44 52 53 54 ①若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程; ②用对数回归模型拟合y与x的关系,可得回归方程=12ln x+22, 经计算得出线性回归模型和对数模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额. 参数数据及公式:=8,=42,xiyi=2 794,x=708, (1)解析 ∵k≈3.918>3.841,且P(K2≥k0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%. 答案 B (2)解 ①∵=8,=42,xiyi=2 794,x=708. 因此=-=42-1.7×8=28.4. 所以,y关于x的线性回归方程是=1.7x+28.4. ②∵0.75<0.97, ∴对数回归模型更合适. 当x=8时,=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元. ∴广告费支出8万元时,预测A超市销售额为47.2万元. (45分钟) 限时训练 经典常规题 1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( ) A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差 C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数 【解题思路】刻画评估这种农作物亩产量稳定程度的指标是标准差. 【答案】B 2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( ) A.各月的平均最低气温都在0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20 ℃的月份有5个 【解题思路】根据图示可得各月份的气温数据. 【答案】根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.故选 D. 3.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系, 设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170 【解题思路】由回归直线方程过样本点中心可得. 【答案】由已知得=22.5,=160, ∵回归直线方程过样本点中心(,),且=4, ∴160=4×22.5+,解得=70. ∴回归直线方程为=4x+70,当x=24时,=166.故选C. 4.(2017·全国Ⅱ卷)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A表示事件:旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关: 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:K2= 【解题思路】(1)以其频率代表概率;(2)完成2×2列联表,并计算K2;(3)找出频率分布直方图中平方其面积的位置. 【答案】解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”, C表示事件“新养殖法的箱产量不低于50 kg”. 由题意知,P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表: 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 K2=≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量的频率分布直方图中,箱产量低于50 kg的直方图面积为: (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为50+≈52.35 (kg). 高频易错题 1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( ) A.7 B.9 C.10 D.15 【解题思路】系统抽样也就是等距抽样,找出间距与所分的段数,再确定样本. 【答案】抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.故选 C. 2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图. 根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 【解题思路】由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误. 【答案】A 3.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y(吨)的对应数据如表: x 30 40 50 60 y 25 35 40 45 根据最小二乘法求得回归方程为=0.65x+,当产量为80吨时,预计需要生产能耗为________吨. 【解题思路】由回归直线方程过样本点中心可得. 【答案】由题意,=45,=36.25,代入=0.65x+,可得=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59.故填 59. 4.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表: 最高气温 [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) 天数 2 16 36 25 7 4 以最高气温位于各区间的频率估计最高气温位于该区间的概率. (1)估计六月份这种酸奶一天的需求量不超过300瓶的概率; (2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率. 【解题思路】(1)以其频率代表概率;(2)根据表格分别确定不同温度时所获利润,再 确定利润大于0时的频率(也就是概率). 【答案】解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为=0.6. 所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6. (2)当这种酸奶一天的进货量为450瓶时, 若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100; 若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300; 若最高气温不低于25,则Y=450×(6-4)=900, 所以,利润Y的所有可能值为-100,300,900. Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8. 因此Y大于零的概率的估计值为0.8. 精准预测题 1.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示: x -4 -2 1 2 4 y -5 -3 -1 -0.5 1 根据上述数据得到的回归方程为=x+,则大致可以判断( ) A.>0,>0 B.>0,<0 C.<0,>0 D.<0,<0 【解题思路】作出散点图,画出回归直线直观判定>0,<0. 【答案】C 2.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表: 男性市民 女性市民 认为能缓解交通拥堵 48 30 认为不能缓解交通拥堵 12 20 则下列结论正确的是( ) 附:K2= P(K2≥k) 0.05 0.010 0.005 0.001 k 3.841 6.635 7.879 10.828 A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关” B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关” C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关” D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 【解题思路】由2×2列联表,可求K2的观测值,k=≈5.288>3.841. 由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 【答案】A 3.为了研究雾霾天气的治理情况,某课题组对部分城市进行空气质量调查,按地域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为4,y,z,依次构成等差数列,且4,y,z+4成等比数列,若用分层抽样抽取6个城市,则乙组中应抽取的城市个数为________. 【解题思路】根据等差数列和等比数列的定义列方程组解出y,z. 【答案】由题意可得即解得z=12或z=-4(舍去),故y=8. 所以甲、乙、丙三组城市的个数分别为4,8,12. 因为一共要抽取6个城市,所以抽样比为=. 故乙组城市应抽取的个数为8×=2.故填 2. 4.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图. (1)根据女性频率分布直方图估计女性使用微信的平均时间; (2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”? 【解题思路】(1)取每组的中间值代表这组,平均数;(2)根据题意列出2×2列联表,并计算K2. 【答案】解 (1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时). (2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08. 由题设条件得列联表 微信控 非微信控 总计 男性 38 12 50 女性 30 20 50 总计 68 32 100 ∴K2==≈2.941>2.706. 所以有90%的把握认为“微信控”与“性别”有关.查看更多