- 2021-06-15 发布 |
- 37.5 KB |
- 22页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2021届一轮复习北师大版(文)第十一章 第4讲 概率统计中的数学建模与数据分析学案
第4讲 概率统计中的数学建模与数据分析 概率统计中的创新性问题是高考的命题重点,不仅注重模块知识内的综合,也注重模块知识间的综合,更多地体现对数学建模与数据分析核心素养的考查.命题的重点有: (1)考查数学建模核心素养,以实际生活中的环保、民生、科技等为背景,考查函数、数列等模型的建立,其中求解这些实际问题的最优化是近年高考命题的热点. (2)考查数据分析核心素养,常考查对数据的搜集与归类,并利用不同的特征值对研究对象做出理性的判断. 图表与概率交汇(师生共研) (2020·河南六校第一次联考)某机构组织语文、数学学科能力竞赛,按照一定比例淘汰后,颁发一、二、三等奖(分别对应成绩等级的一、二、三等级).现有某考场所有考生的两科成绩等级统计如图1所示,其中获数学二等奖的考生有12人. ,图1) (1)求该考场考生中获语文一等奖的人数; (2)用随机抽样的方法从获得数学和语文二等奖的考生中各抽取5人,进行综合素质测试,将他们的综合得分绘成茎叶图(如图2所示),求样本的平均数及方差并进行比较分析; 图2 (3)已知本考场的所有考生中,恰有3人两科均获一等奖,在至少一科获一等奖的考生中,随机抽取2人进行访谈,求这2人两科均获一等奖的概率. 【解】 (1)因为获数学二等奖的考生有12人, 所以该考场考生的总人数为=50. 故该考场获语文一等奖的考生人数为50×(1-0.38×2-0.16)=4. (2)设获数学二等奖考生综合得分的平均数和方差分别为1,s,获语文二等奖考生综合得分的平均数和方差分别为2,s. 1==88, 2==85, s=×[(-7)2+(-4)2+42+22+52]=22, s=×[(-6)2+42+(-1)2+12+22]=11.6, 因为88>85,11.6<22,所以获数学二等奖考生较获语文二等奖考生综合素质测试的平均分高,但是成绩差距较大. (3)两科均获一等奖的考生共有3人,则仅数学获一等奖的考生有2人,仅语文获一等奖的考生有1人, 把两科均获一等奖的3人分别记为A1,A2,A3,仅数学获一等奖的2人分别记为B1,B2,仅语文获一等奖的1人记为C, 则在至少一科获一等奖的考生中,随机抽取2人的基本事件有A1A2,A1A3,A1B1,A1B2,A1C,A2A3,A2B1,A2B2,A2C,A3B1,A3B2,A3C,B1B2,B1C,B2C,共15个. 记“这2人两科均获一等奖”为事件M, 则事件M包含的基本事件有A1A2,A1A3,A2A3,共3个, 所以P(M)==, 故这2人两科均获一等奖的概率为. 统计与概率“搭台”,方案选择“唱戏” 破解此类频率分布直方图、分层抽样与概率相交汇的开放性问题的关键:一是会观图读数据,能从频率分布直方图中读出频率,进而求出频数;二是能根据分层抽样的抽样比或各层之间的比例,求出分层抽样中各层需取的个数;三是会转化,会对开放性问题进行转化. (2020·武汉部分学校调研)某校学生参与一项社会实践活动,受生产厂家委托采取随机抽样方法,调查我市市民对某新开发品牌洗发水的满意度,同学们模仿电视问政的打分制,由被调查者在0分到100分的整数分中给出自己的认可分数,现将收集到的100位市民的认可分数分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],绘制出如图所示的频率分布直方图. (1)求这100位市民认可分数的中位数(精确到0.1),平均数(同一组中的数据用该组区间的中点值作代表); (2)生产厂家根据同学们收集到的数据,拟随机在认可分数为80及其以上的市民中选出2位市民当产品宣传员,求这2位宣传员都来自认可分数为[90,100]的概率. 解:(1)由于[40,50),[50,60),[60,70)的频率分别有0.1,0.2,0.3. 故中位数位于[60,70)中,其值为60+10×≈66.7. 平均数为10×(45×0.01+55×0.02+65×0.03+75×0.025+85×0.01+95×0.005)=67. (2)认可分数位于[80,90)的人数为10,认可分数位于[90,100]的人数为5,从认可分数位于[90,100]的5人中随机选择2人的基本事件数为1+2+3+4=10,从认可分数位于[80,90)和[90,100]的15人中随机选择2人的基本事件数为1+2+3+…+14=105. 故这2位宣传员都来自认可分数为[90,100]的概率为=. 图表与独立性检验相交汇(师生共研) 某种常见疾病可分为Ⅰ,Ⅱ两种类型.为了了解所患该疾病类型与地域、初次患该疾病的年龄(单位:岁)(以下简称初次患病年龄)的关系,在甲、乙两个地区随机抽取100名患者调查其所患疾病类型及初次患病年龄,得到如下数据. 初次患 病年龄 甲地Ⅰ型疾 病患者/人 甲地Ⅱ型疾 病患者/人 乙地Ⅰ型疾 病患者/人 乙地Ⅱ型疾 病患者/人 [10,20) 8 1 5 1 [20,30) 4 3 3 1 [30,40) 3 5 2 4 [40,50) 3 8 4 4 [50,60) 3 9 2 6 [60,70] 2 11 1 7 (1)从Ⅰ型疾病患者中随机抽取1人,估计其初次患病年龄小于40岁的概率; (2)记“初次患病年龄在[10,40)内的患者”为“低龄患者”,“初次患病年龄在[40,70]内的患者”为“高龄患者”.根据表中数据,解决以下问题. ①将以下两个列联表补充完整,并判断“地域”“初次患病年龄”这两个变量中哪个变量与所患疾病的类型有关联的可能性更大.(直接写出结论,不必说明理由) 表一 疾病类型 患者所在地域 Ⅰ型 Ⅱ型 总计 甲地 乙地 总计 100 表二 疾病类型 初次患病年龄 Ⅰ型 Ⅱ型 总计 低龄 高龄 总计 100 ②记①中与所患疾病的类型有关联的可能性更大的变量为X.问:是否有99.9%的把握认为所患疾病的类型与X有关? 附:K2=,其中n=a+b+c+d. P(χ2>k) 0.10 0.05 0.010 0.005 0.001 k 2.706 3.841 6.635 7.879 10.828 【解】 (1)依题意,甲、乙两地区Ⅰ型疾病患者共40人,甲、乙两地区Ⅰ型疾病患者初次患病年龄小于40岁的人数分别为15,10,则从Ⅰ型疾病患者中随机抽取1人,其初次患病年龄小于40岁的概率的估计值为=. (2)①填空结果如下. 表一 疾病类型 患者所在地域 Ⅰ型 Ⅱ型 总计 甲地 23 37 60 乙地 17 23 40 总计 40 60 100 表二 疾病类型 初次患病年龄 Ⅰ型 Ⅱ型 总计 低龄 25 15 40 高龄 15 45 60 总计 40 60 100 “初次患病年龄”与所患疾病的类型有关联的可能性更大. ②由①可知X为初次患病年龄,根据表二中的数据可得a=25,b=15,c=15,d=45,n=100, 则χ2=≈14.063, 14.063>10.828, 故有99.9%的把握认为所患疾病类型与初次患病年龄有关. 本题的易错点有三处:一是审题不认真,误认为甲、乙两地区Ⅰ型疾病患者的总数为100,错误列式=0.25;二是不能从频数分布表中获取相关数据,无法正确填写列联表,不能根据列联表中数据的含义做出正确判断;三是代错公式或计算错误,从而导致统计判断出错. (2020·安徽合肥综合检测)某网络平台从购买该平台某课程的客户中,随机抽取了100位客户的数据,并将这100个数据按学时数、客户性别等进行统计,整理得到下表: 学时数 [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40] 男性 18 12 9 9 6 4 2 女性 2 4 8 2 7 13 4 (1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两数); (2)从这100位客户中,对购买该课程学时数在20以下的女性客户按照分层抽样的方式随机抽取7人,再从这7人中随机抽取2人,求这2人购买的学时数都不低于15的概率; (3)将购买该课程达到25学时及以上者视为“十分爱好该课程者”,25学时以下者视为“非十分爱好该课程者”,请根据已知条件完成以下2×2列联表,并判断是否有99.9%的把握认为“十分爱好该课程者”与性别有关? 非十分爱好 该课程者 十分爱好 该课程者 总计 男性 女性 总计 100 附:χ2=,其中n=a+b+c+d. P(χ2>k) 0.100 0.050 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 解:(1)依题意,在这100位购买该课程的客户中,男性客户购买该课程学时数的平均值=×(7.5×18+12.5×12+17.5×9+22.5×9+27.5×6+32.5×4+37.5×2)≈16.92. 所以估计男性客户购买该课程学时数的平均值为16.92. (2)设“所抽取的2人购买的学时数都不低于15”为事件A,依题意按照分层抽样的方式分别从学时数为[5,10),[10,15),[15,20)的女性客户中抽取1人(设为a),2人(分别设为b1,b2),4人(分别设为c1,c2,c3,c4). 则从这7人中随机抽取2人所包含的基本事件为ab1,ab2,ac1,ac2,ac3,ac4,b1b2,b1c1,b1c2,b1c3,b1c4,b2c1,b2c2,b2c3,b2c4,c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共21个, 其中事件A所包含的基本事件为c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共6个. 所以事件A发生的概率P(A)==. (3)依题意得2×2列联表如下: 非十分爱好 该课程者 十分爱好 该课程者 总计 男性 48 12 60 女性 16 24 40 总计 64 36 100 χ2=≈16.667>10.828. 故有99.9%的把握认为“十分爱好该课程者”与性别有关. 图表与线性回归分析相交汇(师生共研) (2020·江西七校第一次联考)最近青少年的视力健康问题引起家长们的高度重视,某地区为了解当地24所小学,24所初中和12所高中的学生的视力状况,准备采用分层抽样的方法从这些学校中随机抽取5所学校对学生进行视力调查. (1)若从所抽取的5所学校中再随机抽取3所学校进行问卷调查,求抽到的这3所学校中,小学、初中、高中分别有一所的概率; (2)若某小学被抽中,调查得到了该小学前五个年级近视率y的数据如下表: 年级号x 1 2 3 4 5 近视率y 0.05 0.09 0.16 0.20 0.25 根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率. 附:线性回归方程y=bx+a的斜率和截距的最小二乘法估计公式分别为b=,a=-b. 参考数据:xiyi=2.76,x=55. 【解】 (1)由24∶24∶12=2∶2∶1,得抽取的5所学校中有2所小学、2所初中、1所高中,分别设为a1,a2,b1,b2,c, 从这5所学校中随机抽取3所学校的所有基本事件为(a1,a2,b1),(a1,a2,b2),(a1,a2,c),(a1,b1,b2),(a1,b1,c),(a1,b2,c),(a2,b1,b2),(a2,b1,c),(a2,b2,c),(b1,b2,c),共10种, 设事件A表示“抽到的这3所学校中,小学、初中、高中分别有一所”,则事件A包含的基本事件为(a1,b1,c),(a1,b2,c),(a2,b1,c),(a2,b2,c),共4种,故P(A)==. (2)由题中表格数据得=3,=0.15,5 =2.25,52=45,且由参考数据:xiyi=2.76,x=55, 得b==0.051, a=0.15-0.051×3=-0.003, 得线性回归方程为y=0.051x-0.003. 当x=6时,代入得y=0.051×6-0.003=0.303, 所以六年级学生的近视率在0.303左右. 破解此类分层抽样、概率、线性回归相交汇的开放性问题的关键:一是会制图,即会根据频数分布表,把两组数据填入茎叶图中;二是会对开放性问题进行转化;三是熟练掌握求线性回归方程的步骤,求出a,b,即可写出线性回归方程. (2020·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据: x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 y 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 (1)通过画散点图,发现可用线性回归模型拟合y与x的关系,请用相关系数加以说明; (2)①建立月总成本y与月产量x之间的线性回归方程; ②通过建立的y关于x的线性回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001) 附注:①参考数据:xi=14.45,yi=27.31, ≈0.850, ≈1.042,b≈1.223. ②参考公式:相关系数r=,线性回归方程y=a+bx中斜率和截距的最小二乘估计公式分别为:b=,a=-bx. 解:(1)由已知条件得, r=b·, 所以r=1.223×≈0.998, 这说明y与x正相关,且相关性很强. (2)①由已知求得=1.445,=2.731, a=-b=2.731-1.223×1.445≈0.964, 所以所求线性回归直线方程为y=1.223x+0.964. ②当x=1.98时,y=1.223×1.98+0.964≈3.386(万元), 此时产品的总成本约为3.386万元. [基础题组练] 1.(2020·陕西商洛模拟)东方商店欲购进某种食品(保质期一天),此商店每天购进该食品一次(购进时,该食品为刚生产的).根据市场调查,该食品每份进价8元,售价12元,如果一天内无法售出,则食品过期作废,现统计该食品100天的销售量如下表: 销售量/份 15 16 17 18 19 20 天数 10 20 30 20 10 10 (1)根据该食品100天的销售量统计表,求平均每天销售多少份; (2)视样本频率为概率,以一天内该食品所获得的利润的平均值为决策依据,东方商店一次性购进17或18份,哪一种得到的利润更大? 解:(1)平均每天销售的份数为 =17.3. (2)当购进17份时,利润为 17×4×+(16×4-8)×+(15×4-16)×=47.6+11.2+4.4=63.2(元). 当购进18份时,利润为 18×4×+(17×4-8)×+(16×4-16)×+(15×4-24)×=28.8+18+9.6+3.6=60(元). 63.2>60, 可见,当购进17份时,利润更大. 2.(2020·贵阳第一学期检测)A市某校学生社团针对“A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图(1)所示的茎叶图. (1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由); (2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求a的值; (3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率. 解:(1)女生打分的平均数为×(68+69+76+75+70+78+79+82+87+96)=78; 男生打分比较分散. (2)由茎叶图可知,20名学生中评分在[70,80)内的有9人,则a=÷10=0.045. (3)设“有女生被抽中”为事件A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为a,b,c,d,2名女生分别记为m,n, 从中抽取2人的基本事件有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共15种,其中有女生被抽中的事件有am,an,bm,bn,cm,cn,dm,dn,mn,共9种,所以P(A)==. 3.(2020·郑州市第一次质量预测)2018年8月16日,中共中央政治局常务委员会召开会议,听取关于吉林长春长生公司问题疫苗案件调查及有关问责情况的汇报, 中共中央总书记习近平主持会议并发表重要讲话.会议强调,疫苗关系人民群众健康,关系公共卫生安全和国家安全,因此,疫苗行业在生产、运输、储存、使用等任何一个环节都容不得半点瑕疵.国家规定,疫苗在上市前必须经过严格的检测,并通过临床试验获得相关数据,以保证疫苗使用的安全和有效.某生物制品研究所将某一型号疫苗用在小白鼠身上进行科研和临床试验,得到统计数据如下: 未感染病毒 感染病毒 总计 未注射疫苗 40 p x 注射疫苗 60 q y 总计 100 100 200 现从未注射疫苗的小白鼠中任取1只,取到“感染病毒”的小白鼠的概率为. (1)求2×2列联表中p,q,x,y的值; (2)能否有99.9%的把握认为注射此种疫苗有效? (3)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取5只进行病理分析,然后从这5只小白鼠中随机抽取3只对注射疫苗情况进行核实,求至少抽到2只为未注射疫苗的小白鼠的概率. 附:χ2=,n=a+b+c+d. P(χ2>k) 0.05 0.01 0.005 0.001 k 3.841 6.635 7.879 10.828 解:(1)由=,得p=60,所以q=40,x=100,y=100. (2)由χ2=. 得χ2==8<10.828, 所以没有99.9%的把握认为注射此种疫苗有效. (3)由于在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例3∶2抽取,故抽取的5只小白鼠中3只未注射疫苗,分别用a,b,c表示,2只已注射疫苗,分别用D,E表示,从这5只小白鼠中随机抽取3只,可能的情况有: (a,b,c),(a,b,D),(a,b,E),(a,c,D),(a,c,E),(a,D,E),(b,c,D),(b,c,E),(b,D,E),(c,D,E),共10种. 其中,至少抽到2只为未注射疫苗的小白鼠的情况有:(a,b,c),(a,b,D),(a,b,E),(a,c,D),(a,c,E),(b,c,D),(b,c,E),共7种. 所以至少抽到2只为未注射疫苗的小白鼠的概率为. 4.(2020·合肥市模拟考试)某客户考察了一款热销的净水器,使用寿命为十年,该款净水器为三级过滤,每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯需要不定期更换,其中每更换3个一级滤芯就需要更换1个二级滤芯,三级滤芯无需更换.其中一级滤芯每个200元,二级滤芯每个400元.记一台净水器在使用期内需要更换的二级滤芯的个数构成的集合为M.如图是根据100台该款净水器在十年使用期内更换的一级滤芯的个数制成的柱状图. (1)结合柱状图,写出集合M; (2)根据以上信息,求一台净水器在使用期内更换二级滤芯的费用大于1 200元的概率(以100台净水器更换二级滤芯的频率代替1台净水器更换二级滤芯发生的概率); (3)若在购买净水器的同时购买滤芯,则滤芯可享受5折优惠(使用过程中如需再购买无优惠).假设上述100台净水器在购机的同时,每台均购买a个一级滤芯、b个二级滤芯作为备用滤芯(其中b∈M,a+b=14),计算这100台净水器在使用期内购买滤芯所需总费用的平均数,并以此作为决策依据,如果客户购买净水器的同时购买备用滤芯的总数也为14,则其中一级滤芯和二级滤芯的个数应分别是多少? 解:(1)由题意可知,当一级滤芯更换9,10,11个时,二级滤芯需要更换3个,当一级滤芯更换12个时,二级滤芯需要更换4个, 所以M={3,4}. (2)由题意可知, 二级滤芯更换3个,需1 200元,二级滤芯更换4个,需1 600元, 在100台净水器中,二级滤芯需要更换3个的净水器共70台, 二级滤芯需要更换4个的净水器共30台, 设“一台净水器在使用期内更换二级滤芯的费用大于1 200元”为事件A,则P(A)==0.3. (3)a+b=14,b∈M, ①若a=10,b=4, 则这100台净水器更换滤芯所需费用的平均数为=2 000. ②若a=11,b=3, 则这100台净水器更换滤芯所需费用的平均数为 =1 880. 所以如果客户购买净水器的同时购买备用滤芯的总数为14,客户应该购买一级滤芯11个,二级滤芯3个. 5.为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机各选取了10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图: (1)分别计算甲、乙两厂提供的10个轮胎宽度的平均值; (2)轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好? 解:(1)甲厂这批轮胎宽度的平均值为甲=(195+194+196+193+194+197+196+195+193+197)=195(cm), 乙厂这批轮胎宽度的平均值为乙= (195+196+193+192+195+194+195+192+195+193)=194(cm). (2)甲厂这批轮胎宽度在[194,196]内的数据为195,194,196,194,196,195, 平均数为1=(195+194+196+194+196+195)=195(cm), 方差为s=[(195-195)2+(194-195)2+(196-195)2+(194-195)2+(196-195)2+(195-195)2]=, 乙厂这批轮胎宽度为[194,196]内的数据为195,196,195,194,195,195, 平均数为2=(195+196+195+194+195+195)=195(cm), 方差为s=[(195-195)2+(196-195)2+(195-195)2+(194-195)2+(195-195)2+(195-195)2]=, 因为两厂标准轮胎宽度的平均数相等,但乙厂的方差更小, 所以乙厂的轮胎相对更好. 6.(2020·贵阳市第一学期监测)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲、乙两家网络外卖企业(以下简称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表: 1日 2日 3日 4日 5日 外卖甲日接单x/百单 5 2 9 8 11 外卖乙日接单y/百单 2 3 10 5 15 (1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况; (2)据统计表明,y与x之间具有线性关系. ①请用相关系数r对y与x之间的相关性强弱进行判断(若|r|>0.75,则可认为y与x有较强的线性相关关系(r值精确到0.001)); ②经计算求得y与x之间的线性回归方程为y=1.382x-2.674,假定每单外卖业务,企业平均能获取纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围(x值精确到0.01). 相关公式:r= . 参考数据: (xi-)(yi-)=66, ≈77. 解:(1)由题可知==7(百单), ==7(百单). 外卖甲的日接单量的方差s=10,外卖乙的日接单量的方差s=23.6, 因为=,s查看更多