- 2021-06-16 发布 |
- 37.5 KB |
- 22页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2021届新高考版高考数学一轮复习精练:§11-5 变量间的相关关系、统计案例(试题部分)
§11.5 变量间的相关关系、统计案例 基础篇固本夯基 【基础集训】 考点一 变量间的相关关系 1.已知x与y之间的一组数据如下表: x 1 2 3 4 y 0.5 3.2 4.8 7.5 若y关于x的线性回归方程为y^=b^x+a^,,则a^的值为( ) A.1.25 B.-1.25 C.1.65 D.-1.65 答案 D 2.已知某产品的销售额y(万元)与广告费用x(万元)之间的关系如下表: x(单位:万元) 0 1 2 3 4 y(单位:万元) 10 15 20 30 35 若求得其线性回归方程为y^=6.5x+a^,则预计当广告费用为6万元时的销售额为( ) A.42万元 B.45万元 C.48万元 D.51万元 答案 C 3.下列说法错误的是( ) A.回归直线过样本点的中心(x,y) B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1 C.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位 D.对于分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小 答案 D 4.已知下表所示数据的回归直线方程为y^=4x+242,则实数a= . x 2 3 4 5 6 y 251 254 257 a 266 答案 262 5.某学校为倡导全体学生为特困学生捐款,举行“一元钱,一片心,诚信用水”活动,学生在购水处每领取一瓶矿泉水,便自觉向捐款箱中至少投入一元钱.现统计了连续5天的售出和收益情况,如下表: 售出水量x(单位:箱) 7 6 6 5 6 收益y(单位:元) 165 142 148 125 150 (1)若x与y线性相关,则某天售出8箱水时,预计收益为多少元; (2)期中考试以后,学校决定将诚信用水的收益以奖学金的形式奖励给品学兼优的特困生,规定:特困生考入年级前200名,获一等奖学金500元;考入年级201~500名,获二等奖学金300元;考入年级501名以后的特困生将不获得奖学金.甲、乙两名学生获一等奖学金的概率均为25,获二等奖学金的概率均为13,不获得奖学金的概率均为415. ①在学生甲获得奖学金的条件下,求他获得一等奖学金的概率; ②已知甲、乙两名学生获得哪个等级的奖学金是相互独立的,求甲、乙两名学生所获得奖学金总金额X(元)的分布列及数学期望. 附:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x. 解析 (1)∵x=7+6+6+5+65=6,y=165+142+148+125+1505=146, ∴b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=19+0+0+21+01+0+0+1+0=20,则a^=y-b^x=146-20×6=26, ∴y^=20x+26,当x=8时,y^=20×8+26=186, 故某天售出8箱水时,预计收益是186元. (2)①设事件A为“学生甲获得奖学金”,事件B为“学生甲获得一等奖学金”, 则P(B|A)=P(AB)P(A)=251115=611, 即在学生甲获得奖学金的条件下,他获得一等奖学金的概率为611. ②X的可能取值(单位:元)为0,300,500,600,800,1 000, P(X=0)=415×415=16225,P(X=300)=C21×13×415=845, P(X=500)=C21×25×415=1675,P(X=600)=132=19, P(X=800)=C21×13×25=415,P(X=1 000)=252=425. X的分布列为 X 0 300 500 600 800 1 000 P 16225 845 1675 19 415 425 E(X)=0×16225+300×845+500×1675+600×19+800×415+1 000×425=600(元). 考点二 独立性检验 6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表. 非一线城市 一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 附表: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” 答案 C 7.假设有两个分类变量X和Y的2×2列联表: y1 y2 总计 x1 a 10 a+10 x2 c 30 c+30 总计 60 40 100 对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( ) A.a=45,c=15 B.a=40,c=20 C.a=35,c=25 D.a=30,c=30 答案 A 8.为调查了解某省属师范大学师范类毕业生参加工作后从事的工作与教育是否有关的情况,随机调查了该校80位性别不都相同的2019年师范类毕业大学生,得到具体数据如下表: 与教育有关 与教育无关 合计 男 30 10 40 女 35 5 40 合计 65 15 80 (1)能否在犯错误的概率不超过5%的前提下,认为“师范类毕业生从事与教育有关的工作与性别有关”? (2)求这80位师范类毕业生从事与教育有关工作的频率; (3)以(2)中的频率作为概率,从该校近几年毕业的2 000名师范类大学生中随机选取4名,记这4名毕业生从事与教育有关工作的人数为X,求X的数学期望E(X). 参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 附表: P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 解析 (1)根据题意得K2=80×(30×5-35×10)240×40×65×15≈2.051 3,因为K2<3.841,所以在犯错误的概率不超过5%的前提下,不能认为“师范类毕业生从事与教育有关的工作与性别有关”. (2)由题表知这80位师范类毕业生从事与教育有关工作的频率为6580=1316. (3)由题意知X~B4,1316,得E(X)=4×1316=134. 综合篇知能转换 【综合集训】 考法一 线性回归分析的应用 1.(2018广东七校期末联考,5)某单位为了了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表: 气温(℃) 18 13 10 -1 用电量(千瓦时) 24 34 38 64 由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量为( ) A.68千瓦时 B.67千瓦时 C.65千瓦时 D.64千瓦时 答案 A 2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是( ) x 6 8 10 12 y 6 m 3 2 A.变量x,y之间呈负相关关系 B.可以预测,当x=20时,y^=-3.7 C.m=4 D.该回归直线必过点(9,4) 答案 C 3.(2019河南濮阳一模)根据下表中的数据,得到的回归方程为y^=b^x+9,则b^=( ) x 4 5 6 7 8 y 5 4 3 2 1 A.2 B.1 C.0 D.-1 答案 D 4.(2018广东化州二模,19)在“一带一路”的建设中,中石化集团获得了某地深海油田区块的开采权,集团在该地区随机初步勘探了几口井,取得了地质资料.进入全面勘探时期后,集团按网络点来布置井位进行全面勘探.由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用,勘探初期数据资料见下表: 井号i 1 2 3 4 5 6 坐标(x,y)(km) (2,30) (4,40) (5,60) (6,50) (8,70) (1,y) 钻探深度(km) 2 4 5 6 8 10 出油量(L) 40 70 110 90 160 205 (1)在散点图中,1~6号旧井的位置大致分布在一条直线附近,借助前5组数据求得回归直线方程为y=6.5x+a,求a,并估计y的预报值; (2)现准备勘探新井7(1,25),若通过1、3、5、7号井计算出的b^,a^的值(b^,a^精确到0.01)与(1)中b,a的值的差即b^-bb,a^-aa不超过10%,则使用位置最接近的已有旧井6(1,y),否则在新位置打井,请判断可否使用旧井;参考公式和计算结果:b^=∑i=1nxiyi-nx·y∑i=1nxi2-nx 2,a^=y-b^x,∑i=14x2i-12=94,∑i=14x2i-1·y2i-1=945 (3)设出油量与钻探深度的比值k不低于20的勘探井称为优质井,那么在原有6口井中任意勘探4口井,求勘探优质井数X的分布列与数学期望. 解析 (1)利用前5组数据得到x=15×(2+4+5+6+8)=5,y=15×(30+40+60+50+70)=50,∵y=6.5x+a,∴a=50-6.5×5=17.5, ∴回归直线方程为y=6.5x+17.5. 当x=1时,y=6.5+17.5=24,∴y的预报值为24. (2)利用1、3、5、7号井的数据得x=2+5+8+14=4,y=30+60+70+254=46.25, 又∑i=14x2i-12=94,∑i=14x2i-1y2i-1=945,∴b^=∑i=14x2i-1y2i-1-4x·y∑i=14x2i-12-4x2=945-4×4×46.2594-4×42≈6.83,又∵a^=y-b^x,∴a^=46.25-6.83×4=18.93,又b=6.5,a=17.5,∴b^-bb≈5%,a^-aa≈8%,均不超过10%,∴可使用位置最接近的已有旧井6(1,24). (3)由题意知,1、3、5、6这4口井是优质井,2,4这两口井是非优质井,∴勘探优质井数X的可能取值为2,3,4, 由P(X=k)=C4kC24-kC64(k=2,3,4),可得P(X=2)=25,P(X=3)=815,P(X=4)=115. ∴X的分布列为 X 2 3 4 P 25 815 115 E(X)=2×25+3×815+4×115=83. 考法二 独立性检验的应用 5.(2018安徽黄山一模,3)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( ) A.若K2的观测值k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌 B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌 C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误 D.以上三种说法都不正确 答案 C 6.(2018山东实验中学上学期第二次诊断,11)某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不都相同的高中生是否爱好游泳运动得到如下2×2列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)并参照附表,得到的正确结论是 ( ) 附表: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关” B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关” C.有99.9%的把握认为“爱好游泳运动与性别有关” D.有99.9%的把握认为“爱好游泳运动与性别无关” 答案 A 7.(2020届西南名校联盟高考适应性月考(一),19)为了实现文化脱贫,某高校鼓励即将毕业的大学生到西部偏远山区去支教,校学生就业部针对即将毕业的男女生是否愿意到西部支教进行问卷调查,得到的情况如下表所示: 愿意去支教 不愿意去支教 总计 女生 20 男生 40 总计 70 100 (1)完成上述列联表; (2)根据表中的数据,试通过计算,判断是否有95%的把握说明是否愿意去西部支教与性别有关; (3)若在接受调查的所有男生中按照“是否愿意去支教”进行分层抽样,随机抽取10人,再从10人中抽取3人进行面谈,记面谈的男生中,不愿意去支教的人数为ξ,求ξ的分布列及数学期望. 参考数据及公式如下: P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 解析 (1)所求列联表如下: 愿意去支教 不愿意去支教 总计 女生 30 20 50 男生 40 10 50 总计 70 30 100 (2)因为K2的观测值k0=100×(30×10-40×20)250×50×30×70=10021≈4.762>3.841. 所以有95%的把握说明是否愿意去西部支教与性别有关. (3)由题意,抽取的10人中有8人愿意去西部支教,2人不愿意去西部支教,于是ξ=0,1,2. P(ξ=0)=C20C83C103=715,P(ξ=1)=C21C82C103=715,P(ξ=2)=C22C81C103=115,∴ξ的分布列为 ξ 0 1 2 P 715 715 115 ∴Eξ=0×715+1×715+2×115=35. 8.(2020届四川邻水实验学校第一次月考,20)通过随机询问某地100名高中学生在选择座位时是否挑同桌,得到如下2×2列联表: 男生 女生 总计 挑同桌 30 40 70 不挑同桌 20 10 30 总计 50 50 100 (1)从这50名男生中按是否挑同桌采取分层抽样的方法抽取一个容量为5的样本,现从这5人中随机选取3人做深度采访,求这3名学生中至少有2名要挑同桌的概率; (2)根据以上2×2列联表,判断是否有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关. 下面的临界值表供参考: P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828 参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d 解析 (1)根据分层抽样方法可知抽取容量为5的样本中,挑同桌的有3人,记为A、B、C,不挑同桌的有2人,记为d、e;从这5人中随机选取3人,基本事件为ABC,ABd,ABe,ACd,ACe,Ade,BCd,BCe,Bde,Cde,共10种, 这3名学生中至少有2名要挑同桌的基本事件为ABC,ABd,ABe,ACd,ACe,BCd,BCe,共7种, 故所求的概率P=710. (2)根据2×2列联表,计算K2=100×(30×10-20×40)270×30×50×50≈4.761 9>3.841, 对照临界值表知,有95%以上的把握认为“性别与在选择座位时是否挑同桌”有关. 思路分析 (1)根据分层抽样原理求出样本中挑同桌的有3人,不挑同桌的有2人,利用列举法求出基本事件数,从而求概率; (2)根据2×2列联表计算K2,对照临界值表得出结论. 【五年高考】 考点一 变量间的相关关系 1.(2017山东,5,5分)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y^=b^x+a^.已知∑i=110xi=225,∑i=110yi=1 600,b^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166 D.170 答案 C 2.(2015福建,4,5分)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x(万元) 8.2 8.6 10.0 11.3 11.9 支出y(万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y-b^x. 据此估计,该社区一户年收入为15万元家庭的年支出为( ) A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元 答案 B 3.(2018课标Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 解析 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. 以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 方法总结 利用直线方程进行预测是对总体的估计,此估计值不是准确值;利用回归方程进行预测(把自变量代入回归直线方程)是对因变量的估计,此时,需要注意自变量的取值范围. 4.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. x y w ∑i=18(xi-x)2 ∑i=18(wi-w)2 ∑i=18(xi-x)(yi-y) ∑i=18(wi-w)(yi-y) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中wi=xi,w=18∑i=18wi. (1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: (i)年宣传费x=49时,年销售量及年利润的预报值是多少? (ii)年宣传费x为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 β^=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,α^=v-β^ u. 解析 (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分) (2)令w=x,先建立y关于w的线性回归方程.由于 d^=∑i=18(wi-w)(yi-y)∑i=18(wi-w)2=108.81.6=68, c^=y-d^ w=563-68×6.8=100.6, 所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(6分) (3)(i)由(2)知,当x=49时,年销售量y的预报值 y^=100.6+6849=576.6, 年利润z的预报值z^=576.6×0.2-49=66.32.(9分) (ii)根据(2)的结果知,年利润z的预报值 z^=0.2(100.6+68x)-x=-x+13.6x+20.12. 所以当x=13.62=6.8, 即x=46.24时,z^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.(12分) 思路分析 (1)根据散点图中点的分布趋势进行判断.(2)先设中间量w=x,建立y关于w的线性回归方程,进而得y关于x的回归方程.(3)(i)将x=49代入回归方程求出y的预报值,进而得z的预报值,(ii)求出z关于x的回归方程,进而利用函数方法求最大值. 考点二 独立性检验 5.(2018课标Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高,并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表: 超过m 不超过m 第一种生产方式 第二种生产方式 (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d), P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 . 解析 (1)第二种生产方式的效率更高. 理由如下: (i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高. (ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. (iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高. (iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分. (2)由茎叶图知m=79+812=80. 列联表如下: 超过m 不超过m 第一种生产方式 15 5 第二种生产方式 5 15 (3)由于 K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异. 思路分析 (1)根据茎叶图中的数据大致集中在哪个茎,作出判断; (2)通过茎叶图确定数据的中位数,按要求完成2×2列联表; (3)根据(2)中的列联表,将有关数据代入公式计算得K2的值,查表作出统计推断. 解后反思 独立性检验问题的常见类型及解题策略 (1)已知分类变量的数据,判断两个分类变量的相关性,可依据数据及公式计算K2,然后作出判断; (2)独立性检验与概率统计的综合问题,关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解. 6.(2017课标Ⅱ,18,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关; 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 , K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 解析 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 K2=200×(62×66-34×38)2100×100×96×104≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg). 解后反思 解独立性检验问题的关注点: (1)两个明确:①明确两类主体;②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表;②准确理解K2. 教师专用题组 1.(2014湖北,4,5分)根据如下样本数据 x 3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0 得到的回归方程为y^=bx+a,则( ) A.a>0,b>0 B.a>0,b<0 C.a<0,b>0 D.a<0,b<0 答案 B 2.(2014重庆,3,5分)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( ) A.y^=0.4x+2.3 B.y^=2x-2.4 C.y^=-2x+9.5 D.y^=-0.3x+4.4 答案 A 3.(2014课标Ⅱ,19,12分,0.311)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表: 年 份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t. 解析 (1)由所给数据计算得t=17×(1+2+3+4+5+6+7)=4,y=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∑i=17(ti-t)2=9+4+1+0+1+4+9=28,∑i=17(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=1428=0.5,a^=y-b^t=4.3-0.5×4=2.3,所求回归方程为y^=0.5t+2.3. (2)由(1)知,b^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 易错警示 解题时容易出现计算错误,计算时一定要仔细. 【三年模拟】 一、单项选择题(每题5分,共15分) 1.(2019湖南长沙雅礼中学月考(一),5)已知回归直线方程的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) A.y^=1.23x+4 B.y^=1.23x+0.8 C.y^=1.23x+0.08 D.y^=1.23x-0.08 答案 C 2.(2018辽宁丹东期末教学质量监测,7)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( ) 附: P(K2≥k) 0.100 0.050 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 A.99.9% B.99% C.1% D.0.1% 答案 C 3.(2020届辽宁阜新高级中学10月月考,3)某饮料店某5天的日销售收入y(单位:百元)与当天平均气温x(单位:℃)之间的数据如下表: x -2 -1 0 1 2 y 5 4 2 2 1 若x与y之间是线性相关关系,且y关于x的线性回归方程是y^=-x+m,则实数m的值是( ) A.3 B.2.8 C.2.6 D.2.4 答案 B 二、多项选择题(每题5分,共10分) 4.(改编题)下列说法中正确的是( ) A.在频率分布直方图中,中位数左边和右边的直方图的面积相等 B.若A,B为互斥事件,则A的对立事件与B的对立事件一定互斥 C.某个班级内有40名学生,抽10名学生去参加某项活动,则每4人中必有1人被抽中 D.若回归直线y^=b^x+a^的斜率b^>0,则变量x与y正相关 答案 AD 5.(改编题)如图是国家统计局发布的2018年3月到2019年3月全国居民消费价格的涨跌幅情况折线图(注:2019年3月与2018年3月相比较称为同比,2019年2月与2019年1月相比较称为环比),根据该折线图,下列结论正确的是( ) A.2018年3月至2019年3月全国居民消费价格同比均上涨 B.2018年3月至2019年3月全国居民消费价格环比有涨有跌 C.2019年3月全国居民消费价格同比涨幅最大 D.2019年3月全国居民消费价格环比变化最大 答案 ABD 三、填空题(共5分) 6.(2018湖南师大附中月考(三),14)在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表: 感染 未感染 总计 服用 10 40 50 未服用 20 30 50 总计 30 70 100 参照附表,在犯错误的概率不超过 (填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”. 参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 附表: P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828 答案 5% 四、解答题(共70分) 7.(2020届山东夏季高考模拟,20)下面给出了根据我国2012年—2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图(2012年—2018年的年份代码x分别为1—7). (1)根据散点图分析y与x之间的相关关系; (2)根据散点图相应数据计算得∑i=17yi=1 074,∑i=17xiyi=4 517,求y关于x的线性回归方程;(精确到0.01) (3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y^=a^+b^x中斜率和截距的最小二乘估计公式分别为: b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x. 解析 (1)根据散点图可知y与x正线性相关. (2)由所给数据计算得 x=17×(1+2+…+7)=4, ∑i=17(xi-x)2=28, ∑i=17(xi-x)(yi-y)=∑i=17xiyi-x∑i=17yi=4 517-4×1 074=221, b^=∑i=17(xi-x)(yi-y)∑i=17(xi-x)2=22128≈7.89. a^=y-b^x=1 0747-7.89×4≈121.87. 所以所求线性回归方程为y^=7.89x+121.87. (3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明线性回归方程的拟合效果较好. 8.(2019湖南娄底二模,19)随着食品安全问题逐渐引起人们的重视,有机、健康的高端绿色蔬菜越来越受到消费者的欢迎,同时生产—运输—销售一体化的直销供应模式,不仅减少了成本,而且减去了蔬菜的二次污染等问题. (1)在有机蔬菜的种植过程中,有机肥料使用是必不可少的.根据统计,某种有机蔬菜的产量与有机肥料的用量有关系,每个有机蔬菜大棚产量的增加量y(百千克)与使用堆沤肥料x(千克)之间对应数据如表: 使用堆沤肥料x(千克) 2 4 5 6 8 产量增加量y(百千克) 3 4 4 4 5 依据表中的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^,并根据所求线性回归方程估计如果每个有机蔬菜大棚使用堆沤肥料10千克,则每个有机蔬菜大棚产量增加量y是多少百千克; (2)某大棚蔬菜种植基地将采摘的有机蔬菜以每份三千克称重并保鲜分装,以每份10元的价格销售到生鲜超市.“乐购”生鲜超市以每份15元的价格卖给顾客,如果当天前8小时卖不完,则超市通过促销以每份5元的价格卖给顾客(根据经验,当天能够把剩余的有机蔬菜都低价处理完毕,且处理完毕后,当天不再进货).该生鲜超市统计了100天有机蔬菜在每天的前8小时内的销售量(单位:份),制成如下表格(注:x,y∈N*,且x+y=30): 每日前8个小时 销售量(单位:份) 15 16 17 18 19 20 21 频数 10 x 16 16 15 13 y 若以100天记录的频率作为每日前8小时销售量发生的概率,以该生鲜超市当天销售有机蔬菜利润的期望为决策依据,当购进17份比购进18份的利润的期望大时,求x的取值范围. 附:回归方程系数公式b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y^-b^x. 解析 (1)x=2+4+5+6+85=5,y=3+4+4+4+55=4, 计算得b^=0.3,a^=2.5, 所以y关于x的线性回归方程为y^=0.3x+2.5, 当x=10时,y^=0.3×10+2.5=5.5, 所以如果每个有机蔬菜大棚使用堆沤肥料10千克,估计每个有机蔬菜大棚产量的增加量是5.5百千克. (2)若该超市一天购进17份这种有机蔬菜,设Y1表示当天的利润(单位:元),那么Y1的分布列为 Y1 65 75 85 P 10100 x100 90-x100 Y1的数学期望E(Y1)=65×10100+75×x100+85×90-x100=8 300-10x100; 若该超市一天购进18份这种有机蔬菜,设Y2表示当天的利润(单位:元),那么Y2的分布列为 Y2 60 70 80 90 P 10100 x100 16100 74-x100 Y2的数学期望E(Y2)=60×10100+70×x100+80×16100+90×74-x100=8 540-20x100, 又购进17份比购进18份的利润的期望大,故8 300-10x100>8 540-20x100,解得x>24,故x的取值范围是(24,30)且x∈N*. 9.(2019届安徽黄山11月“八校联考”,19)2018年7月24日,长春长生生物科技有限责任公司先被查出狂犬病疫苗生产记录造假,后又被测出百白破疫苗“效价测定”项不符合规定,由此引发的疫苗事件牵动了无数中国人的心.疫苗直接用于健康人群,尤其是新生儿和青少年,与人民的健康联系紧密.因此,疫苗在上市前必须经过严格的检测,并通过临床实验获得相关数据,以保证疫苗使用的安全和有效.某生物制品研究所将某一型号疫苗用在小白鼠身上进行科研和临床实验,得到统计数据如下: 未感染病毒 感染病毒 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计 50 50 100 现从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25. (1)求2×2列联表中的数据x,y,A,B的值; (2)能否有99.9%的把握认为注射此种疫苗有效? (3)现从感染病毒的小白鼠中任意抽取三只进行病理分析,记已注射疫苗的小白鼠只数为ξ,求ξ的分布列和数学期望. 附:K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d),n=a+b+c+d. P(K2≥k0) 0.05 0.01 0.005 0.001 k0 3.841 6.635 7.879 10.828 解析 (1)设从所有实验小白鼠中任取一只,取到“注射疫苗”的小白鼠为事件A, 由已知得P(A)=y+30100=25,所以y=10,则x=40,A=60,B=40. (2)K2=100×(20×10-30×40)250×50×40×60=503≈16.67>10.828. 所以有99.9%的把握认为注射此种疫苗有效. (3)由已知得ξ的可能取值为0,1,2,3. P(ξ=0)=C100C403C503=247490,P(ξ=1)=C402C101C503=195490, P(ξ=2)=C401C102C503=45490,P(ξ=3)=C103C503=3490, ∴ξ的分布列为 Ξ 0 1 2 3 P 247490 195490 45490 3490 数学期望E(ξ)=247490×0+195490×1+45490×2+3490×3=0.6. 思路分析 (1)由从所有实验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为25,根据古典概型概率公式列方程可求得y=10,进而可求得x,A,B的值;(2)利用K2=n(ad-bc)2(a+b)(a+c)(c+d)(b+d)求得K2 ,与邻界值比较,即可得到结论;(3)ξ的可能取值为0,1,2,3,结合组合知识,利用古典概型概率公式求出各随机变量对应的概率,从而可得分布列,进而利用期望公式可得ξ的数学期望. 10.(2019安徽马鞍山二模,19)某班的健康调查小组从所在学校共选取15名男同学,其年龄、身高和体重数据如下表所示(身高单位:cm,体重单位:kg). 年龄 (身高,体重) 年龄 (身高,体重) 15 (154,48),(161, 65),(168,64) 18 (166,64),(168, 72),(182,74) 16 (158,50),(162, 59),(175,80) 19 (160,51),(172, 68),(178,90) 17 (161,60),(167, 62),(173,68) (1)如果某同学“身高-体重<100”,则认为该同学超重,从上述15名同学中任选两名同学,其中超重的同学人数为X,求X的分布列和数学期望; (2)根据表中数据,设计了两种方案预测学生身高.方案①:建立平均体重与年龄的线性回归模型,表中各年龄的体重按三名同学的平均体重计算,数据整理如表. i 1 2 3 4 5 年龄ti 15 16 17 18 19 平均体重si 59 63 63.3 70 69.7 方案②:建立平均体重与平均身高的线性回归模型,将所有数据按身高重新分成6组:[153,158),[158,163),[163,168),[168,173),[173,178),[178,183],并将每组的平均身高依次折算为155,160,165,170,175,180,各组的体重按平均体重计算,数据整理如表. i 1 2 3 4 5 6 平均身高xi 155 160 165 170 175 180 平均体重yi 48 57 63 68 74 82 (i)用方案①预测20岁男同学的平均体重和用方案②预测身高168 cm的男同学的平均体重,你认为哪个更合理?请给出理由; (ii)请根据方案②建立平均体重y与平均身高x的线性回归方程y=b^x+a^(数据精确到0.001). 附:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x,∑i=16xiyi=66 225,∑i=16xi2=168 775,x=3352,y=1963. 解析 (1)根据表中数据,15人中,有4人超重,故随机变量X的所有可能取值为0,1,2, P(X=0)=C40C112C152=1121,P(X=1)=C41×C111C152=44105,P(X=2)=C110C42C152=6105=235. 所以X的分布列为 X 0 1 2 P 1121 44105 235 所以E(X)=0×1121+1×44105+2×235=56105=815. (2)(i)对比两种方案,用方案②预测身高168 cm的男同学的平均体重更合理. 因为身高和体重的相关关系强于年龄与体重的相关关系. (ii)b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2=66 225-6×3352×1963168 775-6×33522≈1.291, 又因为(x,y)在回归直线上, 所以a^=y-b^x=1963-1.291×3352≈-150.909. 故平均体重y与平均身高x的线性回归方程为y^=1.291x-150.909. 11.(2020届江西南昌开学摸底考,19)某“双一流”大学专业奖学金是以所学专业各科考试成绩作为评选依据,分为专业一等奖学金(金额为3 000元)、专业二等奖学金(金额为1 500元)及专业三等奖学金(金额为600元),且专业奖学金每个学生一年最多只能获得一次.图①是统计了该校2018年500名学生周课外平均学习时间频率分布直方图,图②是这500名学生在2018年周课外平均学习时间段获得专业奖学金的频率柱状图. 图① 图② (1)求这500名学生中获得专业三等奖学金的人数; (2)若周课外平均学习时间超过35小时称为“努力型”学生,否则称为“非努力型”学生,列2×2列联表并判断是否有99.9%的把握认为该校学生获得专业一、二等奖学金与是不是“努力型”学生有关; (3)若以频率作为概率,从该校任选一名学生,记该学生2018年获得的专业奖学金金额(单位:元)为随机变量X,求随机变量X的分布列和期望.附K2=n(ad-bc)2(a+b)(c+b)(d+c)(a+d), P(K2>k0) 0.01 0.05 0.010 0.005 0.001 k0 2.706 3.841 6.635 7.879 10.828 解析 (1)获得专业三等奖学金学生的频率为(0.008+0.016+0.04)×5×0.15+(0.04+0.056+0.016)×5×0.4+(0.016+0.008)×5×0.4=0.32,500×0.32=160.故这500名学生获得专业三等奖学金的人数为160. (2)周课外平均学习时间不超过35小时的“非努力型”学生有500×(0.008+0.016+0.04+0.04+0.056+0.016)×5=440人, 其中获得专业一、二等奖学金的学生有500×(0.008+0.016+0.04)×5×0.05+500×(0.04+0.056+0.016)×5×(0.25+0.05)=92人. 周课外平均学习时间超过35小时的“努力型”学生有500×(0.016+0.008)×5=60人, 其中获得专业一、二等奖学金的学生有60×(0.35+0.25)=36人, 2×2列联表如下所示: “非努力型”学生 “努力型”学生 总计 获得专业一、二等奖 学金的学生 92 36 128 未获得专业一、二等奖 学金的学生 348 24 372 总计 440 60 500 K2=500×(348×36-92×24)2440×60×128×372≈42.36>10.828. 故有99.9%的把握认为获得专业一、二等奖学金与是不是“努力型”学生有关. (3)X的可能取值为0,600,1 500,3 000.P(X=600)=0.32, P(X=1 500)=0.198,P(X=3 000)=0.058, P(X=0)=1-0.32-0.198-0.058=0.424, X 0 600 1 500 3 000 P 0.424 0.32 0.198 0.058 期望EX=0×0.424+600×0.32+1 500×0.198+3 000×0.058=192+297+174=663(元). 12.(2019届山东实验中学高三第二次诊断)为了了解人们对“延迟退休年龄政策”的态度,某部门从网上年龄在15~65岁的人群中随机调查100人,各年龄段人数的频率分布直方图和支持“延迟退休”的各年龄段人数的统计结果如下: 年龄 [15,25) [25,35) [35,45) [45,55) [55,65] 支持“延迟退休” 的人数 15 5 15 28 17 (1)由频率分布直方图估计年龄的众数和平均数; (2)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异. 45岁以下 45岁以上(含) 总计 支持 不支持 总计 (3)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求抽到的2人中1人是45岁以下,另一人是45岁以上(含)的概率. 参考数据: P(K2≥k0) 0.100 0.050 0.010 0.001 k0 2.706 3.841 6.635 10.828 K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 解析 (1)估计众数为50. 估计平均数为x=20×0.2+30×0.1+40×0.2+50×0.3+60×0.2=42. (2)2×2列联表如下: 45岁以下 45岁以上(含) 总计 支持 35 45 80 不支持 15 5 20 总计 50 50 100 因为K2=100×(35×5-45×15)250×50×80×20=6.25>3.841, 所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异. (3)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽取6人,45岁以上(含)的应抽取2人. 设45岁以下的6人为a1,a2,a3,a4,a5,a6,45岁以上(含)的2人为b1,b2,则从这8人中随机抽取2人包含(a1,a2),(a1,a3),(a1,a4),(a1,a5),(a1,a6),(a1,b1),(a1,b2),(a2,a3),(a2,a4),(a2,a5),(a2,a6),(a2,b1),(a2,b2),(a3,a4),(a3,a5),(a3,a6),(a3,b1),(a3,b2),(a4,a5),(a4,a6),(a4,b1),(a4,b2),(a5,a6),(a5,b1),(a5,b2),(a6,b1),(a6,b2),(b1,b2),共28个基本事件. 设抽到的2人中1人是45岁以下,1人是45岁以上(含)为事件M,则事件M包含(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(a4,b1),(a4,b2),(a5,b1),(a5,b2),(a6,b1),(a6,b2),共12个基本事件. 故事件M的概率P(M)=1228=37, 即抽到的2人中1人是45岁以下,1人是45岁以上(含)的概率为37. 应用篇知行合一 【应用集训】 1.(2019湖南岳阳二模,8)四色猜想是世界三大数学猜想之一,1976年被美国数学家阿佩尔与哈肯证明,称为四色定理,其内容是:“任意一张平面地图只用四种颜色就能使具有共同边界的国家涂上不同的颜色.”用数学语言表示为“将平面任意地细分为不相重叠的区域,每一个区域总可以用1,2,3,4四个数字之一标记,而不会使相邻的两个区域得到相同的数字.”如图,网格纸上小正方形的边长为1,粗实线围成的各区域上分别标有数字1,2,3,4的四色地图符合四色定理,区域A和区域B标记的数字丢失,若在该四色地图上随机取一点,则恰好取自标记为1的区域的概率所有可能值中,最大的是( ) A.115 B.110 C.13 D.1130 答案 C 2.(2019湖南湘潭二模,19)唐三彩是中国古代陶瓷烧制工艺的珍品,它吸取了中国国画、雕塑等工艺美术的特点,在中国文化中占有重要的历史地位,在陶瓷史上留下了浓墨重彩的一笔.唐三彩的生产至今已有1 300多年的历史,制作工艺十分复杂,而且优质品检验异常严格.某厂生产的唐三彩的检验方案是:先从烧制的这批唐三彩中任取3件进行检验,这3件唐三彩中优质品的件数记为n.如果n=2,再从这批唐三彩中任取3件进行检验,若都为优质品,则这批唐三彩通过检验;如果n=3,再从这批唐三彩中任取1件进行检验,若为优质品,则这批唐三彩通过检验,其他情况下,这批唐三彩都不能通过检验.假设这批唐三彩的优质品概率为13,即取出的每件唐三彩是优质品的概率都为13,且各件唐三彩是不是优质品相互独立. (1)求这批唐三彩通过优质品检验的概率: (2)已知每件唐三彩的检验费用为100元,且抽取的每件唐三彩都需要检验,对这批唐三彩做质量检验所需的总费用记为X元,求X的分布列及数学期望. 解析 (1)设第一次取出的3件唐三彩中恰有2件优质品为事件A1,第一次取出的3件唐三彩全是优质品为事件A2,第二次取出的3件唐三彩都是优质品为事件B1,第二次取出的1件唐三彩是优质品为事件B2,这批唐三彩通过检验为事件A, 依题意有A=(A1B1)∪(A2B2),∵各件唐三彩是不是优质品相互独立, ∴P(A)=P(A1B1)+P(A2B2)=C32132×23×133+133×13=5243. (2)X的可能取值为300,400,600, P(X=300)=C30233+C31232×13=2027, P(X=400)=133=127,P(X=600)=C32132×23=29. 所以X的分布列为 X 300 400 600 P 2027 127 29 E(X)=300×2027+400×127+600×29=10 00027. 名师点睛 本题考查离散型随机变量的分布列,概率加法公式,理解题意准确计算是关键. 3.(2019河北保定一模,19)为了尽快攻克一项科研课题,某生物研究所分别设立了甲、乙两个研究小组同时进行对比试验,现随机在这两个小组各抽取40个数据作为样本,并规定试验数据落在[495,510)(单位:克)之内的数据为理想数据,否则为不理想数据.试验情况如表所示: 抽查数据 [490,495) [495,500) [500,505) [505,510) [510,515) 频数 甲 6 8 14 8 4 乙 2 12 18 6 2 (1)根据表中数据作出两个小组样本数据的频率分布直方图; (2)若从甲小组测得的试验数据中依次有放回地随机抽查5个数据,设抽到理想数据的次数为ξ,求ξ的分布列与数学期望(以频率作为概率); (3)由以上统计数据完成下面2×2列联表,并回答有多大的把握认为抽取的数据为理想数据与对两个研究小组的选择有关. 甲小组 乙小组 合计 理想数据 不理想数据 合计 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. P(K2≥k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解析 (1)甲、乙两个小组试验数据的频率分布直方图如图. (2)易知甲小组的理想数据个数为8+14+8=30. 故甲小组中理想数据的频率为3040=0.75. 由题意知,ξ~B5,34,所以ξ的分布列为 ξ 0 1 2 3 4 5 P 11 024 151 024 45512 135512 4051 024 2431 024 E(ξ)=5×34=154.或者E(ξ)=0×11 024+1×151 024+…+5×2431 024=154 (3)甲小组的理想数据个数为30,乙小组的理想数据个数为36,2×2列联表如下: 甲小组 乙小组 合计 理想数据 30 36 66 不理想数据 10 4 14 合计 40 40 80 ∵由表中数据得K2的观测值 k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=80×(120-360)266×14×40×40≈3.117>2.706, ∴有90%的把握认为抽取的数据为理想数据与对两个研究小组的选择有关. 思路分析 (1)根据频数计算各小组对应的概率,画频率分布直方图;(2)根据题意知,ξ~B5,34,ξ的所有可能取值为0,1,2,3,4,5,列出分布列,计算期望即可;(3)列出2×2列联表,计算K2的观测值k,查表,判断即可. 4.抚州不仅有着深厚的历史积淀与丰富的民俗文化,更有着许多旅游景点,每年来抚州参观旅游的人数不胜数.其中,名人园与梦岛被称为抚州的两张名片,为合理配置旅游资源,现对已游览名人园景点的游客进行随机问卷调查.若不去梦岛记1分,若继续去梦岛记2分.每位游客去梦岛的概率均为23,且游客之间的选择意愿相互独立. (1)从游客中随机抽取3人,记总得分为随机变量X,求X的分布列与数学期望; (2)若从游客中随机抽取m人,记总分恰为m分的概率为Am,求数列{Am}的前6项和; (3)在对所有游客进行随机问卷调查的过程中,记已调查过的累计得分恰为n分的概率为Bn,探讨Bn与Bn-1之间的关系,并求数列{Bn}的通项公式. 解析 (1)X的可能取值为3,4,5,6, P(X=3)=133=127,P(X=4)=C3123132=627, P(X=5)=C3223213=1227,P(X=6)=233=827, 故其分布列为 X 3 4 5 6 P 127 627 1227 827 E(X)=5. (2)总分恰为m的概率Am=13m,故S6=131-1361-13=364729. (3)已调查过的累计得分恰为n分的概率为Bn,得不到n分的情况只有先得n-1分,再得2分,概率为23Bn-1,而B1=13, 故1-Bn=23Bn-1,即Bn=-23Bn-1+1,可得Bn-35=-23Bn-1-35,B1-35=-415, 所以Bn-35是首项为-415,公比为-23的等比数列,所以Bn-35=-415-23n-1,可得Bn=35+25·-23n.查看更多