高三数学(理数)总复习练习专题十八 统计与统计案例
1.(2015·课标Ⅱ,3,易)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
【答案】 D A,B,C均正确,对D,2006年以来随年份增加,二氧化硫年排放量减少,不与年份正相关.
2.(2015·湖北,2,易)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石
C.338石 D.1 365石
【答案】 B 由题可知,谷占的比例约为,
所以米内夹谷约为×1 534≈169(石).
3.(2015·安徽,6,中)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
【答案】 C 若x1,x2,…,xn的标准差为s,则ax1+b,ax2+b,…,axn+b的标准差为as.由题意s=8,则所求标准差为2×8=16.
4.(2015·江苏,2,易)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
【解析】 平均数==6.
【答案】 6
5.(2015·湖南,12,易)在一次马拉松比赛中,35
名运动员的成绩(单位:分钟)的茎叶图如图所示.
13
0
0 3 4 5 6 6 8 8 8 9
14
1
1 1 2 2 2 3 3 4 4 5 5 5 6 6 7 8
15
0
1 2 2 3 3 3
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
【解析】 35人抽取7人,则n==5,而在[139,151]上共有20人,应抽取4人.
【答案】 4
6.(2015·课标Ⅱ,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76 78 86 95 66 97 78 88 82 76 89
B地区:73 83 62 51 91 46 53 73 64 82 93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分至89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
解:(1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A
地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=(CB1CA1)∪(CB2CA2).
P(C)=P((CB1CA1)∪(CB2CA2))
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为,,,,故
P(CA1)=,P(CA2)=,
P(CB1)=,P(CB2)=,
P(C)=×+×=0.48.
1.(2014·湖南,2,易)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2
1”的概率.
解:(1)由频率分布直方图知,成绩在[14,16)内的人数为50×0.16+50×0.38=27(人),
所以该班在这次测试中成绩良好的人数为27人.
(2)由频率分布直方图知,成绩在[13,14)的人数为50×0.06=3(人),设为x,y,z;成绩在[17,18]的人数为50×0.08=4(人),设为A,B,C,D.
当m,n∈[13,14)时,有xy,yz,xz,3种情况;
当m,n∈[17,18]时,有AB,AC,AD,BC,BD,CD,6种情况.
若m,n分别在[13,14)和[17,18]内时,如下表所示:
A
B
C
D
x
xA
xB
xC
xD
y
yA
yB
yC
yD
z
zA
zB
zC
zD
共有12种情况,所以基本事件总数为21种,事件“|m-n|>1”所包含的基本事件有12种,∴P(|m-n|>1)==.
1.(2014·河北石家庄二模,3)某学校高三年级一班共有60名学生,现采用系统抽样的方法从中抽取6名学生做“早餐与健康”的调查,为此将学生编号为1,2,…,60.选取的这6名学生的编号可能是( )
A.1,2,3,4,5,6 B.6,16,26,36,46,56
C.1,2,4,8,16,32 D.3,9,13,27,36,54
【答案】 B 由系统抽样知识知,所选取学生编号之间的间距相等且为10,所以应选B.
2.(2015·浙江杭州模拟,7)某校150名教职工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本.
①采用随机抽样法:抽签取出30个样本;
②采用系统抽样法:将教职工编号为00,01,…,149,然后平均分组抽取30个样本;
③采用分层抽样法:从老年人、中年人、青年人中抽取30个样本.
下列说法中正确的是( )
A.无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等
B.①②两种抽样方法,这150名教职工中每个人被抽到的概率都相等;③并非如此
C.①③两种抽样方法,这150名教职工中每个人被抽到的概率都相等;②并非如此
D.采用不同的抽样方法,这150名教职工中每个人被抽到的概率是各不相同的
【答案】 A 三种抽样方法中,每个人被抽到的概率都等于=,故选A.
3.(2015·湖北武汉第二次调研,8)如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )
A.0.04 B.0.06 C.0.2 D.0.3
【答案】 C 由频率分布直方图的知识得,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y,z,又x,y,z成等差数列,
所以可得解得y=0.2,
∴年龄在[35,40)的网民出现的频率为0.2.故选C.
4.(2015·湖北十校联考,6)已知某次期中考试中,甲、乙两组学生的数学成绩如下:
甲:88 100 95 86 95 91 84 74 92 83
乙:93 89 81 77 96 78 77 85 89 86
则下列结论正确的是( )
A.甲>乙,s甲>s乙 B.甲>乙,s甲s乙 D.甲<乙,s甲0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
【答案】 B 画出散点图,知a>0,b<0.
2.(2014·重庆,3,易)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
【答案】 A 因为变量x与y正相关,故C,D错误.又线性回归方程必过点(,),即过(3,3.5),代入验证可知选A.
3.(2012·湖南,4,易)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
【答案】 D ∵0.85>0,∴y与x正相关,∴A正确;∵线性回归方程经过样本点的中心(,),∴B正确;∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确;体重58.79 kg为估计值,故选D.
4.(2011·山东,7,易)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
【答案】 B 由表可计算==,==42.因为点在回归直线=x+上,且为9.4,所以42=9.4×+,解得=9.1,故回归方程为=9.4x+9.1,令x=6,得=65.5.
5.(2011·湖南,4,易)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
K2=≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是 ( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
【答案】 C 由K2=≈7.8及P(k2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
考向1 线性回归方程及其应用
1.两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域.对于两个变量的这种相关关系,将它称为负相关.
2.相关系数
r=
=.
(1)|r|≤1,当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(2)|r|越接近于1,两个变量的线性相关关系越强;|r|越接近于0,两个变量的线性相关关系越弱,几乎不存在;通常当|r|>0.75时,我们认为两个变量之间存在较强的线性相关关系.
3.线性回归直线方程
=x+,其中==,=- ,主要用来估计和预测取值,从而获得对两个变量之间整体关系的了解.
回归直线一定经过样本的中心点(,),据此性质可以解决有关的计算问题.同时可以应用回归直线方程作出预测.
(2014·课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
【解析】 (1)由所给数据计算得
=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=- =4.3-0.5×4=2.3.
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
【点拨】 在求解过程中,对数值的处理要细心,由于计算烦琐极易出错;在求时,由公式=- 求解,注意不要代错数值.特别提醒:回归直线方程恒过样本中心(,).
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)列表求出,,x,y,xiyi(可用计算器进行计算);
(3)利用公式=,=- 求得回归系数;
(4)写出回归直线方程.
(2014·河北石家庄模拟,19,12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)由题意,作散点图如图.
(2)由对照数据,计算得xiyi=66.5,
x=32+42+52+62=86,
=4.5,=3.5,
===0.7,
=- =3.5-0.7×4.5=0.35,
所以回归方程为 =0.7x+0.35.
(3)当x=100时,
y=100×0.7+0.35=70.35(吨标准煤),
预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).
考向2 独立性检验
1.2×2列联表
列出的两个变量的频数表称作列联表.假设有两个分类变量X,Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
构造随机变量K2=.
2.判断两个分类变量X和Y是否有关系的方法
利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
统计学研究表明:当K2≤3.841时,认为X与Y无关;
当K2>3.841时,有95%的把握说X与Y有关;
当K2>6.635时,有99%的把握说X与Y有关;
当K2>10.828时,有99.9%的把握说X与Y有关.
(2012·辽宁,19,12分)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列、期望E(X)和方差D(X).
附:χ2=或K2=.
P(χ2≥k)
0.05
0.01
k
3.841
6.635
【思路导引】 (1)根据所给的频率分布直方图得出数据,列出列联表,再代入公式计算得出K2,与3.841比较即可得出结论;(2)用频率代替概率可得出从观众中抽取一名“体育迷”的概率是,由于X~B,从而得出分布列,再计算出期望与方差.
【解析】 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有(0.020+0.005)×10×100=25(人),
由独立性检验的知识得2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得
K2=
==≈3.030.
因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为(0.020+0.005)×10=0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.
由题意知X~B,
从而X的分布列为
X
0
1
2
3
P
由二项分布的期望与方差公式得
E(X)=np=3×=,
D(X)=np(1-p)=3××=.
解决独立性检验应用问题的方法
解决一般的独立性检验问题,首先由所给2×2列联表确定a,b,c,d,n的值,然后根据统计量K2的计算公式确定K2的值,最后根据所求值确定有多大的把握判定两个变量有关联.
(2015·广东六校联考,17,13分)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
优秀
非优秀
合计
甲班
10
乙班
30
合计
110
(1)请完成上面的列联表;
(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”;
(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到9号或10号的概率.
参考公式与临界值表:K2=.
P(K2≥k)
0.100
0.050
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
解:(1)
优秀
非优秀
合计
甲班
10
50
60
乙班
20
30
50
合计
30
80
110
(2)根据列联表中的数据,得到
K2=
≈7.487<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
(3)设“抽到9或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y),所有的基本事件有:(1,1),(1,2),(1,3),…,(6,6),共36个.
事件A包含的基本事件有:(3,6),(4,5),(5,4),(6,3),(5,5),(4,6),(6,4),共7个.
∴P(A)=,即抽到9号或10号的概率为.
1.(2015·河南郑州二模,7)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价(元)
4
5
6
7
8
9
销量(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程=-4x+a,若在这些样本点中任取一点,则它在回归直线左下方的概率为( )
A. B.
C. D.
【答案】 B 由表中数据得=6.5,=80.
由(,)在直线=-4x+a上,得a=106.即线性回归方程为=-4x+106.经过计算只有(5,84)和(9,68)在直线的下方,故所求概率为=,选B.
2.(2015·江西上饶二模,6)以下命题中:①p∨q为假命题,则p与q均为假命题;
②对具有线性相关的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是=x+a,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a=;
③已知≥0,则函数f(x)=2x+的最小值为16.其中真命题的个数为( )
A.0 B.1 C.2 D.3
【答案】 B ①正确.②中a=,所以②不正确.③中,由≥0可得1≤x<2,因为f(x)=2x+≥22=4,当且仅当x=1时取等号,所以③不正确.
3.(2014·山东潍坊二模,7)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:
优秀
非优秀
总计
A班
14
6
20
B班
7
13
20
总计
21
19
40
附:参考公式及数据:
(1)统计量:
K2=(n=a+b+c+d).
(2)独立性检验的临界值表:
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
则下列说法正确的是( )
A.有99%的把握认为环保知识测试成绩与专业有关
B.有99%的把握认为环保知识测试成绩与专业无关
C.有95%的把握认为环保知识测试成绩与专业有关
D.有95%的把握认为环保知识测试成绩与专业无关
【答案】 C 因为K2=≈4.912,3.841乙;甲比乙成绩稳定
B.甲>乙;乙比甲成绩稳定
C.甲<乙;甲比乙成绩稳定
D.甲<乙;乙比甲成绩稳定
【答案】 D 由茎叶图可知
甲==25,
乙==26,
∴甲<乙.
又s=[(17-25)2+(16-25)2+(28-25)2+(30-25)2+(34-25)2]=52,
s=[(15-26)2+(28-26)2+(26-26)2+(28-26)2+(33-26)2]=35.6,
∴s>s,∴乙比甲成绩稳定.
7.(2012·江西,9)样本(x1,x2,…,xn)的平均数为,样本(y1,y2,…,ym)的平均数为 .若样本(x1,x2,…,xn,y1,y2,…,ym)的平均数=α+(1-α),其中0<α<,则n,m的大小关系为( )
A.n<m B.n>m C.n=m D.不能确定
【答案】 A =,
=,
===+.
由题意知0<<,∴n<m.
8.(2014·北京海淀一模,7)一组数据共有7个数,记得其中有10,2,5,2,4,2,
还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( )
A.9 B.3 C.17 D.-11
【答案】 A 设这个数为x,则平均数为,众数为2,若x≤2,则中位数为2,此时x=-11;若23)=0.2.其中正确的个数有( )
A.0个 B.1个
C.2个 D.3个
【答案】 B ∵数学平均分为,∴①错误;
由已知,可得==3,==3.5,∵回归直线=bx+a必过样本点的中心(3,3.5),∴②错误;③正确,故选B.
10.(2015·北京通州一模,9)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.936 2,则变量y与x之间具有线性相关关系
【答案】 C R2的值越大,说明残差平方和越小,也就是模型的拟合效果越好,故选C.
二、填空题(共4小题,每小题5分,共20分)
11.(2015·山东济南三模,13)已知回归方程=4.4x+838.19,则可估计x与y的增长速度之比约为________.
【解析】 x每增长1个单位,y增长4.4个单位,故增长速度之比约为1∶4.4=5∶22.
【答案】 5∶22
12.(2015·云南玉溪一中月考,14)利用独立性检验来判断两个分类变量X和Y是否有关系,
通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
k
0.455
0.708
1.323
2.072
2.706
P(K2≥k)
0.05
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
【解析】 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95%的把握认为用电脑时间与视力下降有关系.
【答案】 95
13.(2014·吉林通化三模,13)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
3
4
5
6
销售额y(万元)
25
30
40
45
根据上表可得回归方程=x+中的为7,据此模型预测广告费用为10万元时销售额为________万元.
【解析】 由题表可知,=4.5,=35,代入回归方程=7x+,得=3.5,所以回归方程为=7x+3.5,所以当x=10时,=7×10+3.5=73.5(万元).
【答案】 73.5
14.(2015·河南开封三模,14)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.
【解析】 月工资收入在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,则0.15÷5=0.03,所以各组的频率比为0.02∶0.04∶0.05∶0.05∶0.03∶
0.01=2∶4∶5∶5∶3∶1,所以(30,35](百元)月工资收入段应抽出×100=15(人).
【答案】 15
三、解答题(共4小题,共50分)
15.(12分)(2015·安徽黄山三模,17)公安部发布酒后驾驶处罚的规定:酒后违法驾驶机动车的行为分成两个档次:“酒后驾车”和“醉酒驾车”,其检测标准是驾驶人员血液中的酒精含量Q(简称血酒含量,单位是毫克/100毫升),当20≤Q<80时,为酒后驾车;当Q≥80时,为醉酒驾车.某市公安局交通管理部门在某路段的一次拦查行动中,依法检查了200辆机动车驾驶员的血酒含量(如下表).
血酒含量
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120]
人数
194
1
2
1
1
1
依据上述材料回答下列问题:
(1)分别写出酒后违法驾车发生的频率和酒后违法驾车中醉酒驾车的频率;
(2)从酒后违法驾车的司机中,抽取2人,请一一列举出所有的抽取结果,并求抽取到的2人中含有醉酒驾车的概率.(酒后驾车的人用大写字母如A,B,C,D表示,醉酒驾车的人用小写字母如a,b,c,d表示)
解:(1)由表可知,酒后违法驾车的人数为6人,则违法驾车发生的频率为=;
酒后违法驾车中有2人是醉酒驾车,故酒后违法驾车中醉酒驾车的频率为=.
(2)(枚举法)设酒后驾车的4人分别为A,B,C,D,醉酒驾车的2人分别为a,b,
则从违法驾车的6人中,任意抽取2人,有C=15种结果,分别是:(A,B),(A,C),(A,D),(A,a),(A,b),(B,C),(B,D),(B,a),(B,b),(C,D),(C,a),(C,b),(D,a),(D,b),(a,b).
设抽取到的2人中含有醉酒驾车的事件为E,则事件E:(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),(D,a),(D,b),(a,b),共有9个.
由古典概型概率公式得P(E)==.
16.(12分)(2015·陕西咸阳三模,18)PM2.5是衡量空气质量的一项指标.世卫组织规定:PM2.5日均值在35微克/立方米以下空气质量为一级;在35微克/立方米~75微克/立方米之间空气质量为超标.近年来,我国许多大城市雾霾现象频发,某市环保局从市区2014年全年每天的PM2.5监测数据中随机抽取15天的数据作为样本,监测值如茎叶图所示(十位为茎,个位为叶).
(1)从这15天的数据中任取3天的数据,记X表示其中空气质量达到一级的天数,求X的分布列及期望;
(2)以这15天的PM2.5日均值来估计一年的空气质量情况,则一年(按360天计算)中大约有多少天的空气质量达到一级.
解:(1)依据条件,X服从超几何分布,其中N=15,M=5,n=3,X的可能值为0,1,2,3,则P(X=k)=(k=0,1,2,3).
∴X的分布列为:
X
0
1
2
3
P
∴E(X)=0×+1×+2×+3×=1或E(X)=n=1.
(2)由题意可知,一年中每天空气质量达到一级的概率为P==,
设一年中空气质量达到一级的天数为η,则η~B,
∴Eη=360×=120(天),即一年中大约有120天的空气质量达到一级.
17.(12分)(2015·河南郑州二模,18)为了解春季昼夜温差大小与某种子发芽多少之间的关系,现在从4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下表格:
日期
4月1日
4月7日
4月15日
4月21日
4月30日
温差x/℃
10
11
13
12
8
发芽数y/颗
23
25
30
26
16
(1)从这5天中任选2天,记发芽的种子数分别为m,n,求事件“m,n均不小于25”的概率;
(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
解:(1)(枚举法)所有的基本事件为(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共10个.
设“m,n均不小于25”为事件A,则事件A包含的基本事件为(25,30),(25,26),(30,26),共3个,
故由古典概型概率公式得P(A)=.
(2)由数据得,另3天的平均数=12,=27,3 =972,3 2=432,xiyi=977,x=434,
所以==,
=27-×12=-3,
所以y关于x的线性回归方程为
=x-3.
(3)依题意得,
当x=10时,=22,|22-23|<2;
当x=8时,=17,|17-16|<2,
所以(2)中所得到的线性回归方程是可靠的.
18.(14分)(2015·四川成都模拟,18)某学生社团在对本校学生学习方法开展问卷调查的过程中发现,在回收上来的1 000份有效问卷中,同学们背英语单词的时间安排共有两种:白天和晚上临睡前背.为研究背单词时间安排对记忆效果的影响,该社团以5%的比例对这1 000名学生按时间安排类型进行分层抽样,并完成一项试验,试验方法是,使两组学生记忆40个无意义音节(如XIQ、GEH),均要求在刚能全部记清时就停止识记,并在8小时后进行记忆测验.不同的是,甲组同学识记结束后一直不睡觉,8小时后测试;乙组同学识记停止后立刻睡觉,8小时后叫醒测试.两组同学识记停止8小时后的准确回忆(保持)情况如图(区间含左端点而不含右端点).
(1)估计1 000名被调查的学生中识记停止8小时后40个音节的保持率大于或等于60%的人数;
(2)从乙组准确回忆个数在[12,24)范围内的学生中随机选3人,记能准确回忆20个以上(含20个)的人数为随机变量X,求X的分布列及数学期望;
(3)从本次试验的结果来看,上述两种时间安排方法中哪种方法背英语单词记忆效果更好?计算并说明理由.
解:(1)∵1 000×5%=50,
由图中数据知,甲组有4+10+8+4+2+1+1=30(人),
∴乙组有20人.
又∵40×60%=24,
∴识记停止8小时后40个音节的保持率大于或等于60%的在甲组中有1人,在乙组中有(0.062 5+0.037 5)×4×20=8(人),
∴(1+8)÷5%=180,
即估计1 000名被调查的学生中识记停止8小时后40个音节的保持率大于或等于60%的人数为180.
(2)由图中数据知,乙组在[12,24)之间有(0.025+0.025+0.075)×4×20=10(人),在[20,24)之间有0.075×4×20=6(人).
X的可能取值为0,1,2,3.
∴P(X=0)==,
P(X=1)==,
P(X=2)==,
P(X=3)==.
∴X的分布列为
X
0
1
2
3
P
数学期望EX=0×+1×+2×+3×=.
(3)甲组学生准确回忆音节数共有2×4+6×10+10×8+14×4+18×2+22×1+26×1=288(个).
故甲组学生的平均保持率为×=0.24.
乙组学生准确回忆音节数共有(6×0.012 5+10×0.012 5+14×0.025+18×0.025+22×0.075+26×0.062 5+30×0.037 5)×4×20=432(个).
故乙组学生的平均保持率为×=0.54>0.24,
所以临睡前背单词记忆效果更好.