【数学】2020届一轮复习(理)通用版11-4抽样方法与总体分布的估计作业
11.4 抽样方法与总体分布的估计
挖命题
【考情探究】
考点
内容解读
5年考情
预测热度
考题示例
考向
关联考点
1.随机
抽样
①理解随机抽样的必要性和重要性.
②会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法
2017江苏,3,5分
分层抽样
★★★
2.用样本
估计总体
①了解分布的意义和作用,会列频率分布表、会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.
②理解样本数据标准差的意义和作用,会计算数据标准差.
③能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.
④会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想
⑤会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题
2018 课标Ⅰ,3,5分
统计图中的扇形图
2018课标Ⅲ,18,12分
茎叶图的应用
统计案例
2018课标Ⅱ,18,12分
折线图的应用
变量间的相关关系
2017课标Ⅰ,19,12分
样本平均数和
标准差的应用
正态分布
2017课标Ⅱ,18,12分
利用频率分布
直方图求中位
数的估计值
独立性检验
2015课标Ⅱ,18,12分
茎叶图的绘制
和应用
用频率估计概率
分析解读 对于随机抽样,主要考查三种抽样方法,尤其是分层抽样和系统抽样,一般以选择题或填空题的形式出现;对于用样本估计总体,主要考查利用频率分布直方图、茎叶图、样本的数字特征估计总体,若单独命题一般以选择题或填空题的形式出现,分值约为5分,属容易题; 也常出现在解答题中 ,分值约为12分,属中档题.考查学生的数据分析能力和逻辑推理能力.
破考点
【考点集训】
考点一 随机抽样
1.(2018福建福州3月质量检测,2)为了解某地区的“微信健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“微信健步走”活动情况有较大差异,而男女“微信健步走”活动情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )
A.简单随机抽样 B.按性别分层抽样
C.按年龄段分层抽样 D.系统抽样
答案 C
2.在简单随机抽样中,某一个个体被抽到的可能性( )
A.与第n次有关,第一次可能性最大
B.与第n次有关,第一次可能性最小
C.与第n次无关,与抽取的第n个样本有关
D.与第n次无关,每次可能性相等
答案 D
考点二 用样本估计总体
1.(2018广东茂名五大联盟学校3月联考,2)甲、乙两组数的数据如茎叶图所示,则甲、乙的平均数、方差、极差及中位数相同的是( )
A.极差 B.方差 C.平均数 D.中位数
答案 C
2.(2017安徽淮北第二次模拟,4)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,则甲地该月11时的平均气温的标准差为( )
甲
乙
9 8
2
6 8 9
2 m 0
3
1 1
A.2 B.2 C.10 D.10
答案 B
3.(2017山西大学附属中学第二次模拟,3)某高二(1)班一次阶段性考试数学成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为( )
A.20,2 B.24,4 C.25,2 D.25,4
答案 C
炼技法
【方法集训】
方法1 抽样方法的选择
1.(2017安徽宣城二模,3)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的概率都是27,则男运动员应抽取( )
A.18人 B.16人 C.14人 D.12人
答案 B
2.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为一,二,三,…,十.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第七组中抽取的号码是( )
A.63 B.64 C.65 D.66
答案 A
方法2 频率分布直方图的应用
1.(2018陕西榆林第二中学模拟,13)某学校为了调查学生在学科教辅书方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出的钱数在[30,40)的同学比支出的钱数在[10,20)的同学多26人,则n的值为 .
答案 100
2.(2018安徽马鞍山第一次教学质量检测,13)已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形,若中间一个小矩形的面积等于其余(n-1)个小矩形面积和的13,则该组的频数为 .
答案 50
方法3 样本的数字特征及其应用
1.(2017广东广雅中学、江西南昌二中联考,4)某市重点中学奥数培训班共有14人,分为两个小组,在一次阶段性考试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则m+n的值是( )
甲组
乙组
8
7
9
6 4 8
8
3 n 8
5 m 2
9
2 2 5
A.10 B.11 C.12 D.13
答案 C
2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则( )
A.x=4,s2<2 B.x=4,s2>2 x>4,s2<2 D.x>4,s2>2
答案 A
过专题
【五年高考】
A组 统一命题·课标卷题组
1.(2018课标Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 A
2.(2017课标Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
答案 A
3.(2015课标Ⅱ,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区: 62 73 81 92 95 85 74 64 53 76
78 86 95 66 97 78 88 82 76 89
B地区: 73 83 62 51 91 46 53 73 64 82
93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
A地区
B地区
4
5
6
7
8
9
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
解析 (1)两地区用户满意度评分的茎叶图如下:
A地区
B地区
4
6 8
3
5
1 3 6 4
6 4 2
6
2 4 5 5
6 8 8 6 4 3
7
3 3 4 6 9
9 2 8 6 5 1
8
3 2 1
7 5 5 2
9
1 3
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”,
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)
=P(CB1CA1)+P(CB2CA2)
=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为1620,420,1020,820,故P(CA1)=1620,P(CA2)=420,P(CB1)=1020,P(CB2)=820,P(C)=1020×1620+820×420=0.48.
思路分析 (1)将A、B地区数据逐一填入茎叶图,然后通过茎叶图作比较.(2)设出事件且指明事件间的关系,利用相应概率公式得结论.
B组 自主命题·省(区、市)卷题组
考点一 随机抽样
1.(2014湖南,2,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2
0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
思路分析 由图易知组距为0.5,再由频率之和等于1即可求出a;由图可知前6组的频率之和为0.88>0.85,前5组的频率之和为0.73<0.85,说明x∈[2.5,3),再由0.3×(x-2.5)=0.85-0.73即可求出x.
C组 教师专用题组
1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石 C.338石 D.1 365石
答案 B
2.(2015陕西,2,5分)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )
A.167 B.137 C.123 D.93
答案 B
3.(2015课标Ⅱ,3,5分,0.782)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
4.(2015重庆,3,5分)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:
0
8
9
1
2
5
8
2
0
0
3
3
8
3
1
2
则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
答案 B
5.(2014广东,6,5分)已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图1
图2
A.200,20 B.100,20 C.200,10 D.100,10
答案 A
6.(2014山东,7,5分)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
答案 C
7.(2015江苏,2,5分)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为 .
答案 6
8.(2014天津,9,5分)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生.
答案 60
9.(2014江苏,6,5分)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.
答案 24
10.(2015广东,17,12分)某工厂36名工人的年龄数据如下表.
工人编号
年龄
工人编号
年龄
工人编号
年龄
工人编号
年龄
1
40
10
36
19
27
28
34
2
44
11
31
20
43
29
39
3
40
12
38
21
41
30
43
4
41
13
39
22
37
31
38
5
33
14
43
23
34
32
42
6
40
15
45
24
42
33
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
18
36
27
42
36
39
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(2)计算(1)中样本的均值x和方差s2;
(3)36名工人中年龄在x-s与x+s之间有多少人?所占的百分比是多少(精确到0.01%)?
解析 (1)由系统抽样,将36名工人分为9组(4人一组),每组抽取一名工人.
因为在第一分段里抽到的是年龄为44的工人,即编号为2的工人,故所抽样本的年龄数据为44,40,36,43,36,37,44,43,37.
(2)均值x=44+40+36+43+36+37+44+43+379=40;
方差s2=19×[(44-40)2+(40-40)2+(36-40)2+(43-40)2+(36-40)2+(37-40)2+(44-40)2+(43-40)2+(37-40)2]=1009.
(3)由(2)可知s=103.由题意,年龄在40-103,40+103内的工人共有23人,所占的百分比为2336×100%≈63.89%.
11.(2014广东,17,13分)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36.
根据上述数据得到样本的频率分布表如下:
分组
频数
频率
[25,30]
3
0.12
(30,35]
5
0.20
(35,40]
8
0.32
(40,45]
n1
f1
(45,50]
n2
f2
(1)确定样本频率分布表中n1,n2, f1和f2的值;
(2)根据上述频率分布表,画出样本频率分布直方图;
(3)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.
解析 (1)n1=7,n2=2, f1=0.28, f2=0.08.
(2)样本频率分布直方图如图所示.
(3)根据样本频率分布直方图,得每人的日加工零件数落在区间(30,35]的概率为0.2,设所取的4人中,日加工零件数落在区间(30,35]的人数为ξ,则ξ~B(4,0.2),P(ξ≥1)=1-P(ξ=0)=1-(1-0.2)4=1-0.409 6=0.590 4,
所以4人中,至少有1人的日加工零件数落在区间(30,35]的概率为0.590 4.
【三年模拟】
一、选择题(每小题5分,共30分)
1.(2019届全国Ⅰ卷高三五省优创名校联考,3)图1为某省2018年1~4月快递业务量统计图,图2是该省2018年1~4月快递业务收入统计图,下列对统计图理解错误的是( )
A.2018年1~4月的业务量,3月最高,2月最低,差值接近2 000万件
B.2018年1~4月的业务量同比增长率均超过50%,在3月最高
C.从两图来看,2018年1~4月中的同一个月的快递业务量与收入的同比增长率并不完全一致
D.从1~4月来看,该公司2018年快递业务收入同比增长率逐月增长
答案 D
2.(2019届河南名校联盟“尖子生”调研考试(二),5)为了测试小班教学的实践效果,王老师对A、B两班的学生进行了阶段测试,并将所得成绩统计成茎叶图.记本次测试中,A、B两班学生的平均成绩分别为xA,xB,A、B两班学生成绩的方差分别为sA2,sB2,则观察茎叶图可知( )
A.xAxB,sA2<sB2
C.xAsB2 D.xA>xB,sA2>sB2
答案 B
3.(2018山东济南外国语学校12月考试,4)给出下列四个命题:
①将A,B,C三种个体按3∶1∶2的比例分层抽样调查,若抽取的A个体的个体数为12个,则样本容量为30;
②一组数据1、2、3、4、5的平均数、中位数相同;
③甲组数据的方差为5,乙组数据为5、6、9、10、5,那么这两组数据中较稳定的是甲;
④统计的10个样本数据为95,105,114,116,120,120,122,125,130,134,则样本数据落在[114.5,124.5]内的频率为0.4.其中真命题为( )
A.①② B.②③ C.③④ D.②④
答案 D
4.(2018湖北部分重点中学模拟,3)某商场对某一商品搞活动,已知该商品每一个的进价为3元,销售价为8元,每天售出的第20个及之后的半价出售.该商场统计了近10天这种商品的销量,如图所示,设x(个)为每天商品的销量,y(元)为该商场每天销售这种商品的利润.从日利润不少于96元的几天里任选2天,则选出的这2天日利润都是97元的概率为( )
A.19 B.110 C.15 D.18
答案 B
5.(2018湖北襄阳四校4月联考,7)某种产品的质量以其质量指标值来衡量,质量指标值越大表明质量越好,且质量指标值大于或等于100的产品为优质产品.现用两种新配方(分别称为A配方和B配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值(都在区间[90,110]内),将这些数据分成4组:[90,95),[95,100),[100,105),[105,110],得到如下两个频率分布直方图:
已知这2种配方生产的产品利润y(单位:百元)与其质量指标值t的关系式均为-1,t<95,0,95≤t<100,1,100≤t<105,2,t≥105.若以上面数据的频率作为概率,分别从用A配方和B配方生产的产品中随机抽取一件,且抽取这两件产品相互独立,则抽得的这两件产品利润之和为0的概率为( )
A.0.125 B.0.195 C.0.215 D.0.235
答案 B
6.(2018湖南衡阳二模,4)已知样本x1,x2,…,xn的平均数为x,样本y1,y2,…,ym的平均数为
y(x≠y),若样本x1,x2,…,xn,y1,y2,…,ym的平均数z=ax+(1-a)y,其中0m
答案 C
二、填空题(每小题5分,共10分)
7.(2019届广东中山一中等七校联合体高三第二次(11月)联考,14)假设要考察某公司生产的狂犬疫苗的剂量是否达标,现从500支疫苗中抽取50支进行检验,利用随机数表抽取样本时,先将500支疫苗按000,001,…,499进行编号,如果从随机数表的第7行第8列的数开始向右读,则第3支疫苗的编号 .
(下面摘取了随机数表的第7行至第9行)
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76(第7行)
63 01 63 78 59 16 95 56 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79(第8行)
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54(第9行)
答案 068
8.(2017湖南长沙一模,14)空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI大于100的天数约为 .(该年为365天)
4
5
5
0
7
5 4
9
3 0
11
7 8
19
9
21
5
答案 146
三、解答题(共25分)
9.(2019届四川成都高新区10月月考,18)高新区某高中德育处为了调查学生对“一带一路”的关注情况,在全校组织了“一带一路知多少”的知识问卷测试,并从中随机抽取了12份问卷,得到其测试成绩(百分制)的茎叶图如下:
(1)写出该样本的中位数,若该校共有3 000名学生,试估计该校测试成绩在70分以上的人数;
(2)从所抽取的70分以上的学生中再随机选取4人,用ξ表示测试成绩在80分以上的人数,求ξ的分布列和数学期望.
解析 (1)由茎叶图可得中位数为76,样本中70分以上的学生所占比为812=23,故可估计该校测试成绩在70分以上的学生人数为3 000×23=2 000.
(2)由题意可得ξ的可能取值为0,1,2,3,4.
P(ξ=0)=C40C44C84=170,P(ξ=1)=C41C43C84=1670=835,P(ξ=2)=C42C42C84=1835,P(ξ=3)=C43C41C84=835,P(ξ=4)=C44C40C84=170.
∴ξ的分布列为
ξ
0
1
2
3
4
P
170
835
1835
835
170
∴E(ξ)=0×170+1×835+2×1835+3×835+4×170=2.
思路分析 (1)根据茎叶图中的数据可得中位数,然后根据样本中70分以上的学生所占的比例可得总体中70分以上的人数.(2)根据题意得到ξ的可能取值,分别求出对应的概率进而得到分布列,然后可得期望.
10.(2018江西新余二模,18)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45),得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户,五种人中用分层抽样的方法依次抽取6
人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(i)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ii)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
解析 (1)根据频率分布直方图得第一组的频率为0.01×5=0.05,∴6x=0.05,∴x=120.
(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,
∴a=953≈32,则中位数为32.
(3)(i)5个年龄组成绩的平均数为x1=15×(93+96+97+94+90)=94,方差为s12=15×[(-1)2+22+32+02+(-4)2]=6.
5个职业组成绩的平均数为x2=15×(93+98+94+95+90)=94,方差为s22=15×[(-1)2+42+02+12+(-4)2]=6.8.
(ii)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定.(感想合理即可)