【数学】2019届一轮复习人教A版(文)10-2统计与统计案例学案
10.2 用样本估计总体
最新考纲
考情考向分析
1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
2.理解样本数据标准差的意义和作用,会计算数据标准差.
3.能从样本数据中提取基本的数字特征(如平均数,标准差),并做出合理的解释.
4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
主要考查平均数,方差的计算以及茎叶图与频率分布直方图的简单应用;题型以选择题和填空题为主,出现解答题时经常与概率相结合,难度为中低档.
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差).
(2)决定组距与组数.
(3)将数据分组.
(4)列频率分布表.
(5)画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图
统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,
叶就是从茎的旁边生长出来的数.
4.标准差和方差
(1)标准差是样本数据到平均数的一种平均距离.
(2)标准差:
s=.
(3)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数).
知识拓展
1.频率分布直方图的特点
(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示,频率=组距×.
(2)在频率分布直方图中,各小长方形的面积总和等于1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.
(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √ )
(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )
(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ )
(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( × )
题组二 教材改编
2.[P100A组T2(1)]一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4B.8C.12D.16
答案 B
解析 设频数为n,则=0.25,∴n=32×=8.
3.[P81A组T1]若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 ∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.
4.[P71T1]如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有______人.
答案 25
解析 0.5×0.5×100=25.
题组三 易错自纠
5.若数据x1,x2,x3,…,xn的平均数=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为( )
A.5,2 B.16,2
C.16,18 D.16,9
答案 C
解析 ∵x1,x2,x3,…,xn的平均数为5,
∴=5,
∴+1=3×5+1=16,
∵x1,x2,x3,…,xn的方差为2,
∴3x1+1,3x2+1,3x3+1,…,3xn+1的方差是32×2=18.
6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m,众数为n,平均数为,则m,n,的大小关系为________.(用“<”连接)
答案 n
0.5.
而前4组的频率之和为
0.04+0.08+0.15+0.21=0.48<0.5.
所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
思维升华 (1)准确理解频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
(2)在很多题目中,频率分布直方图中各小长方形的面积之和为1,是解题的关键,常利用频率分布直方图估计总体分布.
跟踪训练(2017·北京)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4,
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5,
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30,
所以样本中的男生人数为30×2=60,
女生人数为100-60=40,
所以样本中男生和女生人数的比例为60∶40=3∶2,
所以根据分层抽样原理,估计总体中男生和女生人数的比例为3∶2.
题型三 用样本的数字特征估计总体的数字特征
典例(1)某市有210名初中生参加数学竞赛预赛,随机调阅了60名学生的答卷,成绩如表:
成绩
1分
2分
3分
4分
5分
6分
7分
8分
9分
10分
人数分布
0
0
0
6
15
21
12
3
3
0
①求样本的平均成绩和标准差(精确到0.01分);
②若规定预赛成绩在7分或7分以上的学生参加复赛,试估计有多少名学生可以进入复赛.
解 ①=×(4×6+5×15+6×21+7×12+8×3+9×3)=6,
s2=×[6×(4-6)2+15×(5-6)2+21×(6-6)2+12×(7-6)2+3×(8-6)2+3×(9-6)2]=1.5.
∴s≈1.22,故样本的平均成绩为6分,标准差约为1.22分.
②在60名选手中,有12+3+3=18(名)学生预赛成绩在7分或7分以上,∴210人中有×210=63(名)学生的预赛成绩在7分或7分以上,故大约有63名学生可以参加复赛.
(2)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图:
①分别求出两人得分的平均数与方差;
②根据图和上面算得的结果,对两人的训练成绩作出评价.
解 ①由图象可得甲、乙两人五次测试的成绩分别为
甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
甲==13;
乙==13,
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4;
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
②由s>s,可知乙的成绩较稳定.
从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
思维升华平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.
跟踪训练某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
解 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数甲==;
方差为s==.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数乙==;
方差为s==.
因为甲>乙,sa2
B.a2>a1
C.a1=a2
D.a1,a2的大小与m的值有关
答案 B
解析 由茎叶图知,
a1=80+=84,
a2=80+=85,故选B.
6.在“南安一中校园歌手大赛”比赛现场上,七位评委为某选手打出的分数的茎叶图如图,则去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )
A.85和6.8 B.85和1.6
C.86和6.8 D.86和1.6
答案 A
解析 剩余的数据为83,83,84,85,90,
平均分==85,
所以方差为s2=[(83-85)2+(83-85)2+(84-85)2+(85-85)2+(90-85)2]=6.8.
7.已知样本数据x1,x2,…,xn的平均数=5,则样本数据2x1+1,2x2+1,…,2xn+1的平均数为________.
答案 11
解析 由x1,x2,…,xn的平均数=5,得2x1+1,2x2+1,…,2xn+1的平均数为2+1=2×5+1=11.
8.从甲、乙、丙三个厂家生产的同一种产品中抽取8件产品,对其使用寿命(单位:年)进行追踪调查的结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数.
甲:________;乙:________;丙:________.
答案 众数 平均数 中位数
解析 甲的众数为8,乙的平均数为8,丙的中位数为8.
9.(2018·郑州模拟)某电子商务公司对10000名 络购物者2016年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示:
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
答案 (1)3 (2)6000
解析 由频率分布直方图及频率和等于1,
可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.
于是消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,
所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000.
10.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为________.
答案 2
解析 170+×(1+2+x+4+5+10+11)=175,
×(33+x)=5,即33+x=35,解得x=2.
11.某学校随机抽取部分新生调查其上学所需时间(单位:分钟),并将所得数据绘制成频率分布直方图(如图),其中,上学所需时间的范围是[0,100],样本数据分组为[0,20),[20,40),[40,60),[60,80),[80,100],则
(1)图中的x=________;
(2)若上学所需时间不少于1小时的学生可申请在学校住宿,则该校600名新生中估计有________名学生可以申请住宿.
答案 (1)0.0125 (2)72
解析 (1)由频率分布直方图知20x=1-20×(0.025+0.0065+0.003+0.003),解得x=0.0125.
(2)上学时间不少于1小时的学生的频率为0.12,因此估计有0.12×600=72(人)可以申请住宿.
12.(2016·北京)某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(1)如果w为整数,那么根据此次调查,为使80 以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.
解 (1)如题图所示,用水量在[0.5,3)的频率的和为
(0.2+0.3+0.4+0.5+0.3)×0.5=0.85.
∴用水量小于等于3立方米的频率为0.85,又w为整数,
∴为使80 以上的居民在该月的用水价格为4元/立方米,w至少定为3.
(2)当w=3时,该市居民该月的人均水费估计为
(0.1×1+0.15×1.5+0.2×2+0.25×2.5+0.15×3)×4+0.15×3×4+[0.05×(3.5-3)+0.05×(4-3)+0.05×(4.5-3)]×10=7.2+1.8+1.5=10.5(元).
即当w=3时该市居民该月的人均水费估计为10.5元.
13.(2017·全国Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.
故选B.
14.某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
A地区用户满意度评分的频率分布直方图
图①
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
B地区用户满意度评分的频率分布直方图
图②
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
解 (1)作出频率分布直方图如图:
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,
P(CB)的估计值为(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
15.为了普及环保知识,增强环保意识,某大学有300名员工参加环保知识测试,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.现在要从第1,3,4组中用分层抽样的方法抽取16人,则在第4组中抽取的人数为________.
答案 6
解析 根据频率分布直方图得,第1,3,4组的频率之比为1∶4∶3,所以用分层抽样的方法抽取16人时,在第4组中应抽取的人数为16×=6.
16.(2018·洛阳质检)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得到如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80 ”的规定?
解 (1)样本数据的分布直方图如图所示:
(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80 ”的规定.