2018届二轮复习统计与统计案例学案
第3讲 统计与统计案例
1.以选择题、填空题的形式考查随机抽样、样本的数字特征、统计图表、回归方程、独立性检验等.
2.在概率与统计的交汇处命题,以解答题中档难度出现.
热点一 抽样方法
1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体数较少.
2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.
3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.
例1 (1)(2017届日照三模)从编号为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量为5的一个样本,若编号为42的产品在样本中,则该样本中产品的最小编号为________.
答案 10
解析 样本间隔为80÷5=16,∵42=16×2+10,∴该样本中产品的最小编号为10.
(2)某高级中学高一、高二、高三年级的学生人数分别为600,700,700,为了解不同年级学生的眼睛近视情况,现用分层抽样的方法抽取了容量为100的样本,则高三年级应抽取的学生人数为________.
答案 35
解析 由题意结合抽样比可得,高三年级应抽取的学生人数为100×=35.
思维升华 (1)随机抽样的各种方法中,每个个体被抽到的概率都是相等的.
(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.
(3)分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.
跟踪演练1 (1)(2017·葫芦岛协作体模拟)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个二位号码中选取,小明利用如图所示的随机数表选取红色球的6个号码,选取方法是从第1行、第9列和第10列的数字开始从左到右依次选取两个数字,则第四个被选中的红色球号码为( )
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85
06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49
A.12 B.33
C.06 D.16
答案 C
解析 被选中的红色球号码依次为17,12,33,06,所以第四个被选中的红色球号码为06,故选C.
(2)(2017届江西重点中学协作体联考)高三某班有学生36人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、23号、32号学生在样本中,则样本中还有一个学生的编号为( )
A.13 B.14
C.18 D.26
答案 B
解析 ∵高三某班有学生36人,用系统抽样的方法,抽取一个容量为4的样本,
∴样本组距为36÷4=9,则5+9=14,
即样本中还有一个学生的编号为14,故选B.
热点二 用样本估计总体
1.频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.
2.频率分布直方图中各小长方形的面积之和为1.
3.利用频率分布直方图求众数、中位数与平均数
利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即众数.
(2)中位数左边和右边的小长方形的面积和相等.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例2 (1)(2017·湖南衡阳联考)一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( )
A.-11 B.3
C.9 D.17
答案 C
解析 设没记清的数为x,若x≤2,则这列数为x,2,2,2,4,5,10,平均数为,中位数为2,众数为2,所以2×2=+2,得x=-11;若2
6.635,
∴这个结论有0.01的机会出错,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
思维升华 (1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值;回归直线过样本点的中心(,),应引起关注.
(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入公式求解K2即可.
跟踪演练3 (1)(2017届德州二模)某产品的广告费用x(万元)与销售额y(万元)的统计数据如表:
广告费用x
2
3
4
5
销售额y
26
39
49
54
根据上表可得线性回归方程=9.4x+,据此模型预测,广告费用为6万元时的销售额为( )
A.65.5万元 B.66.6万元
C.67.7万元 D.72万元
答案 A
解析 ==3.5,==42,
代入线性回归方程,得42=9.4×3.5+,解得=9.1,
所以线性回归方程为 =9.4x+9.1,
当x=6时,y=65.5,故选A.
(2)(2017·广东湛江二模)某同学利用课余时间做了一次社交软件使用习惯调查,得到2×2列联表如下:
偏爱微信
偏爱QQ
合计
30岁以下
4
8
12
30岁以上
16
2
18
合计
20
10
30
附表:
P(K2≥k0)
0.01
0.005
0.001
k0
6.635
7.879
10.828
则下列结论正确的是( )
A.在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关
B.在犯错的概率超过0.005的前提下认为社交软件使用习惯与年龄有关
C.在犯错的概率不超过0.001的前提下认为社交软件使用习惯与年龄有关
D.在犯错的概率超过0.001的前提下认为社交软件使用习惯与年龄有关
答案 A
解析 K2==10,由于7.879<10<10.828,可以认为在犯错的概率不超过0.005的前提下认为社交软件使用习惯与年龄有关,故选A.
真题体验
1.(2017·山东改编)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为__________.
答案 3,5
解析 甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y=5.又甲、乙两组数据的平均值相等,
∴×(56+65+62+74+70+x)=×(59+61+67+65+78),∴x=3.
2.(2017·山东改编)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为________.
答案 166
解析 ∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又 =4,∴ =- =160-4×22.5=70.
∴线性回归方程为 =4x+70.
将x=24代入上式,得 =4×24+70=166.
3.(2016·全国Ⅲ改编)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下列叙述不正确的是________.
①各月的平均最低气温都在0 ℃以上;
②七月的平均温差比一月的平均温差大;
③三月和十一月的平均最高气温基本相同;
④平均最高气温高于20 ℃的月份有5个.
答案 ④
解析 由题意知,平均最高气温高于20 ℃的有七月,八月,故④不正确.
4.(2017·江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
答案 18
解析 ∵==.
∴应从丙种型号的产品中抽取×300=18(件).
押题预测
1.某公司为了解用户对其产品的满意度,从甲、乙两地分别随机调查了10个用户,将满意度的分数绘成茎叶图如图所示.设甲、乙两地的满意度分数的平均数分别为甲,乙,中位数分别为m甲,m乙,则( )
A.甲<乙,m甲>m乙
B.甲>乙,m甲>m乙
C.甲>乙,m甲乙.
中位数分别为m甲==75,m乙==73,
所以m甲>m乙.
故选B.
2.某校为了解高三学生寒假期间的学习情况,抽查了100名学生,统计他们每天的平均学习时间,绘成的频率分布直方图如图所示,则这100名学生中学习时间在6至10小时之间的人数为________.
押题依据 频率分布直方图多以现实生活中的实际问题为背景,对图形的理解应用可以考查考生的基本分析能力,是高考的热点.
答案 58
解析 由图知,(0.04+0.12+x+0.14+0.05)×2=1,解得x=0.15,所以学习时间在6至10小时之间的频率是(0.15+0.14)×2=0.58,
所求人数为100×0.58=58.
3.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
(注:=,=- )
押题依据 线性回归分析在生活中具有很强的应用价值,是高考的一个重要考点.
解 (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
∴ ==0.7,
=3.5-0.7×3.5=1.05,
∴=0.7x+1.05,回归直线如图所示.
(3)将x=10代入线性回归方程,
得=0.7×10+1.05=8.05,
故预测加工10个零件约需要8.05小时.
A组 专题通关
1.(2017·山西实验中学模拟)一个学校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样法抽取容量为200的样本,则应从高三学生中抽取的人数是( )
A.40 B.60
C.80 D.100
答案 D
解析 由分层抽样的概念可得,应从高三学生中抽取的人数是200×=100.故选D.
2.(2017届广东省东莞市二模)已知某学校有1 680名学生,现在采用系统抽样的方法抽取84人,调查他们对学校食堂的满意程度,将1 680人按1,2,3,…,1 680随机编号,则在抽取的84人中,编号落在[61,160]内的人数为( )
A.7 B.5
C.3 D.4
答案 B
解析 (160-60)×=5,故选B.
3.(2017·北京丰台区二模)某校高一1班、2班分别有10人和8人骑自行车上学,他们每天骑行路程(单位:千米)的茎叶图如图所示:
则1班10人每天骑行路程的极差和2班8人每天骑行路程的中位数分别是( )
A.14,9.5 B.9,9
C.9,10 D.14,9
答案 A
解析 2班共有8个数据,中间两个数是9和10,因此中位数为9.5,只有A符合,故选A(1班10个数据最大为22,最小为8,极差为14).
4.(2017·福建泉州质检)2017年4月,泉州有四处湿地被列入福建省首批重要湿地名录,某同学决定从其中A,B两地选择一处进行实地考察,因此,他通过网站了解上周去过这两个地方的人对它们的综合评分,并将评分数据记录为下图的茎叶图,记A,B两地综合评分数据的平均数分别为,,方差分别为s,s,若已备受好评为依据,则下述判断较合理的是( )
A.因为>,s>s,所以应该去A地
B.因为>,ss,所以应该去B地
D.因为<,s85=,s6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+≈52.35(kg).
B组 能力提高
11.某公司有30名男职员和20名女职员,公司进行了一次全员参与的职业能力测试,现随机询问了该公司5名男职员和5名女职员在测试中的成绩(满分为30分),可知这5名男职员的测试成绩分别为16,24,18,22,20,5名女职员的测试成绩分别为18,23,23,18,23,则下列说法一定正确的是( )
A.这种抽样方法是分层抽样
B.这种抽样方法是系统抽样
C.这5名男职员的测试成绩的方差大于这5名女职员的测试成绩的方差
D.该测试中公司男职员的测试成绩的平均数小于女职员的测试成绩的平均数
答案 C
解析 根据抽样方法的特点,可知这种抽样既不是分层抽样,也不是系统抽样,故A,B是错误的;由这5名男职员和5名女职员的测试成绩得不出该公司男职员和女职员的测试成绩的平均数,故D是错误的;根据公式,可以求得这5名男职员的测试成绩的方差为s=8,5名女职员的测试成绩的方差为s=6,所以C正确.故选C.
12.(2017届四川大教育联盟三诊)某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁,9岁,12岁,15岁,18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出如图所示的散点图和回归直线l.根据图中数据,下列对该样本描述错误的是( )
A.据样本数据估计,该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
答案 D
解析 在给定范围内,随着年龄增加,年龄越大身高越高,故该地区青少年身高与年龄成正相关,故A正确;用样本数据估计总体可得平均数大约是145 cm,故B正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C正确;各取一人具有随机性,根据数据做出的点只能在直线附近,不一定在直线上,故D错误.
13.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得线性回归方程为=0.85x-0.25.由以上信息,可得表中c的值为________.
天数x
3
4
5
6
7
繁殖数量y(千个)
2.5
3
4
4.5
c
答案 6
解析 ==5,==,代入线性回归方程,得=0.85×5
-0.25,解得c=6.
14.(2017届广东潮州二模)当今,手机已经成为人们不可或缺的交流工具,人们常常把喜欢玩手机的人冠上了名号“低头族”,手机已经严重影响了人们的生活.一媒体为调查市民对低头族的认识,从某社区的500名市民中随机抽取n名市民,按年龄情况进行统计的频率分布表和频率分布直方图如图:
组数
分组(单位:岁)
频数
频率
1
[20,25)
5
0.05
2
[25,30)
20
0.20
3
[30,35)
a
0.35
4
[35,40)
30
b
5
[40,45]
10
0.10
合计
n
1.00
(1)求出表中a,b,n的值,并补全频率分布直方图;
(2)媒体记者为了做好调查工作,决定从所随机抽取的市民中按年龄采用分层抽样的方法抽取20名接受采访,再从抽出的这20名中年龄在[30,40)的选取2名担任主要发言人.记这2名主要发言人年龄在[35,40)的人数为ξ,求ξ的分布列及期望.
解 (1)由题意及频率分布表可知,n=5÷0.05=100,
所以a=100×0.35=35,b==0.3.
补全频率分布直方图,如图所示.
(2)设抽出的20名受访者年龄在[30,35)和[35,40)的分别有m,n名,由分层抽样可得==
,
解得m=7,n=6.
所以年龄在[30,40)的共有13名.
故ξ的可能取值为0,1,2,
P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==.
ξ的分布列为
ξ
0
1
2
P
∴E(ξ)=0×+1×+2×=.