2018届二轮复习统计与统计案例学案
第1讲 统计与统计案例
高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2015年,2016年和2017年在解答题中均有考查.
真 题 感 悟
1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.
答案 B
2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析 根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.
答案 D
3.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析 由已知得=22.5,=160,
∵回归直线方程过样本点中心(,),且=4,
∴160=4×22.5+,解得=70.
∴回归直线方程为=4x+70,当x=24时,=166.
答案 C
4.(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
[来源:Z+xx+k.Com]
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
解 (1)由频率分布直方图知,旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,则事件A的概率估计值为0.62.
(2)列联表如下:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
∴K2=≈15.705>6.635,
∴有99%的把握认为箱产量与养殖方法有关.
(3)由箱产量的频率分布直方图可知,旧养殖法的箱产量平均值(或中位数)约在45~50 kg之间,新养殖法的箱产量平均值(或中位数)约在50~55 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法分布集中程度高,可知新养殖法的箱产量高且稳定,从而新养殖法优于旧养殖法.
考 点 整 合
1.抽样方法
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).
(4)方差与标准差.
s2=[(x1-)2+(x2-)2+…+(xn-)2],
s=.
3.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
4.回归分析与独立性检验
(1)回归直线y^ =b^ x+a^ 经过样本点的中心点(,),若x取某一个值代入回归直线方程y^ =b^ x+a^ 中,可求出y的估计值.
(2)独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n
则K2=(其中n=a+b+c+d为样本容量).
热点一 抽样方法
【例1】 (1)(2015·北京卷)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
总计[来源: ]
4 300
A.90 B.100
C.180 D.300
(2)(2017·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
解析 (1)设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.
在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.
答案 (1)C (2)4
探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
【训练1】 (1)(2017·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )
A.13 B.19
C.20 D.51
(2)(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13, 7+13×2,7+13×3,即7号,20号,33号,46号.
∴样本中还有一位同学的编号为20号.
(2)因为样本容量n=60,样本总体N=200+400+300+100=1 000,所以抽取比例为==.
因此应从丙种型号的产品中抽取300×=18(件).
答案 (1)C (2)18
热点二 用样本估计总体
命题角度1 数字特征与茎叶图的应用
【例2-1】 (2017·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:
假设每名同学最近一周平均每天的锻炼时间是互相独立的.[来源: ]
①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;
②从平均值分析,男生每天锻炼的时间比女生多;
③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.
其中符合茎叶图所给数据的结论是( )
A.①②③ B.②③④
C.①②④ D.①③④
解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.
男生平均每天锻炼时间超过65分钟的概率P1==,女生平均每天锻炼时间超过65分钟的概率P2==,P1>P2,因此④正确.
设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s甲,s乙.
易求甲=65.2,乙=61.8,知甲>乙,②正确.
又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,
∴s甲
0.5.
又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.
所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
2.
在本例2-2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
【训练2】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.[来源:学&科&网Z&X&X&K]
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为
(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0. 9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
热点三 回归分析与独立性检验
【例3】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”.
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
(参考公式:K2=,其中
n=a+b+c+d)
(2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
①由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
②建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
(1)解析 分析列联表中数据,可得K2的一个观测值
k=≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”.
答案 99%
(2)解 ①由折线图中的数据和附注中参考数据得=4,
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
探究提高 1.求回归直线方程的关键及实际应用
(1)关键:正确理解计算,的公式和准确地计算.
(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.独立性检验的关键
(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
【训练3】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( )
A.95% B.5%
C.97.5% D.2.5%
(2)(2017·唐山一模)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
①若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
②用对数回归模型拟合y与x的关系,可得回归方程=12ln x+22,经计算得出线性回归模型和对数模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
(1)解析 ∵k≈3.918>3.841,且P(K2≥k0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%.
答案 B
因此=-=42-1.7×8=28.4.
所以,y关于x的线性回归方程是=1.7x+28.4.
②∵0.75<0.97,∴对数回归模型更合适.
当x=8时,=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元.
∴广告费支出8万元时,预测A超市销售额为47.2万元.
1.用样本估计总体是统计的基本思想.
用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.
2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.
3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.
在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小.
注意:频率分布直方图的纵轴刻度是,而不是频率,每个小直方图的面积才是相应区间的频率.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图
大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
一、选择题
1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
解析 抽取号码的间隔为=30,从而区间[451,750]包含的段数为-=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.
答案 C
2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析 由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.
答案 A
3.(2017·山东卷)如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y
的值分别为( )
A.3,5 B.5,5
C.3,7 D.5,7
解析 由茎叶图知甲组数据中位数为65,所以y=5,此时乙组平均值为66.=66,解得x=3.
答案 A
4.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为=x+,则大致可以判断( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
解析 作出散点图,画出回归直线直观判定>0,<0.
答案 C
5.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
48
30
认为不能缓解交通拥堵
12
20
则下列结论正确的是( )
附:K2=
P(K2≥k)
0.05
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
解析 由2×2列联表,可求K2的观测值,
k=≈5.288>3.841.
由统计表P(K2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.
答案 A
二、填空题
6.(2017·石家庄质检)为比较甲、乙两地14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号正确的是________.
解析 甲==29,
乙==30,则甲<乙,①正确.
由茎叶图知,乙地的气温相对比较集中,甲地的气温相对比较离散.
所以甲地该月的标准差大于乙地该月的标准差,④正确.
答案 ①④
7.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x(吨)与生产能耗y
(吨)的对应数据如表:
x
30
40
50
60
y
25
35
40
45
根据最小二乘法求得回归方程为=0.65x+,当产量为80吨时,预计需要生产能耗为________吨.
解析 由题意,=45,=36.25,代入=0.65x+,得=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59.
答案 59
8.(2016·山东卷改编)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.
解析 设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.
答案 140
三、解答题
9.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为=0.6.
所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,
若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;
若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;
若最高气温不低于25,则Y=450×(6-4)=900,
所以,利润Y的所有可能值为-100,300,900.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8.
因此Y大于零的概率的估计值为0.8.
10.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.
(1)根据女性频率分布直方图估计女性使用微信的平均时间;
(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”
与“性别有关”?
解 (1)女性平均使用微信的时间为:
0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).
(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.
由题设条件得列联表
微信控
非微信控
总计
男性
38
12
50
女性
30
20
50
总计
68
32
100
∴K2=
=≈2.941>2.706.
所以有90%的把握认为“微信控”与“性别”有关.
11.(2017·全国Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尽寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r
|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
解 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外.
因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为
(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
≈16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.