【数学】2019届一轮复习人教A版统计与统计案例、随机变量分布列学案
教材复习课“统计、统计案例、随机变量分布列”相关基础知识一课过
三种抽样方法
[过双基]
三种抽样方法
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等
从总体中逐个抽取
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则,在各部分抽取
在起始部分抽样时,采用简单随机抽样
总体中的个数比较多
分层抽样
将总体分成几层,分层进行抽取
各层抽样时,采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2
b>c B.b>c>a
C.c>a>b D.c>b>a
解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a<15,b=15,c=17,c>b>a.
4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:
学生
1号
2号
3号
4号
5号
甲班
6
7
7
8
7
乙班
6
7
6
7
9
若以上两组数据的方差中较小的一个为s2,则s2=________.
解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s2=(1+0+0+1+0)=.
答案:
变量间的相关关系、统计案例
[过双基]
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=, =-.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2=(其中n=a+b+c+d为样本容量).
1.如图是根据x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,可以判断变量x,y具有线性相关关系的图是( )
A.①② B.①④
C.②③ D.③④
解析:选D 若变量x,y具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.
2.已知变量x,y取值如表所示:
x
0
1
4
5
6
y
1.3
m
3m
5.6
7.4
画散点图分析可知:y与x线性相关,且求得回归方程为=x+1,则m的值(精确到0.1)为( )
A.1.5 B.1.6
C.1.7 D.1.8
解析:选C 由题意知,=3.2代入回归方程=x+1可得=4.2,则4m=4.2×5-(1.3+5.6+7.4)=6.7,解得m=1.675,则精确到0.1后m的值为1.7.
3.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理
文
男
13
10
女
7
20
已知P( 2≥3.841)≈0.05,P( 2≥5.024)≈0.025.
根据表中数据,得到 2的观测值 =≈4.844.则认为选修文 与性别有关系出错的可能性为________.
解析: 2的观测值 ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文 与性别之间有关系”成立,并且这种判断出错的可能性约为5 .
答案:5
[清易错]
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上.
设某大学的女生体重y(单位: g)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 g
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 g
解析:选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 g,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 g,而不是具体值,因此D不正确.
一、选择题
1.(2018·邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=( )
A.660 B.720
C.780 D.800
解析:选B 由已知条件,抽样比为=,
从而=,解得n=720.
2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能为( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
解析:选A 依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A、B,知A正确.
3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
4.根据如下样本数据:
x
2
3
4
5
6
7
y
4.1
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D. <0,<0
解析:选B 根据样本数据画出散点图(图略),可知<0,>0.
5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )
A.84,4.84 B.84,1.6
C.85,1.6 D.85,4
解析:选C 依题意,所剩数据的平均数是80+×(4×3+6+7)=85,所剩数据的方差是×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.
6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 m/h的汽车的辆数为( )
A.56 B.61
C.70 D.77
解析:选D 由图知,时速超过50 m/h的汽车的频率为(0.039+0.028+0.010)×10=0.77,
所以时速超过50 m/h的汽车的辆数为100×0.77=77.
7.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由 2=,
得 2=≈9.616.
参照下表,
P( 2≥ 0)
0.050
0.010
0.001
0
3.841
6.635
10.828
下列说法中,正确的结论是( )
A.在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”
C.有99 以上的把握认为“生育意愿与城市级别有关”
D.有99 以上的把握认为“生育意愿与城市级别无关”
解析:选C ∵ 2≈9.616>6.635,∴有99 以上的把握认为“生育意愿与城市级别有关”.
8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( )
A.甲<乙,m甲>m乙 B.甲<乙,m甲乙,m甲>m乙 D. 甲>乙,m甲m乙,故选A.
二、填空题
9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.
解析:间隔数 ==16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.
答案:7
10.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):
零件数x/个
10
20
30
40
50
加工时间y/分钟
62
68
75
81
89
由最小二乘法求得回归直线方程=0.67x+,则的值为________.
解析:∵=×(10+20+30+40+50)=30,
=×(62+68+75+81+89)=75,
回归直线方程=0.67x+过样本中心点(,),
∴=75-0.67×30=54.9.
答案:54.9
11.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶
4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.
解析:由题意可知,乙类产品抽取的件数为
60×=20.
答案:20
12.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得 2≈3.918,经查临界值表知P( 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95 的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,那么他在一年中有95 的可能性得感冒;
③这种血清预防感冒的有效率为95 ;
④这种血清预防感冒的有效率为5 .
解析: 2≈3.918≥3.841,而P( 2≥3.814)≈0.05,所以有95 的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
答案:①
三、解答题
13.某地区2011年至2017年农村居民家庭人均纯收入y(单位:千元)的数据如表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代号x
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于x的线性回归方程;
(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:=,=-(其中,为样本平均值).
解:(1)由题意,得=×(1+2+3+4+5+6+7)=4,
=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(xi-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×
1.6=14,
(xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,
所以==0.5,
=-=4.3-0.5×4=2.3,
所以y关于x的线性回归方程为=0.5x+2.3.
(2)因为=0.5>0,
所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,
因为2019的年份代号是x=9,所以代入(1)中的回归方程,可得=0.5×9+2.3=6.8,
所以预测该地区2019年农村居民家庭人均纯收入为
6.8千元.
14.(2018·唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.
(1)求m的值及中位数n;
(2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?
解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,
则m×(0.02+0.02+0.06)=20,解得m=200.
由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.
(2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为pi和xi,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由xi=200×pi,可得
x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,
故该校学生测试平均成绩是
=×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,
所以学校应该适当增加体育活动时间.
高考研究课(一) 随机抽样
[全国卷5年命题分析]
考点
考查频度
考查角度
系统抽样
未考查
分层抽样
5年1考
抽样方法的选择
系统抽样
[典例] 将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为( )
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9
[解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第 ( ∈N*)组抽中的号码是3+12( -1).令3+12( -1)≤300,得 ≤,因此A营区被抽中的人数是25;令300<3+12( -1)≤495,得< ≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.
[答案] B
[方法技巧]
解决系统抽样问题的2个关键步骤
(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.
(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.
[即时演练]
1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数
=20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是( )
A.117 B.157
C.417 D.367
解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.
2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.
解析:由题意,把40名职工分成5组,故组距为=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.
答案:2,10,18,26,34
分层抽样
分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.
这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:
(1)与频率分布直方图相结合问题;
(2)与概率相结合问题.
角度一:与频率分布直方图相结合问题
1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a=________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.
解析:由题意知,(0.020+0.035+a+0.010+0.005)×10=1,解得a=0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×=4.
答案:0.030 4
2.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.
(1)求频率分布直方图中m的值;
(2)求这40名学生中不及格的学生人数;
(3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.
解:(1)由题中频率分布直方图知,组距为20,
由×20=1,解得m=0.005.
(2)这40名学生中不及格的学生人数为
×0.005×20×40=10.
(3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为×5=2,×5=3,记成绩在[50,70)内的2人分别为A1,A2,成绩在[70,90)内的3人分别为B1,B2,B3,“2人的成绩均在[70,90)内”为事件A,则从这5人中任选2人的基本事件有(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),共10个.
其中这2人的成绩都在[70,90)内的基本事件有(B1,B2),(B1,B3),(B2,B3),共3个.
故所求概率P(A)=.
角度二 与概率相结合问题
3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了 上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:
态度
年龄
支持
保留
不支持
20岁以下
800
450
200
20岁以上(含20岁)
100
150
300
(1)在所有参与调查的人中,用分层抽样的方法抽取n个人,已知从持“支持”态度的人中抽取了45人,求n的值;
(2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.
解:(1)由题意得
=,
解得n=100.
(2)设所抽取的人中,有m人年龄在20岁以下,
则=,解得m=2.
即20岁以下抽取了2人,分别记为A1,A2;20岁以上(含20岁)抽取了3人,分别记为B1,B2,B3,
则从中任取2人的所有基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(A1,A2),(B1,B2),(B2,B3),(B1,B3),共10个.
其中至少有1人年龄在20岁以下的基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(A1,A2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为.
[方法技巧]
进行分层抽样的相关计算时,常用到的2个关系
(1)=;
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( )
A.简单随机抽样 B.按性别分层抽样
C.按学段分层抽样 D.系统抽样
解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.
2.(2015·北京高考)
某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100
C.180 D.300
解析:选C 设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )
A.3 B.4
C.5 D.6
解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.
4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.
解析:设男生抽取x人,则有=,
解得x=25.
答案:25
一、选择题
1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A.16 B.17
C.18 D.19
解析:选C 设第一组抽取的号码为x,根据题意可得抽样间隔为=25,则x+25×(18-1)=443,解得x=18.
2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是( )
A.分层抽样法,系统抽样法
B.分层抽样法,简单随机抽样法
C.系统抽样法,分层抽样法
D.简单随机抽样法,分层抽样法
解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.
3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( )
A.2 B.4
C.5 D.6
解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为×16=4.
4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为( )
A.40 B.60
C.80 D.100
解析:选D ∵高一、高二、高三的学生人数之比为2∶3∶5,
∴若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为×200=100.
5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
解析:选C 由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30 +9( =0,1,…,31).由451≤30 +9≤750,解得≤ ≤,又 ∈N,故 =15,16,…,24,共10人.
6.一个总体中有600个个体,随机编号为001,002,…,600,利用系统抽样方法抽取容量为24的一个样本,总体分组后在第一组随机抽得的编号为006,则在编号为051~125之间抽得的编号为( )
A.056,080,104 B.054,078,102
C.054,079,104 D.056,081,106
解析:选D 依题意可知,在随机抽样中,首次抽到006号,以后每隔=25个号抽到一个人, 则构成以6为首项,25为公差的等差数列,即所抽取的编号依次为006,031,056,081,106,131……,故编号为051~125之间抽得的编号为056,081,106.
故在编号为051 ~125之间抽到的编号为056,081,106.
7.我国古代数学名著《九章算术》有“米谷粒分”题:发仓募粮,所募粒中秕不百三则收之(不超过3 ),现抽样取米一把,取得235粒米中夹秕n粒,若这批米合格,则n不超过( )
A.6粒 B.7粒
C.8粒 D.9粒
解析:选B 由题意得,≤3 ,
解得n≤7.05,
所以若这批米合格,则n不超过7粒.
8.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为( )
A.800双 B.1 000双
C.1 200双 D.1 500双
解析:选C 因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.
二、填空题
9.某中学高一(8)班共有学生56人,编号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知6,20,48号的同学已在样本中,那么还有一个同学的编号为________.
解析:56人中抽取样本容量为4的样本,则样本组距为56÷4=14,
则6+14×2=34,
故另外一个同学的编号为34.
答案:34
10.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
解析:应从丙种型号的产品中抽取
60×=18(件).
答案:18
11.一个总体中有90个个体,随机编号0,1,2,…,89依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m,那么在第 组中抽取的号码个位数字与m+ 的个位数字相同,若m=8,则在第8组中抽取的号码是________.
解析:由题意知,m=8, =8,则m+ =16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.
答案:76
12.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.
解析:第一分厂应抽取的件数为100×50 =50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.
答案:50 1 015
三、解答题
13.某校高中三年级的295名学生已经编号为1,2,3,…,295,为了了解学生的学习情况,要按1∶5的比例抽取一个样本,用系统抽样的方法进行抽取,请写出抽样过程.
解:按1∶5的比例抽样.
295÷5=59.
第一步,把295名同学分成59组,每组5人.第一组是编号为1~5的5名学生,第二组是编号为6~10的5名学生,依次类推,第59组是编号为291~295的5名学生.
第二步,采用简单随机抽样,从第一组5名学生中随机抽取1名,不妨设其编号为 (1≤ ≤5).
第三步,从以后各段中依次抽取编号为 +5i(i=1,2,3,…,58)的学生,再加上从第一段中抽取的编号为 的学生,得到一个容量为59的样本.
14.重庆因夏长酷热多伏旱而得名“火炉”,八月是重庆最热、用电量最高的月份.下图是沙坪坝区居民八月份用电量(单位:度)的频率分布直方图,其分组区间依次为:[180,200),[200,220),[220,240),[240,260),[260,280),[280,300),[300,320].
(1)求频率分布直方图中的x;
(2)根据频率分布直方图估计八月份用电量的众数和中位数;
(3)在用电量为[240,260),[260,280),[280,300),[300,320]的四组用户中,用分层抽样的方法抽取11户居民,则用电量在[240,260)的用户应抽取多少户?
解:(1)20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.
(2)由于第四组[240,260)的频率最大,故众数为=250.
第一组频率为0.04,第二组频率为0.19,第三组频率为0.22,第四组频率为0.25,所以中位数在第四组[240,260),故中位数为240+20×=244.
(3)因为[240,260),[260,280),[280,300),[300,320]四组的频率之比为0.25∶0.15∶0.1∶0.05=5∶3∶2∶1,
所以用电量在[240,260)的用户应抽取11×=5户.
1.已知某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取20 的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A.100,8 B.80,20
C.100,20 D.80,8
解析:选A 由图1可知,抽取20 的户主,可得样本容量为100,第四居室抽取了100×20 =20人,由满意率可得,抽取的户主对四居室满意的人数为20×40 =8.
2.我国古代数学算经十书之一的《九章算术》有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( )
A.104人 B.108人
C.112人 D.120人
解析:选B 由题意知,抽样比为
=,
所以北乡遣×8 100=108(人).
高考研究课(二) 样本估计总体
[全国卷5年命题分析]
考点
考查频度
考查角度
频率分布直方图
5年3考
用频率估计概率、由直方图求方差、特征值
茎叶图
5年1考
茎叶图绘制、特征值估计
图表
5年3考
柱状图、由图表数据分析
茎叶图
[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的
产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5
C.3,7 D.5,7
[解析] 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,
所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3.
[答案] A
[方法技巧]
使用茎叶图时的2个注意点
(1)观察所有的样本数据,弄清图中数字的特点,注意不要漏掉数据.
(2)注意易混淆茎叶图中茎与叶的含义.
[即时演练]
1.如图所示的茎叶图是甲、乙两位同学在期末考试中的六 成绩,已知甲同学的平均成绩为85,乙同学的六 成绩的众数为84,则x,y的值为( )
A.2,4 B.4,4
C.5,6 D.6,4
解析:选D 甲==85,解得x=6,由茎叶图可知y=4.
2.为从甲、乙两人中选一人参加数学竞赛,老师将二人最近6次数学测试的分数进行统计,甲、乙两人的平均成绩分别是甲,乙,则下列说法正确的是( )
A.甲>乙,乙比甲成绩稳定,应选乙参加比赛
B.甲>乙,甲比乙成绩稳定,应选甲参加比赛
C.甲<乙,甲比乙成绩稳定,应选甲参加比赛
D.甲<乙,乙比甲成绩稳定,应选乙参加比赛
解析:选D 由茎叶图知
甲==82.
乙=≈87.33.
所以甲<乙,
又由乙的茎集中在8,而甲较分散,即乙比甲成绩稳定.
频率分布直方图
[典例] (2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
[解] (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4.
(2)根据题意,样本中分数不小于50的频率为
(0.01+0.02+0.04+0.02)×10=0.9,
故样本中分数小于50的频率为0.1,
故分数在区间[40,50)内的人数为100×0.1-5=5.
所以总体中分数在区间[40,50)内的人数估计为
400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,
女生人数为100-60=40,
男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
[方法技巧]
1.绘制频率分布直方图时的2个注意点
(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;
(2)频率分布直方图的纵坐标是,而不是频率.
2.与频率分布直方图有关的2个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[即时演练]
1.(2018·西安一检)某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值等于( )
A.0.12 B.0.012
C.0.18 D.0.018
解析:选D 依题意,0.054×10+10×x+0.01×10+0.006×10×3=1,解得 x=0.018.
2.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
解:(1)由频率分布直方图可知,月均用水量在[0,0.5)内的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=2a×0.5,
解得a=0.30.
(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)设中位数为x吨.
因为前5组的频率之和为
0.04+0.08+0.15+0.21+0.25=0.73>0.5,
而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,
解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
样本的数字特征
[典例] 对划艇运动员甲、乙二人在相同的条件下进行了6次测试,测得他们最大速度的数据如下:
甲:27,38,30,37,35,31;
乙:33,29,38,34,28,36.
根据以上数据,试判断他们谁更优秀.
[解] 甲=(27+38+30+37+35+31)=33,
乙=(33+29+38+34+28+36)=33,
s=[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=×94=15,
s=[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=×76=12.
∴甲=乙,s>s.
由此可以说明,甲、乙二人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.
[方法技巧]
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[即时演练]
1.设样本数据x1,x2,…,x20的均值和方差分别为1和8,若y=2x+3,则y1,y2,…,y20的均值和方差分别是( )
A.5,32 B.5,19
C.1,32 D.4,35
解析:选A ∵yi=2xi+3,
∴=2+3=2×1+3=5,
方差s2=22×8=32.
2.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
解:(1)设A药观测数据的平均数为,B药观测数据的平均数为.
由观测结果可得
=×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,
=×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.
由以上计算结果可得>,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.
1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位: g)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
解析:选B 标准差能反映一组数据的稳定程度.故选B.
2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析:选A 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.
3.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;平均最高气温高于20 ℃的月份只有2个,D错误.
4.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析:
选D 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.
5.(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
解:(1)当x≤19时,y=3 800;
当x>19时,y=3 800+500(x-19)=500x-5 700,
所以y与x的函数解析式为
y=(x∈N).
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800(元),20台的费用为4 300(元),10台的费用为4 800(元),因此这100台机器在购买易损零件上所需费用的平均数为(3 800×70+4 300×20+4 800×10)=4 000(元).
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000(元),10台的费用为4 500(元),因此这100台机器在购买易损零件上所需费用的平均数为(4 000×90+4 500×10)=4 050(元).比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
一、选择题
1.(2018·内江模拟)某公司10个销售店某月销售某产品数量(单位:台)的茎叶图如下:
分组成[11,20),[20,30),[30,39]时,所作的频率分布直方图是( )
解析:选B 由直方图的纵坐标是频率/组距,排除C和D;又第一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.
2.一个公司有8名员工,其中6名员工的月工资分别为5 200,5 300,5 500,6 100,6 500,6 600,另两名员工数据不清楚,那么8名员工月工资的中位数不可能是( )
A.5 800 B.6 000
C.6 200 D.6 400
解析:选D 由题意,把8名员工的工资由小到大排列,中位数为中间两数的平均值,若另两名员工的工资都低于5 200时,则中位数为=5 400,若另两名员工的工资都高于6 600时,则中位数为=6 300.
∴8名员工工资的中位数的取值范围为[5 400,6 300],
故员工工资的中位数不可能为6 400.
3.(2018·长沙模拟)如图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
解析:选D 由图可知深圳对应的小黑点最接近0 ,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0 以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
4.某校对高三年级的学生进行体检,现将高三男生的体重( g)数据进行整理后分成五组,并绘制频率分布直方图(如图所示).根据一般标准,高三男生的体重超过65 g属于偏胖,低于55 g属于偏瘦.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.2,0.1,0.05,第二小组的频数为400,则估计该校高三年级的男生总数和体重正常的频率分别为( )
A.1 000,0.5 B.800,0.5
C.800,0.6 D.1 000,0.6
解析:选D 由已知得,第二小组的频率为1-0.25-0.2-0.1-0.05=0.4,所以该校高三年级的男生总数是=1 000,体重正常的频率为0.4+0.2=0.6.
5.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为me,平均值为,众数为m0,则( )
A.me=m0= B.me=m0<
C.me<m0< D.m0<me<
解析:选D 由图可知m0=5.
由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,
所以me==5.5.
=(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈5.97>5.5,
所以m0<me<,故选D.
6.(2018·山西大学附中诊断测试)已知样本(x1,x2,…,xn)的平均数为,样本(y1,y2,…,ym)的平均数为(≠),若样本(x1,x2,…,xn,y1,y2,…,ym)的平均数=a+(1-a),其中0<a<,则n,m的大小关系为( )
A.n<m B.n>m
C.n=m D.不能确定
解析:选A 由题意可得=,
=,
=
=·+·
=·+·=a+(1-a),
所以=a,=1-a,
又0<a<,
所以0<<<,
故n<m.
二、填空题
7.如图是甲、乙两名篮球运动员在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员的得分的方差为________.
解析:根据茎叶图中的数据知乙的得分波动性小,较为稳定(方差较小),
乙的平均数为=×(8+9+10+13+15)=11.
则乙得分的方差为
s2=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]= .
答案:
8.学校为了解学生的上学的距离,随机抽取50名学生,调查他们的居住地与学校的距离d(单位: m).若样本数据分组为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],由数据绘制的频率分布直方图如图所示,则样本中学生与学校的距离不超过4 m的人数为________.
解析:由图知,样本中学生与学校的距离不超过4 m的频率为0.1×2+0.14×2=0.48,则样本中学生与学校的距离不超过4 m的人数为50×0.48=24.
答案:24
9.(2018·安徽名校模拟)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数是________,中位数是________.
解析:设等差数列{an}的公差为d(d≠0),因为a3=8,a1a7=(a3)2=64,所以(8-2d)(8+4d)=64,(4-d)(2+d)=8,2d-d2=0,又d≠0,所以d=2,故样本数据为4,6,8,10,12,14,16,18,20,22,平均数为==13,中位数为=13.
答案:13 13
三、解答题
10.(2018·南昌一模)
某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:
(1)求分数在[50,60]的频率及全班人数;
(2)求分数在[80,90]的频数,并计算频率分布直方图中[80,90]间的矩形的高.
解:(1)分数在[50,60]的频率为0.008×10=0.08.
由茎叶图知,分数在[50,60]之间的频数为2,
所以全班人数为=25.
(2)分数在[80,90]的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为÷10=0.016.
11.某市为了了解今年高中毕业生的体能状况,从本市某高中毕业班中抽取了一个班进行铅球测试,成绩在8.0 m(精确到0.1 m)以上的为合格,把所得数据进行整理后,分成6组画出条形图(如图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第6小组的频数是7.
(1)求这次铅球测试成绩合格的人数;
(2)若从第1小组和第2小组中随机抽取两个人的测试成绩,则两个人的测试成绩来自同一个组的概率为多少?
解:(1)第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,
则此次测试总人数为=50,
又第4,5,6组成绩均合格,
所以合格的人数为50×(0.28+0.30+0.14)=36.
(2)由(1)易得第1小组含2个样本,第2小组含5个样本,将第1小组的学生成绩编号为a1,a2,将第2小组的学生成绩编号为b1,b2,b3,b4,b5,从第1,2小组中随机取两个人的测试成绩的所有基本事件共有21个:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a1,
b5),(a2,b1),(a2,b2),(a2,b3),(a2,b4),(a2,b5),(b1,b2),(b1,b3),(b1,b4),(b1,b5),(b2,b3),(b2,b4),(b2,b5),(b3,b4),(b3,b5),(b4,b5),而且这些基本事件是等可能出现的.
用A表示“两个人的测试成绩来自同一组”这一事件,
则A包含的基本事件有11个,所以P(A)=.
12.某城市为满足市民的出行需要和节能环保的要求,在公共场所提供单车共享服务,某部门为了对共享单车进行更好的监管,随机抽取了20位市民对共享单车的情况进行了问卷调查,并根据其满足度评分值制作了茎叶图如下:
(1)分别计算男性打分的中位数和女性打分的平均数;
(2)从打分在80分以下(不含80分)的市民中抽取3人,求有女性被抽中的概率.
解:(1)由茎叶图可知,
男性打分的中位数为=81.
女性打分的平均数为
(77+78+80+83+85+88+89+92+97+99)=86.8.
(2)由茎叶图可知,80分以下的市民共有6人,其中男性4人,记作A,B,C,D,女性2人,记作a,b,
从6人中抽取3人所构成的基本事件空间为:
{ABC,ABD,ABa,ABb,ACD,ACa,ACb,ADa,ADb,Aab,BCD,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,Dab},共20个基本事件,
其中“有女性被抽中”包含的基本事件有:
{ABa,ABb,ACa,ACb,ADa,ADb,Aab,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,Dab}, 共16个基本事件,
所以从打分在80分以下(不含80分)的市民中抽取3人,有女性被抽中的概率P==.
某校对高三年级的学生进行体检,现将高三男生的体重(单位:
g)数据进行整理后分成六组,并绘制频率分布直方图(如图).已知图中从左到右第一、第六小组的频率分别为0.16,0.07,第一、第二、第三小组的频率成等比数列,第三、第四、第五、第六小组的频率成等差数列,且第三小组的频数为100,则该校高三年级的男生总数为________人.
解析:设第三小组的频率为x,等比数列的公比为q,等差数列的公差为d,
则
解得q=1.25,x=0.25,
因为第三小组的人数为100,
所以该校高三年级的男生总数为=400人.
答案:400
高考研究课(三) 变量间的相关关系、统计案例
[全国卷5年命题分析]
考点
考查频度
考查角度
回归分析
5年4考
求回归方程及其应用
统计案例
5年2考
独立性检验的应用问题
相关关系的判断
[典例] (1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
(2)已知变量x和y满足关系y=-0.1x+1,变量y与 正相关.下列结论中正确的是( )
A.x与y正相关,x与 负相关
B.x与y正相关,x与 正相关
C.x与y负相关,x与 负相关
D.x与y负相关,x与 正相关
[解析] (1)由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.
(2)因为y=-0.1x+1的斜率小于0,故x与y负相关.
因为y与 正相关,可设 =y+,>0,
则 =y+=-0.1x++,
故x与 负相关.
[答案] (1)A (2)C
[方法技巧]
相关关系的判断的2种方法
(1)散点图法.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.
[即时演练]
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
解析:选D 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
2.(2018·湖北七市联考)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两 成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,b的值为1.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系较弱,无研究价值
解析:选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
线性回归分析
[典例] 如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
x
3
4
5
6
y
2.5
3
4
4.5
参考公式:=,=-.
(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(2)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
[解] (1)∵=×(3+4+5+6)=4.5,
=×(2.5+3+4+4.5)=3.5,
=32+42+52+62=86,
iyi=3×2.5+4×3+5×4+6×4.5=66.5,
∴==0.7,
∴=- =3.5-0.7×4.5=0.35,
∴所求线性回归方程为=0.7x+0.35.
(2)当x=100时,
=0.7×100+0.35=70.35,
∴90-70.35=19.65(吨),
故预测生产100吨甲产品的生产能耗比技术改造前降低了19.65吨标准煤.
[方法技巧]
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程y=x+必过样本点中心(,).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
[即时演练]
1.已知两组数据x,y的对应值如下表,若已知x,y线性相关且线性回归方程为=x+,经计算知:=-1.4,则=( )
x
4
5
6
7
8
y
12
10
9
8
6
A.-0.6 B.0.6
C.-17.4 D.17.4
解析:选D ==6,==9.
线性回归方程为=x+,必经过点(,),即9=-1.4×6+,解得=17.4.
2.在某化学反应的中间阶段,压力保持不变,温度从1°变化到5°,反应结果如下表所示(x代表温度,y代表结果):
x
1
2
3
4
5
y
3
5
7
10
11
(1)求化学反应的结果y对温度x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关,并预测当温度达到10°时反应结果为多少?
附:线性回归方程=x+中,=,
=-.
解:(1)由题意知,=(1+2+3+4+5)=3,
=(3+5+7+10+11)=7.2,
且=12+22+32+42+52=55,
iyi=3×1+2×5+3×7+4×10+5×11=129,
∴===2.1,
=-=7.2-2.1×3=0.9,
故所求的回归方程为=2.1x+0.9.
(2)由于变量y的值随温度x的值增加而增加(=2.1>0),故x与y之间是正相关.
当x=10时,=2.1×10+0.9=21.9.
独立性检验
[典例] 某学校为了解本校学生的身体素质情况,决定在全校的1 000名男生和800名女生中按分层抽样的方法抽取45名学生对他们课余参加体育锻炼时间进行问卷调查,将学生课余参加体育锻炼时间的情况分三类:A类(课余参加体育锻炼且平均每周参加体育锻炼的时间超过3小时),B类(课余参加体育锻炼但平均每周参加体育锻炼的时间不超过3小时),C类(课余不参加体育锻炼),调查结果如表:
A类
B类
C类
男生
18
x
3
女生
8
10
y
(1)求出表中x,y的值;
(2)根据表格统计数据,完成下面的列联表,并判断能否在犯错误的概率不超过0.05的前提下认为课余参加体育锻炼且平均每周参加体育锻炼的时间超过3小时与性别有关.
男生
女生
总计
A类
B类和C类
总计
(3)在抽取的样本中,从课余不参加体育锻炼学生中随机选取三人进一步了解情况,求选取三人中男女都有且男生比女生多的概率.
附: 2=,其中n=a+b+c+d.
P( 2≥ 0)
0.10
0.05
0.01
0
2.706
3.841
6.635
[解] (1)由题意,=,21+x+18+y=45,
∴x=4,y=2.
(2)2×2列联表如下所示:
男生
女生
总计
A类
18
8
26
B类和C类
7
12
19
总计
25
20
45
∴ 2=≈4.664 0>3.841,
∴能在犯错误的概率不超过0.05的前提下认为课余参加体育锻炼且平均每周参加体育锻炼的时间超过3小时与性别有关.
(3)在抽取的样本中,从课余不参加体育锻炼的学生中随机选取3人进一步了解情况,有C=10种情况,选取三人中男女都有且男生比女生多,有CC=6种情况,故所求概率为=0.6.
[方法技巧]
解独立性检验的应用问题的关注点
(1)两个明确
①明确两类主体;②明确研究的两个问题.
(2)两个关键
①准确画出2×2列联表;②准确计算 2.
[提醒] 准确计算 2的值是正确判断的前提.
[即时演练]
已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90 的把握认为“本次测试的及格情况与性别有关”?
附:
P( 2≥ 0)
0.10
0.05
0.010
0.005
0
2.706
3.841
6.635
7.879
2=
解:(1)依题意得
解得b=0.01.
因为成绩在[90,100]内的有6人,所以n==60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.
于是本次测试的及格情况与性别的2×2列联表如下:
及格
不及格
总计
男
22
8
30
女
26
4
30
总计
48
12
60
结合列联表计算可得 2==1.667<2.706,故没有90 的把握认为“本次测试的及格情况与性别有关”.
1.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位: g),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 g,新养殖法的箱产量不低于50 g”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关:
箱产量<50 g
箱产量≥50 g
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P( 2≥ 0)
0.050
0.010
0.001
0
3.841
6.635
10.828
2=.
解:(1)记B表示事件“旧养殖法的箱产量低于50 g”,C表示事件“新养殖法的箱产量不低于50 g”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 g的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 g的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)由(1)知可得列联表:
箱产量<50 g
箱产量≥50 g
旧养殖法
62
38
新养殖法
34
66
由表中数据及 2的计算公式得,
2=≈15.705.
由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 g的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 g的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35( g).
2.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
解:(1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润 (单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x
的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润 与x,y的关系为 =0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润 的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润 的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
一、选择题
1.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,y就( )
x
3
4
5
6
7
y
4
2.5
-0.5
0.5
-2
A.增加0.9个单位 B.减少0.9个单位
C.增加1个单位 D.减少1个单位
解析:选B 由题意可得=(3+4+5+6+7)=5,
=(4+2.5-0.5+0.5-2)=0.9,
∵回归方程为=x+,=5.4,且回归直线过点(5,0.9),
∴0.9=5+5.4,解得=-0.9,
∴x每增加1个单位,y就减少0.9个单位 .
2.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,a′ D.a′.故选C.
3.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析:选C 由题意可知=4x+,
又=22.5,=160,
因此160=22.5×4+,解得=70,
所以=4x+70.
当x=24时,=4×24+70=166.
4.为了解高中生对电视台某节目的态度,在某中学随机调查了110名学生,得到如下列联表:
男
女
总计
喜欢
40
20
60
不喜欢
20
30
50
总计
60
50
110
由 2=,
得 2=≈7.822.
附表:
P( 2≥ 0)
0.05
0.01
0.001
0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1 的前提下,认为“喜欢该节目与性别有关”
B.在犯错误的概率不超过0.1 的前提下,认为“喜欢该节目与性别无关”
C.有99 以上的把握认为“喜欢该节目与性别有关”
D.有99 以上的把握认为“喜欢该节目与性别无关”
解析:选C 根据 2的值,对照附表可得P( 2≥ 0)≈0.01,所以有99 以上的把握认为“喜欢该节目与性别有关”.
5.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66 B.67
C.79 D.84
解析:选D ∵y与x具有线性相关关系,满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84 .
6.某研究机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x
4
6
8
10
识图能力y
3
5
6
8
由表中数据,求得线性回归方程为=x+,若某儿童的记忆能力为12,则他的识图能力为( )
A.7 B.9.5
C.10 D.12
解析:选B 由表中数据得==7,==,由(,)在直线=x+上,得=-,即线性回归方程为=x-.当x=12时,=×12-=9.5,即他的识图能力为9.5.
二、填空题
7.(2018·阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
12
8
20
不喜欢玩电脑游戏
2
8
10
总计
14
16
30
该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.
解析:计算得 2的观测值 =≈4.286>3.841,则推断犯错误的概率不超过0.05.
答案:0.05
8.某品牌牛奶的广告费用x与销售额的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为7万元时销售额为________万元.
解析:因为==,
==42,
由题意可得回归方程为=9.4x+,
因为回归直线一定经过样本点中心(,)
所以42=9.4×+,解得=9.1,
所以回归方程为=9.4x+9.1,
当x=7时,销售额为y=9.4×7+9.1=74.9(万元).
答案:74.9
9.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程和相关系数r,分别得到以下四个结论:
①y=2.347x-6.423,且r=-0.928 4;
②y=-3.476x+5.648,且r=-0.953 3;
③y=5.437x+8.493,且r=0.983 0;
④y=-4.326x-4.578,且r=0.899 7.
其中不正确的结论的序号是________.
解析:对于①,y=2.347x-6.423,且r=-0.928 4,
线性回归方程符合正相关的特征,r>0,∴①错误;
对于②,y=-3.476x+5.648,且r=-0.953 3,
线性回归方程符合负相关的特征,r<0,∴②正确;
对于③,y=5.437x+8.493,且r=0.983 0,
线性回归方程符合正相关的特征,r>0,∴③正确;
对于④,y=-4.326x-4.578,且r=0.899 7,
线性回归方程符合负相关的特征,r<0,④错误.
综上,①④错误.
答案:①④
三、解答题
10.(2018·惠州调研)在某校举行的航天知识竞赛中,参与竞赛的文 生与理 生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理 用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.
(1)求a的值,并计算所抽取样本的平均值(同一组中的数据用该组区间的中点值作代表);
(2)填写下面的2×2列联表,并判断在犯错误的概率不超过0.05的前提下能否认为“获奖与学生的文、理 有关”.
文 生
理 生
总计
获奖
5
不获奖
总计
200
附表及公式:
P( 2≥ 0)
0.10
0.05
0.025
0.010
0.005
0.001
0
2.706
3.841
5.024
6.635
7.879
10.828
2=.
解:(1)a=×[1-(0.01+0.015+0.03+0.015+0.005)×10]=0.025,
=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.
(2)由频率分布直方图知样本中获奖的人数为40,不获奖的人数为160,2×2列联表如下:
文 生
理 生
总计
获奖
5
35
40
不获奖
45
115
160
总计
50
150
200
因为 2=≈4.167>3.841,
所以在犯错误的概率不超过0.05的前提下能认为“获奖与学生的文、理 有关”.
11.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.
表1:无酒状态
停车距离d(米)
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
频数
26
m
n
8
2
表2:酒后状态
平均每毫升血液酒精含量x(毫克)
10
30
50
70
90
平均停车距离y(米)
30
50
60
70
90
已知表1数据的中位数估计值为26,回答以下问题.
(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数;
(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+;
(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?
(附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为==,=-)
解:(1)依题意,得m=50-26,解得m=40,
又m+n+36=100,解得n=24.
故停车距离的平均数为
15×+25×+35×+45×+55×=27.
(2)依题意,可知=50,=60,
iyi=10×30+30×50+50×60+70×70+90×90=17 800,
=102+302+502+702+902=16 500,
所以==0.7,
=60-0.7×50=25,
所以回归直线方程为=0.7x+25.
(3)由(1)知当y>81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.
某公司为了准确把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表所示:
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;
(3)建立y关于x的回归方程,预测第5年的销售量约为多少?
参考数据: ≈32.66,≈2.24,
iyi=418.
参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘法估计公式分别为
==,=-.
解:(1)作出散点图如图所示.
(2)由(1)的散点图可知,各点大致分布在一条直线附近,由题中所给数据及参考数据得:
=,=,=30, ≈32.66,
(xi-)(yi-)=iyi-i=418-×138=73,
= = =≈2.24,
∴r==≈0.997 8.
∵y与x的相关系数近似为0.997 8,说明y与x的线性相关程度相当大,
∴可以用线性回归模型拟合y与x的关系.
(3)由(2)知,iyi-4 =73,-42=5,
∴=,=- =-×=-2,
故y关于x的回归直线方程为=x-2.
当x=5时,=×5-2=71,
∴第5年的销售量约为71万件.