高三数学(文数)总复习练习专题十五 统计与统计案例
1.(2015·湖南,2,易)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )
A.3 B.4 C.5 D.6
【答案】 B 由系统抽样可知,35人分为7组,每组5人,第1组成绩均大于151,最后两组成绩均小于139,所以成绩在[139,151]上的有4人.
2.(2015·湖北,2,易)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( )
A.134石 B.169石 C.338石 D.1 365石
【答案】 B 由样本估计总体可得:米内夹谷约为1 534×≈169(石).
3.(2015·课标Ⅱ,3,易)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
【答案】 D 由图知A,B,C正确;而自2006年以来二氧化硫排放量与年份负相关,所以D错误.
4.(2015·山东,6,中)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④ C.②③ D.②④
【答案】 B 由茎叶图可知,甲地的气温依次是26,28,29,31,31,乙地的气温依次是28,29,30,31,32,
∴甲==29,
s甲==,
乙==30,
s乙=
=.
故甲<乙,s甲>s乙,①④正确.故选B.
5.(2015·江苏,2,易)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
【解析】 平均数==6.
【答案】 6
6.(2015· 广东,12,易)已知样本数据x1,x2,…,xn的均值 =5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为________.
【解析】 因为样本数据x1,x2,…,xn的均值=5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为(2x1+1+2x2+1+…+2xn+1)=[2(x1+x2+…+xn)+n]=2×(x1+x2+…+xn)+1=2+1=11.
【答案】 11
7.(2015·湖北,14,中)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
【解析】 (1)由频率和为1可得0.02+0.08+0.15+0.2+0.25+0.1a=1,解得a=3.
(2)消费金额在[0.5,0.9]内的频率为0.3+0.2+0.08+0.02=0.6,所以人数为10 000×0.6=6 000.
【答案】 (1)3 (2)6 000
8.(2015·课标Ⅱ,18,12分,中)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
B地区用户满意度评分的频数分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100)
频数
2
8
14
10
6
(1)在答题卡上作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
(2)根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
解:(1)
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;
CB表示事件:“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为
(0.01+0.02+0.03)×10=0.6,
P(CB)的估计值为
(0.005+0.02)×10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
1.(2014·四川,2,易)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析,在这个问题中,5 000名居民的阅读时间的全体是( )
A.总体 B.个体
C.样本的容量 D.从总体中抽取的一个样本
【答案】 A 由题目条件知,5 000名居民的阅读时间的全体是总体,其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200,故选A.
2.(2014·重庆,3,易)某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100 B.150 C.200 D.250
【答案】 A 由分层抽样的特点可知=,解得n=100.
3.(2014·湖南,3,易)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2
乙,s乙,甲比乙成绩稳定
D.甲>乙,乙比甲成绩稳定
【答案】 B 甲==85,
乙==86,
s=[(76-85)2+(77-85)2+(88-85)2+(90-85)2+(94-85)2]=52,
s=[(75-86)2+(88-86)2+(86-86)2+(88-86)2+(93-86)2]=27.6,
所以甲<乙,s>s,故乙比甲成绩稳定.
4.(2015·河南郑州一模,5)为了了解某校九年级1 600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( )
A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25
B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5
C.该校九年级学生1分钟仰卧起坐的次数超过30次的人数约有320人
D.该校九年级学生1分钟仰卧起坐的次数少于20次的人数约有32人
【答案】 D 第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,
第三组数据的频率为0.08×5=0.4,所以中位数在第三组内,设中位数为25+x,则x×0.08=0.5-0.1-0.3=0.1,∴x=1.25,∴数据的中位数为26.25,故A正确;最高矩形是第三组数据,第三组数据的中间值为27.5,∴众数为27.5,故B正确;1分钟仰卧起坐的次数超过30次的频率为0.2,所以估计该校九年级学生1分钟仰卧起坐的次数超过30次的人数约有320人,故C正确;1分钟仰卧起坐的次数少于20次的频率为0.1,所以该校九年级学生1分钟仰卧起坐的次数少于20次的人数约有160人,故D错误.
5.(2014·广东揭阳三模,3)某商场有四类食品,食品类别和种数见下表.现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( )
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
A.7 B.6 C.5 D.4
【答案】 B 由已知可得抽样比为=,∴抽取植物油类与果蔬类食品种数之和为(10+20)×=6,故选B.
6.(2015·豫北十校联考,13)2015年的NBA全明星赛于北京时间2015年2月16日举行.如图是参加比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是________.
【解析】 应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是64.
【答案】 64
7.(2014·山东滨州一模,13)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
【解析】 由分层抽样知识得12∶(45+15)=(30-12)∶(30+10+a+20),∴a=30.
【答案】 30
8.(2014· 山西太原二模,17,12分)绵阳市农科所研究出一种新的棉花品种,为监测长势状况,从甲、乙两块试验田中各抽取了10株棉花苗,量出它们的株高如下(单位:厘米):
甲
37
21
31
20
29
19
32
23
25
33
乙
10
30
47
27
46
14
26
10
44
46
(1)画出两组数据的茎叶图,并根据茎叶图对甲、乙两块试验田中棉花苗的株高进行比较,写出两个统计结论;
(2)从甲、乙两块试验田的棉花苗株高在[23,29]中抽3株,求至少各有1株分别属于甲、乙两块试验田的概率.
解:(1)画出的茎叶图如图所示.
根据茎叶图可得统计结论如下:
结论一:甲块试验田棉花苗的平均株高小于乙块试验田棉花苗的平均株高.
结论二:甲块试验田棉花苗比乙块试验田棉花苗长得整齐.
(2)甲块试验田的棉花苗株高在[23,29]中的共有3株,分别记为A,B,C,乙块试验田的棉花苗株高在[23,29]中的共有2株,分别记为a,b,从甲、乙两块试验田的棉花苗株高在[23,29]中抽3株的基本事件为:ABC,Aab,Bab,Cab,ABa,ACa,BCa,ABb,ACb,BCb,共10个.
其中,至少各有1株分别属于甲、乙两块试验田的基本事件为:Aab,Bab,Cab,ABa,ACa,BCa,ABb,ACb,BCb,共9个,
∴所求概率P=.
9.(2015·河北石家庄一模,17,12分)某单位N名员工参加“社区低碳你我他”活动.他们的年龄在25岁至50岁之间.按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.
下表是年龄的频数分布表.
区间
[25,30)
[30,35)
[35,40)
[40,45)
[45,50]
人数
25
a
b
(1)求正整数a,b,N的值;
(2)现要从年龄较小的第1,2,3组中用分层抽样的方法抽取6人,则年龄在第1,2,3组的人数分别是多少?
(3)在(2)的条件下,从这6人中随机抽取2人参加社区宣传交流活动,求恰有1人在第3组的概率.
解:(1)由题中的频率分布直方图可知,a=25,且b=25×=100,总人数N==250.
(2)因为第1,2,3组共有25+25+100=150(人),利用分层抽样在150名员工中抽取6人,每组抽取的人数分别为:
第1组的人数为6×=1(人),第2组的人数为6×=1(人),第3组的人数为6×=4(人),
所以第1,2,3组分别抽取1人、1人、4人.
(3)由(2)可设第1组的1人为A,第2组的1人为B,第3组的4人分别为C1,C2,C3,C4,则从6人中抽取2人的所有可能结果为:(A,B),(A,C1),(A,C2),(A,C3),(A,C4),(B,C1),(B,C2),(B,C3),(B,C4),(C1,C2),(C1,C3),(C1,C4),(C2,C3),(C2,C4),(C3,C4),共15种.
其中恰有1人年龄在第3组的所有结果为:
(A,C1),(A,C2),(A,C3),(A,C4),(B,C1),(B,C2),(B,C3),(B,C4),共8种,所以恰有1人年龄在第3组的概率为.
1.(2015·湖北,4,易)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y负相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关
D.x与y负相关,x与z正相关
【答案】 A 由回归直线方程定义知,x与y负相关.由y与z正相关,可设其回归直线为y=kz+b,且k>0,所以x=-10kz-10b+10,则x与z负相关.
2.(2015·课标Ⅰ,19,12分,中)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x
的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
=,=-.
解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x
=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.(2012·课标全国,3,易)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
【答案】 D 所有点均在直线上,则样本相关系数最大,即为1,故选D.
2.(2013·湖北,4,易)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
【答案】 D 由回归直线方程=x+,知当<0时,y与x负相关;>0时,y与x正相关,可知①④一定不正确.
3.(2014·湖北,6,易)根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b<0 B.a>0,b>0
C.a<0,b<0 D.a<0,b>0
【答案】 A 由样本数据知y与x负相关,则b<0,又由于样本中心点为(5.5,0.25),
∴0.25-5.5b=a,∵b<0,∴a>0.
4.(2012·湖南,5,中)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
【答案】 D ∵0.85>0,∴y与x正相关,
∴A正确;
∵线性回归方程经过样本点的中心(,),
∴B正确;
∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,
∴C正确;
体重58.79 kg为估计值,故选D.
5.(2011·湖南,5,中)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
K2=≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【答案】 A 根据独立性检验的定义,
由K2=≈7.8>6.635可知,我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.
6.(2014·江西,7,中)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力 C.智商 D.阅读量
【答案】 D A中,a=6,b=14,c=10,d=22,a+b=20,c+d=32,a+c=16,b+d=36,n=52.
K2==;
B中,a=4,b=16,c=12,d=20,a+b=20,c+d=32,a+c=16,b+d=36,n=52.
K2==;
C中,a=8,b=12,c=8,d=24,a+b=20,c+d=32,a+c=16,b+d=36,n=52.
K2==;
D中,a=14,b=6,c=2,d=30,a+b=20,c+d=32,a+c=16,b+d=36,n=52.
K2==.
∵<<<.
∴与性别有关联的可能性最大的变量是阅读量,故选D.
思路点拨:
根据K2=,代入题中数据计算,再进一步比较大小.
7.(2013·福建,11,中)已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
【答案】 C ==,=,代入公式求得
==,
=-=×-=,
而b′=2,a′=-2,∴<b′,>a′,故选C.
8.(2011·安徽,20,10分,中)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2002
2004
2006
2008
2010
需求量(万吨)
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=bx+a;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面求回归直线方程,为此对数据预处理如下:
年份-2006
-4
-2
0
2
4
需求量-257
-21
-11
0
19
29
对预处理后的数据,容易算得=0,=3.2,
b=
==6.5,a=-b=3.2.
由上述计算结果,知所求回归直线方程为
-257=b(x-2 006)+a=6.5(x-2 006)+3.2,
即 =6.5(x-2 006)+260.2.①
(2)利用回归直线方程①,可预测2012年的粮食需求量为
6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).
9.(2014·辽宁,18,12分,中)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
附:χ2=,
P(χ2≥k)
0.100 0.050 0.010
k
2.706 3.841 6.635
解:(1)将2×2列联表中的数据代入公式计算,得
χ2=
=
=≈4.762.
由于4.762>3.841,所以有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异.
(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.
其中ai表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.
Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A表示“3人中至多有1人喜欢甜品”这一事件,则
A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.
事件A由7个基本事件组成,因而P(A)=.
考向1 线性回归方程及其应用
1.两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域.对于两个变量的这种相关关系,将它称为负相关.
2.相关系数
r=
=.
(1)|r|≤1,当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(2)|r|越接近1,两个变量的线性相关关系越强;|r|越接近0,两个变量的线性相关关系越弱,几乎不存在;通常当|r|>0.75时,我们认为两个变量之间存在较强的线性相关关系.
3.线性回归直线方程
=x+,其中==,=- ,主要用来估计和预测取值,从而获得对两个变量之间整体关系的了解.
回归直线一定经过样本的中心点(,),据此性质可以解决有关的计算问题,同时可以应用回归直线方程作出预测.
(2013·重庆,17,13分)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80,yi=20,xiyi=184,x=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程y=bx+a中,
b=,a=-b,
其中,为样本平均值,线性回归方程也可写为=x+.
【思路导引】 (1)由题意可知n,,,进而代入可得b,a的值,可得线性回归方程;(2)由回归方程x的系数b的正负可判断;(3)把x=7代入线性回归方程求其函数值即可.
【解析】 (1)根据线性回归直线的知识,结合已知条件知n=10,=xi==8,=yi==2,
又lxx=x-n 2=720-10×82=80,
lxy=xiyi-n =184-10×8×2=24,
由此得b===0.3,
a=-b=2-0.3×8=-0.4,
故所求线性回归方程为y=0.3x-0.4.
(2)由线性回归直线的意义知,由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)列表求出,,x,y,xiyi(可用计算器进行计算);
(3)利用公式=,=- 求得回归系数;
(4)写出回归直线方程.
(2012·福建,18,12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由平均数公式得
=(x1+x2+x3+x4+x5+x6)=8.5,
=(y1+y2+y3+y4+y5+y6)=80.
所以a=-b=80+20×8.5=250,从而回归直线方程为
=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
思路点拨:题(1)求出,,利用公式求回归直线的回归常数a;题(2)建立利润与单价的函数关系式,配方求利润的最值.
考向2 独立性检验
1.2×2列联表
列出的两个变量的频数表称作列联表.假设有两个分类变量X,Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
构造随机变量K2=.
2.判断两个分类变量X和Y是否有关系的方法
利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
统计学研究表明:当K2≤3.841时,认为X与Y无关;
当K2>3.841时,有95%的把握说X与Y有关;
当K2>6.635时,有99%的把握说X与Y有关;
当K2>10.828时,有99.9%的把握说X与Y有关.
(2014·安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
【思路导引】 (1)根据抽样比计算分层抽样中应抽取的人数;(2)利用对立事件或互斥事件的概率公式求运动时间超过4小时的概率;(3)先列出2×2列联表,根据K2的计算公式求解.
【解析】 (1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得
K2==≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
解决独立性检验应用题的方法
首先要根据题目条件列出两个变量的2×2列联表,通过计算随机变量K2的观测值k,依据临界值与犯错误的概率得出结论.注意观测值的临界值与概率间的对应关系.
(2013·福建,19,12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=
P(χ2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,
B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求的概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
所以得K2=
==≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.
易错点拨:(1)独立性检验K2公式要明确,常会因代错数据而出错;(2)对临界值判断要正确,本题会出现认为有90%把握认为“生产能手与工人所在年龄组有关”的错误.
1.(2015·湖南岳阳一模,5)相关变量x、y的样本数据如下表:
x
1
2
3
4
5
y
2
2
3
5
6
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为=1.1x+a,则a=( )
A.0.1 B.0.2 C.0.3 D.0.4
【答案】 C 由题意可知,==3,==,∴=1.1×3+a,即a=0.3,故选C.
2.(2014·湖北十堰二模,4)以下四个命题,其中正确的是( )
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在回归直线方程=0.2x+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;
④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
A.①④ B.②④ C.①③ D.②③
【答案】 D 由系统抽样知识知①是系统抽样,故①错误;由线性相关知识知②③正确;由独立性检验知k越大,“X与Y有关系”的把握程度越大,故④错误,故选D.
3.(2015·江西南昌一模,7)某商品的销售量y(件)与销售价格x(元/件)存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=-10x+200,则下列结论正确的是( )
A.y与x具有正的线性相关关系
B.若r表示变量y与x之间的线性相关系数,则r=-10
C.当销售价格为10元时,销售量为100件
D.当销售价格为10元时,销售量为100件左右
【答案】 D y与x具有负的线性相关关系,所以A项错误;当销售价格为10元时,销售量在100件左右,因此C错误,D正确;B项中-10是回归直线方程的斜率.
4.(2014·河北衡水二模,4)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A.r26.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
7.(2014·安徽淮南三模,18,12分)在一次考试中,5名学生的数学、物理成绩如下表所示:
学生
A1
A2
A3
A4
A5
数学x/分
89
91
93
95
97
物理y/分
87
89
89
92
93
(1)要从5名学生中选2人参加一项活动,求选中的学生中至少有一人的物理成绩高于90分的概率;
(2)请在所给的直角坐标系中画出它们的散点图,并求这些数据的线性回归方程.
参考公式:回归直线方程是=b+a,其中b=,a=-b .
解:(1)(枚举法)从5名学生中任取2名学生的所有情况为:(A4,A5),(A4,A1),(A4,A2),(A4,A3),(A5,A1),(A5,A2),(A5,A3),(A1,A2),(A1,A3),(A2,A3),共10种情况.
其中至少有一人的物理成绩高于90分的情况有:(A4,A5),(A4,A1),(A4,A2),(A4,A3),(A5,A1),(A5,A2),(A5,A3),共7种情况.
由古典概型得,选中的学生中至少有一人的物理成绩高于90分的概率P=.
(2)散点图如图所示.
由题意可求得:
==93,
==90,
(xi-)(yi-)=30,
(xi-)2=(-4)2+(-2)2+02+22+42=40,
∴b==0.75,
a=-b =20.25,
故所求的线性回归方程是=0.75x+20.25.
(时间:90分钟__分数:120分)
一、选择题(共10小题,每小题5分,共50分)
1.(2014·重庆,3)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
【答案】 A 因为变量x与y正相关,则在线性回归方程中,x的系数应大于零,排除C,D;将x=3,y=3.5分别代入A,B中的方程只有A满足,故选A.
2.(2012·四川,3)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101 B.808 C.1 212 D.2 012
【答案】 B 由题意知抽样比为=,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有=,解得N=808.
3.(2014·安徽宿州一模,3)下表提供了某厂节能降耗技术改造后在生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据:
x
3
4
5
6
y
2.5
t
4
4.5
根据上表提供的数据,求出y关于x的线性回归方程为=0.7x+0.35,那么表中t的值为( )
A.3 B.3.15 C.3.5 D.4.5
【答案】 A 由回归直线过样本中心求解.
∵样本中心为,
∴=0.7×4.5+0.35,解得t=3.
4.(2013·山东,10)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场做的9个分数的茎叶图后来有一个数据模糊,无法辨认,在图中以x表示:
8
7
7
9
4
0
1
0
x
9
1
则7个剩余分数的方差为( )
A. B. C.36 D.
【答案】 B 由题意知去掉一个最高分和一个最低分后,所剩数据为:87,94,90,91,90,90+x,91,∴这组数据的平均数是90+=91,得x=4.
由方差公式得s2=[(-4)2+32+(-1)2+02+(-1)2+32+02]=,故选B.
5.(2013·辽宁,5)某班的全体学生参加英语测试,成绩的频率分布直方图如图.数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15.则该班的学生人数是( )
A.45 B.50 C.55 D.60
【答案】 B [20,40)内的频率为0.005×20=0.1.[40,60)内的频率为0.01×20=0.2.低于60分的频率为0.1+0.2=0.3.
∴总人数为=50.
6.(2014·江西九江二模,7)为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:
优秀
非优秀
总计
A班
14
6
20
B班
7
13
20
总计
21
19
40
附:参考公式及数据:
(1)统计量:
K2=(n=a+b+c+d).
(2)独立性检验的临界值表:
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
则下列说法正确的是( )
A.有99%的把握认为环保知识测试成绩与专业有关
B.有99%的把握认为环保知识测试成绩与专业无关
C.有95%的把握认为环保知识测试成绩与专业有关
D.有95%的把握认为环保知识测试成绩与专业无关
【答案】 C K2=≈4.912,
3.8412
C.>5,s2<2 D.>5,s2>2
【答案】 A 设(x1+x2+…+x8)=5,
则=(x1+x2+…+x8+5)=5.由方差定义及意义可知加新数据5后,样本数据取值的稳定性比原来强,∴s2<2,故选A.
8.(2014·陕西,9)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
【答案】 D 设增加工资后10位员工下月工资均值为′,方差为s′2,则平均数′=[(x1+100)+(x
2+100)+…+(x10+100)]=(x1+x2+…+x10)+100=+100;
方差s′2=[(x1+100-′)2+(x2+100-′)2+…+(x10+100-′)2]=×[(x1-)2+(x2-)2+…+(x10-)2]=s2.故选D.
9.(2013·陕西,5)对一批产品的长度(单位:毫米)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上为一等品,在区间[15,20)和区间[25,30)上为二等品,在区间[10,15)和[30,35]上为三等品.用频率估计概率,现从该批产品中随机抽取1件,则其为二等品的概率为( )
A.0.09 B.0.20 C.0.25 D.0.45
【答案】 D 由频率分布直方图的知识得一等品的频率为0.06×5=0.3,三等品的频率为0.02×5+0.03×5=0.25,所以二等品的频率为1-(0.3+0.25)=0.45.用频率估计概率,故选D.
10.(2015·河南郑州一模,11)下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;
③线性回归方程=x+必过点(,);
④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系.
其中错误有( )
A.①②
B.②③
C.③④
D.②④
【答案】 D 根据方差可知①正确;一个回归方程=3-5x,变量x增加1个单位时,y
平均减小5个单位,故②错误;由回归方程的定义及最小二乘法思想,知③正确;在一个2×2列联表中,由计算得K2=13.079,则其两个变量有关系的可能性是99.9%,故④错误.
二、填空题(共4小题,每小题5分,共20分)
11.(2015·湖南娄底一模,13)已知回归方程=4.4x+838.19,则可估计x与y的增长速度之比约为________.
【解析】 x每增长1个单位,y增长4.4个单位,故增长的速度之比约为1∶4.4=5∶22.
【答案】 5∶22
12.(2012·福建,14)一支田径队有男女运动员98人,其中男运动员有56人.按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是________.
【解析】 男女运动员人数比例为=,分层抽样中男女人数比例不变,则女运动员人数为28×=12(人),故应抽取女运动员人数是12.
【答案】 12
13.(2015·广东东莞一模,13)某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生人数是________.
【解析】 因为(0.002+0.006+0.012)×10×200=40,=,所以x=600,故在该次数学考试中成绩小于60分的学生人数是600.
【答案】 600
14.(2014·福建厦门诊断,11)考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,则种子经过处理与是否生病________(填“有”或“无”)关.
【解析】 在假设无关的情况下,根据题意
K2=≈0.16,
可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否
生病无关.
【答案】 无
三、解答题(共4小题,共50分)
15.(12分)(2015·北京石景山区一模,17)某校高一(1)班的一次数学测试成绩的茎叶图和频率分布直方图都受到不同程度的污损,可见部分如下图.
(1)求分数在[50,60)的频率及全班人数;
(2)求分数在[80,90)之间的频数,并计算频率分布直方图中[80,90)间矩形的高;
(3)若要从分数在[80,100)之间的试卷中任取两份分析学生失分情况,求在抽取的试卷中,至少有一份分数在[90,100)之间的概率.
解:(1)分数在[50,60)的频率为0.008×10=0.08,
由茎叶图知:分数在[50,60)之间的频数为2,所以全班人数为=25.
(2)分数在[80,90)之间的频数为25-22=3;
频率分布直方图中[80,90)间的矩形的高为÷10=0.012.
(3)将[80,90)之间的3个分数编号为a1,a2,a3,[90,100)之间的2个分数编号为b1,b2,
在[80,100)之间的试卷中任取两份的基本事件为:
(a1,a2),(a1,a3),(a1,b1),(a1,b2),(a2,a3),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),共10个,
其中,至少有一个在[90,100)之间的基本事件有7个,
故至少有一份分数在[90,100)之间的概率是=0.7.
16.(12分)(2014·黑龙江哈尔滨四校联考,17)某中学为了更好地开展社团活动,丰富同学们的课余生活,现用分层抽样的方法从“模拟法庭”“街舞”“动漫”“话剧”四个社团中抽取若干人组成校社团指导小组,有关数据见下表:
社团
相关人数
抽取人数
模拟法庭
24
a
街舞
30
5
动漫
b
4
话剧
12
c
(1)求a,b,c的值;
(2)若从“动漫”与“话剧”社团已抽取的人中选2人担任指导小组组长,求这2人分别来自这两个社团的概率.
解:(1)由分层抽样知识和表可知抽取比例为=,
故a=4,b=24,c=2.
(2)(枚举法)设“动漫”社团的4人分别为:A1,A2,A3,A4;“话剧”社团的2人分别为:B1,B2.则从中任选2人的所有基本事件为:(A1,A2),(A1,A3),(A1,A4),(A2,A3),(A2,A4),(A3,A4),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个.
其中2人分别来自这两个社团的基本事件为:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),共8个.
由古典概型得,这2人分别来自这两个社团的概率P=.
17.(12分)(2012·辽宁,19)电视传媒公司为了解某地区观众对某类体育节目的收视情况.随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图;
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷
体育迷
合计
男
女
合计
(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
附:χ2=,
P(χ2≥k)
0.05 0.01
k
3.841 6.635
解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”为100×10×(0.02+0.005)=25(人),从而完成2×2列联表如下:
非体育迷
体育迷
合计
男
30
15
45
女
45
10
55
合计
75
25
100
将2×2列联表中的数据代入公式计算,得
χ2=
==
≈3.030.
因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.
(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为
Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},
其中ai表示男性,i=1,2,3,bj表示女性,j=1.2.
Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.
用A表示“任选2人中,至少有1人是女性”这一事件,则
A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=.
18.(14分)(2014·福建泉州一模,18)为了解春季昼夜温差大小与某种子发芽多少之间的关系,现在从4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天100颗种子浸泡后的发芽数,得到如下表格:
日期
4月1日
4月7日
4月15日
4月21日
4月30日
温差x/℃
10
11
13
12
8
发芽数y/颗
23
25
30
26
16
(1)从这5天中任选2天,记发芽的种子数分别为m,n,求事件“m,n均不小于25”的概率;
(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
(参考公式:=,=- )
解:(1)所有的基本事件为(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共10个.
设“m,n均不小于25”为事件A,则事件A包含的基本事件为(25,30),(25,26),(30,26),共3个.
故由古典概型公式得P(A)=.
(2)由数据得,另3天的平均数=12,=27,3 =972,3 2=432,xiyi=977,x=434,
所以==,
=27-×12=-3,
所以y关于x的线性回归方程为
=x-3.
(3)依题意得,
当x=10时,=22,|22-23|<2;
当x=8时,=17,|17-16|<2,
所以(2)中所得到的线性回归方程是可靠的.