【数学】2019届一轮复习北师大版算法初步、统计、统计案例学案
第十章算法初步、统计、统计案例
第一节算法初步
1.算法
(1)算法通常是指按照一定规则解决某一类问题的明确和有限的步骤.
(2)应用 算法通常可以编成计算机程序,让计算机执行并解决问题.
2.程序框图
程序框图又称流程图,是一种用程序框、流程线及文字说明来表示算法的图形.
3.三种基本逻辑结构及相应语句
名称
示意图
相应语句
顺序结构
①输入语句
INPUT “提示内容”;变量
②输出语句
PRINT “提示内容”;表达式
③赋值语句
变量=表达式
条件结构
IF 条件 THEN
语句体
END IF
IF 条件 THEN
语句体1
ELSE
语句体2
END IF
循环结构
直到型循环结构
DO
循环体
LOOP UNTIL 条件
当型循环结构
WHILE 条件
循环体
WEND
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)算法的每一步都有确定的意义,且可以无限地运算.( )
(2)一个程序框图一定包含顺序结构,也包含条件结构和循环结构.( )
(3)一个循环结构一定包含条件结构.( )
(4)当型循环是给定条件不成立时,执行循环体,反复进行,直到条件成立为止.( )
答案 (1)× (2)× (3)√ (4)×
2.如图所示的程序框图的运行结果为________.
解析 因为a=2,b=4,所以输出S=+=2.5.
答案 2.5
3.执行如图所示的程序框图,如果输出的结果为0,那么输入的x的值为________.
解析 当x≤0时,由-x2+1=0,得x=-1;当x>0时,第一次对y赋值为3x+2,第二次对y又赋值为-x2+1,最后y=-x2+1,于是由-x2+1=0,得x=1,综上知输入的x的值为-1或1.
答案 -1或1
4.执行如图所示的程序框图,则输出的结果为________.
解析 进行第一次循环时,
S==20,i=2,S=20>1;
进行第二次循环时,
S==4,i=3,S=4>1;
进行第三次循环时,
S=,i=4,S=<1,
此时结束循环,输出的i=4.
答案 4
5.执行如图所示的程序框图,则输出的结果为________.
解析 第一次循环 S=,n=4;
第二次循环 n=4<8,S=+,n=6;
第三次循环 n=6<8,S=++,n=8;
第四次循环 n=8<8不成立,输出S=++=.
答案
[考什么·怎么考]
基本算法语句在高考中的考查极少,主要考查算法语句表示的算法功能的识别,题型为选择题或填空题,难度较小.
1.根据下列算法语句,当输入x为60时,输出y的值为( )
A.25 B.30
C.31 D.61
解析 选C 该语句表示分段函数
y=
当x=60时,y=25+0.6×(60-50)=31.
故输出y的值为31.
2.按照如图程序运行,则输出 的值是________.
解析 第一次循环,X=7, =1;
第二次循环,X=15, =2;
第三次循环,X=31, =3,X>16,
终止循环,则输出 的值是3.
答案 3
[怎样快解·准解]
1.解决算法语句的3步骤
(1)通读全部语句,把它翻译成数学问题;
(2)领悟该语句的功能;
(3)根据语句的功能运行程序,解决问题.
2.算法语句应用的4关注
输入、输出语句
在输入、输出语句中加提示信息时,要加引号,变量之间用逗号隔开
赋值语句
左、右两边不能对换,赋值号左边只能是变量
条件语句
条件语句中包含多个条件语句时,要分清内外条件结构,保证结构的完整性
循环语句
分清“当型”和“直到型”的格式,不能混用
[考什么·怎么考]
顺序结构和条件结构在高考中单独命题的机会较小,且多为选择题,难度较小,属于低档题.
1.执行如图所示的程序框图.若输出y=-,则输入角θ=( )
A. B.- C. D.-
解析 选D 由输出y=-<0,排除A、C,又当θ=-时,输出y=-,故选D.
2.某程序框图如图所示,现输入如下四个函数,则可以输出的函数为( )
A.f(x)=
B.f(x)=
C.f(x)=
D.f(x)=x2ln(x2+1)
解析 选B 由程序框图知该程序输出的是存在零点的奇函数,选项A、C中的函数虽然是奇函数,但在给定区间上不存在零点,故排除A、C.选项D中的函数是偶函数,故排除D.选B.
3.定义[x]为不超过x的最大整数,例如[1.3]=1.执行如图所示的程序框图,当输入的x为4.7时, 输出的y值为( )
A.7 B.8.6 C.10.2 D.11.8
解析 选C 当输入的x为4.7时,执行程序框图可知,4.7>3,4.7-[4.7]=0.7,即4.7-[4.7]不等于0,因而可得y=7+([4.7-3]+1)×1.6=10.2,即输出的y值为10.2.
[怎样快解·准解]
顺序结构和条件结构的运算方法
(1)顺序结构是最简单的算法结构,语句与语句之间、框与框之间是按从上到下的顺序进行的.解决此类问题,只需分清运算步骤,赋值量及其范围进行逐步运算即可.
(2)条件结构中条件的判断关键是明确条件结构的功能,然后根据“是”的分支成立的条件进行判断.
(3)对于条件结构,无论判断框中的条件是否成立,都只能执行两个分支中的一个,不能同时执行两个分支.
循环结构是每年高考的热点,属必考内容,常与函数、数列、不等式等内容综合考查,题型为选择题或填空题,难度适中,属于中档题.,常见的命题角度有
(1)由程序框图求输出(输入)结果;
(2)完善程序框图.
[题点全练]
角度(一) 由程序框图求输出(输入)结果
1.(2017·全国卷Ⅱ)执行如图所示的程序框图,如果输入的a=-1,则输出的S=( )
A.2 B.3
C.4 D.5
解析 选B 运行程序框图,
a=-1,S=0, =1, ≤6成立;
S=0+(-1)×1=-1,a=1, =2, ≤6成立;
S=-1+1×2=1,a=-1, =3, ≤6成立;
S=1+(-1)×3=-2,a=1, =4, ≤6成立;
S=-2+1×4=2,a=-1, =5, ≤6成立;
S=2+(-1)×5=-3,a=1, =6, ≤6成立;
S=-3+1×6=3,a=-1, =7, ≤6不成立,输出S=3.
2.(2017·全国卷Ⅲ)执行如图所示的程序框图,为使输出S的值小于91,则输入的正整数N的最小值为( )
A.5 B.4
C.3 D.2
解析 选D 法一 执行程序框图,S=0+100=100,M=-10,t=2;S=100-10=90,M=1,t=3,S<91,输出S,此时,t=3不满足t≤N,所以输入的正整数N的最小值为2.
法二 要求的是最小值,观察选项,发现选项中最小的为2,不妨将2代入检验.
当输入的N为2时,第一次循环,S=100,M=-10,t=2;
第二次循环,S=90,M=1,t=3,此时退出循环,输出S=90,符合题意,故选D.
3.(2017·山东高考)执行两次如图所示的程序框图,若第一次输入的x的值为7,第二次输入的x的值为9,则第一次、第二次输出的a的值分别为( )
A.0,0 B.1,1
C.0,1 D.1,0
解析 选D 当输入x=7时,b=2,因为b2>x不成立且x不能被b整除,故b=3,这时b2>x成立,故a=1,输出a的值为1.
当输入x=9时,b=2,因为b2>x不成立且x不能被b整除,故b=3,这时b2>x不成立且x能被b整除,故a=0,输出a的值为0.
[题型技法] 循环结构程序框图求输出结果的方法
解决此类问题最常用的方法是列举法,即依次执行循环体中的每一步,直到循环终止,但在执行循环体的过程中
第一,要明确是当型循环结构还是直到型循环结构,根据各自特点执行循环体;
第二,要明确框图中的累加变量,明确每一次执行循环体前和执行循环体后,变量的值发生的变化;
第三,要明确循环终止的条件是什么,什么时候要终止执行循环体.
角度(二) 完善程序框图
4.(2017·全国卷Ⅰ)如图所示的程序框图是为了求出满足3n-2n>1 000的最小偶数n,那么在◇和▭两个空白框中,可以分别填入( )
A.A>1 000和n=n+1 B.A>1 000和n=n+2
C.A≤1 000和n=n+1 D.A≤1 000和n=n+2
解析 选D 程序框图中A=3n-2n,且判断框内的条件不满足时输出n,所以判断框中应填入A≤1 000,由于初始值n=0,要求满足A=3n-2n>1 000的最小偶数,故执行框中应填入n=n+2.
5.(2018·广东五校协作体诊断)已知函数f(x)=ax3+x2在x=-1处取得极大值,记g(x)=.执行如图所示的程序框图,若输出的结果S>,则判断框中可以填入的关于n的判断条件是( )
A.n≤2 017? B.n≤2 018?
C.n>2 017? D.n>2 018?
解析 选B f′(x)=3ax2+x,则f′(-1)=3a-1=0,解得a=,g(x)====-,则g(n)=-,即S=1-+-+…+-=1-=,因为输出的结果S>
,分析可知判断框中可以填入的判断条件是“n≤2 018?”,选B.
[题型技法] 程序框图补全问题的求解方法
(1)先假设参数的判断条件满足或不满足;
(2)运行循环结构,一直到运行结果与题目要求的输出结果相同为止;
(3)根据此时各个变量的值,补全程序框图.
[题“根”探求]
1.当型循环与直到型循环的区别要明确
直到型循环是“先循环,后判断,条件满足时终止循环”;当型循环则是“先判断,后循环,条件满足时执行循环”.两者的判断框内的条件表述在解决同一问题时是不同的,它们恰好相反.
2.解决程序框图问题要注意的几个常用变量要谨记
(1)计数变量 用来记录某个事件发生的次数,如i=i+1.
(2)累加变量 用来计算数据之和,如S=S+i.
(3)累乘变量 用来计算数据之积,如p=p×i.
[冲关演练]
1.(2017·北京高考)执行如图所示的程序框图,输出的s值为( )
A.2 B.
C. D.
解析 选C 运行该程序, =0,s=1, <3;
=0+1=1,s==2, <3;
=1+1=2,s==, <3;
=2+1=3,s==,此时不满足循环条件,输出s,故输出的s值为.
2.(2017·天津高考)阅读如图所示的程序框图,运行相应的程序,若输入N的值为24,则输出N的值为( )
A.0 B.1
C.2 D.3
解析 选C 第一次循环,24能被3整除,N==8>3;
第二次循环,8不能被3整除,N=8-1=7>3;
第三次循环,7不能被3整除,N=7-1=6>3;
第四次循环,6能被3整除,N==2<3,结束循环,
故输出N的值为2.
3.如图,给出的是计算++…+的值的一个程序框图,则图中判断框内(1)处和执行框内的(2)处应填的语句是( )
A.i>100,n=n+1 B.i>100,n=n+2
C.i>50,n=n+2 D.i≤50,n=n+2
解析 选C 经第一次循环得到的结果是
经第二次循环得到的结果是
经第三次循环得到的结果是
据观察S中最后一项的分母与i的关系是分母=2(i-1),
令2(i-1)=100,解得i=51,即需要i=51时输出S.
故图中判断框内(1)处和执行框中的(2)处应填的语句分别是i>50,n=n+2.
普通高中、重点高中共用 (高考难度一般,无须挖潜)
A级——基础小题练熟练快
1.对任意非零实数a,b,若a⊗b的运算原理如图所示,则log24⊗-1的值为( )
A. B.1
C. D.2
解析 选B log24=2<3=-1,由题意知所求值为=1.
2.执行如图所示的程序框图,如果输入的t∈[-1,3],则输出的s∈( )
A.[-3,4] B.[-5,2]
C.[-4,3] D.[-2,5]
解析 选A 当-1≤t<1时,s=3t,
则s∈[-3,3).
当1≤t≤3时,s=4t-t2.
函数s=4t-t2在[1,2]上单调递增,在[2,3]上单调递减.
∴s∈[3,4].
综上知s∈[-3,4].
3.(2017·山东高考)执行如图所示的程序框图,当输入的x的值为4时,输出的y的值为2,则空白判断框中的条件可能为( )
A.x>3 B.x>4
C.x≤4 D.x≤5
解析 选B 当x=4时,若执行“是”,则y=4+2=6,与题意矛盾;若执行“否”,则y=log24=2,满足题意,故应执行“否”.故判断框中的条件可能为x>4.
4.(2018·合肥质检)执行如图所示的程序框图,如果输出的 的值为3,则输入的a的值可以是( )
A.20 B.21
C.22 D.23
解析 选A 根据程序框图可知,若输出的 =3,则此时程序框图中的循环结构执行了3次,执行第1次时,S=2×0+3=3,执行第2次时,S=2×3+3=9,执行第3次时,S=2×9+3=21,因此符合题意的实数a的取值范围是9≤a<21,故选A.
5.执行如图所示的程序框图,若输入的n=4,则输出的s=( )
A.10 B.16
C.20 D.35
解析 选C 执行程序框图,第一次循环,得s=4,i=2;
第二次循环,得s=10,i=3;
第三次循环,得s=16,i=4;
第四次循环,得s=20,i=5.
不满足i≤n,退出循环,输出的s=20.
6.如图所示的程序框图的算法思想源于数学名著《几何原本》中的“辗转相除法”,执行该程序框图(图中“m MOD n”表示m除以n的余数),若输入的m,n分别为495,135,则输出的m=( )
A.0 B.5
C.45 D.90
解析 选C 该程序框图是求495与135的最大公约数,由495=135×3+90,135=90×1+45,90=45×2,所以495与135的最大公约数是45,所以输出的m=45,故选C.
7.(2018·石家庄模拟)程序框图如图,若输入的S=1, =1,则输出的S为________.
解析 执行程序框图,第一次循环, =2,S=4;
第二次循环, =3,S=11;
第三次循环, =4,S=26;
第四次循环, =5,S=57.
此时,终止循环,输出的S=57.
答案 57
8.执行如图所示的程序框图,如果输入的a,b的值分别为56,140,则输出的a=________.
解析 执行程序框图,第一次循环 a=56,b=140-56=84;
第二次循环 a=56,b=84-56=28;
第三次循环 a=56-28=28,b=28,
退出循环,输出的a=28.
答案 28
9.执行如图所示的程序框图,若输入的N=20,则输出的S=________.
解析 依题意,结合题中的程序框图知,当输入的N=20时,输出S的值是数列{2 -1}的前19项和,即=361.
答案 361
10.(2018·宝鸡质检)阅读如图所示的程序框图,运行相应的程序,若输入x的值为1,则输出S的值为________.
解析 依题意,执行题中的程序框图,当输入x的值为1时,进行第一次循环,S=1<50,x=2;
进行第二次循环,S=1+23=9<50,x=4;
进行第三次循环,S=9+43=73>50,
此时结束循环,输出S的值为73.
答案 73
B级——中档题目练通抓牢
1.(2018·合肥质检)执行如图所示的程序框图,则输出n的值为( )
A.9 B.11
C.13 D.15
解析 选C 由程序框图可知,S是对进行累乘,直到S<时停止运算,即当S=1×
××××<时循环终止,此时输出的n=13.
2.如图所示,程序框图的功能是( )
A.求的前10项和
B.求的前11项和
C.求的前11项和
D.求的前10项和
解析 选D 依题意可得S=+++…+,故程序框图的功能是求的前10项和,选D.
3.(2018·长春质检)运行如图所示的程序框图,则输出的结果为( )
A.1 008
B.1 009
C.2 017
D.2 018
解析 选B 由程序框图知,此题是求当 取1,2,…,2 018这些值时,(-1) · 的和,所以输出的S=0-1+2-3+4-…+2 016-2 017+2 018=0+(-1+2)+(-3+4)+…+(-2 017+2 018)=1 009.
4.(2018·湘中名校联考)执行如图所示的程序框图,如果运行结果为5 040,那么判断框中应填入( )
A. <6? B. <7?
C. >6? D. >7?
解析 选D 执行程序框图,第一次循环,得S=2, =3;
第二次循环,得S=6, =4;
第三次循环,得S=24, =5;
第四次循环,得S=120, =6;
第五次循环,得S=720, =7;
第六次循环,得S=5 040, =8,
此时满足题意,退出循环,输出的S=5 040,
故判断框中应填入“ >7?”.
5.(2018·惠州三调)执行如图所示的程序框图,则输出的结果为________.
解析 法一 i=1,S=lg=-lg 3>-1;
i=3,S=lg+lg=lg=-lg 5>-1;
i=5,S=lg+lg=lg=-lg 7>-1;
i=7,S=lg+lg=lg=-lg 9>-1;
i=9,S=lg+lg=lg=-lg 11<-1,故输出的i=9.
法二 因为S=lg+lg+…+lg=lg 1-lg 3+lg 3-lg 5+…+lg i-lg(i+2)=-lg(i+2),当i=9时,S=-lg(9+2)<-lg 10=-1,所以输出的i=9.
答案 9
6.执行如图所示的程序框图,如果输入的x,y∈R,那么输出的S的最大值为________.
解析 当条件x≥0,y≥0,x+y≤1不成立时,输出S的值为1,当条件x≥0,y≥0,x+y≤1成立时,输出S=2x+y,下面用线性规划的方法求此时S的最大值.作出不等式组
表示的平面区域如图中阴影部分所示,由图可知当直线S=2x+y经过点M(1,0)时S最大,其最大值为2×1+0=2,故输出S的最大值为2.
答案 2
第二节随机抽样
1.简单随机抽样
(1)抽取方式 逐个不放回抽取;
(2)特点 每个个体被抽到的概率相等;
(3)常用方法 抽签法和随机数法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本.
(1)先将总体的N个个体编号;
(2)确定分段间隔 ,对编号进行分段.当(n是样本容量)是整数时,取 =;
(3)在第1段用简单随机抽样确定第一个个体编号l(l≤ );
(4)按照一定的规则抽取样本.通常是将l加上间隔 得到第2个个体编号l+ ,再加 得到第3个个体编号l+2 ,依次进行下去,直到获取整个样本.
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次被抽到的可能性最大.( )
(2)从100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.( )
(3)系统抽样适用于元素个数很多且均衡的总体.( )
(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
(6)某校即将召开学生代表大会,现从高一、高二、高三共抽取60名代表,则可用分层抽样方法抽取.( )
答案 (1)× (2)× (3)√ (4)× (5)× (6)√
2.(教材习题改编)老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行 检查,这种抽样方法是( )
A.随机抽样 B.分层抽样
C.系统抽样 D.以上都不是
解析 选C 因为抽取学号是以5为公差的等差数列,故采用的抽样方法应是系统抽样.
3.利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是________.
解析 总体个数为N=8,样本容量为M=4,则每一个个体被抽到的概率为P===.
答案
4.(教材习题改编)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.
解析 设应从高二年级抽取x名学生,则=,
解得x=15.
答案 15
5.已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.
解析 每组袋数 d==20,
由题意知这些号码是以11为首项,20为公差的等差数列.
a61=11+60×20=1 211.
答案 1 211
[考什么·怎么考]
简单随机抽样在高考中单独考查的频率较小,主要涉及随机抽样的特点及随机数法的应用.题型为选择题或填空题,难度较小.
1.以下抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2 709的为三等奖
B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见
D.用抽签方法从10件产品中选取3件进行质量检验
解析 选D 选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.
2.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07
C.02 D.01
解析 选D 由随机数法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.
3.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A. B.
C. D.
解析 选C 根据题意,=,
解得n=28.
故在整个抽样过程中每个个体被抽到的概率为=.
[怎样快解·准解]
1.简单随机抽样的特点
(1)抽取的个体数较少;(2)是逐个抽取;(3)是不放回抽取;(4)是等可能抽取.只有四个特点都满足的抽样才是简单随机抽样.
2.抽签法与随机数法的适用情况
(1)抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况.
(2)一个抽样试验能否用抽签法,关键看两点
一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
[易错提醒] 利用随机数法抽取样本时,一定要注意“重复的号码”只能记一次,如第2题易误认为第5个个体编号为02而误选.
系统抽样在高考中单独考查的频率也较小,主要考查系统抽样的抽取方法.题型为选择题或填空题,难度较小.
[典题领悟]
1.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为( )
A.480 B.481
C.482 D.483
解析 选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,故d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
2.中央电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10 进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.
解析 把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含=10个个体.所以需剔除2个个体,抽样间隔为10.
答案 2 10
[解题师说]
1.掌握“4特点”
(1)适用于元素个数很多且均衡的总体.
(2)每个个体被抽到的机会均相等.
(3)总体分组后,在起始部分抽样时采用的是简单随机抽样.
(4)如果总体容量N能被样本容量n整除,则抽样间隔为 =.
2.谨防“1易错”
用系统抽样法抽取样本,当不为整数时,取 =,即先从总体中用简单随机抽样的方法剔除(N-n )个个体,且剔除多余的个体不影响抽样的公平性.(如典题领悟第2题)
[冲关演练]
1.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )
A.11 B.12
C.13 D.14
解析 选B 由系统抽样定义可知,所分组距为=20,每组抽取一人,因为包含整数个组,所以抽取个体在区间[481,720]的数目为=12.
2.某学校采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做视力检查.现将800名学生从1到800进行编号.已知从33~48这16个数中抽到的数是39,则在第1小组1~16中随机抽到的数是( )
A.5 B.7
C.11 D.13
解析 选B 把800名学生分成50组,每组16人,各小组抽到的数构成一个公差为16的等差数列,39在第3组,所以第1组抽到的数为39-32=7.
分层抽样是每年高考的常考内容,题型既有选择题、填空题,有时也出现在解答题中,难度较小,属于低档题.
[典题领悟]
1.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
解析 应从丙种型号的产品中抽取
60×=18(件).
答案 18
2.为了了解高一、高二、高三学生的身体状况,现用分层抽样的方法抽取一个容量为1 200的样本,三个年级学生人数之比依次为 ∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为________.
解析 因为高一年级抽取学生的比例为=,所以=,解得 =2,故高三年级抽取的人数为1 200×=360.
答案 360
3.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位 人).
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
解析 由题意知=,解得a=30.
答案 30
[解题师说]
1.牢记“2关系”
进行分层抽样的相关计算时,常用到的2个关系
(1)=;
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
2.谨防“1失误”
分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取ni=n·(i=1,2,…, )个个体(其中i是层数,n是抽取的样本容量,Ni是第i层中个体的个数,N是总体容量).
[冲关演练]
1.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶
7,现用分层抽样的方法抽取容量为n的样本,其中甲种产品有18件,则样本容量n=( )
A.54 B.90
C.45 D.126
解析 选B 依题意得×n=18,解得n=90,即样本容量为90.
2.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为( )
A.10 B.12
C.18 D.24
解析 选A 根据分层抽样的特征,从C学校中应抽取的人数为×60=10.
普通高中、重点高中共用 (高考难度一般,无须挖潜)
A级——基础小题练熟练快
1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取 先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )
A.不全相等 B.均不相等
C.都相等,且为 D.都相等,且为
解析 选C 从N个个体中抽取M个个体,则每个个体被抽到的概率都等于,故每名学生入选的概率都相等,且为.
2.(2018·长春一模)完成下列两项调查 ①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( )
A.①简单随机抽样,②系统抽样
B.①分层抽样,②简单随机抽样
C.①系统抽样,②分层抽样
D.①②都用分层抽样
解析 选B 因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法.
3.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为( )
9264 4607 2021 3920 7766 3817 3256 1640
5858 7766 3170 0500 2593 0545 5370 7814
2889 6628 6757 8231 1589 0062 0047 3815
5131 8186 3709 4521 6665 5325 5383 2702
9055 7196 2172 3207 1114 1384 4359 4488
A.76,63,17,00 B.16,00,02,30
C.17,00,02,25 D.17,00,02,07
解析 选D 在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07.
4.(2017·怀化二模)某校高三(1)班共有48人,学号依次为1,2,3,…,48,现用系统抽样的方法抽取一个容量为6的样本,已知学号为3,11,19,35,43的同学在样本中,则还有一个同学的学号应为( )
A.27 B.26
C.25 D.24
解析 选A 根据系统抽样的规则——“等距离”抽取,则抽取的号码差相等,易知相邻两个学号之间的差为11-3=8,所以在19与35之间还有27.
5.某小学共有学生2 000人,其中一至六年级的学生人数分别为400,400,400,300,300,200.为做好小学放学后“快乐30分”的活动,现采用分层抽样的方法从中抽取容量为200的样本进行调查,那么应抽取一年级学生的人数为( )
A.120 B.40
C.30 D.20
解析 选B ∵一年级学生共400人,抽取一个容量为200的样本,∴用分层抽样的方法抽取的一年级学生人数为×200=40.
6.采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为( )
A.12 B.13
C.14 D.15
解析 选A 根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},∴通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1 000,得≤n≤,又∵n∈N*,∴39≤n≤50,∴做问卷C的共有12人.
7.某商场有四类食品,食品类别和种数见下表
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.
解析 因为总体的个数为40+10+30+20=100,所以根据分层抽样的定义可知,抽取的植物油类食品种数为×20=2,抽取的果蔬类食品种数为×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.
答案 6
8.某市教育主管部门为了全面了解 高三学生的学习情况,决定对该市参加2018年高三第一次全国大联考统考(后称统考)的32所学校进行抽样调查,将参加统考的32所学校进行编号,依次为1到32,现用系统抽样的方法抽取8所学校进行调查,若抽到的最大编号为31,则最小的编号是________.
解析 根据系统抽样法,将总体分成8组,组距为=4,若抽到的最大编号为31,则最小的编号是31-4×7=3.
答案 3
9.一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表(单位 辆)
轿车A
轿车B
轿车C
舒适型
100
150
标准型
300
450
600
按类型用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则 的值为________.
解析 由题意可得=,
解得 =400.
答案 400
10.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.
解析 第一分厂应抽取的件数为100×50 =50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.
答案 50 1 015
B级——中档题目练通抓牢
1.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为( )
A.800双 B.1 000双
C.1 200双 D.1 500双
解析 选C 因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.
2.将参加夏令营的600名学生编号为 001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为( )
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9
解析 选B 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第 ( ∈N*)组抽中的号码是3+12( -1).令3+12( -1)≤300,得 ≤,因此A营区被抽中的人数是25;令300<3+12( -1)≤495,得< ≤42,因此B营区被抽中的人数是42-25=17,故C营区被抽中的人数为50-25-17=8.
3.一个总体中有100个个体,随机编号为0,1,2,…
,99.依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m,那么在第 组中抽取的号码个位数字与m+ 的个位数字相同.若m=6,则在第7组中抽取的号码是( )
A.63 B.64
C.65 D.66
解析 选A 若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.
4.某企业三月中旬生产A,B,C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格
产品类别
A
B
C
产品数量(件)
1 300
样本容量(件)
130
由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是________件.
解析 设样本容量为x,则×1 300=130,∴x=300.
∴A产品和C产品在样本中共有300-130=170(件).
设C产品的样本容量为y,则y+y+10=170,∴y=80.
∴C产品的数量为×80=800(件).
答案 800
5.某初级中学共有学生2 000名,各年级男、女生人数如下表
初一年级
初二年级
初三年级
女生
373
x
y
男生
377
370
已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.
(1)求x的值;
(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
解 (1)∵=0.19,∴x=380.
(2)初三年级人数为y+ =2 000-(373+377+380+370)=500,
现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为×500=12(名).
6.某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n
人参加市里召开的 学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n.
解 总体容量为6+12+18=36.
当样本容量是n时,由题意知,系统抽样的间隔为,
分层抽样的比例是,抽取的工程师人数为×6=,
技术员人数为×12=,技工人数为×18=.
所以n应是6的倍数,36的约数,即n=6,12,18.
当样本容量为(n+1)时,总体容量是35人,
系统抽样的间隔为,
因为必须是整数,所以n只能取6.
即样本容量为n=6.
第三节用样本估计总体
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图 连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线 随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图的优点
茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.
[注意] 茎叶图中茎是指中间的一列数,叶是从茎的旁边生长出来的数.
4.样本的数字特征
(1)众数、中位数、平均数
数字特征
概念
优点与缺点
众数
一组数据中重复出现次数最多的数
众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使它无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
(2)标准差、方差
①标准差 样本数据到平均数的一种平均距离,一般用s表示,s= .
②方差 标准差的平方s2
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)在频率分布直方图中,小矩形的高表示频率.( )
(2)频率分布直方图中各个长方形的面积之和为1.( )
(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( )
(4)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(5)一组数据的方差越大,说明这组数据的波动越大.( )
答案 (1)× (2)√ (3)× (4)√ (5)√
2.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.
解析 依题意,结合茎叶图,将题中的数由小到大依次排列得到 86,86,90,91,93,93,93,96,因此这8位学生得分的众数是93,中位数是=92.
答案 93 92
3.(教材习题改编)某校为了了解教 研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
解析 由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).
答案 48
4.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
解析 5个数的平均数==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.
答案 0.1
1.茎叶图的绘制需注意
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;
(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
2.茎叶图的用途
茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
[典题领悟]
某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
解 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67.
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
[解题师说]
熟记规律
给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.(如典题领悟中甲部门的数据集中,方差则小)
失误防范
在使用茎叶图时,一定要注意看清楚所有的样本数据,弄清楚这个图中的数字特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义
[冲关演练]
某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位 千克)如下.
品种A
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出数据的茎叶图;
(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解 (1)画出茎叶图如图所示
(2)通过观察茎叶图可以看出 ①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.
频率分布直方图是每年高考的重点,既有单独命题,也有与数字特征、概率等知识的综合问题,题型既有选择题或填空题,也有解答题,难度适中,属于中档题.
[典题领悟]
(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组 [20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
[学审题]
(1)分数小于70的频率即为其概率的估计值;
(2)由于分数小于40的学生人数已知,因此要求[40,50)内的人数,只要求出小于50的人数或频率即可;
(3)“样本中分数不小于70的男女生人数相等”,这是解题的关键,可先计算出分数不小于70的总人数,问题便迎刃而解.
解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4.
(2)根据题意,样本中分数不小于50的频率为
(0.01+0.02+0.04+0.02)×10=0.9,
故样本中分数小于50的频率为0.1,
故分数在区间[40,50)内的人数为100×0.1-5=5.
所以总体中分数在区间[40,50)内的人数估计为
400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,
女生人数为100-60=40,
男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
[解题师说]
熟记结论
(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1;
(2)×组距=频率;
(3)=频率,此关系式的变形为=样本容量,样本容量×频率=频数
易错防范
频率分布直方图的纵坐标是,而不是频率
[冲关演练]
某 络营销部门随机抽查了某市200名 友在2017年11月11日的 购金额,所得数据如下表
购金额(单位 千元)
人数
频率
(0,1]
16
0.08
(1,2]
24
0.12
(2,3]
x
p
(3,4]
y
q
(4,5]
16
0.08
(5,6]
14
0.07
总计
200
1.00
已知 购金额不超过3千元与超过3千元的人数比恰为3∶2.
(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);
(2)该营销部门为了了解该市 友的购物体验,从这200名 友中,用分层抽样的方法从 购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?
解 (1)根据题意有
解得∴p=0.4,q=0.25.
补全频率分布直方图如图所示.
(2)根据题意,抽取 购金额在(1,2]内的人数为
×5=3(人),记为 a,b,c.
抽取 购金额在(4,5]内的人数为×5=2(人),记为 A,B.
则从这5人中随机选取2人的选法为 (a,b),(a,c),(a,A),(a,B),(b,c),(b,A),(b,B),(c,A),(c,B),(A,B)共10种.
记2人来自不同群体的事件为M,则M中含有(a,A),(a,B),(b,A),(b,B),(c,A),(c,B)共6种.
∴P(M)==,
故此2人来自不同群体的概率为.
[题点全练]
角度(一) 样本的数字特征与频率分布直方图交汇
1.(2018·武昌调研)我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(吨),用水量不超过x的部分按平价收费,超出x的部分按议价收费,为了了解全市居民用水量的分布情况,通过抽样,获得了100位居民某年的月均用水量(单位 吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)若该市政府希望使85 的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由;
(3)已知平价收费标准为4元/吨,议价收费标准为8元/吨.当x=3时,估计该市居民的月平均水费.(同一组中的数据用该组区间的中点值代替)
解 (1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,
解得a=0.30.
(2)∵前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,而前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,
∴2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
因此,估计月用水量标准为2.9吨时,85 的居民每月的用水量不超过标准.
(3)设居民月用水量为t吨,相应的水费为y元,则
y=即y=
由题设条件及月均用水量的频率分布直方图,得居民每月的水费数据分组与频率分布表如下
组号
1
2
3
4
5
6
7
8
9
分组
[0,2)
[2,4)
[4,6)
[6,8)
[8,10)
[10,12)
[12,16)
[16,20)
[20,24]
频率
0.04
0.08
0.15
0.20
0.26
0.15
0.06
0.04
0.02
根据题意,该市居民的月平均水费估计为
1×0.04+3×0.08+5×0.15+7×0.20+9×0.26+11×0.15+14×0.06+18×0.04+22×0.02=8.42(元).
[题型技法]
频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标为众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
角度(二) 样本的数字特征与茎叶图交汇
2.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位 件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5
C.3,7 D.5,7
解析 选A 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,
所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3.
3.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的方差为________.
解析 由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.故s2=[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=.
答案
[题型技法]
(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.
角度(三) 样本的数字特征与优化决策问题交汇
4.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示
甲
乙
丙
丁
平均环数
8.3
8.8
8.8
8.7
方差s2
3.5
3.6
2.2
5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲 B.乙
C.丙 D.丁
解析 选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.
[题型技法]
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[冲关演练]
1.(2018·长沙模拟)空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级 0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士从当地某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数为________.(该年为365天)
解析 该样本中AQI大于100的频数为4,频率为,以此估计此地全年AQI大于100的频率为,故此地该年AQI大于100的天数约为365×=146.
答案 146
2.某班100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值;
(2)若在同一组数据中,将该组区间的中点值作为这组数据的平均分,根据频率分布直方图,估计这100名学生语文成绩的平均分;
(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如表所示,求数学成绩在[50,90)之外的人数.
分数段
[50,60)
[60,70)
[70,80)
[80,90)
x∶y
1∶1
2∶1
3∶4
4∶5
解 (1)由频率分布直方图知(0.04+0.03+0.02+2a)×10=1,解得a=0.005.
(2)估计这次语文成绩的平均分=55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.
所以这100名学生语文成绩的平均分为73分.
(3)分别求出语文成绩在分数段[50,60),[60,70),[70,80),[80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.
所以数学成绩分数段在[50,60),[60,70),[70,80),[80,90)的人数依次为5,20,40,25.
所以数学成绩在[50,90)之外的人数有100-(5+20+40+25)=10(人).
(一)普通高中适用
A级——基础小题练熟练快
1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )
A.1 B.2
C.3 D.4
解析 选B 由图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.
2.(2016·全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析 选D 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确,故D错误.
3.(2018·宝鸡质检)对一批产品的长度(单位 毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )
A.5 B.7
C.10 D.50
解析 选D 根据题中的频率分布直方图可知,三等品的频率为(0.012 5+0.025 0+0.012 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.
4.从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( )
A.甲<乙,m甲>m乙 B.甲<乙,m甲
乙,m甲>m乙 D.甲>乙,m甲s乙.故可判断结论①④正确.
2.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为( )
A.9 B.10
C.11 D.12
解析 选B 不妨设样本数据为x1,x2,x3,x4,x5,且x140,故成绩较稳定的是甲.
答案 甲
6.(2018·张掖重点中学联考)张掖市旅游局为了了解大佛寺景点在大众中的熟知度,随机对15~65岁的人群抽样了n人,问题是“大佛寺是几A级旅游景点?”统计结果如下图表.
组号
分组
回答正确的人数
回答正确的人数占本组的频率
第1组
[15,25)
a
0.5
第2组
[25,35)
18
x
第3组
[35,45)
b
0.9
第4组
[45,55)
9
0.36
第5组
[55,65]
3
y
(1)分别求出a,b,x,y的值;
(2)从第2,3,4组回答正确的人中用分层抽样的方法抽取6人,求第2,3,4组每组各抽取多少人;
(3)在(2)抽取的6人中随机抽取2人,求所抽取的人中恰好没有第3组人的概率.
解 (1)由频率表中第4组数据可知,第4组总人数为=25,
再结合频率分布直方图可知n==100,
所以a=100×0.01×10×0.5=5,
b=100×0.03×10×0.9=27,
x==0.9,y==0.2.
(2)因为第2,3,4组回答正确的共有54人,
所以利用分层抽样在54人中抽取6人,每组分别抽取的人数为
第2组 ×6=2;第3组 ×6=3;第4组 ×6=1.
(3)设第2组的2人为A1,A2;第3组的3人为B1,B2,B3;第4组的1人为C1.
则从6人中随机抽取2人的所有可能的结果为 (A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C1),(A2,B1),(A2,B2),(A2,B3),(A2,C1),(B1,B2),(B1,B3),(B1,C1),(B2,B3),(B2,C1),(B3,C1),共15种,其中恰好没有第3组人的结果为 (A1,A2),(A1,C1),(A2,C1),共3种,
所以所抽取的人中恰好没有第3组人的概率P==.
7.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量(单位 克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数和方差s2(同一组中的数据用该组区间的中点值作代表);
(3)已知这种植物果实重量不低于32.5克的即为优质果实,用样本估计总体.若从这种植物果实中随机抽取3个,其中优质果实的个数为X,求X的分布列和数学期望E(X).
解 (1)组距d=5,由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值
30
35
40
45
50
频率
0.1
0.2
0.375
0.25
0.075
所以=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
(3)由已知,这种植物果实的优质率p=0.9,且X服从二项分布B(3,0.9),
X=0,1,2,3,P(X= )=C·0.9 ·0.13- ,
所以P(X=0)=0.13=0.001,
P(X=1)=C×0.9×0.12=0.027,
P(X=2)=C×0.92×0.1=0.243,
P(X=3)=0.93=0.729,
故X的分布列为
X
0
1
2
3
P
0.001
0.027
0.243
0.729
所以E(X)=np=2.7.
C级——重难题目自主选做
1.在国际风帆比赛中,成绩以低分为优胜,比赛共11场,并以最佳的9场成绩计算最终的名次.在一次国际风帆比赛中,前7场比赛结束后,排名前8位的选手积分如下表
(1)根据表中的比赛数据,比较运动员A与B的成绩及稳定情况;
(2)从前7场平均分低于6.5分的运动员中,随机抽取2个运动员进行兴奋剂检查,求至少1个运动员平均分不低于5分的概率;
(3)请依据前7场比赛的数据,预测冠亚军选手,并说明理由.
解 (1)由表中的数据,我们可以分别计算运动员A和B前7场比赛积分的平均数和方差,作为两运动员比赛的成绩及衡量两运动员稳定情况的依据.
运动员A的平均分1=×21=3,
方差s=×[(3-3)2+(2-3)2×4+(4-3)2+(6-3)2]=2;
运动员B的平均分2=×28=4,
方差s=×[(1-4)2×2+(3-4)2+(5-4)2+(10-4)2+(4-4)2×2]=8.
从平均分和积分的方差来看,运动员A的平均分及积分的方差都比运动员B的小,也就是说,前7场比赛,运动员A的成绩优异,而且表现较为稳定.
(2)由表可知,平均分低于6.5分的运动员共有5个,其中平均分低于5分的运动员有3个,分别为A,B,C,平均分不低于5分且低于6.5分的运动员有2个,分别为D,E.
从这5个运动员中任取2个共有10种情况
AB,AC,AD,AE,BC,BD,BE,CD,CE,DE,
其中至少有1个运动员平均分不低于5分的有7种情况.
设至少有1个运动员平均分不低于5分为事件A,则P(A)=.
(3)尽管此时还有4场比赛没有进行,但这里我们可以假定每位选手在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作总体的一个样本,并由此估计每位运动员最后比赛的成绩.从已经结束的7场比赛的积分来看,运动员A的成绩最为优异,而且表现最为稳定,因此,预测运动员A将获得最后的冠军.而运动员B和C平均分相同,但运动员C得分总体呈下降趋势,所以预测运动员C将获得亚军.(说明 方案不唯一,其他言之有理的方案也给满分)
2.在某校 普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
(1)若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由;
(2)若从甲的6次模拟测试成绩中随机选择2个,记选出的成绩中超过87分的个数为随机变量ξ,求ξ的分布列和数学期望.
解 (1)学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
(2)随机变量ξ的所有可能取值为0,1,2,且
P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,
则ξ的分布列为
ξ
0
1
2
P
所以数学期望E(ξ)=0×+1×+2×=.
(二)重点高中适用
A级——保分题目巧做快做
1.(2018·湖南五市十校联考)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值是( )
A.5 B.6
C.7 D.8
解析 选B 由甲组学生成绩的平均数是88,可得[70+80×3+90×3+(8+4+6+8+2+m+5)]=88,解得m=3.由乙组学生成绩的中位数是89,可得n=9,所以n-m=6.
2.(2016·山东高考)某高校调查了200名学生每周的自习时间(单位 小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
解析 选D 由直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.
3.如图是依据某城市年龄在20岁到45岁的居民上 情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的上 人数呈现递减的等差数列分布,则年龄在[35,40)的 民出现的频率为( )
A.0.04 B.0.06
C.0.2 D.0.3
解析 选C 由频率分布直方图的知识得,年龄在[20,25)的频率为0.01×
5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y, ,又x,y, 成等差数列,所以可得解得y=0.2,所以年龄在[35,40)的 民出现的频率为0.2.
4.(2018·内江模拟)某公司10个销售店某月销售某产品数量(单位 台)的茎叶图如下
分组为[11,20),[20,30),[30,39]时,所作的频率分布直方图是( )
解析 选B 由直方图的纵坐标是频率/组距,排除C和D;又第一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.
5.(2018·邢台模拟)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为( )
A. B.
C. D.2
解析 选D 依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2.
6.(2018·广州模拟)为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是________.
解析 设被抽查的美术生的人数为n,因为后2个小组的频率之和为(0.037 5+0.012 5)×
5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n==60.
答案 60
7.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)频率分布直方图中x的值为________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
解析 (1)由频率分布直方图中各小矩形的总面积为1,得(0.001 2+0.002 4×2+0.003 6+x+0.006 0)×50=1,解得x=0.004 4.
(2)用电量在[100,250)内的频率为(0.003 6+0.004 4+0.006 0)×50=0.7,故用电量落在区间[100,250)内的户数为100×0.7=70.
答案 (1)0.004 4 (2)70
8.已知一组正数x1,x2,x3,x4的方差s2=(x+x+x+x-16),则数据x1+2,x2+2,x3+2,x4+2的平均数为________.
解析 设正数x1,x2,x3,x4的平均数为,则s2=[(x1-)2+(x2-)2+(x3-)2+(x4-)2],得s2=(x+x+x+x)-2,又已知s2=(x+x+x+x-16)=(x+x+x+x)-4,所以2=4,所以=2,故[(x1+2)+(x2+2)+(x3+2)+(x4+2)]=+2=4.
答案 4
9.(2018·张掖重点中学联考)张掖市旅游局为了了解大佛寺景点在大众中的熟知度,随机对15~65岁的人群抽样了n人,问题是“大佛寺是几A级旅游景点?”统计结果如下图表.
组号
分组
回答正确的人数
回答正确的人数占本组的频率
第1组
[15,25)
a
0.5
第2组
[25,35)
18
x
第3组
[35,45)
b
0.9
第4组
[45,55)
9
0.36
第5组
[55,65]
3
y
(1)分别求出a,b,x,y的值;
(2)从第2,3,4组回答正确的人中用分层抽样的方法抽取6人,求第2,3,4组每组各抽取多少人;
(3)在(2)抽取的6人中随机抽取2人,求所抽取的人中恰好没有第3组人的概率.
解 (1)由频率表中第4组数据可知,第4组总人数为=25,
再结合频率分布直方图可知n==100,
所以a=100×0.01×10×0.5=5,
b=100×0.03×10×0.9=27,
x==0.9,y==0.2.
(2)因为第2,3,4组回答正确的共有54人,
所以利用分层抽样在54人中抽取6人,每组分别抽取的人数为
第2组 ×6=2;第3组 ×6=3;第4组 ×6=1.
(3)设第2组的2人为A1,A2;第3组的3人为B1,B2,B3;第4组的1人为C1.
则从6人中随机抽取2人的所有可能的结果为 (A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C1),(A2,B1),(A2,B2),(A2,B3),(A2,C1),(B1,B2),(B1,B3),(B1,C1),(B2,B3),(B2,C1),(B3,C1),共15种,其中恰好没有第3组人的结果为 (A1,A2),(A1,C1),(A2,C1),共3种,
所以所抽取的人中恰好没有第3组人的概率P==.
10.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量(单位 克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数和方差s2(同一组中的数据用该组区间的中点值作代表);
(3)已知这种植物果实重量不低于32.5克的即为优质果实,用样本估计总体.若从这种植物果实中随机抽取3个,其中优质果实的个数为X,求X的分布列和数学期望E(X).
解 (1)组距d=5,由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值
30
35
40
45
50
频率
0.1
0.2
0.375
0.25
0.075
所以=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
(3)由已知,这种植物果实的优质率p=0.9,且X服从二项分布B(3,0.9),
X=0,1,2,3,P(X= )=C·0.9 ·0.13- ,
所以P(X=0)=0.13=0.001,
P(X=1)=C×0.9×0.12=0.027,
P(X=2)=C×0.92×0.1=0.243,
P(X=3)=0.93=0.729,
故X的分布列为
X
0
1
2
3
P
0.001
0.027
0.243
0.729
所以E(X)=np=2.7.
B级——拔高题目稳做准做
1.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,5组数据中最大频率为0.32,则a的值为( )
A.64 B.54
C.48 D.27
解析 选B 前两组中的频数为100×(0.05+0.11)=16.
因为后五组频数和为62,所以前三组为38.所以第三组频数为22.又最大频率为0.32的最大频数为0.32×100=32.所以a=22+32=54.
2.如图是某位篮球运动员8场比赛得分的茎叶图,其中一个数据染上污渍用x代替,那么这位运动员这8场比赛的得分平均数不小于得分中位数的概率为( )
A. B.
C. D.
解析 选B 由茎叶图可知0≤x≤9且x∈N,中位数是=,这位运动员这8场比赛的得分平均数为(7+8+7+9+x+3+1+10×4+20×2)=(x+115),由(x+115)≥,得3x≤7,即x=0,1,2,所以这位运动员这8场比赛的得分平均数不小于得分中位数的概率为.
3.在一个容量为5的样本中,数据均为整数,已测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未被污损,即9,10,11,1■■,那么这组数据的方差s2可能的最大值是________.
解析 由题意可设两个被污损的数据分别为10+a,b(a,b∈ ,0≤a≤9),则10+a+b+9+10+11=50,即a+b=10,b=10-a,所以s2=[(9-10)2+(10-10)2+(11-10)2+(10+a-10)2+(b-10)2]=[2+a2+(b-10)2]=(1+a2)≤×(1+92)=32.8.
答案 32.8
4.甲、乙两人要竞争一次大型体育竞技比赛射击项目的参赛资格,如图是在测试中甲、乙各射靶10次的条形图,则参加比赛的最佳人选为________.
解析 甲的平均数1=4×0.2+5×0.1+7×0.3+8×0.1+9×0.2+10×0.1=7.0,
乙的平均数2=5×0.1+6×0.2+7×0.4+8×0.2+9×0.1=7.0,
所以1=2.
甲的方差s=[(7-4)2×2+(7-5)2×1+(7-7)2×3+(7-8)2×1+(7-9)2×2+(7-10)2×1]=4,
乙的方差s=[(7-5)2×1+(7-6)2×2+(7-7)2×4+(7-8)2×2+(7-9)2×1]=1.2,
所以s>s,即参加比赛的最佳人选为乙.
答案 乙
5.在国际风帆比赛中,成绩以低分为优胜,比赛共11场,并以最佳的9场成绩计算最终的名次.在一次国际风帆比赛中,前7场比赛结束后,排名前8位的选手积分如下表
(1)根据表中的比赛数据,比较运动员A与B的成绩及稳定情况;
(2)从前7场平均分低于6.5分的运动员中,随机抽取2个运动员进行兴奋剂检查,求至少1个运动员平均分不低于5分的概率;
(3)请依据前7场比赛的数据,预测冠亚军选手,并说明理由.
解 (1)由表中的数据,我们可以分别计算运动员A和B前7场比赛积分的平均数和方差,作为两运动员比赛的成绩及衡量两运动员稳定情况的依据.
运动员A的平均分1=×21=3,
方差s=×[(3-3)2+(2-3)2×4+(4-3)2+(6-3)2]=2;
运动员B的平均分2=×28=4,
方差s=×[(1-4)2×2+(3-4)2+(5-4)2+(10-4)2+(4-4)2×2]=8.
从平均分和积分的方差来看,运动员A的平均分及积分的方差都比运动员B的小,也就是说,前7场比赛,运动员A的成绩优异,而且表现较为稳定.
(2)由表可知,平均分低于6.5分的运动员共有5个,其中平均分低于5分的运动员有3个,分别为A,B,C,平均分不低于5分且低于6.5分的运动员有2个,分别为D,E.
从这5个运动员中任取2个共有10种情况
AB,AC,AD,AE,BC,BD,BE,CD,CE,DE,
其中至少有1个运动员平均分不低于5分的有7种情况.
设至少有1个运动员平均分不低于5分为事件A,则P(A)=.
(3)尽管此时还有4场比赛没有进行,但这里我们可以假定每位选手在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作总体的一个样本,并由此估计每位运动员最后比赛的成绩.从已经结束的7场比赛的积分来看,运动员A的成绩最为优异,而且表现最为稳定,因此,预测运动员A将获得最后的冠军.而运动员B和C平均分相同,但运动员C得分总体呈下降趋势,所以预测运动员C将获得亚军.(说明 方案不唯一,其他言之有理的方案也给满分)
6.在某校 普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图.
(1)若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由;
(2)若从甲的6次模拟测试成绩中随机选择2个,记选出的成绩中超过87分的个数为随机变量ξ,求ξ的分布列和数学期望.
解 (1)学生甲的平均成绩甲==82,
学生乙的平均成绩乙==82,
又s=×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,
s=×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=,
则甲=乙,s>s,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.
(2)随机变量ξ的所有可能取值为0,1,2,且
P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,
则ξ的分布列为
ξ
0
1
2
P
所以数学期望E(ξ)=0×+1×+2×=.
第四节变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类 一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=, =-.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2=(其中n=a+b+c+d为样本容量).
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的 2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案 (1)√ (2)× (3)× (4)√
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
解析 选C 注意到回归直线必经过样本中心点.
3.设某大学的女生体重y(单位 g)与身高x(单位 cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 g
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 g
解析 选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确;又线性回归方程必过样本中心点(,),故B正确;由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 g,故C正确;当某女生的身高为170 cm时,其体重估计值是58.79 g,而不是具体值,故D不正确.
4.(教材习题改编)已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析 ∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
答案 2.6
5.为了判断高中三年级学生是否选修文 与性别的关系,现随机抽取50名学生,得到如下列联表
理
文
男
13
10
女
7
20
已知P( 2≥3.841)≈0.05,P( 2≥5.024)≈0.025.
根据表中数据,得到 2的观测值 =≈4.844.则认为选修文 与性别有关系出错的可能性为________.
解析 2的观测值 ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文 与性别之间有关系”成立,并且这种判断出错的可能性约为5 .
答案 5
[考什么·怎么考]
高考对相关关系判断的直接考查较少,多与线性回归分析等综合出现在解答题中,难度较小.
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析 选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.已知变量x和y满足关系y=-0.1x+1,变量y与 正相关.下列结论中正确的是( )
A.x与y正相关,x与 负相关
B.x与y正相关,x与 正相关
C.x与y负相关,x与 负相关
D.x与y负相关,x与 正相关
解析 选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与 正相关,可设 =y+,>0,则 =y+=-0.1x++,
故x与 负相关.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r20,∴变量x与y之间是正相关.
②由(1)知,当x=8时,=1.2×8+0.2=9.8,即使用年限为8年时,支出维修费约是9.8万元.
独立性检验是高考的常考内容,但是很少单独考查,多与频率分布直方图、概率等知识综合考查,难度适中.
[典题领悟]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位 g),其频率分布直方图如下
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 g,新养殖法的箱产量不低于50 g”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关
箱产量<50 g
箱产量≥50 g
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附
P( 2≥ 0)
0.050
0.010
0.001
0
3.841
6.635
10.828
2=.
解 (1)记B表示事件“旧养殖法的箱产量低于50 g”,C表示事件“新养殖法的箱产量不低于50 g”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 g的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 g的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)由(1)知可得列联表
箱产量<50 g
箱产量≥50 g
旧养殖法
62
38
新养殖法
34
66
由表中数据及 2的计算公式得,
2=≈15.705.
由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 g的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 g的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35( g).
[解题师说]
2个明确
(1)明确两类主体;
(2)明确研究的两个问题
2个关键
(1)准确画出2×2列联表;
(2)准确求解 2
3个步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式 2=,计算 2的值;
(3)查表比较 2与临界值的大小关系,作统计判断
[冲关演练]
1.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.
(1)求抽取的90名同学中的男生人数;
(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?
愿意选修英语口语课程
不愿意选修英语口语课程
总计
男生
25
女生
总计
35
附 2=,其中n=a+b+c+d.
P( 2≥ 0)
0.100
0.050
0.025
0.010
0.005
0
2.706
3.841
5.024
6.635
7.879
解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.
(2)2×2列联表如下
愿意选修英语口语课程
不愿意选修英语口语课程
总计
男生
25
25
50
女生
30
10
40
总计
55
35
90
由 2=,代入数据得
2==≈5.844>5.024.
所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.
2.已知某班n名同学的数学测试成绩(单位 分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?
附
P( 2≥ 0)
0.10
0.05
0.010
0.005
0
2.706
3.841
6.635
7.879
2=.
解 (1)依题意得
解得b=0.01.
因为成绩在[90,100]内的有6人,
所以n==60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.
于是本次测试的及格情况与性别的2×2列联表如下
及格
不及格
总计
男
22
8
30
女
26
4
30
总计
48
12
60
所以 2==1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.
(一)普通高中适用
A级——基础小题练熟练快
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析 选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.
2.下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
解析 选B 根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C、D正确,故选B.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析 选D 因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为1.
4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66 B.67
C.79 D.84
解析 选D ∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴
可以估计该城市人均消费额占人均工资收入的百分比为=84 .
5.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位 元)和销售量y(单位 件)之间的四组数据如下表
售价x(元)
4
4.5
5.5
6
销售量y(件)
12
11
10
9
为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为=-1.4x+,那么方程中的值为( )
A.17 B.17.5
C.18 D.18.5
解析 选B ==5,==10.5,∵回归直线过样本点的中心(,),代入线性回归方程=-1.4x+,得=10.5+1.4×5=17.5.
6.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由 2=,
得 2=≈9.616.
参照下表,
P( 2≥ 0)
0.050
0.010
0.001
0
3.841
6.635
10.828
下列说法中,正确的结论是( )
A.在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1 的前提下,认为“生育意愿与城市级别无关”
C.有99 以上的把握认为“生育意愿与城市级别有关”
D.有99 以上的把握认为“生育意愿与城市级别无关”
解析 选C ∵ 2≈9.616>6.635,∴有99 以上的把握认为“生育意愿与城市级别有关”.
7.经调查某地若干户家庭的年收入x(万元)和年饮食支出y
(万元)具有线性相关关系,并得到y关于x的线性回归直线方程 =0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析 x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案 0.245
8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得线性回归直线方程=x+中的=-2,预测当气温为-4 ℃时,用电量为________度.
解析 回归直线过点(,),根据题意得==10,==40,将(10,40)代入=-2x+,解得=60,则=-2x+60,当x=-4时,=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.
答案 68
9.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位 分)对应如下表
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下
根据以上信息,判断下列结论
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析
由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案 1
B级——中档题目练通抓牢
1.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两 成绩得到如图所示的散点图(x轴,y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析 选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析 选B 由题意知,==10,
==8,
∴=8-0.76×10=0.4,
∴当x=15时,=0.76×15+0.4=11.8(万元).
3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式
P( 2≥ 0)
0.100
0.050
0.010
0.001
0
2.706
3.841
6.635
10.828
2=,n=a+b+c+d.
A.有90 以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1 的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1 的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90 以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析 选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得 2的观测值 ==≈3.030.因为2.706<3.030<3.841,所以有90 以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示
价格x(元)
9
9.5
m
10.5
11
销售量y(件)
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
解析 ==8+,
==6+,
回归直线一定经过样本点中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,
即解得故n=10.
答案 10
5.某炼钢厂废品率x( )与成本y(元/吨)的线性回归直线方程为=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).
解析 因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668 ,所以生产的1 000吨钢中,约有1 000×1.668 =16.68吨是废品.
答案 16.68
6.某地区2011年至2017年农村居民家庭纯收入y(单位 万元)的数据如下表
年份
2011
2012
2013
2014
2015
2016
2017
年份代号t(年)
1
2
3
4
5
6
7
人均纯收入y(万元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
附 回归直线的斜率和截距的最小二乘估计公式分别为
=,=-.
解 (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5万元.
将2019年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2019年农村居民家庭人均纯收入为6.8万元.
7.(2018·张掖模拟)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从 上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟退休”的人数
15
5
15
28
17
(1)由以上统计数据填2×2列联表,并判断是否在犯错误的概率不超过0.05的前提下认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下
45岁以上
总计
支持
不支持
总计
(2)若以45岁为分界点,从不支持“延迟退休”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人.
①抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率;
②记抽到45岁以上的人数为X,求随机变量X的分布列及数学期望.
参考数据
P( 2≥ 0)
0.100
0.050
0.010
0.001
0
2.706
3.841
6.635
10.828
2=,n=a+b+c+d.
解 (1)由频率分布直方图,得调查的100人中45岁以下的人数为100×0.5=50,故45岁以上的人数为50,可得2×2列联表如下
45岁以下
45岁以上
总计
支持
35
45
80
不支持
15
5
20
总计
50
50
100
因为 2===6.25>3.841,
所以在犯错误的概率不超过0.05的前提下可以认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休”的人中抽取8人,则45岁以下的应抽6人,45岁以上的应抽2人.
①抽到1人是45岁以下的概率为=,抽到1人是45岁以下且另一人是45岁以上的概率为=.
故所求概率为=.
②由题知,X的可能取值为0,1,2.
则P(X=0)==,
P(X=1)==,
P(X=2)==.
所以随机变量X的分布列为
X
0
1
2
P
故E(X)=0×+1×+2×=.
C级——重难题目自主选做
1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位 千元)对年销售量y(单位 t)和年利润 (单位 千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润 与x,y的关系为 =0.2y-x.根据(2)的结果回答下列问题
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附 对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润 的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润 的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
2.为了了解某学校高二年级学生的物理成绩,从中抽取n名学生的物理成绩(百分制)作为样本,按成绩分成5组 [50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.
(1)求a和n的值;
(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数和中位数m;
(3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.
男生
女生
合计
优秀
不优秀
合计
附 参考公式和数据 2=,
P( 2≥ 0)
0.50
0.05
0.025
0.005
0
0.455
3.841
5.024
7.879
解 (1)由题意得10a=1-(0.005+0.01+0.015+0.02)×10=0.5,
解得a=0.05,则n==40.
(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1,
所以=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5,
(m-70)×0.05=0.5-(0.05+0.2),得m=75.
(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.
所以优秀的男生为6人,女生为4人;
不优秀的男生为10人,女生为20人.
所以2×2列联表如下
男生
女生
总计
优秀
6
4
10
不优秀
10
20
30
总计
16
24
40
所以 2=≈2.222<3.841,
所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.
(二)重点高中适用
A级——保分题目巧做快做
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20
解析 选B 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15 到20 之间,故脂肪含量的中位数小于20 .
2.某同学为了解自己记忆成语的个数与所花费的时间(单位
秒)的关系,做了5次试验,收集到的数据如表所示,由最小二乘法求得的回归直线方程为=0.74x+50.
成语个数x(个)
10
20
30
40
50
记忆时间y(秒)
61
m
n
81
89
则m+n的值为( )
A.130 B.129
C.121 D.118
解析 选A 由表中数据得,=30,=(61+m+n+81+89)=(231+m+n),将=30,=(231+m+n)代入回归直线方程,得m+n=130.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析 选D 因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为1.
4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66 B.67
C.79 D.84
解析 选D ∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84 .
5.(2018·长沙一模)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表
使用智能手机
不使用智能手机
总计
学习成绩优秀
4
8
12
学习成绩不优秀
16
2
18
总计
20
10
30
附表
P( 2≥ 0)
0.10
0.05
0.010
0.005
0.001
0
2.706
3.841
6.635
7.879
10.828
经计算 2=10,则下列选项正确的是( )
A.有99.5 的把握认为使用智能手机对学习有影响
B.有99.5 的把握认为使用智能手机对学习无影响
C.有99.9 的把握认为使用智能手机对学习有影响
D.有99.9 的把握认为使用智能手机对学习无影响
解析 选A 依题意,注意到7.879< 2<10.828,因此有99.5 的把握认为使用智能手机对学习有影响.
6.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归直线方程 =0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析 x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案 0.245
7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位 分)对应如下表
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下
根据以上信息,判断下列结论
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③
从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析 由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案 1
8.某品牌牛奶的广告费用x与销售额的统计数据如下表
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为7万元时销售额为________万元.
解析 因为==,
==42,
由题意可得回归方程为=9.4x+,
因为回归直线一定经过样本中心(,),
所以42=9.4×+,解得=9.1,
所以回归方程为=9.4x+9.1,
当x=7时,销售额为=9.4×7+9.1=74.9(万元).
答案 74.9
9.(2018·广州综合测试)近年来,我国电子商务蓬勃发展.2017年“双十一”期间,某 购平台的销售业绩高达516亿元人民币,与此同时,相关管理部门推出了针对该 购平台的商品和服务的评价系统.从该评价系统中选出200次成功交易,并对其评价进行统计, 购者对商品的满意率为0.6,对服务的满意率为0.75,其中对商品和服务都满意的交易为80次.
(1)根据已知条件完成下面的2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“ 购者对商品满意与对服务满意之间有关系”.
对服务满意
对服务不满意
总计
对商品满意
80
对商品不满意
总计
200
(2)若将频率视为概率,某人在该 购平台上进行的3次购物中,设对商品和服务都满意的次数为随机变量X,求X的分布列和数学期望E(X).
附 2=,n=a+b+c+d.
P( 2≥ 0)
0.10
0.05
0.025
0.010
0
2.706
3.841
5.024
6.635
解 (1)2×2列联表如下所示
对服务满意
对服务不满意
总计
对商品满意
80
40
120
对商品不满意
70
10
80
总计
150
50
200
则 2=≈11.111,
因为11.111>6.635,
所以可以在犯错误的概率不超过0.01的前提下认为“ 购者对商品满意与对服务满意之间有关系”.
(2)每次购物时,对商品和服务都满意的概率为,且X的可能取值为0,1,2,3.
所以P(X=0)=3=,
P(X=1)=C××2=,
P(X=2)=C×2×1=,
P(X=3)=C×3×0=.
所以X的分布列为
X
0
1
2
3
P
E(X)=0×+1×+2×+3×=.
10.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案
电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.
表1 无酒状态
停车距离d(米)
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
频数
26
m
n
8
2
表2 酒后状态
平均每毫升血液酒精含量x(毫克)
10
30
50
70
90
平均停车距离y(米)
30
50
60
70
90
已知表1数据的中位数估计值为26,回答以下问题.
(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数;
(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+;
(3)该测试团队认为 驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?
(附 对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为==,=-)
解 (1)依题意,得m=50-26,解得m=40,
又m+n+36=100,解得n=24.
故停车距离的平均数为
15×+25×+35×+45×+55×=27.
(2)依题意,可知=50,=60,
iyi=10×30+30×50+50×60+70×70+90×90=17 800,
=102+302+502+702+902=16 500,
所以==0.7,
=60-0.7×50=25,
所以回归直线方程为=0.7x+25.
(3)由(1)知当y>81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.
B级——拔高题目稳做准做
1.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两 成绩得到如图所示的散点图(x轴,y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析 选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
2.已知某产品的广告费用x(单位 万元)与销售额y(单位 万元)具有线性相关关系,其统计数据如下表
x
3
4
5
6
y
25
30
40
45
由上表可得线性回归方程=x+,据此模型预测广告费用为8万元时的销售额是( )
A.59.5万元 B.52.5万元
C.56万元 D.63.5万元
解析 选A 由表可得,=4.5,=35,(xi-)(yi-)=(-1.5)×(-10)+(-0.5)×(-5)+0.5×5+1.5×10=35,(xi-)2=(-1.5)2+(-0.5)2+0.52+1.52=5,所以==7,=35-7×4.5=3.5,故其线性回归直线方程为=7x+3.5,当x=8时,=7×8+3.5=59.5.
3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式
P( 2≥ 0)
0.100
0.050
0.010
0.001
0
2.706
3.841
6.635
10.828
2=,n=a+b+c+d.
A.有90 以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1 的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1 的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90 以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析 选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得 2的观测值 ==≈3.030.因为2.706<3.030<3.841,所以有90 以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示
价格x(元)
9
9.5
m
10.5
11
销售量y(件)
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
解析 ==8+,
==6+,
回归直线一定经过样本点中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,
即解得故n=10.
答案 10
5.某学校社团为调查学生课余学习围棋的情况,随机抽取了100名学生进行调查.根据调查结果绘制的学生日均学习围棋时间的频率分布直方图如图所示,将日均学习围棋时间不低于40分钟的学生称为“围棋迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料判断能否在犯错误的概率不超过0.05的前提下认为“围棋迷”与性别有关?
非围棋迷
围棋迷
总计
男
女
10
55
总计
(2)将上述调查所得到的频率视为概率.现在从该地区大量学生中,采用随机抽样方法每次抽取1名学生,抽取3次,记被抽取的3名学生中的“围棋迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X).
附 2=,其中n=a+b+c+d.
P( 2≥ 0)
0.10
0.05
0.025
0.010
0.005
0.001
0
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)由频率分布直方图可知,在抽取的100人中,“围棋迷”有100×0.25=25人,
从而2×2列联表如下所示
非围棋迷
围棋迷
总计
男
30
15
45
女
45
10
55
总计
75
25
100
将2×2列联表中的数据代入公式计算,得
2==≈3.030,
因为3.030<3.841,所以不能在犯错误的概率不超过0.05的前提下认为“围棋迷”与性别有关.
(2)由频率分布直方图知抽到“围棋迷”
的频率为0.25,将频率视为概率,即从该地区学生中抽取一名“围棋迷”的概率为.
由题意知,X~B,
所以P(X=0)=C×0×3=,
P(X=1)=C××2=,
P(X=2)=C×2×=,
P(X=3)=C×3×0=,
从而X的分布列为
X
0
1
2
3
P
故E(X)=3×=,D(X)=3××=.
6.某农 所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农 所确定的研究方案是 先从这5组数据中选取2组,用剩下的3组数据求回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻的2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
(附 对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为
=,=- .)
解 (1)设抽到不相邻两组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况是等可能出现的,其中抽到相邻两组数据的情况共有4种,所以P(A)=1-=,故选取的2组数据恰好是不相邻的2天数据的概率为.
(2)由数据,求得=×(11+13+12)=12,
=×(25+30+26)=27,
iyi=11×25+13×30+12×26=977,
=112+132+122=434,
所以===,
=27-×12=-3.
所以回归直线方程为=x-3.
(3)当x=10时,=22,|22-23|<2,同理当x=8时,=17,|17-16|<2.
所以该研究得到的线性回归方程是可靠的.
[选做题]
(2018·江西五市部分学校联考)某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据
4S店
甲
乙
丙
丁
戊
单价
x/万元
18.0
18.6
18.2
18.8
18.4
19.0
18.3
18.5
18.5
18.7
销量
y/辆
88
78
85
75
82
66
82
78
80
76
(1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程=x+;
(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?
附 =,=-.
解 (1)五家4S店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),
∴==18.5,
==79,
∴===-20.
∴=-=79-(-20)×18.5=79+370=449,
∴=-20x+449.
(2)设该款汽车的单价应为x万元,
则利润f(x)=(x-12)(-20x+449)=-20x2+689x-5 388,f′(x)=-40x+689,令-40x+689=0,解得x≈17.2,
故当x≈17.2时,f(x)取得最大值.
∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.