2018届二轮复习(理)专题六 概率与统计第1讲学案(全国通用)
第 1 讲 统计与统计案例
高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主
要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,
回归分析与概率是近年命题的热点,2015 年,2016 年和 2017 年在解答题中均有
考查.
真 题 感 悟
1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了 n 块地作试验田.这 n 块地
的亩产量(单位:kg)分别为 x1,x2,…,xn,下面给出的指标中可以用来评估这
种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn 的平均数 B.x1,x2,…,xn 的标准差
C.x1,x2,…,xn 的最大值 D.x1,x2,…,xn 的中位数
解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.
答案 B
2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月
平均最高气温和平均最低气温的雷达图.图中 A 点表示十月的平均最高气温约为
15 ℃,B 点表示四月的平均最低气温约为 5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在 0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于 20 ℃的月份有 5 个
解析 根据雷达图可知全年最低气温都在 0 ℃以上,故 A 正确;一月平均最高
气温是 6 ℃左右,平均最低气温 2 ℃左右,七月平均最高气温 22 ℃左右,
平均最低气温 13 ℃左右,所以七月的平均温差比一月的平均温差大,B 正确;
三月和十一月的平均最高气温都是 10 ℃,三月和十一月的平均最高气温基本相
同,C 正确;平均最高气温高于 20 ℃的有七月和八月,D 项不正确.
答案 D
3.(2017·山东卷)为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的
关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间
有线性相关关系,设其回归直线方程为 y^
=b^
x+ a^
.已知 ∑
10
i=1xi=225, ∑
10
i=1yi=1
600, b^
=4.该班某学生的脚长为 24,据此估计其身高为( )
A.160 B.163 C.166 D.170
解析 由已知得 x=22.5,y=160,
∵回归直线方程过样本点中心(x,y),且 b^
=4,
∴160=4×22.5+ a^
,解得 a^
=70.
∴回归直线方程为 y^
=4x+70,当 x=24 时, y^
=166.故选 C.
答案 C
4.(2017·全国Ⅱ卷)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,
收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分
布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记 A 表示事件:旧养殖法的箱产量低于 50
kg,新养殖法的箱产量不低于 50 kg,估计 A 的概率;
(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方
法有关:
箱产量<50 kg 箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到
0.01).
附:
K2= n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
解 (1)记 B 表示事件“旧养殖法的箱产量低于 50 kg”,
C 表示事件“新养殖法的箱产量不低于 50 kg”.
由题意知,P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于 50 kg 的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故 P(B)的估计值为 0.62.
新养殖法的箱产量不低于 50 kg 的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故 P(C)的估计值为 0.66.
因此,事件 A 的概率估计值为 0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法 62 38
新养殖法 34 66
K2=200 × (62 × 66-34 × 38)2
100 × 100 × 96 × 104 ≈15.705.
由于 15.705>6.635,故有 99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量的频率分布直方图中,箱产量低于 50 kg 的直方图面积
为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于 55 kg 的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+0.5-0.34
0.068
≈52.35 (kg).
考 点 整 合
1.抽样方法
抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽
样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个
数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即 =1
n(x1+x2+…+xn).
(4)方差与标准差.
s2=1
n[(x1- )2+(x2- )2+…+(xn- )2],
s= 1
n[(x1-)2+(x2-)2+…+(xn-)2].
3.直方图的两个结论
(1)小长方形的面积=组距×频率
组距=频率.
(2)各小长方形的面积之和等于 1.
4.回归分析与独立性检验
(1)回归直线 y^
= b^
x+ a^
经过样本点的中心点( , ),若 x 取某一个值代入回归
直线方程 y^
= b^
x+a^
中,可求出 y 的估计值.
(2)独立性检验
x
x x x
x y
对于取值分别是{x1,x2}和{y1,y2}的分类变量 X 和 Y,其样本频数列联表是:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d n
则 K2= n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)(其中 n=a+b+c+d 为样本容量).
热点一 抽样方法
【例 1】 (1)(2015·北京卷)某校老年、中年和青年教师的人数见下表,采用分层
抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有 320 人,则该样
本中的老年教师人数为( )
类别 人数
老年教师 900
中年教师 1 800
青年教师 1 600
总计 4 300
A.90 B.100 C.180 D.300
(2)(2017·长沙雅礼中学质检)在一次马拉松比赛中,35 名运动员的成绩(单位:分
钟)的茎叶图如图所示
若将运动员按成绩由好到差编为 1~35 号,再用系统抽样方法从中抽取 7 人,则
其中成绩在区间[139,151]上的运动员人数是________.
解析 (1)设该样本中的老年教师人数为 x,由题意及分层抽样的特点得 x
900
=
320
1 600,故 x=180.
(2)依题意,可将编号为 1~35 号的 35 个数据分成 7 组,每组有 5 个数据.
在区间[139,151]上共有 20 个数据,分在 4 个小组内,每组抽取 1 人,共抽取 4
人.
答案 (1)C (2)4
探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.
但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与
总体容量的比值.
2.在系统抽样的过程中,要注意分段间隔,需要抽取 n 个个体,样本就需要分成
n 个组,则分段间隔即为N
n(N 为样本容量),首先确定在第一组中抽取的个体的号
码数,再从后面的每组中按规则抽取每个个体.
【训练 1】 (1)(2017·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中
进行了抽样调查.抽到的班级一共有 52 名学生,现将该班学生随机编号,用系统
抽样的方法抽取一个容量为 4 的样本,已知 7 号、33 号、46 号同学在样本中,
那么样本中还有一位同学的编号应是( )
A.13 B.19 C.20 D.51
(2)(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为
200,400,300,100 件,为检验产品的质量,现用分层抽样的方法从以上所有
的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取________件.
解析 (1)由系统抽样的原理知,抽样的间隔为 52÷4=13,故抽取的样本的编号
分别为 7,7+13,7+13×2,7+13×3,即 7 号,20 号,33 号,46 号.
∴样本中还有一位同学的编号为 20 号.
(2)因为样本容量 n=60,样本总体 N=200+400+300+100=1 000,所以抽取比
例为n
N= 60
1000= 3
50.
因此应从丙种型号的产品中抽取 300× 3
50=18(件).
答案 (1)C (2)18
热点二 用样本估计总体
命题角度 1 数字特征与茎叶图的应用
【例 2-1】 (2017·北京东城质检)某班男女生各 10 名同学最近一周平均每天的
锻炼时间(单位:分钟)用茎叶图记录如下:
假设每名同学最近一周平均每天的锻炼时间是互相独立的.
①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;
②从平均值分析,男生每天锻炼的时间比女生多;
③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
④从 10 个男生中任选一人,平均每天的锻炼时间超过 65 分钟的概率比同样条件
下女生锻炼时间超过 65 分钟的概率大.
其中符合茎叶图所给数据的结论是( )
A.①②③ B.②③④ C.①②④ D.①③④
解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.
男生平均每天锻炼时间超过 65 分钟的概率 P1= 5
10=1
2,女生平均每天锻炼时间
超过 65 分钟的概率 P2= 4
10=2
5,P1>P2,因此④正确.
设男生、女生两组数据的平均数分别为 甲, 乙,标准差分别为 s 甲,s 乙.
易求 甲=65.2, 乙=61.8,知 甲> 乙,②正确.
又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,
∴s 甲
0.85,
而前 5 组的频率之和为 0.04+0.08+0.15+0.20+0.26=0.73<0.85.
所以 2.5≤x<3.
由 0.3×(x-2.5)=0.85-0.73,解得 x=2.9.
所以,估计月用水量标准为 2.9 吨时,85%的居民每月的用水量不超过标准.
探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它
们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋
势,方差和标准差描述数据的波动大小.
2.在本例 2-2 中,抓住频率分布直方图各小长方形的面积之和为 1,这是求解
的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵
轴的几何意义当成频率,导致样本数据的频率求错.
【训练 2】 (2017·北京卷)某大学艺术专业 400 名学生参加某次测评,根据男女
学生人数比例,使用分层抽样的方法从中随机抽取了 100 名学生,记录他们的分
数,将数据分成 7 组:[20,30),[30,40),…[80,90],并整理得到如下频率分
布直方图:
(1)从总体的 400 名学生中随机抽取一人,估计其分数小于 70 的概率;
(2)已知样本中分数小于 40 的学生有 5 人,试估计总体中分数在区间[40,50)内
的人数;
(3)已知样本中有一半男生的分数不小于 70,且样本中分数不小于 70 的男女生人
数相等.试估计总体中男生和女生人数的比例.
解 (1)根据频率分布直方图可知,样本中分数不小于 70 的频率为(0.02+
0.04)×10=0.6,
所以样本中分数小于 70 的频率为 1-0.6=0.4.
所以从总体的 400 名学生中随机抽取一人,其分数小于 70 的概率估计为 0.4.
(2)根据题意,样本中分数不小于 50 的频率为
(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为 100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为 400× 5
100=20.
(3)由题意可知,样本中分数不小于 70 的学生人数为
(0.02+0.04)×10×100=60,
所以样本中分数不小于 70 的男生人数为 60×1
2=30.
所以样本中的男生人数为 30×2=60,女生人数为 100-60=40,男生和女生人
数的比例为 60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为 3∶2.
热点三 回归分析与独立性检验
【例 3】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是
否有关系,随机调查了观看该节目的观众 110 名,得到如下的列联表:
女 男 总计
喜爱 40 20 60
不喜爱 20 30 50
总计 60 50 110
试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和
性别有关”.
参考附表:
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
(参考公式:K2= n(ad-bc)2
(a+b)(c+d)(a+c)(b+d),其中
n=a+b+c+d)
(2)(2016·全国Ⅲ卷)如图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:
亿吨)的折线图.
注:年份代码 1~7 分别对应年份 2008~2014.
①由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;
②建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化
处理量.
附注:
参考数据: ∑
7
i=1yi=9.32, ∑
7
i=1tiyi=40.17, ∑
7
i=1 (yi-)2=0.55, 7≈2.646.
回归方程 y^
= a^
+ b^
t 中斜率和截距的最小二乘估计公式分别为:
(1)解析 分析列联表中数据,可得 K2 的一个观测值
k=110 × (40 × 30-20 × 20)2
60 × 50 × 60 × 50 ≈7.822>6.635,所以有 99%的把握认为“喜
爱《开门大吉》节目与否和性别有关”.
答案 99%
(2)解 ①由折线图中的数据和附注中参考数据得
=4, ∑
7
i=1 (ti- )2=28, ∑
7
i=1 (yi-)2=0.55.
∑
7
i=1 (ti - )(yi - ) = ∑
7
i=1tiyi - ∑
7
i=1yi = 40.17 - 4×9.32 = 2.89 , 所 以 r≈
2.89
0.55 × 2 × 2.646≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可
以用线性回归模型拟合 y 与 t 的关系.
②由 =9.32
7 =1.331 及(1)得b^
=
∑
7
i=1 (ti-)(yi-)
∑
7
i=1 (ti-)2
=2.89
28 ≈0.103,
a^
= - b^
≈1.331-0.103×4≈0.92.
所以,y 关于 t 的回归方程为y^
=0.92+0.10t.
将 2016 年对应的 t=9 代入回归方程得: y^
=0.92+0.10×9=1.82.
所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨.
探究提高 1.求回归直线方程的关键及实际应用
(1)关键:正确理解计算 b^
, a^
的公式和准确地计算.
(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点
图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性
回归方程估计和预测变量的值.
2.独立性检验的关键
t t
t y t
y
y t
(1)根据 2×2 列联表准确计算 K2,若 2×2 列联表没有列出来,要先列出此表.
(2)K2 的观测值 k 越大,对应假设事件 H0 成立(两类变量相互独立)的概率越小,
H0 不成立的概率越大.
【训练 3】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒
的作用,把 500 名使用血清的人与另外 500 名未使用血清的人一年中的感冒记录
作比较,利用 2×2 列联表计算得 K2 的观测值 k≈3.918.
附表:
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( )
A.95% B.5%
C.97.5% D.2.5%
(2)(2017·唐山一模)某市春节期间 7 家超市的广告费支出 x i(万元)和销售额 yi(万
元)数据如下:
超市 A B C D E F G
广告费支出 xi 1 2 4 6 11 13 19
销售额 yi 19 32 40 44 52 53 54
①若用线性回归模型拟合 y 与 x 的关系,求 y 关于 x 的线性回归方程;
②用对数回归模型拟合 y 与 x 的关系,可得回归方程 y^
=12ln x+22,经计算得
出线性回归模型和对数模型的 R2 分别约为 0.75 和 0.97,请用 R2 说明选择哪个回
归模型更合适,并用此模型预测 A 超市广告费支出为 8 万元时的销售额.
参数数据及公式: =8, =42, ∑
7
i=1xiyi=2 794, ∑
7
i=1x2i=708,
(1)解析 ∵k≈3.918>3.841,且 P(K2≥k0=3.841)=0.05,根据独立性检验思想“这
种血清能起到预防感冒的作用”出错的可能性不超过 5%.
答案 B
(2)解 ①∵ =8, =42, ∑
7
i=1xiyi=2 794, ∑
7
i=1x2i=708.
x y
x y
因此 a^
= - b^
=42-1.7×8=28.4.
所以,y 关于 x 的线性回归方程是 y^
=1.7x+28.4.
②∵0.75<0.97,
∴对数回归模型更合适.
当 x=8 时, y^
=12ln 8+22=36ln 2+22=36×0.7+22=47.2 万元.
∴广告费支出 8 万元时,预测 A 超市销售额为 47.2 万元.
1.用样本估计总体是统计的基本思想.
用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制
及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及
应用.
2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的
量,与每个样本数据有关,这是中位数、众数所不具有的性质.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数
据的离散程度就越大.
3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.
在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并
利用数据的波动性大小反映方差(标准差)的大小.
注意:频率分布直方图的纵轴刻度是频率
组距,而不是频率,每个小直方图的面积才
是相应区间的频率.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大
致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫
无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
y x
一、选择题
1.采用系统抽样方法从 960 人中抽取 32 人做问卷调查,为此将他们随机编号为 1,
2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为 9.抽到的 32
人中,编号落入区间[1,450]的人做问卷 A,编号落入区间[451,750]的人做问
卷 B,其余的人做问卷 C.则抽到的人中,做问卷 B 的人数为( )
A.7 B.9 C.10 D.15
解析 抽取号码的间隔为960
32 =30,从而区间[451,750]包含的段数为750
30 -450
30 =
10,则编号落入区间[451,750]的人数为 10 人,即做问卷 B 的人数为 10.
答案 C
2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集
并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,
绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7,8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较
平稳
解析 由题图可知,2014 年 8 月到 9 月的月接待游客量在减少,则 A 选项错误.
答案 A
3.(2017·汉中模拟)已知两个随机变量 x,y 之间的相关关系如表所示:
x -4 -2 1 2 4
y -5 -3 -1 -0.5 1
根据上述数据得到的回归方程为 y^
= b^
x+ a^
,则大致可以判断( )
A. a^
>0, b^
>0 B. a^
>0, b^
<0
C. a^
<0, b^
>0 D. a^
<0, b^
<0
解析 作出散点图,画出回归直线直观判定 b^
>0, a^
<0.
答案 C
4.(2017·济南调研)2016 年济南地铁正式开工建设,地铁时代的到来能否缓解济南
的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民 女性市民
认为能缓解交通拥堵 48 30
认为不能缓解交通拥堵 12 20
则下列结论正确的是( )
附:K2= n(ad-bc)2
(a+b)(a+c)(b+d)(c+d)
P(K2≥k) 0.05 0.010 0.005 0.001
k 3.841 6.635 7.879 10.828
A.有 95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
解析 由 2×2 列联表,可求 K2 的观测值,
k=(48+30+12+20)(20 × 48-12 × 30)2
(48+30)(48+12)(12+20)(30+20)≈5.288>3.841.
由统计表 P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵的认识
与性别有关”.
答案 A
5.(2016·山东卷)某高校调查了 200 名学生每周的自习时间(单位:小时),制成了
如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组
为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这 200
名学生中每周的自习时间不少于 22.5 小时的人数是( )
A.56 B.60 C.120 D.140
解析 设所求的人数为 n,由频率分布直方图,自习时间不少于 22.5 小时的频率
为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.
答案 D
二、填空题
6.(2017·石家庄质检)为比较甲、乙两地 14 时的气温状况,随机选取该月中的 5
天,将这 5 天中 14 时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结
论:
①甲地该月 14 时的平均气温低于乙地该月 14 时的平均气温;
②甲地该月 14 时的平均气温高于乙地该月 14 时的平均气温;
③甲地该月 14 时的气温的标准差小于乙地该月 14 时的气温的标准差;
④甲地该月 14 时的气温的标准差大于乙地该月 14 时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号正确的是________.
解析 甲=26+28+29+31+31
5
=29,
乙=28+29+30+31+32
5
=30,则 甲< 乙,①正确.
由茎叶图知,乙地的气温相对比较集中,甲地的气温相对比较离散.
所以甲地该月的标准差大于乙地该月的标准差,④正确.
答案 ①④
7.(2017·泉州模拟)某厂在生产甲产品的过程中,产量 x(吨)与生产能耗 y(吨)的对
应数据如表:
x 30 40 50 60
x
x x x
y 25 35 40 45
根据最小二乘法求得回归方程为 y^
=0.65x+ a^
,当产量为 80 吨时,预计需要生
产能耗为________吨.
解析 由题意, =45, =36.25,代入 y^
=0.65x+ a^
,可得 a^
=7,∴当产量
为 80 吨时,预计需要生产能耗为 0.65×80+7=59.
答案 59
8.为了研究雾霾天气的治理情况,某课题组对部分城市进行空气质量调查,按地
域特点把这些城市分成甲、乙、丙三组,已知三组城市的个数分别为 4,y,z,
依次构成等差数列,且 4,y,z+4 成等比数列,若用分层抽样抽取 6 个城市,
则乙组中应抽取的城市个数为________.
解析 由题意可得{2y=4+z,
y2=4(z+4),即{y=2+z
2,
y2=4z+16,
解得 z=12 或 z=-4(舍去),故 y=8.
所以甲、乙、丙三组城市的个数分别为 4,8,12.
因为一共要抽取 6 个城市,
所以抽样比为 6
4+8+12
=1
4.
故乙组城市应抽取的个数为 8×1
4=2.
答案 2
三、解答题
9.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每
瓶 4 元,售价每瓶 6 元,未售出的酸奶降价处理,以每瓶 2 元的价格当天全部处
理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高
气温不低于 25,需求量为 500 瓶;如果最高气温位于区间[20,25),需求量为 300
瓶;如果最高气温低于 20,需求量为 200 瓶.为了确定六月份的订购计划,统计
了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温 [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)
天数 2 16 36 25 7 4
x y
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过 300 瓶的概率;
(2)设六月份一天销售这种酸奶的利润为 Y(单位:元),当六月份这种酸奶一天的
进货量为 450 瓶时,写出 Y 的所有可能值,并估计 Y 大于零的概率.
解 (1)这种酸奶一天的需求量不超过 300 瓶,当且仅当最高气温低于 25,由表
中数据可知,最高气温低于 25 的频率为2+16+36
90
=0.6.
所以这种酸奶一天的需求量不超过 300 瓶的概率的估计值为 0.6.
(2)当这种酸奶一天的进货量为 450 瓶时,
若最高气温低于 20,则 Y=200×6+(450-200)×2-450×4=-100;
若最高气温位于区间[20,25),则 Y=300×6+(450-300)×2-450×4=300;
若最高气温不低于 25,则 Y=450×(6-4)=900,
所以,利润 Y 的所有可能值为-100,300,900.
Y 大于零当且仅当最高气温不低于 20,由表格数据知,最高气温不低于 20 的频
率为36+25+7+4
90
=0.8.
因此 Y 大于零的概率的估计值为 0.8.
10.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音
短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友
圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销
化妆品的微商在一广场随机采访男性、女性用户各 50 名,将男性、女性使用微
信的时间分成 5 组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得
到如图所示的频率分布直方图.
(1)根据女性频率分布直方图估计女性使用微信的平均时间;
(2)若每天玩微信超过 4 小时的用户列为“微信控”,否则称其为“非微信控”,
请你根据已知条件完成 2×2 的列联表,并判断是否有 90%的把握认为“微信控”
与“性别有关”?
解 (1)女性平均使用微信的时间为:
0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).
(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得 a=0.08.
由题设条件得列联表
微信控 非微信控 总计
男性 38 12 50
女性 30 20 50
总计 68 32 100
∴K2= n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
=100(38 × 20-30 × 12)2
50 × 50 × 68 × 32 ≈2.941>2.706.
所以有 90%的把握认为“微信控”与“性别”有关.
11.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣
传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对近 8
年的年宣传费 xi 和年销售量 yi(i=1,2,…,8)数据作了初步处理,得到下面的
散点图及一些统计量的值.
w
∑
8
i=1 (xi- )2 ∑
8
i=1 (wi- )2 ∑
8
i=1 (xi- )·
(yi- )
∑
8
i=1 (wi- )·
(yi- )
46.6 563 6.8 289.8 1.6 1 469 108.8
表中 wi= xi, =1
8 ∑
8
i=1wi.
(1)根据散点图判断,y=a+bx 与 y=c+d x哪一个适宜作为年销售量 y 关于年
宣传费 x 的回归方程类型(给出判断即可,不必说明理由)?
x y
x w x
y
w
y
w
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程;
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x.根据(2)的结果回答下列
问题:
①年宣传费 x=49 时,年销售量及年利润的预报值是多少?
②年宣传费 x 为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 v=α+βu 的斜
率和截距的最小二乘估计分别为:
解 (1)由散点图可以判断,y=c+d x适宜作为年销售量 y 关于年宣传费 x 的回
归方程类型.
(2)令 w= x,先建立 y 关于 w 的线性回归方程,由于
c^
= - d^
=563-68×6.8=100.6,
所以 y 关于 w 的线性回归方程为 y^
=100.6+68w,因此 y 关于 x 的回归方程为 y^
=100.6+68 x.
(3)①由(2)知,当 x=49 时,年销售量 y 的预报值
y^
=100.6+68 49=576.6,
年利润 z 的预报值 z^
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润 z 的预报值
z^
=0.2(100.6+68 x)-x=-x+13.6 x+20.12.
所以当 x=13.6
2 =6.8,
即 x=46.24 时, z^
取得最大值.
故年宣传费为 46.24 千元时,年利润的预报值最大.
y w