2021新高考数学二轮复习:统计与概率(共6讲)
6.1
排列、组合、二项式定理小题组合练
第三部分
2021
考
情
分
析
计数原理和统计与概率是高中阶段数学的重要内容
,
也是高考中非常重要的内容
,
因其与现实生活联系密切
,
所以成为高考命制应用题的主要来源
,
高考出题频率基本是
“
两小一大
”,
排列组合应用题、二项式定理、抽样方法、样本估计总体、相互独立事件、独立重复试验、条件概率、数字特征等
,
都可能在小题中考查
,
难度一般不大
.
统计与概率解答题是高考六道解答题必考题之一
,
一般以现实生活中的真实情境为背景
,
考查回归分析、独立性检验、离散型随机变量的分布列、期望、方差等
,
常与统计图表结合
,
题目阅读量较大
,
与实际生活等联系密切
,
难度中等
.
偶尔也可能会与函数、数列、导数等知识综合命题
.
内容索引
01
02
必备知识 精要梳理
考向训练 限时通关
必备知识 精要梳理
1.
两个计数原理与排列组合
(1)
两个计数原理
“分类”与“分步”的区别
:
关键是看事件完成情况
,
如果每种方法都能将事件完成则是分类
;
如果必须连续若干步才能将事件完成则是分步
.
分类要用分类加法计数原理将种数相加
;
分步要用分步乘法计数原理将种数相乘
.
考向训练 限时通关
考向一
两个计数原理
1.(2020
山东
,3)6
名同学到甲、乙、丙三个场馆做志愿者
,
每名同学只去
1
个场馆
,
甲场馆安排
1
名
,
乙场馆安排
2
名
,
丙场馆安排
3
名
,
则不同的安排方法共有
(
)
A.120
种
B.90
种
C.60
种
D.30
种
答案
C
2.(2020
广东珠海三模
,10)
甲、乙、丙
3
人从
1
楼乘电梯去商场的
3
到
9
楼
,
每层楼最多下
2
人
,
则下电梯的方法有
(
)
A.210
种
B.252
种
C.343
种
D.336
种
答案
D
解析 分两种情况讨论
:
①
某个楼层只下
1
人
,
则
3
人下电梯的方法种数为
=210;②3
人中有
2
人从一个楼层下
,
另
1
人从其他楼层选一个楼层下
,
此时
,3
人下电梯的方法种数为
=126.
由分类加法计数原理可知
,3
人下电梯的方法种数为
210+126=336.
3.(2020
贵州毕节二诊
,13)
汉代数学家赵爽在注解
《
周髀算经
》
时给出的“赵爽弦图”是我国古代数学的瑰宝
,“
赵爽弦图”如图所示
,
由四个全等的直角三角形和一个正方形构成
,
现有五种不同的颜色可供涂色
,
要求相邻的区域不能用同一种颜色
,
则不同的涂色方案有 种
(
用数字作答
).
答案
420
解析 由题意
,
假设五个区域分别为①②③④⑤
,
对于区域①②③
,
三个区域两两相邻
,
共有
=60
种涂法
;
对于区域④⑤
,
若④与②颜色相同
,
则⑤有
3
种
涂法
,
若④与②颜色不同
,
则④有
2
种涂法
,⑤
有
2
种涂法
,
共有
2×2=4
种涂法
,
所以④⑤共有
3+4=7
种涂法
,
则一共有
60×7=420
种涂法
.
4.(2020
山东潍坊二模
,15)
植树造林
,
绿化祖国
.
某班级义务劳动志愿者小组参加植树活动
,
准备在一抛物线形地块上的
ABCDGFE
七点处各种植一棵树苗
,
如图所示
,
其中
A,B,C
分别与
E,F,G
关于抛物线的对称轴对称
,
现有三种树苗
,
要求每种树苗至少种植一棵
,
且关于抛物线的对称轴对称的两点处必须种植同一种树苗
,
则共有不同的种植方法数是
(
用数字作答
).
答案
36
解析 由图形的对称性
,
相当于
3
种树苗种在
A,B,C,D
四个位置
,
有且仅有一种树苗重复
,
所以有
=3
种方法
.
先从
A,B,C,D
中任选两个位置种植同一种树苗
,
有
=6
种方法
,
再把另两种树苗种植在另两个位置上
,
有
=2
种方法
.
则由分步乘法计数原理知
,
共有
3×6×2=36
种方法
.
5.(2020
山东泰安三模
,15)
甲、乙、丙、丁、戊五人去参加数学、物理、化学三科竞赛
,
每个同学只能参加一科竞赛
,
若每个同学可以自由选择
,
则不同的选择种数是
;
若甲和乙不参加同一科
,
甲和丙必须参加同一科
,
且这三科都有人参加
,
则不同的选择种数是
.(
用数字作答
)
答案
243
30
解析 若每个同学可以自由选择
,
由分步乘法计数原理可得
,
不同的选择种数是
35=243;
因为甲和乙不参加同一科
,
甲和丙必须参加同一科
,
所以有
2,2,1
和
3,1,1
两种分配方案
.
由分类加法计数原理
,
可得不同的选择种数是
18+12=30.
考向二
排列组合
6.(2020
山东聊城二模
,4)2020
年是脱贫攻坚年
,
为顺利完成“两不愁
,
三保障”
,
即农村贫困人口不愁吃、不愁穿
,
农村贫困人口义务教育、基本医疗、住房安全有保障
,
某市拟派出
6
人组成三个帮扶队
,
每队两人
,
对脱贫任务较重的甲、乙、丙三县进行帮扶
,
则不同的派出方法种数共有
(
)
A.15 B.60 C.90 D.540
答案
C
解析 依题意
,
首先将人平均分成
3
组
,
再将三组进行全排列即可
,
所以所有可能的派出方法有
=90(
种
).
7.(2019
北京海淀一模
,
理
8)
某校实行选科走班制度
,
张毅同学的选择是物理、生物、政治这三科
,
且物理在
A
层班级
,
生物在
B
层班级
.
该校周一上午选科走班的课程安排如下表所示
,
张毅选择三个科目的课各上一节
,
另外一节上自习
,
则他不同的选课方法有
(
)
第一节
第二节
第三节
第四节
地理
B
层
2
班
化学
A
层
3
班
地理
A
层
1
班
化学
A
层
4
班
生物
A
层
1
班
化学
B
层
2
班
生物
B
层
2
班
历史
B
层
1
班
物理
A
层
1
班
生物
A
层
3
班
物理
A
层
2
班
生物
A
层
4
班
物理
B
层
2
班
生物
B
层
1
班
物理
B
层
1
班
物理
A
层
4
班
政治
1
班
物理
A
层
3
班
政治
2
班
政治
3
班
A.8
种
B.10
种
C.12
种
D.14
种
答案
B
解析 学校课表中每一节课都有物理
A
层可选
,
政治有三节课可选
,
生物
B
层只有二、三节可选
,
依据关键元素优先的原则
,
先安排生物
B
的“位置”
,
再安排政治的“位置”
,
接着安排物理的“位置”
,
三种科目安排好后
,
自习课随之确定
,
方法数为
:3×2+2×2=10.
8.(2020
湖南雅礼中学高三月考
,5)
中国古代儒家要求学生掌握六种基本才能
:
礼、乐、射、御、书、数
,
也称这六种才能为“六艺”
.
某校国学社团周末开展“六艺”课程讲座活动
,
每天连排六节
,
每艺一节
,
排课有如下要求
:“
礼”和“数”不能相邻
,“
射”和“乐”必须相邻
,
则“六艺”课程讲座不同的排课顺序共有
(
)
A.24
种
B.72
种
C.96
种
D.144
种
答案
D
9.(2020
天津和平区高三一模
,8)
在国际高峰论坛上
,
组委会要从
6
个国内媒体团和
3
个国外媒体团中选出
3
个媒体团进行提问
,
要求这三个媒体团中既有国内媒体团又有国外媒体团
,
且国内媒体团不能连续提问
,
则不同的提问方式的种数为
(
)
A.378 B.306 C.268 D.198
答案
D
解析 分两种情况讨论
.
①
若选两个国内媒体一个国外媒体
,
有
=90
种不同提问方式
;②
若选两个外国媒体一个国内媒体
,
有
=108
种不同提问方式
.
所以共有
90+108=198
种提问方式
.
10.(2020
山东济宁三模
,15)5
人并排站成一行
,
如果甲乙两人不相邻
,
那么不同的排法种数是
.(
用数字作答
);5
人并排站成一行
,
甲乙两人之间恰好有一人的概率是
.(
用数字作答
)
考向三
二项式定理
11.(2020
海南海南中学模拟
,3)
已知
(2x-a)6(a
是常数
)
的展开式中含
x3
项的系数为
-160,
则
a=(
)
答案
A
12.(2020
全国
Ⅰ,
理
8) (x+y)5
的展开式中
x3y3
的系数为
(
)
A.5 B.10 C.15 D.20
答案
C
13.(
多选
)(2020
海南三亚模拟
,10)
对于 的展开式
,
下列说法正确的是
(
)
A.
展开式共有
6
项
B.
展开式中的常数项是
-240
C.
展开式中各项系数之和为
1
D.
展开式中的二项式系数之和为
64
答案
CD
14.(2020
山东德州二模
,7)(x2-x-a)5
的展开式的各项系数之和为
-32,
则该展开式中含
x9
项的系数是
(
)
A.-15 B.-5 C.5 D.15
答案
B
解析 ∵
(x2-x-a)5
的展开式的各项系数之和为
-32,
令
x=1,
可得
(12-1-a)5=-32,
故
(-a)5=-32,
得
a=2.
故
(x2-x-a)5=(x2-x-2)5=(x-2)5(x+1)5,
设
(x-2)5
展开式的通项公式为
6.2
统计图表小题组合练
第三部分
2021
内容索引
01
02
必备知识 精要梳理
考向训练 限时通关
必备知识 精要梳理
1.
条形统计图及其特点
条形统计图是用一个单位长度表示一定的数量
,
根据数量的多少画出长短不同的直条
,
然后把这些直条按照一定的顺序排列起来
,
条形统计图也叫柱形图
,
条形统计图形象、直观
,
从图中很容易看出各种数量的多少
.
2.
折线统计图及其特点
折线统计图是用一个单位长度表示一定的数量
,
根据数量的多少描出各点
,
然后把各点用线段顺次连接起来
,
折线统计图不但可以表示出数量的多少
,
而且能够清楚地表示数量增减变化的情况
.
3.
扇形统计图及其特点
扇形统计图中的圆代表总体
,
圆中的各个扇形分别代表总体中的不同部分
,
扇形的大小反映各个部分占总体的百分比的大小
,
扇形统计图可以很清楚地表示各部分数量同总数之间的关系
,
各个扇形所占的百分比之和等于
1.
4.
茎叶图
统计中有一种被用来表示数据的图叫做茎叶图
,
茎是指中间的一列数
,
叶就是从茎的旁边生长出来的数
.
5.
散点图
表示具有相关关系的两个变量的一组数据的图形叫作散点图
,
它可直观地判断两变量的关系是否可以用线性关系表示
,
若这些点散布在从左下角到右上角的区域
,
则称两个变量正相关
;
若这些点散布在从左上角到右下角的区域
,
则称两个变量负相关
.
考向训练 限时通关
考向一
折线统计图及其应用
1.(2020
山东威海一模
,3)
恩格尔系数是食品支出总额占个人消费支出总额的比重
,
其数值越小说明生活富裕程度越高
.
统计改革开放
40
年来我国历年城镇和农村居民家庭恩格尔系数
,
绘制了下面的折线图
.
根据该折线图
,
下列结论错误的是
(
)
(1978—2018)
历年中国城乡居民家庭恩格尔系数
A.
城镇居民家庭生活富裕程度不低于农村居民家庭
B.
随着改革开放的不断深入
,
城镇和农村居民家庭生活富裕程度越来越高
C.
从
1996
年开始城镇和农村居民家庭恩格尔系数都低于
50%
D.
随着城乡一体化的推进
,
城镇和农村居民家庭生活富裕程度差别越来越小
答案
C
解析 从图中可知城镇居民家庭恩格尔系数不高于农村居民家庭的恩格尔系数
,
所以选项
A
正确
;
从图中可知城镇居民家庭和农村居民家庭的恩格尔系数都在降低
,
所以选项
B
正确
;
从图中可知农村居民家庭的恩格尔系数从
2001
年开始低于
50%,
所以选项
C
错误
;
从图中可知随着城乡一体化的推进
,
城镇和农村居民家庭的恩格尔系数越来越接近
,
所以选项
D
正确
.
2.(
多选
)(2020
山东菏泽一模
,9)Keep
是一款具有社交属性的健身
APP,
致力于提供健身教学、跑步、骑行、交友及健身饮食指导、装备购买等一站式运动解决方案
.Keep
可以让你随时随地进行锻炼
,
记录你每天的训练进程
.
不仅如此
,
它还可以根据不同人的体质
,
制定不同的健身计划
.
小吴根据
Keep
记录的
2019
年
1
月至
2019
年
11
月
期间每月跑步的里程
(
单位
:
十公里
)
数据整理并绘制了下面的折线图
.
根据该折线图
,
下列结论正确的是
(
)
A.
月跑步里程逐月增加
B.
月跑步里程最大值出现在
10
月
C.
月跑步里程的中位数为
5
月份对应的里程数
D.1
月至
5
月的月跑步里程相对于
6
月至
11
月波动性更小
答案
BCD
解析 由所给折线图可知
:
月跑步里程并不是逐月递增
,
故选项
A
错误
;
月跑步里程最大值出现在
10
月
,
故选项
B
正确
;
月跑步里程的中位数为
5
月份对应的里程数
,
故选项
C
正确
;1
月至
5
月的月跑步里程相对
6
月至
11
月
,
波动性更小
,
故选项
D
正确
.
3.(
多选
)(2020
山东临沂一模
,10)
某同学在微信上查询到
2010
年到
2019
年全国高考报名人数、录取人数和山东夏季高考报名人数的折线图
,
其中
2019
年的录取人数被遮挡了
.
他又查询到
2010
年到
2019
年全国高考录取率的散点图
,
结合图表中的信息判定下列说法正确的是
(
)
2010—2019
年全国高考报名人数、录取人数、山东夏季高考报名人数
2010—2019
年全国高考录取率
A.
全国高考报名人数逐年增加
B.2018
年全国高考录取率最高
C.2019
年全国高考录取人数约
820
万
D.2019
年山东夏季高考报名人数在全国的占比最小
答案
BCD
解析
2016
年的全国高考报名人数少于
2015
年人数
,
故选项
A
错误
;2018
年的录取率为
81.1%,
为最高
,
故选项
B
正确
;2019
年全国高考录取人数为
1 031×79.5%≈820,
故选项
C
正确
;2010~2019
年山东夏季高考报名人数在全国的占比分别约为
:6.9%,6.3%,5.6%,5.5%,5.9%,7.4%,6.4%,6.2%,6.1%,5.4%,
故选项
D
正确
.
考向二
柱形统计图及其应用
4.(
多选
)(2020
山东聊城二模
,10)
居民消费价格指数
,
简称
CPI,
是一个反映居民消费价格水平变动情况的宏观经济指标
.
某年的
CPI= ×100,
以下是
2009~2018
年居民消费价格指数的柱形图
.
从图中可知下列说法正确的是
(
)
A.2010~2018
年居民消费价格总体呈增长趋势
B.
这十年中有些年份居民消费价格增长率超
过
3%
C.2009
年的居民消费价格出现负增长
D.2011
年的居民消费价格最高
答案
ABC
解析 由柱形图可知
,2010~2018
年的
CPI
均大于
100,
说明其中每一年的居民消费价格都大于前一年的居民消费价格
,
所以
2010~2018
年居民消费价格总体呈增长趋势
,
故选项
A
正确
;
由柱形图可知
,2010
年的居民消费价格的增长率大约
3.02%,2011
年的居民消费价格的增长率约为
5.62%,
都超过了
3%,
故选项
B
正确
;2009
年的
CPI
的值小于
100,
说明当年的居民消费价格低于
2008
年的居民消费价格
,
所以
2009
年的居民消费价格出现负增长
,
故选项
C
正确
;
由柱形图可知
,2011
年的居民消费价格的增长率最高
,
从
2010~2018
年每年的居民消费价格都在增长
,
所以
2018
年的居民消费价格才是最高的
,
故选项
D
不正确
.
5.(
多选
)(2020
山东潍坊二模
,9)
我国是世界第一产粮大国
,
我国粮食产量很高
,
整体很安全
.
按照
14
亿人口计算
,
中国人均粮食产量约为
950
斤
,
比全球人均粮食产量高了约
250
斤
.
如图是中国国家统计局网站中
2010~2019
年
,
我国粮食产量
(
千万吨
)
与年末总人口
(
千万人
)
的条形图
,
根据条形图可知在
2010~2019
年中
(
)
A.
我国粮食年产量与年末总人口均逐年递增
B.2011
年我国粮食年产量的年增长率最大
C.2015~2019
年我国粮食年产量相对稳定
D.2015
年我国人均粮食年产量达到了最高峰
答案
BCD
解析 我国粮食年产量在
2010
年至
2015
年逐年递增
,
在
2015
年至
2019
年基本稳定在
66
千万吨左右
,2016
年和
2018
年产量略低
;
而我国年末总人口均逐年递增
,
故选项
A
错误
;
由粮食产量条形图得
2011
年我国粮食年产量的年增长率最大
,
约为
5%,
故选项
B
正确
;
在
2015
年至
2019
年基本稳定在
66
千万吨左右
,
故选项
C
正确
;2015
年我国人均粮食年产量达到了最高峰
,
约为
0.48
吨
/
人
,
故选项
D
正确
.
考向三
频率
(
数
)
分布表、频率分布直方图、茎叶图
6.(2020
江西南昌三模
,3)
为了普及环保知识
,
增强环保意识
,
某中学随机抽取
30
名学生参加环保知识竞赛
,
得分
(10
分制
)
的频数分布表如表
:
设得分的中位数为
me,
众数为
m0,
平均数为
x,
则
(
)
A.me=m0=x B.me=m0
4)=1-P(ξ<4)=0.1,
根据对称性可知
,
P(ξ<-2)=P(ξ>4)=0.1,P(-2<ξ<1)=0.5-P(ξ<-2)=0.5-0.1=0.4.
13.(2020
山东青岛一模
,3)
已知某市居民在
2019
年用于手机支付的个人消费额
ξ(
单位
:
元
)
服从正态分布
N(2 000,1002),
则该市某居民手机支付的消费额在
(1 900,2 200)
内的概率为
(
)
附
:
随机变量
ξ
服从正态分布
N(
μ,σ2),
则
P(
μ-σ<ξ<
u+
σ)=0.682 6,
P(
μ-2σ<ξ<μ+2σ)=0.954 4,
P(
μ-3σ<ξ<μ+3σ)=0.997 4.
A.0.975 9 B.0.84
C.0.818 5 D.0.477 2
答案
C
14.(
多选
)(2020
山东潍坊五县市联考
,10)
甲、乙两类水果的质量
(
单位
:kg)
分别服从正态分布 其正态分布的密度曲线如图所示
,
则下列说法正确的是
(
)
A.
乙类水果的平均质量
μ2=0.8
B.
甲类水果的质量比乙类水果的质量更
集中于平均值左右
C.
甲类水果的平均质量比乙类水果的平均质量小
D.
乙类水果的质量服从的正态分布的参数
σ2=1.99
答案
ABC
解析 由图象可知
,
甲图象关于直线
x=0.4
对称
,
乙图象关于直线
x=0.8
对称
,
所以
μ1=0.4,μ2=0.8,μ1<μ2,
故选项
A,C
正确
;
因为甲图象比乙图象更“高瘦”
,
所以甲类水果的质量比乙类水果的质量更集中于平均值左右
,
故选项
B
正确
;
因为乙图象的最大值为
1.99,
即
=1.99,
所以
σ2≠1.99,
故选项
D
错误
.
6.4.1
统计与统计案例
第三部分
2021
内容索引
01
02
必备知识 精要梳理
关键能力 学案突破
必备知识 精要梳理
1.
变量间的相关关系
(1)
如果散点图中的点从整体上看大致分布在一条直线的附近
,
那么我们说变量
x
和
y
具有线性相关关系
.
(2)
线性回归方程
:
若变量
x
与
y
具有线性相关关系
,
有
n
个样本数据
(3)
相关系数
:r= ,
当
r>0
时
,
表示两个变量正相关
;
当
r<0
时
,
表示两个变量负相关
.|r|
越接近
1,
表明两个变量相关性越强
;
当
|r|
接近
0
时
,
表明两个变量几乎不存在相关性
.
2.
独立性检验
对于取值分别是
{x1,x2}
和
{y1,y2}
的分类变量
X
和
Y,
其样本频数列联表是
:
y
1
y
2
总计
x
1
a
b
a+b
x
2
c
d
c+d
总计
a+c
b+d
n
关键能力 学案突破
热点一
样本的数字特征的应用
【
例
1】(2019
全国
Ⅱ,
文
19)
某行业主管部门为了解本行业中小企业的生产情况
,
随机调查了
100
个企业
,
得到这些企业第一季度相对于前一年第一季度产值增长率
y
的频数分布表
.
y
的分组
[
-
0
.
20,0)
[0,0
.
20)
[0
.
20,0
.
40)
[0
.
40,0
.
60)
[0
.
60,0
.
80)
企业数
2
24
53
14
7
(1)
分别估计这类企业中产值增长率不低于
40%
的企业比例、产值负增长的企业比例
;
(2)
求这类企业产值增长率的平均数与标准差的估计值
(
同一组中的数据用该组区间的中点值为代表
).(
精确到
0.01)
解题心得
(1)
在预测总体数据的平均值时
,
常用样本数据的平均值估计
,
从而做出合理的判断
.
(2)
平均数反映了数据取值的平均水平
,
标准差、方差描述了一组数据围绕平均数波动的大小
.
标准差、方差越大
,
数据的离散程度越大
,
越不稳定
.
【
对点训练
1】(2020
辽宁辽南协作校二模
,18)
数据的收集和整理在当今社会起到了举足轻重的作用
,
它用统计的方法来帮助人们分析以往的经验数据
,
进而指导人们接下来的行动
.
某支足球队的主教练打算从预备球员甲、乙两人中选一人为正式球员
,
他收集了甲、乙两名球员近期
5
场比赛的传球成功次数
,
如下表
:
场次
第一场
第二场
第三场
第四场
第五场
甲
28
33
36
38
45
乙
39
31
43
39
33
(1)
根据这两名球员近期
5
场比赛的传球成功次数
,
完成茎叶图
(
茎表示十位
,
叶表示个位
);
分别在平面直角坐标系中画出两名球员的传球成功次数的散点图
;
(2)
求出甲、乙两名球员近期
5
场比赛的传球成功次数的平均值和方差
;
(3)
主教练根据球员每场比赛的传球成功次数分析出球员在场上的积极程度和技术水平
,
同时根据多场比赛的数据也可以分析出球员的状态和潜力
.
你认为主教练应选哪位球员
?
并说明理由
.
解
(1)
茎叶图如图
散点图如图
:
热点二
线性回归分析
【
例
2】
改革开放以来
,
我国经济持续高速增长
.
如图给出了我国
2003
年至
2012
年第二产业增加值与第一产业增加值的差值
(
以下简称为
:
产业差值
)
的折线图
,
记产业差值为
y(
单位
:
万亿元
).
(1)
求出
y
关于年份代码
t
的线性回归方程
;
(2)
利用
(1)
中的回归方程
,
分析
2003
年至
2012
年我国产业差值的变化情况
,
并预测我国产业差值在哪一年约为
34
万亿元
;
(3)
结合折线图
,
试求出除去
2007
年产业差值后剩余的
9
年产业差值的平均值及方差
(
结果精确到
0.1).
解题心得线性回归分析问题的类型及解题方法
1.
求回归直线方程
:
2.
对变量值预测
:
(1)
若已知回归直线方程
(
方程中无参数
),
进而预测时
,
可以直接将数值代入求得特定要求下的预测值
;
(2)
若回归直线方程中有参数
,
则根据回归直线一定经过点
( ),
求出参数值
,
得到回归直线方程
,
进而完成预测
.
【
对点训练
2】(2020
河北石家庄模拟
,19)
下表是我国大陆地区从
2013
年至
2019
年国内生产总值
(GDP)
近似值
(
单位
:
万亿元人民币
)
的数据表格
:
年份
2013
2014
2015
2016
2017
2018
2019
年份代号
x
1
2
3
4
5
6
7
中国大陆地区
GDP:
y
(
单位
:
万亿元人民币
)
59
.
3
64
.
1
68
.
6
74
.
0
82
.
1
90
.
0
99
.
1
(1)
判断
y=b1x+a1
与
y=a2+b2ln x
哪一个更适宜作为国内生产总值
(GDP)
近似值
y
关于年份代号
x
的回归方程
,
并说明理由
;
(2)
根据
(1)
的判断结果及表中数据
,
求出
y
关于年份代号
x
的回归方程
(
系数精确到
0.01);
(3)
党的十九大报告中指出
:
从
2020
年到
2035
年
,
在全面建成小康社会的基础上
,
再奋斗
15
年
,
基本实现社会主义现代化
.
若到
2035
年底我国人口增长为
14.4
亿人
,
假设到
2035
年世界主要中等发达国家的人均国民生产总值的频率直方图如图所示
.
以
(2)
的结论为依据
,
预测我国在
2035
年底人均国民生产总值是否可以超过假设的
2035
年世界主要中等发达国家的人均国民生产总值平均数的估计值
.
(3)
到
2035
年底对应的年份代号为
23,
由
(2)
的回归方程
=6.60x+50.36
得我国国内生产总值约为
6.60×23+50.36=202.16(
万亿元人民币
),
又
14.04,
所以到
2035
年底我国人均国民生产总值约为
14.04
万元人民币
,
由直方图
,
假设的
2035
年世界主要中等发达国家的人均国民生产总值平均数的估计值为
7.5×0.3+12.5×0.35+17.5×0.2+22.5×0.1+27.5×0.05=13.75,
又
13.75<14.04,
所以以
(2)
的结论为依据
,
可预测我国在
2035
年底人均国民生产总值可以超过假设的
2035
年世界主要中等发达国家的人均国民生产总值平均数的估计值
.
热点三
非线性回归分析
【
例
3】(2020
山东聊城二模
,21)
个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税
.
我国在
1980
年
9
月
10
日第五届全国人民代表大会第三次会议通过并公布了
《
中华人民共和国个人所得税法
》.
公民依法诚信纳税是义务
,
更是责任
.
现将自
2013
年至
2017
年的个人所得税收入统计如下
:
年份
2013
2014
2015
2016
2017
时间代号
x
1
2
3
4
5
个税收入
y
(
千亿元
)
6
.
53
7
.
38
8
.
62
10
.
09
11
.
97
并制作了时间代号
x
与个人所得税收入的如图所示的散点图
:
根据散点图判断
,
可用①
y=menx
与②
y=px2+q
作为年个人所得税收入
y
关于时间代号
x
的回归方程
,
经过数据运算和处理
,
得到如下数据
:
以下计算过程中四舍五入保留两位小数
.
(1)
根据所给数据
,
分别求出①
,②
中
y
关于
x
的回归方程
;
(2)
已知
2018
年个人所得税收入为
13.87
千亿元
,
用
2018
年的数据验证
(1)
中所得的两个回归方程
,
哪个更适宜作为
y
关于时间代号
x
的回归方程
?
(3)
你还能从统计学哪些角度来进一步确认哪个回归方程更适宜
?(
只需叙述
,
不必计算
)
附
:
对于一组数据
(u1,y1),(u2,y2),…,(un,yn)
其回归直线
y=α+βu
的斜率和截距
(3)
还可以计算两个回归方程的残差
,
残差的平方和越小
,
拟合效果越好
.
解题心得非线性回归方程的求法
:
(1)
根据原始数据做出散点图
;
(2)
根据散点图
,
选择恰当的拟合函数
;
(3)
作恰当变换
,
将其转化成线性函数
,
求线性回归方程
;
(4)
在
(3)
的基础上通过相应变换
,
即可得非线性回归方程
.
【
对点训练
3】
某公司为确定下一年度投入某种产品的宣传费
,
需了解年宣传费
x(
单位
:
千元
)
对年销售量
y(
单位
:t)
和年利润
z(
单位
:
千元
)
的影响
.
对近
8
年的年宣传费
xi
和年销售量
yi(i=1,2,…,8)
数据作了初步处理
,
得到下面的散点图及一些统计量的值
.
(1)
根据散点图判断
,y=a+bx
与
y=c+d
哪一个适宜作为年销售量
y
关于年宣传费
x
的回归方程类型
?(
给出判断即可
,
不必说明理由
)
(2)
根据
(1)
的判断结果及表中数据
,
建立
y
关于
x
的回归方程
;
(3)
已知这种产品的年利润
z
与
x,y
的关系为
z=0.2y-x.
根据
(2)
的结果回答下列问题
:
①
年宣传费
x=49
时
,
年销售量及年利润的预报值是多少
?
②
年宣传费
x
为何值时
,
年利润的预报值最大
?
热点四
样本的相关系数的应用
【
例
4】(2020
全国
Ⅱ,
理
18)
某沙漠地区经过治理
,
生态系统得到很大改善
,
野生动物数量有所增加
,
为调查该地区某种野生动物的数量
,
将其分成面积相近的
200
个地块
,
从这些地块中用简单随机抽样的方法抽取
20
个作为样区
,
调查得到样本数据
(xi,yi)(i=1,2,…,20),
其中
xi
和
yi
分别表示第
i
个样区的植物覆盖面积
(
单位
:
公顷
)
和这种野生动物的数量
,
并计算得
(1)
求该地区这种野生动物数量的估计值
(
这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数
);
(2)
求样本
(xi,yi)(i=1,2,…,20)
的相关系数
(
精确到
0.01);
(3)
根据现有统计资料
,
各地块间植物覆盖面积差异很大
.
为提高样本的代表性以获得该地区这种野生动物数量更准确的估计
,
请给出一种你认为更合理的抽样方法
.
并说明理由
.
(3)
分层抽样
:
根据植物覆盖面积的大小对地块分层
,
再对
200
个地块进行分层抽样
.
理由如下
:
由
(2)
知各样区的这种野生动物数量与植物覆盖面积有很强的正相关
.
由于各地块间植物覆盖面积差异很大
,
从而各地块间这种野生动物数量差异也很大
,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性
,
提高了样本的代表性
,
从而可以获得该地区这种野生动物数量更准确的估计
.
解题心得对于样本的相关系数的应用题目
,
题目一般都给出样本
(xi,yi)(i=1,2,…,n)
的相关系数
r
的表达式
,
以及有关的数据
,
解决这类题的关键是在有关的数据中选择题目需要的数据代入公式即可
.
【
对点训练
4】(2020
河北唐山高三联考
,19)
近年来
,
共享单车在我国各城市迅猛发展
,
为人们的出行提供了便利
,
但也给城市的交通管理带来了一些困难
,
为掌握共享单车在
C
省的发展情况
,
某调查机构从该省抽取了
5
个城市
,
并统计了共享单车的
A
指标
x
和
B
指标
y,
数据如下表所示
:
城市
1
城市
2
城市
3
城市
4
城市
5
A
指标
2
4
5
6
8
B
指标
3
4
4
4
5
(1)
试求
y
与
x
间的相关系数
r,
并说明
y
与
x
是否具有较强的线性相关关系
(
若
|r|≥0.75,
则认为
y
与
x
具有较强的线性相关关系
,
否则认为没有较强的线性相关关系
).
(2)
建立
y
关于
x
的回归方程
,
并预测当
A
指标为
7
时
,B
指标的估计值
.
(3)
若某城市的共享单车
A
指标
x
在区间 的右侧
,
则认为该城市共享单车数量过多
,
对城市的交通管理有较大的影响
,
交通管理部门将进行治理
,
直至
A
指标
x
在区间 内
.
现在已知
C
省某城市共享单车的
A
指标为
13,
则该城市的交通管理部门是否需要进行治理
?
试说明理由
.
热点五
独立性检验
【
例
5】(2020
河北衡水中学高三调研
,19)
某城市先后采用甲、乙两种方案治理空气污染各一年
,
各自随机抽取一年
(365
天
)
内
100
天的空气质量指数
API
的检测数据进行分析
,
若空气质量指数值在
[0,300]
内为合格
,
否则为不合格
.
表
1
是甲方案检测数据样本的频数分布表
,
如图是乙方案检测数据样本的频率分布直方图
.
表
1:
API
值
[0,50]
(50,100]
(100,150]
(150,200]
(200,250]
(250,300]
大于
300
天数
9
13
19
30
14
11
4
(1)
将频率视为概率
,
求乙方案样本的频率分布直方图中
a
的值
,
以及乙方案样本的空气质量不合格天数
;
(2)
求乙方案样本的中位数
;
(3)
填写下面
2×2
列联表
(
表
2),
并根据列联表判断是否有
90%
的把握认为该城市的空气质量指数值与两种方案的选择有关
.
表
2:
甲方案
乙方案
合计
合格天数
不合格天数
合计
P
(
K
2
≥
k
)
0
.
10
0
.
05
0
.
025
k
2
.
706
3
.
841
5
.
024
解
(1)
由频率分布直方图知
,(0.001 0+0.003 0+0.004 0+0.005 0+0.003 0
+0.001 8+a)×50=1,
解得
a=0.002 2,
∴
乙方案样本中不合格天数为
0.002 2×50×100=11(
天
);
(2)
根据题中的频率分布直方图
,
得
(0.001 0+0.003 0+0.004 0)×50=0.4,
又
0.005 0×50=0.25,∵0.4+0.25=0.65,∴
中位数在
(150,200]
之间
,
设中位数为
x,
则
0.4+(x-150)×0.005 0=0.5,
解得
x=170,∴
乙方案样本的中位数为
170;
(3)
由题意填写
2×2
列联表如下
,
甲方案
乙方案
合计
合格天数
96
89
185
不合格天数
4
11
15
合计
100
100
200
∵
3.532>2.706,∴
有
90%
的把握认为该城市的空气质量指数值与两种方案的选择有关
.
解题心得有关独立性检验的问题解题步骤
:(1)
作出
2×2
列联表
;(2)
计算随机变量
K2
的值
;(3)
查临界值
,
检验作答
.
【
对点训练
5】(2020
山东
,19)
为加强环境保护
,
治理空气污染
,
环境监测部门对某市空气质量进行调研
,
随机抽查了
100
天空气中的
PM2.5
和
SO2
浓度
(
单位
:μg/m3),
得下表
:
SO
2
PM2
.
5
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)
估计事件“该市一天空气中
PM2.5
浓度不超过
75,
且
SO2
浓度不超过
150”
的概率
;
(2)
根据所给数据
,
完成下面的
2×2
列联表
:
SO
2
PM2
.
5
[0,150]
(150,475]
[0,75]
(75,115]
(3)
根据
(2)
中的列联表
,
判断是否有
99%
的把握认为该市一天空气中
PM2.5
浓度与
SO2
浓度有关
?
P
(
K
2
≥
k
)
0
.
050
0
.
010
0
.
001
k
3
.
841
6
.
635
10
.
828
解
(1)
根据抽查数据
,
该市
100
天空气中
PM2.5
浓度不超过
75,
且
SO2
浓度不超过
150
的天数为
32+18+6+8=64,
因此
,
该市一天空气中
PM2.5
浓度不超过
75,
且
SO2
浓度不超过
150
的概率的估计值为
(2)
根据抽查数据
,
可得
2×2
列联表
:
SO
2
PM
2.
5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
由于
7.484>6.635,
故有
99%
的把握认为该市一天空气中
PM2.5
浓度与
SO2
浓度有关
.
6.4.2
随机变量及其分布
第三部分
2021
内容索引
01
02
必备知识 精要梳理
关键能力 学案突破
必备知识 精要梳理
1.
超几何分布
在含有
M
件次品的
N
件产品中
,
任取
n
件
,
其中恰有
X
件次品
,
则
P(X=k)=
,k=0,1,2,…,m,
其中
m=min{M,n},
且
n≤N,M≤N,n,M,N∈N*.
2.
二项分布
一般地
,
在
n
次独立重复试验中
,
事件
A
发生的次数为
X,
设每次试验中事件
A
发生的概率为
p,
则
P(X=k)= pkqn-k,
其中
016 000)=P(X=23 000)+P(X=17 000)=0.3+0.5=0.8,
设这三年中有
Y
年的纯收入不少于
16 000
元
,
则有
Y~B(3,0.8),
所以这三年中至少有两年的纯收入不少于
16 000
元的概率为
(3)
由
(1)
知
,2020
年该农户种植该经济农作物一亩的预计纯收入为
E(X)=23 000×0.3+17 000×0.5+12 500×0.2=17 900(
元
), >4 000,
凭这一亩经济农作物的纯收入
,
该农户的人均纯收入超过了国家脱贫标准
,
所以能预测该农户在
2020
年底可以脱贫
.
解题心得求复杂事件概率的
2
种方法
(1)
直接法
:
正确分析复杂事件的构成
,
将复杂事件转化为几个彼此互斥事件的和事件或几个相互独立事件同时发生的积事件或一独立重复试验问题
,
然后用相应概率公式求解
.
(2)
间接法
:
当复杂事件正面情况比较多
,
反面情况较少
,
则可利用其对立事件进行求解
,
对于“至少”“至多”等问题往往用这种方法求解
.
【
对点训练
2】(2020
江苏盐城模拟
,18)
为了倡导健康、低碳、绿色的生活理念
,
某市建立了公共自行车服务系统鼓励市民租用公共自行车出行
,
公共自行车按每车每次的租用时间进行收费
,
具体收费标准如下
:
①
租用时间不超过
1
小时
,
免费
;
②
租用时间为
1
小时以上且不超过
2
小时
,
收费
1
元
;
③
租用时间为
2
小时以上且不超过
3
小时
,
收费
2
元
;
④
租用时间超过
3
小时的时段
,
按每小时
2
元收费
.(
不足
1
小时的部分按
1
小时计算
)
已知甲、乙两人独立出行
,
各租用公共自行车一次
,
两人租车时间都不会超过
3
小时
,
设甲、乙租用时间不超过
1
小时的概率分别是
0.4
和
0.5,
租用时间为
1
小时以上且不超过
2
小时的概率分别是
0.5
和
0.3.
(1)
求甲、乙两人所付租车费相同的概率
;
(2)
设甲、乙两人所付租车费之和为随机变量
ξ,
求
ξ
的分布列和数学期望
E(ξ).
解
(1)
根据题意
,
分别记“甲所付租车费
0
元、
1
元、
2
元”为事件
A1,A2,A3,
它们彼此互斥
,
且
P(A1)=0.4,P(A2)=0.5,
所以
P(A3)=1-0.4-0.5=0.1;
分别记“乙所付租车费
0
元、
1
元、
2
元”为事件
B1,B2,B3,
它们彼此互斥
,
且
P(B1)=0.5,
P(B2)=0.3,
所以
P(B3)=1-0.5-0.3=0.2.
由题知
,A1,A2,A3
与
B1,B2,B3
相互独立
,
记甲、乙两人所付租车费相同为事件
M,
则
M=A1B1∪A2B2∪A3B3,
所以
P(M)=P(A1)P(B1)+P(A2)P(B2)+P(A3)P(B3)
=0.4×0.5+0.5×0.3+0.1×0.2=0.2+0.15+0.02=0.37.
(2)
据题意
,
ξ
的可能取值为
0,1,2,3,4,P(
ξ=0)=
P(A1)P(B1)=0.2;
P(
ξ=1)=
P(A1)P(B2)+P(A2)P(B1)=0.4×0.3+0.5×0.5=0.37;
P(
ξ=2)=
P(A1)P(B3)+P(A2)P(B2)+P(A3)P(B1)
=0.4×0.2+0.5×0.3+0.1×0.5=0.28;
P(
ξ=3)=
P(A2)P(B3)+P(A3)P(B2)=0.5×0.2+0.1×0.3=0.13;
P(
ξ=4)=
P(A3)P(B3)=0.1×0.2=0.02.
所以
ξ
的分布列为
:
ξ
0
1
2
3
4
P
0
.
2
0
.
37
0
.
28
0
.
13
0
.
02
数学期望
E(
ξ)=0×0.2+1×0.37+2×0.28+3×0.13+4×0.02=1.4.
2.
超几何分布
【
例
3】(2020
北京东城模拟
,17)
体温是人体健康状况的直接反应
,
一般认为成年人腋下温度
T(
单位
:℃)
平均在
36 ℃~37 ℃
之间即为正常体温
,
超过
37.1 ℃
即为发热
.
发热状态下
,
不同体温可分成以下三种发热类型
,
低热
:37.1≤T≤38;
高热
:3840.
某位患者因患肺炎发热
,
于
12
日至
26
日住院治疗
.
医生根据病情变化
,
从
14
日开始
,
以
3
天为一个疗程
,
分别用三种不同的抗生素为该患者进行消炎退热
.
住院期间
,
患者每天上午
8:00
服药
,
护士每天下午
16:00
为患者测量腋下体温
,
记录如下
:
(1)
请你计算住院期间该患者体温不低于
39 ℃
的各天体温平均值
;
(2)
在
19~23
日期间
,
医生会随机选取
3
天在测量体温的同时为该患者进行某一特殊项目“
α
项目”的检查
,
记
X
为高热体温下做“
α
项目”检查的天数
,
试求
X
的分布列与数学期望
;
(3)
抗生素治疗一般在服药后
2~8
个小时就能出现血液浓度的高峰
,
开始杀灭细菌
,
达到消炎退热效果
.
假设三种抗生素治疗效果相互独立
,
请依据表中数据
,
判断哪种抗生素治疗效果最佳
,
并说明理由
.
抗生素
使用情况
没有使用
使用
“
抗生素
A
”
治疗
使用
“
抗生素
B
”
治疗
日期
12
日
13
日
14
日
15
日
16
日
17
日
18
日
19
日
体温
(
℃
)
38
.
7
39
.
4
39
.
7
40
.
1
39
.
9
39
.
2
38
.
9
39
.
0
抗生素
使用情况
使用
“
抗生素
C
”
治疗
没有使用
日期
20
日
21
日
22
日
23
日
24
日
25
日
26
日
体温
(
℃
)
38
.
4
38
.
0
37
.
6
37
.
1
36
.
8
36
.
6
36
.
3
所以
,
患者体温不低于
39 ℃
的各天体温平均值为
39.55 ℃.
(2)X
的所有可能取值为
0,1,2.
则
X
的分布列为
:
(3)
说明“抗生素
B”
治疗效果最佳可使用如下理由
:
自使用“抗生素
B”
开始治疗后
,
体温才开始稳定下降
,
且使用“抗生素
B”
治疗当天共降温
0.7 ℃,
是单日降温效果最好的一天
,
故“抗生素
B”
治疗效果最佳
.
说明“抗生素
C”
治疗效果最佳可使用如下理由
:①“
抗生素
B”
使用期间先连续两天降温
1.0 ℃
又回升
0.1 ℃,“
抗生素
C”
使用期间持续降温共计
1.4 ℃,
说明“抗生素
C”
降温效果最好
,
故“抗生素
C”
治疗效果最佳
.
②“
抗生素
B”
治疗期间
,
平均体温约为
39.03 ℃,
方差约为
0.015 6;“
抗生素
C”
治疗期间
,
平均体温约为
38 ℃,
方差约为
0.106 7,“
抗生素
C”
治疗期间体温离散程度大
,
说明存在某个时间节点降温效果明显
,
故“抗生素
C”
治疗效果最佳
.
解题心得
1.
求超几何分布分布列的步骤
第一步
,
验证随机变量服从超几何分布
,
并确定参数
N,M,n
的值
;
第二步
,
根据超几何分布的概率计算公式计算出随机变量取每一个值时的概率
;
第三步
,
用表格的形式列出分布列
.
2.
本例第
(3)
问是一个开放性问题
,
答案不唯一
,
得出结论抗生素
B
或
C
降温效果最好都可以
,
只要说出合理的理由即可
.
【
对点训练
3】(2020
黑龙江大庆实验中学二模
,19)2019
年春节期间
,
我国高速公路继续执行“节假日高速公路免费政策”
.
某路桥公司为掌握春节期间车辆出行的高峰情况
,
在某高速公路收费点记录了大年初三上午
9:20~10:40
这一时间段内通过的车辆数
,
统计发现这一时间段内共有
600
辆车通过该收费点
,
它们通过该收费点的时刻的频率分布直方图如下图所示
,
其中时间段
9:20~9:40
记作区间
[20,40),9:40~10:00
记作
[40,60),10:00~10:20
记作
[60,80),10:20~10:40
记作
[80,100],
例如
:10
点
04
分
,
记作时刻
64.
(1)
估计这
600
辆车在
9:20~10:40
时间段内通过该收费点的时刻的平均值
(
同一组中的数据用该组区间的中点值代表
);
(2)
为了对数据进行分析
,
现采用分层抽样的方法从这
600
辆车中抽取
10
辆
,
再从这
10
辆车中随机抽取
4
辆
,
设抽到的
4
辆车中
,
在
9:20~10:00
之间通过的车辆数为
X,
求
X
的分布列与数学期望
;
(3)
由大数据分析可知
,
车辆在每天通过该收费点的时刻服从正态分布
N(μ,σ2),
其中
μ
可用这
600
辆车在
9:20~10:40
之间通过该收费点的时刻的平均值近似代替
,σ2
可用样本的方差近似代替
(
同一组中的数据用该组区间的中点值代表
),
已知大年初五全天共有
1 000
辆车通过该收费点
,
估计在
9:46~10:22
之间通过的车辆数
(
结果保留到整数
).
参考数据
:
若
T~N(μ,σ2),
则①
P(μ-σ0.954 4,
P(
μ-3σ<
X<
μ+3σ)=
P(450.997 3,
符合②③
,
不符合①
,
∴
这套试卷得到好评
.
解题心得服从
N(
μ,σ2)
的随机变量
X
在某个区间内取值的概率的求法
(1)
利用
P(
μ-σ<
X≤
μ+σ),
P(
μ-2σ<
X≤
μ+2σ),
P(
μ-3σ<
X≤
μ+3σ)
的值直接求
.
(2)
充分利用正态曲线的对称性和曲线与
x
轴之间的面积为
1
这些特殊性质求解
.
【
对点训练
5】
为了监控某种零件的一条生产线的生产过程
,
检验员每天从该生产线上随机抽取
16
个零件
,
并测量其尺寸
(
单位
:cm).
根据长期生产经验
,
可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布
N(μ,σ2).
(1)
假设生产状态正常
,
记
X
表示一天内抽取的
16
个零件中其尺寸在
(μ-3σ,
μ+3σ)
之外的零件数
,
求
P(X≥1)
及
X
的数学期望
;
(2)
一天内抽检零件中
,
如果出现了尺寸在
(μ-3σ,μ+3σ)
之外的零件
,
就认为这条生产线在这一天的生产过程可能出现了异常情况
,
需对当天的生产过程进行检查
.
①
试说明上述监控生产过程方法的合理性
;
9
.
95
10
.
12
9
.
96
9
.
96
10
.
01
9
.
92
9
.
98
10
.
04
10
.
26
9
.
91
10
.
13
10
.
02
9
.
22
10
.
04
10
.
05
9
.
95
②下面是检验员在一天内抽取的
16
个零件的尺寸
:
解
(1)
抽取的一个零件的尺寸在
(μ-3σ,μ+3σ)
之内的概率为
0.997 3,
从而零件的尺寸在
(μ-3σ,μ+3σ)
之外的概率为
0.002 7,
故
X~B(16,0.002 7).
因此
P(X≥1)=1- P(X=0)=1-0.997 316≈0.042 3.X
的数学期望为
E(X)=16×0.002 7=0.043 2.
(2)①
如果生产状态正常
,
一个零件尺寸在
(μ-3σ,μ+3σ)
之外的概率只有
0.002 7,
一天内抽取的
16
个零件中
,
出现尺寸在
(μ-3σ,μ+3σ)
之外的零件的概率只有
0.042 3,
发生的概率很小
.
因此一旦发生这种情况
,
就有理由认为这条生产线在这一天的生产过程可能出现了异常情况
,
需对当天的生产过程进行检查
,
可见上述监控生产过程的方法是合理的
.
6.4.3
统计与概率问题综合应用
第三部分
2021
内容索引
01
02
必备知识 精要梳理
关键能力 学案突破
03
核心素养微专题
(
七
)
必备知识 精要梳理
离散型随机变量的期望与方差
(1)
E
(
X
)
=x
1
p
1
+x
2
p
2
+
…
+x
i
p
i
+
…
+x
n
p
n
为
X
的均值或数学期望
.
(2)
D
(
X
)
=
(
x
1
-E
(
X
))
2
·
p
1
+
(
x
2
-E
(
X
))
2
·
p
2
+
…
+
(
x
i
-E
(
X
))
2
·
p
i
+
…
+
(
x
n
-E
(
X
))
2
·
p
n
叫做随机变量
X
的方差
.
(3)
均值与方差的性质
:
E
(
aX+b
)
=aE
(
X
)
+b
;
E
(
ξ
+
η
)
=E
(
ξ
)
+E
(
η
);
D
(
aX+b
)
=a
2
D
(
X
)
.
关键能力 学案突破
热点一
离散型随机变量的期望与方差
【例
1
】
(2020
山西临汾高三适应性训练
,19)
今年情况特殊
,
小王在居家自我隔离时对周边的水产养殖产业进行了研究
.A
、
B
两个投资项目的利润率分别为投资变量
X
和
Y.
根据市场分析
,
X
和
Y
的分布列分别为
:
X
5%
10%
P
0
.
8
0
.
2
Y
2%
8%
12%
P
0
.
2
0
.
5
0
.
3
(1)
若在
A
,
B
两个项目上各投资
100
万元
,
ξ
和
η
分别表示投资项目
A
和
B
所获得的利润
,
求方差
D
(
ξ
),
D
(
η
);
(2)
若在
A
,
B
两个项目上共投资
200
万元
,
那么如何分配
,
能使投资
A
项目所得利润的方差与投资
B
项目所得利润的方差的和最小
,
最小值是多少
?
[
注
:
D
(
aX+b
)
=a
2
D
(
X
)]
解
(1)
由题知
,
ξ
,
η
的分布列分别为
:
ξ
5
10
P
0
.
8
0
.
2
η
2
8
12
P
0
.
2
0
.
5
0
.
3
所以
E
(
ξ
)
=
5
×
0
.
8
+
10
×
0
.
2
=
6,
D
(
ξ
)
=
(5
-
6)
2
×
0
.
8
+
(10
-
6)
2
×
0
.
2
=
4
.
E
(
η
)
=
2
×
0
.
2
+
8
×
0
.
5
+
12
×
0
.
3
=
8,
D
(
η
)
=
(2
-
8)
2
×
0
.
2
+
(8
-
8)
2
×
0
.
5
+
(12
-
8)
2
×
0
.
3
=
12
.
(2)
设在
A
,
B
两个项目上分别投资
x
万元
,(200
-x
)
万元
,
利润的方差之和为
f
(
x
)
.
可见
,
当
x=
150
时
,
f
(
x
)
的最小值为
12
.
所以在
A
,
B
两个项目分别投资
150
万元
,50
万元时
,
能使投资
A
项目所得利润的方差与投资
B
项目所得利润的方差之和最小
,
最小值是
12
.
解题心得
期望与方差的一般计算步骤
(1)
理解离散型随机变量的意义
,
写出变量
X
的所有可能取的值
;
(2)
求
X
取各个值时的概率
,
写出分布列
;
(3)
根据分布列
,
正确运用期望与方差的定义或公式进行计算
.
若变量
X
服从二项分布等特殊分布时
,
期望与方差可直接利用公式求解
.
【对点训练
1
】
(2020
四川宜宾高三诊断
,19)
某烘焙店加工一个成本为
60
元的蛋糕
,
然后以每个
120
元的价格出售
,
如果当天卖不完
,
剩下的这种蛋糕作餐厨垃圾处理
.
(1)
若烘焙店一天加工
16
个这种蛋糕
,
求当天的利润
y
(
单位
:
元
)
关于当天需求量
n
(
单位
:
个
,
n
∈
N
)
的函数解析式
;
(2)
烘焙店记录了
100
天这种蛋糕的日需求量
(
单位
:
个
),
整理得下表
:
日需求量
n
14
15
16
17
18
19
20
频数
10
20
16
16
15
13
10
①
若烘焙店一天加工
16
个这种蛋糕
,
X
表示当天的利润
(
单位
:
元
),
求
X
的分布列与数学期望及方差
;
②
若烘焙店一天加工
16
个或
17
个这种蛋糕
,
仅从获得利润大的角度考虑
,
你认为应加工
16
个还是
17
个
?
请说明理由
.
解
(1)
由题意
,
当
n
∈
[0,16)
时
,
利润
y=
120
n-
960;
当
n
∈
[16,
+∞
)
时
,
利润
y=
(120
-
60)
×
16
=
960;
综上
,
当天的利润
y
关于当天需求量
n
的函数解析式为
(2)
①
由
(1)
可得
,
当
n=
14
时
,
利润
X=
120
×
14
-
960
=
720;
当
n=
15
时
,
利润
X=
120
×
15
-
960
=
840;
当
n
≥
16
时
,
利润
X=
960;
所以
X
的分布列为
:
X
720
840
960
P
0
.
1
0
.
2
0
.
7
所以
E
(
X
)
=
720
×
0
.
1
+
840
×
0
.
2
+
960
×
0
.
7
=
912;
D
(
X
)
=
(720
-
912)
2
×
0
.
1
+
(840
-
912)
2
×
0
.
2
+
(960
-
912)
2
×
0
.
7
=
6
336;
②
由题意
,
设加工
17
个蛋糕时
,
当天的利润为
Y
(
单位
:
元
)
.
当
n=
14
时
,
利润
Y=
120
×
14
-
60
×
17
=
660;
当
n=
15
时
,
利润
Y=
120
×
15
-
60
×
17
=
780;
当
n=
16
时
,
利润
Y=
120
×
16
-
60
×
17
=
900;
当
n
≥
17
时
,
利润
Y=
60
×
17
=
1
020;
Y
的分布列如下
:
Y
660
780
900
1
020
P
0
.
1
0
.
2
0
.
16
0
.
54
则
E
(
Y
)
=
660
×
0
.
1
+
780
×
0
.
2
+
900
×
0
.
16
+
1
020
×
0
.
54
=
916
.
8
>
912
.
从数学期望来看
,
每天加工
17
个蛋糕的利润高于每天加工
16
个蛋糕的利润
,
应加工
17
个
.
热点二
统计数据及概率在现实决策问题中的应用
【例
2
】
(2020
山西太原
5
月模拟
,20)
为实现
2020
年全面建设小康社会
,
某地进行产业的升级改造
.
经市场调研和科学研判
,
准备大规模生产某高科技产品的一个核心部件
,
目前只有甲、乙两种设备可以独立生产该部件
.
如图是从甲设备生产的该核心部件中
随机抽取
400
个
,
对其尺寸
x
进行
统计后整理的频率分布直方图
.
根据行业质量标准规定
,
该核心部件尺寸
x
满足
:
|x-
12
|
≤
1
为一级品
,1
<|x-
12
|
≤
2
为二级品
,
|x-
12
|>
2
为三级品
.
(1)
现根据频率分布直方图中的分组
,
用分层抽样的方法先从这
400
个部件中抽取
40
个
,
再从所抽取的
40
个部件中
,
抽取出所有尺寸
x
∈
[12,15]
的部件
,
再从所有尺寸
x
∈
[12,15]
的部件中抽取
2
件
,
记
ξ
为这
2
个部件中尺寸
x
∈
[14,15]
的个数
,
求
ξ
的分布列和数学期望
;
(2)
将甲设备生产的部件成箱包装出售时
,
需要进行检验
.
已知每箱有
100
个部件
,
每个部件的检验费用为
50
元
.
检验规定
:
若检验出三级品需更换为一级或二级品
;
若不检验
,
让三级品进入买家
,
厂家需向买家每个支付
200
元补偿
.
现从一箱部件中随机抽检了
10
个
,
结果发现有
1
个三级品
.
若将甲设备的样本频率作为总体的概率
,
以厂家支付费用作为决策依据
,
问是否对该箱中剩余部件进行一一检验
?
请说明理由
;
(3)
为加大生产力度
,
厂家需增购设备
.
已知这种部件的利润如下
:
一级品的利润为
500
元
/
个
;
二级品的利润为
400
元
/
个
;
三级品的利润为
200
元
/
个
.
乙种设备生产的该部件中一、二、三级品的概率分别是
.
若将甲设备的样本频率作为总体的概率
,
以厂家的利润作为决策依据
,
则应选购哪种设备
?
请说明理由
.
解
(1)
抽取的
40
个部件中
,
尺寸
x
∈
[12,15]
的个数为
40
×
[(0
.
2
+
0
.
175
+
0
.
075)
×
1]
=
18,
其中
x
∈
[14,15]
的个数为
40
×
(0
.
075
×
1)
=
3,
∴
ξ
的可能取值为
0,1,2
.
∴
ξ
的分布列为
:
(2)
三级品的概率为
(0
.
1
+
0
.
075)
×
1
=
0
.
175,
若对剩余部件逐一检验
,
则厂家共需支付费用
50
×
100
=
5
000(
元
);
若对剩余部件不检验
,
则厂家需支付费用
50
×
10
+
200
×
90
×
0
.
175
=
3
650(
元
),
∵
5
000
>
3
650,
∴
不对剩余部件进行逐一检验
.
(3)
设甲设备生产一个部件的利润为
y
1
,
乙设备生产一个部件的利润为
y
2
,
则
E
(
y
1
)
=
500
×
(0
.
3
+
0
.
2)
+
400
×
(0
.
150
+
0
.
175)
+
200
×
0
.
175
=
415,
E
(
y
2
)
∵
E
(
y
1
)
120
发电机最多
可运行台数
1
2
3
若某台发电机运行
,
则该台年利润为
5 000
万元
;
若某台发电机未运行
,
则该台年亏损
800
万元
.
欲使水电站年总利润的均值达到最大
,
应安装发电机多少台
?
(2)
记水电站年总利润为
Y
(
单位
:
万元
)
.
①
安装
1
台发电机的情形
.
由于水库年入流量总大于
40,
故
1
台发电机运行的概率为
1,
对应的年利润
Y=
5
000,
E
(
Y
)
=
5
000
×
1
=
5
000
.
②
安装
2
台发电机的情形
.
依题意
,
当
40
120
时
,3
台发电机运行
,
此时
Y=
5
000
×
3
=
15
000,
因此
P
(
Y=
15
000)
=P
(
X>
120)
=p
3
=
0
.
1,
由此得
Y
的分布列如下
Y
3
400
9
200
15
000
P
0
.
2
0
.
7
0
.
1
所以
,
E
(
Y
)
=
3
400
×
0
.
2
+
9
200
×
0
.
7
+
15
000
×
0
.
1
=
8
620
.
综上
,
欲使水电站年总利润的均值达到最大
,
应安装发电机
2
台
.
热点三
统计与概率和函数、导数的综合
【例
3
】
(2020
山东威海一模
,22)
新药在进入临床实验之前
,
需要先通过动物进行有效性和安全性的实验
.
现对某种新药进行
5 000
次动物实验
,
一次实验方案如下
:
选取
3
只白鼠对药效进行检验
,
当
3
只白鼠中有
2
只或
2
只以上使用
“
效果明显
”,
即确定
“
实验成功
”;
若有且只有
1
只
“
效果明显
”,
则再取
2
只白鼠进行二次检验
,
当
2
只白鼠均使用
“
效果明显
”,
即确定
“
实验成功
”,
其余情况则确定
“
实验失败
”
.
设对每只白鼠的实验相互独立
,
且使用
“
效果明显
”
的概率均为
p
(0
1
>x
n-
1
,
从而
f'
(
x
)
>
0,
所以
f
(
x
)
在区间
(0,1)
上单调递增
;
所以当
p
∈
(0,1)
时
,
f
(
p
)
g(1)=k-1>0,
则
k>1,
矛盾
,
当
k>0
时
,
令
g'(x)>0,
解得
x>ek,
令
g'(x)<0,
解得
10,
令
h(k)=2k-ek,k>0,
则
h'(k)=2-ek,
∵
当
k0,
函数
h(k)
单调递增
,
当
k>ln 2
时
,h'(k)<0,
函数
h(k)
单调递减
,∴h(k)max=h(ln 2)=2ln 2-2=2(ln 2-1)<0,∴
不存在整数
k
使得
2k-ek>0
恒成立
.
综上所述不存在满足条件的整数
k.