【数学】2019届一轮复习北师大版(文科数学)第十一章第2讲 用样本估计总体学案
第2讲 用样本估计总体
[学生用书P188]
1.统计图表
(1)频率分布直方图的画法步骤
①求极差(即一组数据中最大值与最小值的差);
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的两侧.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=
s2=[(x1-)2+(x2-)2+…+(xn-)2]
3.标准差和方差的异同
相同点:标准差和方差描述了一组数据围绕平均数波动的大小.
不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然.
判断正误(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( )
(3)从频率分布直方图中得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )
(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( )
答案:(1)√ (2)× (3)√ (4)× (5)√ (6)×
(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
解析:选B.标准差能反映一组数据的稳定程度.故选B.
(教材习题改编)某厂10名工人在一小时内生产零件的个数分别是15,17,14,10,15,17,17,16,14,12,设该组数据的平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
解析:选D.把该组数据按从小到大的顺序排列为10,12,14,14,15,15,16,17,17,17,其平均数a=×(10+12+14+14+15+15+16+17+17+17)=14.7,中位数b==15,众数c=17,则a
0.85,
前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,
所以2.5,因此可看出A药的疗效更好.
(2)由观测结果可绘制茎叶图如图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎“2.”,“3.”上,而B药疗效的试验结果有的叶集中在茎“2.”,“3.”上,由此可看出A药的疗效更好.
样本的数字特征(高频考点)
[学生用书P191]
样本的数字特征是每年高考的重点,且多与频率分布直方图、茎叶图相结合考查.主要命题角度有:
(1)数字特征的计算;
(2)用样本的数字特征解决生活中的优化问题.
[典例引领]
角度一 数字特征的计算
某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为me,平均值为,众数为mo,则( )
A.me=mo= B.me=mo<
C.me5.5,所以mo0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
众数、中位数、平均数、方差
(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.
直方图与条形图的区别
条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)是固定的;直方图是用面积表示各组频率的多少,矩形的高度表示每一组的频率除以组距,宽度则表示各组的组距,因此其高度与宽度均有意义.
[学生用书P335(单独成册)]
1.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析:选A.由折线图可知,各年的月接待游客量从8月份后存在下降趋势,故选A.
2.已知某地区中小学生人数和近视情况分别如图①和图②所示.
为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 B.100,20
C.200,10 D.100,10
解析:选A.该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.
3.(2018·内江模拟)某公司10个销售店某月销售某产品数量(单位:台)的茎叶图如下:分组成[10,20),[20,30),[30,40]时,所作的频率分布直方图是( )
解析:选B.由直方图的纵坐标是频率/组距,排除C和D;又第一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.
4.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:
8
7
7
9
4
0
1
0
x
9
1
则7个剩余分数的方差为( )
A. B.
C.36 D.
解析:选B.根据茎叶图,去掉1个最低分87,1个最高分99,
则[87+94+90+91+90+(90+x)+91]=91,
所以x=4.
所以s2=[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=.
5.已知样本数据x1,x2,…,xn的均值=5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为________.
解析:由条件知==5,则所求均值0===2+1=2×5+1=11.
答案:11
6.(2018·湖南长沙一模)空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI大于100的天数约为________.(该年为365天)
解析:该样本中AQI大于100的频数是4,频率为,由此估计该地全年AQI大于100的频率为,估计此地该年AQI大于100的天数约为365×=146.
答案:146
7.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大构成等比数列{an},已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为________.
解析:因为小长方形的面积由小到大构成等比数列{an},且a2=2a1,
所以样本的频率构成一个等比数列,且公比为2,
所以a1+2a1+4a1+8a1=15a1=1,所以a1=,
所以小长方形面积最大的一组的频数为300×8a1=160.
答案:160
8.(2018·西安模拟)随着生活水平的提高,人们对空气质量的要求越来越高,某机构为了解公众对“车辆限行”的态度,随机抽查了40人,并将调查情况进行整理后制成下表:
年龄/岁
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
频数
5
10
10
5
10
赞成人数
4
6
8
4
9
(1)完成被调查人员年龄的频率分布直方图,并求被调查人员中持赞成态度人员的平均年龄约为多少岁?
(2)若从年龄在[15,25),[45,55)的被调查人员中各随机选取1人进行调查.请写出所有的基本事件,并求选取的2人中恰有1人持不赞成态度的概率.
解:(1)被调查人员年龄的频率分布直方图如图所示.
被调查人员中持赞成态度人员的平均年龄=≈42.6(岁).
(2)设年龄在[15,25)的被调查人员中持赞成态度的4人分别为A1,A2,A3,A4,持不赞成态度的1人为a,
设年龄在[45,55)的被调查人员中持赞成态度的4人分别为B1,B2,B3,B4,持不赞成态度的1人为b.基本事件为(A1,B1),(A1,B2),(A1,B3),(A1,B4),(A1,b),(A2,B1),(A2,B2),(A2,B3),(A2,B4),(A2,b),(A3,B1),(A3,B2),(A3,B3),(A3,B4),(A3,b),(A4,B1),(A4,B2),(A4,B3),(A4,B4),(A4,b),(a,B1),(a,B2),(a,B3),(a,B4),(a,b),共有25个,其中恰有1人持不赞成态度的基本事件有8个,
所以恰有1人持不赞成态度的概率为.
9.(2018·惠州第一次调研)某大学生在开学季准备销售一种文具盒进行试创业,在一个开学季内,每售出1盒该产品获得利润30元,未售出的产品,每盒亏损10元.根据历史资料,得到开学季市场需求量的频率分布直方图,如图所示.该同学为这个开学季购进了160盒该产品,以x(单位:盒,100≤x≤200)表示这个开学季内的市场需求量,y(单位:元)表示这个开学季内经销该产品的利润.
(1)根据直方图估计这个开学季内市场需求量x的众数和平均数;
(2)将y表示为x的函数;
(3)根据直方图估计利润y不少于4 000元的概率.
解:(1)由频率分布直方图得,这个开学季内市场需求量x的众数是150盒,需求量在[100,120)内的频率为0.005 0×20=0.1,
需求量在[120,140)内的频率为0.010 0×20=0.2,
需求量在[140,160)内的频率为0.015 0×20=0.3,
需求量在[160,180)内的频率为0.012 5×20=0.25,
需求量在[180,200]内的频率为0.007 5×20=0.15.
则平均数=110×0.1+130×0.2+150×0.3+170×0.25+190×0.15=153(盒).
(2)因为每售出1盒该产品获得利润30元,未售出的产品,每盒亏损10元,所以当100≤x<160时,y=30x-10×(160-x)=40x-1 600,
当160≤x≤200时,y=160×30=4 800,
所以y=
(3)因为利润y不少于4 000元,所以当100≤x<160时,由40x-1 600≥4 000,解得160>x≥140.
当160≤x≤200时,y=4 800>4 000恒成立,所以200≥x≥140时,利润y不少于4 000元.
所以由(1)知利润y不少于4 000元的概率P=1-0.1-0.2=0.7.
1.(2018·长春质量检测(二))如图是民航部门统计的2017年春运期间12个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
解析:选D.由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误.选D.
2.(2016·高考全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
解析:选D.由图可知0 ℃在虚线框内,所以各月的平均最低气温都在0 ℃以上,A
正确;由图可知七月的平均温差比一月的平均温差大,B正确;由图可知三月和十一月的平均最高气温都约为10 ℃,基本相同,C正确;由图可知平均最高气温高于20 ℃的月份不是5个,D不正确.故选D.
3.若正数2,3,4,a,b的平均数为5,则其标准差的最小值为( )
A.2 B.
C.3 D.
解析:选B.由已知得2+3+4+a+b=5×5,整理得a+b=16.
其方差s2=[(5-2)2+(5-3)2+(5-4)2+(5-a)2+(5-b)2]=[64+a2+b2-10(a+b)]=(a2+b2-96)=[a2+(16-a)2-96]=(2a2-32a+160)=(a2-16a)+32=(a-8)2+,所以当a=8时,s2取得最小值,最小值为,此时标准差为.故选B.
4.某电器公司对5 000名购物者2017年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示,在这些购物者中,消费金额在区间[0.4,0.7)内的购物者的人数为________.
解析:在这些购物者中,消费金额在区间[0.4,0.7)内的频率为2.5×0.1+3.0×0.1+2.0×0.1=0.75,所以消费金额在区间[0.4,0.7)内的购物者的人数为0.75×5 000=3 750.
答案:3 750
5.(2018·长春模拟)某销售公司为了解员工的月工资水平,从1 000位员工中随机抽取100位员工进行调查,得到如下的频率分布直方图:
(1)试由此图估计该公司员工的月平均工资;
(2)该公司的工资发放是以员工的营销水平为重要依据来确定的,一般认为,工资低于4 500元的员工属于学徒阶段,没有营销经验,若进行营销将会失败;高于4
500元的员工属于成熟员工,进行营销将会成功.现将该样本按照“学徒阶段工资”“成熟员工工资”分成两层,进行分层抽样,从中抽出5人,在这5人中任选2人进行营销活动.活动中,每位员工若营销成功,将为公司赚得3万元,否则公司将损失1万元.试问在此次比赛中公司收入多少万元的可能性最大?
解:(1)估计该公司员工的月平均工资为0.000 1×1 000×2 000+0.000 1×1 000×3 000+0.000 2×1 000×4 000+0.000 3×1 000×5 000+0.000 2×1 000×6 000+0.000 1×1 000×7 000=4 700(元).
(2)抽取比为=,
从工资在[1 500,4 500)内的员工中抽出100×(0.1+0.1+0.2)×=2人,设这两位员工分别为1,2;从工资在[4 500,7 500]内的员工中抽出100×(0.3+0.2+0.1)×=3人,设这三位员工分别为A,B,C.
从中任选2人,共有以下10种不同的等可能结果:(1,2),(1,A),(1,B),(1,C),(2,A),(2,B),(2,C),(A,B),(A,C),(B,C).
两人营销都成功,公司收入6万元,有以下3种不同的等可能结果:(A,B),(A,C),(B,C),概率为;
其中一人营销成功,一人营销失败,公司收入2万元,有以下6种不同的等可能结果:(1,A),(1,B),(1,C),(2,A),(2,B),(2,C),概率为=;
两人营销都失败,公司收入-2万元,即损失2万元,有1种结果:(1,2),概率为.
因为<<,所以公司收入2万元的可能性最大.