- 2021-06-16 发布 |
- 37.5 KB |
- 34页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2020届一轮复习(文)通用版10-2统计及统计案例作业
§10.2 统计及统计案例 挖命题 【考情探究】 考点 内容解读 5年考情 预测热度 考题示例 考向 关联考点 抽样 方法 ①理解随机抽样的必要性和重要性;②会用简单随机抽样方法从总体中抽取样本 2018课标全国Ⅲ,14,5分 抽样方法 抽样方法的选择 ★★☆ 统计 图表 了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点 2017课标全国Ⅲ,3,5分 认识折线图 利用折线图解决实际问题 ★★☆ 2018课标全国Ⅰ,3,5分 认识统计图 由统计图解决实际问题 2018课标全国Ⅰ,19,12分 用频率分布直方图解决实际问题 频率分布与数字特征 样本的数 字特征 ①理解样本数据标准差的意义和作用,会计算数据标准差;②能从样本数据中提取基本的数字特征,并给出合理的解释;③会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;④会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题 2017课标全国Ⅰ,2,5分 理解方差或标准差 样本的数字特征 ★★☆ 2014课标Ⅰ,18,12分 频率分布直方图与数字特征 数字特征与实际应用 2014课标Ⅱ,19,12分 茎叶图的认识 茎叶图与实际应用 变量间的 相关性 ①会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系;②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 2016课标全国Ⅲ,18,12分 相关系数与回归方程 数据处理 ★★☆ 2017课标全国Ⅰ,19,12分 相关系数与数字特征 数据处理 2015课标Ⅰ,19,12分 回归方程的求解 非线性关系转换成线性关系 独立性 检验 了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度 2017课标全国Ⅱ,19,12分 频率分布直方图与独立性检验 数据的处理 ★★☆ 2018课标全国Ⅲ,18,12分 茎叶图与独立性检验 数据的处理 分析解读 从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题. 破考点 【考点集训】 考点一 抽样方法 1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( ) A.2 B.4 C.5 D.6 答案 B 2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是( ) A.5 B.6 C.7 D.8 答案 C 考点二 统计图表 1.(2018四川达州模拟,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是( ) A.85和92 B.87和92 C.84和92 D.85和90 答案 B 2.(2017河南新乡第一次调研,3)统计新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在(2 700,3 000]克内的频率为( ) A.0.001 B.0.1 C.0.2 D.0.3 答案 D 考点三 样本的数字特征 1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为( ) A.4 B.3 C.2 D.1 答案 B 2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则( ) A.x=4,s2<2 B.x=4,s2>2 C.x>4,s2<2 D.x>4,s2>2 答案 A 考点四 变量间的相关性 1.(2018河南焦作四模,3)已知变量x和y的统计数据如下表: x 3 4 5 6 7 y 2.5 3 4 4.5 6 根据上表可得回归直线方程为y^=b^x-0.25,据此可以预测当x=8时,y^=( ) A.6.4 B.6.25 C.6.55 D.6.45 答案 C 2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y^=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是( ) x 6 8 10 12 y 6 m 3 2 A.变量x,y之间成负相关关系 B.可以预测,当x=20时,y^=-3.7 C.m=4 D.该回归直线必过点(9,4) 答案 C 考点五 独立性检验 1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表. 非一线城市 一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计 58 42 100 附表: P(K2≥k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” 答案 C 2.(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示: 喜欢甜品 不喜欢甜品 合计 南方学生 60 20 80 北方学生 10 10 20 合计 70 30 100 (1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”? (2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率. P(K2≥k0) 0.10 0.05 0.010 k0 2.706 3.841 6.635 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 解析 (1)将2×2列联表中的数据代入公式计算,得K2=100×(60×10-20×10)270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”. (2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}, 其中ai表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3. Ω由10个基本事件组成,且这些基本事件的出现是等可能的. 用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}. 事件A由7个基本事件组成,因而P(A)=710. 炼技法 【方法集训】 方法1 解与频率分布直方图有关问题的方法 1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( ) A.56 B.60 C.120 D.140 答案 D 2.(2017江苏南京调研,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]内,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有 辆. 答案 80 方法2 样本的数字特征的求解及其应用 1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论: ①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A.①③ B.①④ C.②③ D.②④ 答案 B 2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是 . 答案 c 方法3 回归直线方程的求解与运用 1.(2017安徽合肥一中等四校联考,6)某品牌牛奶的广告费用x(万元)与销售额y(万元)的统计数据如下表: 广告费用x(万元) 4 2 3 5 销售额y(万元) 49 26 39 54 根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此估计,广告费用为7万元时销售额为( ) A.74.9万元 B.65.5万元 C.67.7万元 D.72.0万元 答案 A 2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料: 日期 1月10日 2月10日 3月10日 4月10日 5月10日 6月10日 昼夜温 差x(℃) 10 11 13 12 8 6 就诊人 数y 22 25 29 26 16 12 该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月数据的概率; (2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程y^=b^x+a^; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? 参考公式:b^=∑i=1nxiyi-nx y∑i=1nxi2-nx2=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x; 参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498. 解析 (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=515=13. (2)由数据求得x=11,y=24,由公式求得b^=187, 则a^=y-b^x=-307, 所以y关于x的线性回归方程为y^=187x-307. (3)由(2)知,当x=10时,y^=1507,1507-22<2, 当x=6时,y^=787,787-12<2, 所以,该小组所得线性回归方程是理想的. 方法4 独立性检验的思想方法 1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁. (1)根据已知条件完成下面的2×2列联表,能否在犯错的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关? 网购迷 非网购迷 合计 年龄不超过40岁 年龄超过40岁 合计 (2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率. 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 解析 (1)根据已知条件完成2×2列联表如下: 网购迷 非网购迷 合计 年龄不超过40岁 20 45 65 年龄超过40岁 5 30 35 合计 25 75 100 K2=100×(20×30-5×45)225×75×65×35≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关. (2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种, 故所求的概率P=1745. 2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”. 高一年级的学生日均使用手机时间的频数分布表 时间分组 [0,20) [20,40) [40,60) [60,80) [80,100) [100,120] 频数 12 20 24 18 22 4 高二年级的学生日均使用手机时间的频率分布直方图 (1)将频率视为概率,估计哪个年级的学生是“手机迷”的概率大,请说明理由; (2)在对高二年级学生的抽查中,已知随机抽到的女生有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料,你有多大的把握认为“手机迷”与性别有关? 非手机迷 手机迷 合计 男 女 合计 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 参考数据 P(K2≥k0) 0.15 0.10 0.05 0.025 k0 2.072 2.706 3.841 5.024 解析 (1)估计高一年级的学生是“手机迷”的概率大.理由:由频数分布表可知,高一年级的学生是“手机迷”的概率为22+4100=0.26, 由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.002 5+0.010)×20=0.25, 因为0.26>0.25,所以高一年级的学生是“手机迷”的概率大. (2)由频率分布直方图可知,在抽取的100人中, “手机迷”有(0.010+0.002 5)×20×100=25人, “非手机迷”有100-25=75人. 2×2列联表如下: 非手机迷 手机迷 合计 男 30 15 45 女 45 10 55 合计 75 25 100 将2×2列联表中的数据代入公式计算,得 K2=100×(30×10-45×15)275×25×45×55=10033≈3.030. 因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关. 过专题 【五年高考】 A组 统一命题·课标卷题组 考点一 抽样方法 (2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是 . 答案 分层抽样 考点二 统计图表 1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图: 则下面结论中不正确的是( ) A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 答案 A 2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图. 根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 答案 A 3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 答案 D 4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下: 未使用节水龙头50天的日用水量频数分布表 日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) [0.6,0.7) 频数 1 3 2 4 9 26 5 使用了节水龙头50天的日用水量频数分布表 日用水量 [0,0.1) [0.1,0.2) [0.2,0.3) [0.3,0.4) [0.4,0.5) [0.5,0.6) 频数 1 5 13 10 16 5 (1)作出使用了节水龙头50天的日用水量数据的频率分布直方图; (2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表) 解析 (1) (2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48, 因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48. (3)该家庭未使用节水龙头50天日用水量的平均数为 x1=150×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48. 该家庭使用了节水龙头后50天日用水量的平均数为 x2=150×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35. 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3). 考点三 样本的数字特征 1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( ) A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差 C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数 答案 B 2.(2014课标Ⅰ,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表: 质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125) 频数 6 26 38 22 8 (1)作出这些数据的频率分布直方图; (2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定? 解析 (1)频率分布直方图如图. (2)质量指标值的样本平均数为 x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为 s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104. 所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104. (3)质量指标值不低于95的产品所占比例的估计值为 0.38+0.22+0.08=0.68. 由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定. 考点四 变量间的相关性 1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 经计算得x=116∑i=116xi=9.97,s=116∑i=116(xi-x)2 =116(∑i=116xi2-16x 2)≈0.212,∑i=116(i-8.5)2 ≈18.439,∑i=116(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16. (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小); (2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (i)从这一天抽检的结果看,是否需对当天的生产过程进行检查? (ii)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(xi,yi)(i=1,2,…,n)的相关系数 r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2. 0.008≈0.09. 解析 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=∑i=116(xi-x)(i-8.5)∑i=116(xi-x)2∑i=116(i-8.5)2 =-2.780.212×16×18.439≈-0.18. 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(i)由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查. (ii)剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02. ∑i=116xi2=16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115×(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09. 2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:∑i=17yi=9.32,∑i=17tiyi=40.17,∑i=17(yi-y)2=0.55,7≈2.646. 参考公式:相关系数r=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2∑i=1n(yi-y)2, 回归方程y^=a^+b^t中斜率和截距最小二乘估计公式分别为: b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2,a^=y-b^t. 解析 (1)由折线图中数据和附注中参考数据得 t=4,∑i=17(ti-t)2=28,∑i=17(yi-y)2=0.55, ∑i=17(ti-t)(yi-y)=∑i=17tiyi-t∑i=17yi=40.17-4×9.32=2.89, r≈2.890.55×2×2.646≈0.99.(4分) 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分) (2)由y=9.327≈1.331及(1)得b^=∑i=17(ti-t)(yi-y)∑i=17(ti-t)2=2.8928≈0.10, a^=y-b^t=1.331-0.10×4≈0.93. 所以y关于t的回归方程为y^=0.93+0.10t.(10分) 将2016年对应的t=9代入回归方程得:y^=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分) 考点五 独立性检验 1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高,并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表; 超过m 不超过m 第一种生产方式 第二种生产方式 (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d), P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 . 解析 (1)第二种生产方式的效率更高. 理由如下: (i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高. (ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高. (iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高. (iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高. 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分. (2)由茎叶图知m=79+812=80. 列联表如下: 超过m 不超过m 第一种生产方式 15 5 第二种生产方式 5 15 (3)由于 K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异. 2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下: (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率; (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关; 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 , K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 解析 (1)旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表: 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 K2=200×(62×66-34×38)2100×100×96×104≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法. B组 自主命题·省(区、市)卷题组 考点一 抽样方法 1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( ) A.3 B.4 C.5 D.6 答案 B 2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取 件. 答案 18 考点二 统计图表 1.(2015湖北,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示. (1)直方图中的a= ; (2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 . 答案 (1)3 (2)6 000 2.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图: (1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率; (2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例. 解析 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4. 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9, 分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60, 所以样本中分数不小于70的男生人数为60×12=30. 所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2. 所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 考点三 样本的数字特征 1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( ) A.3,5 B.5,5 C.3,7 D.5,7 答案 A 2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为 . 8 9 9 9 0 1 1 答案 90 3.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 . 答案 0.1 考点四 变量间的相关性 1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案 C 2.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份 2010 2011 2012 2013 2014 时间代号t 1 2 3 4 5 储蓄存款y(千亿元) 5 6 7 8 10 (1)求y关于t的回归方程y^=b^t+a^; (2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款. 附:回归方程y^=b^t+a^中,b^=∑i=1ntiyi-nty∑i=1nti2-nt2,a^=y-b^t. 解析 (1)列表计算如下: i ti yi ti2 tiyi 1 1 5 1 5 2 2 6 4 12 3 3 7 9 21 4 4 8 16 32 5 5 10 25 50 ∑ 15 36 55 120 这里n=5,t=1n∑i=1nti=155=3,y=1n∑i=1nyi=365=7.2. 又ltt=∑i=1nti2-nt2=55-5×32=10,lty=∑i=1ntiyi-nt y=120-5×3×7.2=12,从而b^=ltyltt=1210=1.2,a^=y-b^t=7.2-1.2×3=3.6, 故所求回归方程为y^=1.2t+3.6. (2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元). 考点五 独立性检验 1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1 成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计 16 36 52 表2 视力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52 表3 智商 性别 偏高 正常 总计 男 8 12 20 女 8 24 32 总计 16 36 52 表4 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 A.成绩 B.视力 C.智商 D.阅读量 答案 D 2.(2014安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率; (3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d) P(K2≥k0) 0.10 0.05 0.010 0.005 k0 2.706 3.841 6.635 7.879 解析 (1)300×4 50015 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. (3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间 不超过4小时 45 30 75 每周平均体育运动时间 超过4小时 165 60 225 总计 210 90 300 结合列联表可算得K2=300×(45×60-30×165)275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. C组 教师专用题组 考点一 抽样方法 1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( ) A.134石 B.169石 C.338石 D.1 365石 答案 B 2.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) 类别 人数 老年教师 900 中年教师 1 800 青年教师 1 600 合计 4 300 A.90 B.100 C.180 D.300 答案 C 3.(2014四川,2,5分)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( ) A.总体 B.个体 C.样本的容量 D.从总体中抽取的一个样本 答案 A 4.(2014重庆,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( ) A.100 B.150 C.200 D.250 答案 A 5.(2014广东,6,5分)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案 C 6.(2014湖南,3,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( ) A.p1=p2查看更多
相关文章
- 当前文档收益归属上传用户