- 2021-06-11 发布 |
- 37.5 KB |
- 17页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习(文)统计与统计案例学案
第二讲 统计与统计案例 年份 卷别 考查角度及命题位置 命题分析及学科素养 2018 Ⅰ卷 统计图表的应用·T3 命题分析 统计部分在选择、填空题中的命题 热点有随机抽样、用样本估计总体 以及变量的相关性,难度较低.回 归分析常在解答题中考查. 学科素养 统计与统计案例主要考查用样本估 计总体与回归分析,着重考查学生 数学抽象、数学运算及数据分析核 心素养. 频率分布直方图的应用·T19 Ⅱ卷 回归分析及应用·T18 Ⅲ卷 抽样方法·T14 茎叶图与独立性检验·T18 2017 Ⅰ卷 样本的数字特征·T2 样本的数字特征的综合应用·T19 Ⅱ卷 频率分布直方图与独立性检验·T19 Ⅲ卷 折线图的应用·T3 2016 Ⅲ卷 统计图表的应用·T4 回归分析及应用·T18 样本估计总体 授课提示:对应学生用书第 59 页 [悟通——方法结论] 1.直方图的两个结论 (1)小长方形的面积=组距×频率 组距 =频率. (2)各小长方形的面积之和等于 1. 2.统计中的四个数字特征 (1)众数:在样本数据中,出现次数最多的那个数据. (2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为 偶数,就取中间两个数据的平均数作为中位数. (3)平均数:样本数据的算术平均数,即 x =1 n(x1+x2+…+xn). (4)方差与标准差 方差:s2=1 n[(x1- x )2+(x2- x )2+…+(xn- x )2]. 标准差:s= 1 n[x1- x 2+x2- x 2+…+xn- x 2]. (2016·高考北京卷)(12 分)某市居民用水拟实行阶梯水价.每人每月用水量中不 超过 w 立方米的部分按 4 元/立方米收费,超出 w 立方米的部分按 10 元/立方米收费.从 该市随机调查了 10 000 位居民,获得了他们某月的用水量数据,整理得到如下频率分布直 方图: (1)如果 w 为整数,那么根据此次调查,为使 80%以上居民在该月的用水价格为 4 元/ 立方米,w 至少定为多少? (2) 当 w=3 时,估计该市居 民该月的人均水费. [学审题] 条件信息 想到方法 注意什么 信息❶中给出频率分布直 方图 由图读出月用水量在各区间内 的频率 直方图中纵轴数据表示 为频率 组距 常误认为频率 信息❷已知超出 3 立方米 利用用水量的频率分布直方图 得出用水费用的频率分布表 条件中水费的计算方法 [规范解答] (1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1], (1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为 0.1,0.15,0.2,0.25,0.15. (2 分) 所以该月用水量不超过 3 立方米的居民占 85%,用水量不超过 2 立方米的居民占 45%. 依题意,ω至少定为 3. (6 分) (2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表 如下: 组号 1 2 3 4 5 6 7 8 分组 [2,4 (4,6] (6,8] (8,10] (10,12] (12,17] (17,22] (22,27] ] 频率 0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05 (10 分) 根据题意,该市居民该月的人均水费估计为: 4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05= 10.5(元). (12 分) 【类题通法】 1.众数、中位数、平均数与直方图的关系 (1)众数为频率分布直方图中最高矩形的底边中点的横坐标. (2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标. (3)平均数等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和. 2.方差的计算与含义 计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一 个样本和总体的波动大小的特征数,方差、标准差越大说明波动越大. [练通——即学即用] 1.(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了 n 块地作试验田.这 n 块 地的亩产量(单位:kg)分别为 x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物 亩产量稳定程度的是( ) A.x1,x2,…,xn 的平均数 B.x1,x2,…,xn 的标准差 C.x1,x2,…,xn 的最大值 D.x1,x2,…,xn 的中位数 解析:标准差能反映一组数据的稳定程度.故选 B. 答案:B 2.(2018·贵阳模拟)A 市某校学生社团针对“A 市的发展环境”对男、女各 10 名学生进 行问卷调查,每名学生给出评分(满分 100 分),得到如图所示的茎叶图. (1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由); (2)如图(2)是按该 20 名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包 含右端点),求 a 的值; (3)从打分在 70 分以下(不含 70 分)的学生中抽取 2 人,求有女生被抽中的概率. 解析:(1)女生打分的平均数为 1 10 ×(68+69+76+75+70+78+79+82+87+96)=78; 男生打分比较分散. (2)由茎叶图可知,20 名学生中评分在[70,80)内的有 9 人,则 a= 9 20÷10=0.045. (3)设“有女生被抽中”为事件 A,由茎叶图可知,有 4 名男生,2 名女生的打分在 70 分以下(不含 70 分),其中 4 名男生分别记为 a,b,c,d,2 名女生分别记为 m,n, 从中抽取 2 人的基本事件有 ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm, dn,mn,共 15 种,其中有女生被抽中的事件有 am,an,bm,bn,cm,cn,dm,dn,mn, 共 9 种,所以 P(A)= 9 15 =3 5. 回归分析 授课提示:对应学生用书第 60 页 [悟通——方法结论] 1.方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn, yn)的回归方程,其中a^,b^是待定参数,回归方程的截距和斜率分别为b^= ∑n i=1xiyi-nx - y - ∑n i=1x2i -n x 2 ,a^= y -b^ x ,( x , y )是样本中心点,回归直线过样本中心点. 2.(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相 关. (2)样本相关系数 r 具有以下性质:r>0 表示两个变量正相关,r<0 表示两个变量负相关; |r|≤1,且|r|越接近于 1,线性相关程度越强,|r|越接近于 0,线性相关程度越弱. (2018·高考全国卷Ⅱ)(12 分)下图是某地区 2000 年至 2016 年环境基础设施投资 额 y(单位:亿元)的折线图. 为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回 归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,17)建立模型①:y^= -30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,7)建立模型 ②:y^=99+17.5 t (1)分别利用这两个模型,求该地区 2018 年的环境基础设 (2) 并说明理由. [学审题] 条件信息 想到方法 注意什么 信息❶已知线性回 归模型,进行回归分 析 对应2018 年t 的值分别代入模型①②, 求预测值 (1)计算 2018 年对应 的 t 值要准确 (2)预测分析时,不管 从折线图还是预测 值,进行分析时要注 意表述准确 信息❷分析预测值 哪个更可靠 (1)可从折线图分析 2000 年至 2016 年 数据对应的点的分布情况作出结论 (2)可从(1)中计算结果进行判断 [规范解答] (1)利用模型①,可得该地区 2018 年的环境基础设施投资额的预测值为y^= -30.4+13.5×19=226.1(亿元). (2 分) 利用模型②,可得该地区 2018 年的环境基础设施投资额的预测值为y^=99+17.5×9= 256.5(亿元). (4 分) (2)利用模型②得到的预测值更可靠. 理由如下: (ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y=- 30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环 境基础设施投资额的变化趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资 额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型^y=99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预 测值更可靠. (8 分) (ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①看到的 预测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用 模型②得到的预测值更可靠. (12 分) (以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分) 【类题通法】 化归思想在回归分析的应用主要体现在以下两个方面 (1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再 求线性回归方程.(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明 的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值, 而不是一个确定的数值. [练通——即学即用] 1.根据如下样本数据: x 3 4 5 6 7 y 4.0 a-5.4 -0.5 0.5 b-0.6 得到的回归方程为y^=bx+a.若样本点的中心为(5,0.9),则当 x 每增加 1 个单位时,y 就( ) A.增加 1.4 个单位 B.减少 1.4 个单位 C.增加 7.9 个单位 D.减少 7.9 个单位 解析:依题意得,a+b-2 5 =0.9,故 a+b=6.5①; 又样本点的中心为(5,0.9),故 0.9=5b+a②, 联立①②,解得 b=-1.4,a=7.9,则y^=-1.4x+7.9,可知当 x 每增加 1 个单位时,y 就减少 1.4 个单位. 答案:B 2.(2018·成都模拟)某医疗科研项目组对 5 只实验小白鼠体内的 A,B 两项指标数据进 行收集和分析,得到的数据如下表: 指标 1 号小白鼠 2 号小白鼠 3 号小白鼠 4 号小白鼠 5 号小白鼠 A 5 7 6 9 8 B 2 2 3 4 4 (1)若通过数据分析,得知 A 项指标数据与 B 项指标数据具有线性相关关系.试根据上 表,求 B 项指标数据 y 关于 A 项指标数据 x 的线性回归方程y^=b^x+a^; (2)现要从这 5 只小白鼠中随机抽取 3 只,求其中至少有一只的 B 项指标数据高于 3 的 概率. 参考公式:b^=错误!=错误!,a^= y -b^ x . 解析:(1)由题意,可得 x =7, y =3, 错误!iyi=110,错误!2i =255,b^=错误!=1 2. ∵a^= y -b^ x ,∴a^=-1 2. ∴所求线性回归方程为y^=1 2x-1 2. (2)设 1 号至 5 号小白鼠依次为 a1,a2,a3,a4,a5,则在这 5 只小白鼠中随机抽取 3 只 的抽取情况有 a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5, 共 10 种. 随机抽取的 3 只小白鼠中至少有一只的 B 项指标数据高于 3 的情况有 a1a2a4,a1a2a5, a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共 9 种. ∴从这 5 只小白鼠中随机抽取 3 只,其中至少有一只的 B 项指标数据高于 3 的概率为 9 10. 独立性检验 授课提示:对应学生用书第 61 页 [悟通——方法结论] 求解独立性检验应用交汇问题的模型 (1)读懂列联表:明确列联表中的数据. (2)计算 K2:根据提供的公式计算 K2 值. (3)作出判断:依据临界值与犯错误的概率得出结论. (2017·高考全国卷Ⅱ)(12 分)海水养殖场进行某水产品的新、旧网箱养殖方法的 产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量(单位:kg),其频率分 布直方图如下: (1)设两种养殖方法的箱产量相互独立,记 A 表示事件“旧养殖法的箱产量低于 50 kg, 新养殖法的箱产量不低于 50 kg”,❷ 估计 A 的概率; (2) 填 写 下 面 列 联 表 , 并 根 据 列 联 表 判 断 是 否 有 99% 的 把 握认为箱产量与养殖方法有关; ❸ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值 ❹ (精确到 0.01). 附: P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828 K2= nad-bc2 a+bc+da+cb+d ,其中 n=a+b+c+d. [学审题] 条件信息 想到方法 注意什么 信息❶:频率分布直方图 频率分布直方图所给信息:频 率、中位数等 (1)频率分布直方图的 纵坐标是频率与组距 的比值,而不是频率 (2)不可混淆 K2 与 k 的 关系,并不是 k= K2, 而 k 应是 K2 的观测值 信息❷:事件 A 表示两种养殖 法的箱产量 事件 A 的含义及其频率的求 法 信息❸:判断箱产量与养殖方 法是否有关 列联表的数据、K2 的求法及 与临界值的比较 信息❹:新养殖法箱产量的中 位数的估计值 中位数大致区域的判定方法 及由频率分布直方图求中位 数的方法 [规范解答] (1)记 B 表示事件“旧养殖法的箱产量低于 50 kg”,C 表示事件“新养殖 法的箱产量不低于 50 kg”. (1 分) 由题意知 P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于 50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, (3 分) 故 P(B)的估计值为 0.62. 新养殖法的箱产量不低于 50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故 P(C)的估计值为 0.66. 因此,事件 A 的概率估计值为 0.62×0.66=0.409 2. (6 分) (2)由(1)知可得列联表 箱产量<50 kg 箱产量≥50 kg 旧养殖法 62 38 新养殖法 34 66 由表中数据及 K2 的计算公式得, K2 的观测值 k=200×62×66-34×382 100×100×96×104 ≈15.705. (8 分) 由于 15.705>6.635,故有 99%的把握认为箱产量与养殖方法有关. (10 分) (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为(0.004 +0.020+0.044)×5=0.34<0.5, 箱产量低于 55 kg 的直方图面积为 (0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为 50+0.5-0.34 0.068 ≈52.35(kg). (12 分) 【类题通法】 解决概率与统计综合问题的一般步骤 [练通——即学即用] (2018·西安八校联考)某工厂有 25 周岁以上(含 25 周岁)的工人 300 名,25 周岁以下的工 人 200 名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中 抽取了 100 名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25 周岁以上(含 25 周岁)”和“25 周岁以下”分为两组,再将两组工人的日平均生产件数分成 5 组:[50,60), [60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直 方图. (1)根据“25 周岁以上(含 25 周岁)组”的频率分布直方图,求 25 周岁以上(含 25 周岁) 组工人日平均生产件数的中位数的估计值(四舍五入保留整数); (2)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“25 周 岁以下组”工人的概率; (3)规定日平均生产件数不少于 80 的工人为生产能手,请你根据已知条件完成 2×2 列 联表,并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”? 生产能手 非生产能手 合计 25 周岁以上(含 25 周岁)组 25 周岁以下组 合 计 附:K2= nad-bc2 a+bc+da+cb+d P(K2≥k0) 0.100 0.050 0.010 0.001 k0 2.706 3.841 6.635 10.828 解析:采用分层抽样,“25 周岁以上(含 25 周岁)组”应抽取工人 100× 300 300+200 =60(名), “25 周岁以下组”应抽取工人 100× 200 300+200 =40(名). (1)由“25 周岁以上(含 25 周岁)组”的频率分布直方图可知,其中位数为 70+ 10×0.5-0.05-0.35 0.35 =7020 7 ≈73(件). 综上,25 周岁以上(含 25 周岁)组工人日平均生产件数的中位数的估计值为 73 件. (2)由频率分布直方图可知,样本中日平均生产件数不足 60 件的工人中,25 周岁以上(含 25 周岁)的工人共有 60×0.005×10=3(名),设其分别为 m1,m2,m3;25 周岁以下的工人共 有 40×0.005×10=2(名),设其分别为 n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1, n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共 10 个. 记“至少抽到一名‘25 周岁以下组’的工人”为事件 A,事件 A 包含的基本事件共 7 个. 故 P(A)= 7 10. (3)由频率分布直方图可知,25 周岁以上(含 25 周岁)的生产能手共有 60×[(0.02+ 0.005)×10]=15(名),25 周岁以下的生产能手共有 40×[(0.032 5+0.005)×10]=15(名), 则 2×2 列联表如下: 生产能手 非生产能手 合计 25 周岁以上(含 25 周岁) 组 15 45 60 25 周岁以下组 15 25 40 合计 30 70 100 K2=100×15×25-15×452 60×40×30×70 =25 14 ≈1.786<2.706. 综上,没有 90%的把握认为“生产能手与工人所在的年龄组有关”. 授课提示:对应学生用书第 137 页 一、选择题 1.利用系统抽样法从编号分别为 1,2,3,…,80 的 80 件不同产品中抽出一个容量为 16 的样本,如果抽出的产品中有一件产品的编号为 13,则抽到产品的最大编号为( ) A.73 B.78 C.77 D.76 解析:样本的分段间隔为80 16 =5,所以 13 号在第三组,则最大的编号为 13+(16-3)×5 =78.故选 B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了 20 户家庭某月的用电量如下表所示: 用电量/度 120 140 160 180 200 户数 2 3 5 8 2 则这 20 户家庭该月用电量的众数和中位数分别是( ) A.180,170 B.160,180 C.160,170 D.180,160 解析:用电量为 180 度的家庭最多,有 8 户,故这 20 户家庭该月用电量的众数是 180, 排除 B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是 160,180,故 这 20 户家庭该月用电量的中位数是 170.故选 A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集 并整理了 2014 年 1 月至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制了如图 所示的折线图,根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在 7,8 月 D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳 解析:根据折线图可知,2014 年 8 月到 9 月、2014 年 10 月到 11 月等月接待游客量都 在减少,所以 A 错误.由图可知,B、C、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为 200,如 图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品, 在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A.5 B.7 C.10 D.50 解析:根据题中的频率分布直方图可知,三等品的频率为 1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为 200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出 x(单位:万元)与销售额 y(单位:万元) 之间有如下对应数据: x 2 4 5 6 8 y 30 40 50 m 70 根据表中提供的全部数据,用最小二乘法得出 y 与 x 的线性回归方程为y^=6.5x+17.5, 则表中 m 的值为( ) A.45 B.50 C.55 D.60 解析:∵ x =2+4+5+6+8 5 =5, y =30+40+50+m+70 5 =190+m 5 , ∴当 x =5 时, y =6.5×5+17.5=50, ∴190+m 5 =50,解得 m=60. 答案:D 6.为比较甲、乙两地某月 11 时的气温情况,随机选取该月中的 5 天,将这 5 天中 11 时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论: ①甲地该月 11 时的平均气温低于乙地该月 11 时的平均气温 ②甲地该月 11 时的平均气温高于乙地该月 11 时的平均气温 ③甲地该月 11 时的气温的标准差小于乙地该月 11 时的气温的标准差 ④甲地该月 11 时的气温的标准差大于乙地该月 11 时的气温的标准差 其中根据茎叶图能得到的正确结论的编号为( ) A.①③ B.①④ C.②③ D.②④ 解析:由茎叶图和平均数公式可得甲、乙两地的平均数分别是 30,29,则甲地该月 11 时的平均气温高于乙地该月 11 时的平均气温,①错误,②正确,排除 A 和 B;又甲、乙两 地该月 11 时的标准差分别是 s 甲= 4+1+1+4 5 = 2,s 乙= 9+1+4+4 5 = 18 5 ,则甲 地该月 11 时的气温的标准差小于乙地该月 11 时的气温的标准差,③正确,④错误,故选项 C 正确. 答案:C 二、填空题 7.(2018·惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此 进行了 5 次试验.根据收集到的数据(如下表): 零件数 x/个 10 20 30 40 50 加工时间 y/分钟 62 68 75 81 89 由最小二乘法求得回归方程y^=0.67x+a^,则a^的值为________. 解析:因为 x =10+20+30+40+50 5 =30, y =62+68+75+81+89 5 =75, 所以回归直线一定过样本点的中心(30,75), 则由y^=0.67x+a^可得 75=30×0.67+a^, 求得a^=54.9. 答案:54.9 8.(2018·高考全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大 差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、 分层抽样和系统抽样,则最合适的抽样方法是________. 解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的 抽样方法是分层抽样. 答案:分层抽样 三、解答题 9.某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了 8 组数据作为研究对象,如下表所示(x 为该商品的进货量,y 为销售天数): x/吨 2 3 4 5 6 8 9 11 y/天 1 2 3 3 4 5 6 8 (1)根据上表数据在图中的网格中绘制散点图: (2)根据上表提供的数据,求出 y 关于 x 的线性回归方程y^=b^x+a^; (3)根据(2)中的计算结果,若该商店准备一次性进货 24 吨,预测需要销售的天数. 参考公式和数据:b^=错误!,a^= y -b^ x ; 错误!2i =356,错误!iyi=241. 解析:(1)散点图如图所示. (2)依题意,得 x =1 8 ×(2+3+4+5+6+8+9+11)=6, y =1 8 ×(1+2+3+3+4+5+6+8)=4, 又错误!2i =356,错误!iyi=241, 所以b^=错误!=241-8×6×4 356-8×62 =49 68 ,a^=4-49 68 ×6=-11 34 , 故线性回归方程为y^=49 68x-11 34. (3)由(2)知,当 x=24 时,y^=49 68 ×24-11 34 ≈17, 故若该商店一次性进货 24 吨,则预计需要销售 17 天. 10.(2018·郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校 1 000 名(男生 800 名,女生 200 名)学生的测试成绩,根据性别按分层抽样的方法抽取 100 名学生的测试 成绩进行分析,得到如下统计表: 男生测试情况: 抽样情况 病残免试 不合格 合格 良好 优秀 人数 5 10 15 47 x 女生测试情况: 抽样情况 病残免试 不合格 合格 良好 优秀 人数 2 3 10 y 2 (1)现从抽取的 100 名且测试等级为“优秀”的学生中随机选出 2 名学生,求选出的这 2 名学生恰好是一男一女的概率; (2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试) 的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率 不超过 0.010 的前提下认为“是否为‘体育达人’与性别有关?” 男性 女性 总计 体育达人 非体育达人 总计 临界值表: P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 k0 2.706 3.841 5.024 6.635 7.879 附:K2= nad-bc2 a+bc+da+cb+d ,其中 n=a+b+c+d. 解析:(1)按分层抽样的知识知男生应抽取 80 名,女生应抽取 20 名, ∴x=80-(5+10+15+47)=3,y=20-(2+3+10+2)=3. 抽取的 100 名且测试等级为“优秀”的 3 名男生分别记为 A,B,C,2 名女生分别记为 a, b. 从 5 名学生中任选 2 名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C), (B,a),(B,b),(C,a),(C,b),(a,b),共 10 个. 设“选出的 2 名学生恰好是一男一女”为事件 M, 则事件 M 包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共 6 个, ∴P(A)= 6 10 =3 5. (2)2×2 列联表如下: 男生 女生 总计 体育达人 50 5 55 非体育达人 30 15 45 总计 80 20 100 则 K2= nad-bc2 a+bc+da+cb+d =100×50×15-30×52 80×20×55×45 ≈9.091. ∵9.091>6.635 且 P(K2≥6.635)=0.010, ∴能在犯错误的概率不超过 0.010 的前提下认为“是否为‘体育达人’与性别有关.”查看更多