- 2021-07-01 发布 |
- 37.5 KB |
- 7页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020年高二数学下学期期末统计案例知识点
2020 年高二数学下学期期末统计案例知识点 1.两个变量的线性相关 (1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关 关系,我们将它称为正相关. (2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系 称为负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相 关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程 方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn, yn)的回归方程,其中a^,b^是待定参数. n i i n i ii n i i n i ii xnx yxnyx xx yyxx 1 22 1 1 2 1b , xy ba . 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中( x-, y-)称为样 本点的中心. (3)相关系数 当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两 个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关 性. 例 1.(2019·山东泰安月考)某车间为了规定工时定额,需要确定加工零件所花费的时间, 为此进行了 5 次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y^=0.67x+ 54.9. 零件数 x(个) 10 20 30 40 50 加工时间 y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为____________. 【答案】68 [由 x-=30,得 y-=0.67×30+54.9=75.设表中的“模糊数字”为 a,则 62+a+75+81+89=75×5,∴a=68.] 练习. (2019年潮州月考)以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据: 房屋面积 x(m2) 115 110 80 135 105 销售价格 y(万元) 24.8 21.6 18.4 29.2 22 (1)画出数据对应的散点图; (2)求线性回归方程,并在散点图中画出回归直线; (3)根据(2)的结果估计当房屋面积为 150 m2 时的销售价格. 解 (1)数据对应的散点图如图所示: (2) x-=1 5 5 1i ix =109, 5 1 2 i i xx =1 570, y-=1 5 5 1i iy =23.2, n i ii yyxx 1 =308. 设所求线性回归方程为y^=b^x+a^,则 b^= 5 1 2 5 1 i i i ii xx yyxx = 308 1 570 ≈0.196 2, a^= y--b^ x-=23.2-109×0.196 2=1.814 2. 故所求线性回归方程为y^=0.196 2x+1.814 2. (3)根据(2),当 x=150 时,销售价格的估计值为 y=0.196 2×150+1.814 2=31.244 2≈31.2(万元). 4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y, 它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+ d 构造一个随机变量 K2= nad-bc2 a+bc+da+cb+d,其中 n=a+b+c+d 为样本容量. (3)独立性检验 利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验. 例 2.(2019·山东枣庄模拟)为了判断高中三年级学生是否选修文科与性别的关系,现随 机抽取 50 名学生,得到如下 2×2 列联表: 理科 文科 男 13 10 女 7 20 已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到 K2 的观测值 k=50×13×20-10×72 23×27×20×30 ≈4.844.则认为选修文科与性 别有关系出错的可能性为____________. 【答案】5% [K2 的观测值 k≈4.844,这表明小概率事件发生.根据假设检验的基本原理, 应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为 5%.] 练习. (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生 产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成 两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人 完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m 的工人数填入下面的列联表: 超过 m 不超过 m 第一种生产方 式 第二种生产方 式 (3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附:K2= nad-bc2 a+bc+da+cb+d, 解 (1)第二种生产方式的效率更高. 理由如下: (ⅰ)由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至 少 80 分钟,用第二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 分钟.因 此第二种生产方式的效率更高. (ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分 钟,用第二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟.因此第二种生产 方式的效率更高. (ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于 80 分钟; 用第二种生产方式的工人完成生产任务所需平均时间低于 80 分钟.因此第二种生产方式的效 率更高. (ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多, 关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最 多,关于茎 7 大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相 同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务 所需的时间更少.因此第二种生产方式的效率更高.(以上给出了 4 种理由,考生答出其中任 意一种或其他合理理由均可得分) (2)由茎叶图知 m=79+81 2 =80. 列联表如下: 超过 m 不超过 m 第一种生产方 式 15 5 第二种生产方 式 5 15 (3)因为 K2=4015×15-5×52 20×20×20×20 =10>6.635,所以有 99%的把握认为两种生产方式的效 率有差异. 练习. (2019·山东烟台模拟)某校高二年级共有 1 600 名学生,其中男生 960 名,女生 640 名.该校组织了一次满分为 100 分的数学学业水平模拟考试.根据研究,在正式的学业水平 考试中,本次成绩在[80,100]的学生可取得 A 等(优秀),在[60,80)的学生可取得 B 等(良好), 在[40,60)的学生可取得 C 等(合格),不到 40 分的学生只能取得 D 等(不合格).为研究这次考 试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取 100 名学生,将他们的成绩 按从低到高分成[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]七组加以统 计,绘制成如图所示的频率分布直方图. (1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数; (2)请你根据已知条件将下列 2×2 列联表补充完整.并判断是否有 90%的把握认为“该校 高二年级学生在本次考试中数学成绩优秀与性别有关”? 数学成绩优秀 数学成绩不优 秀 合计 男生 a=12 b= 女生 c= d=34 合计 n=100 解 (1) 设抽取的 100 名学生中,本次考试成绩不合格的有 x 人,根据题意得 x=100×[1 -10×(0.006+0.012×2+0.018+0.024+0.026)]=2. 据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为 2 100 ×1 600=32. (2)根据已知条件得 2×2 列联表如下: 数学成绩优秀 数学成绩不优 秀 合计 男生 a=12 b=48 60 女生 c=6 d=34 40 合计 18 82 n=100 因为 K2=100×12×34-6×482 60×40×18×82 ≈0.407<2.706, 所以没有 90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”.查看更多