- 2021-06-30 发布 |
- 37.5 KB |
- 45页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2019届二轮复习 独立性检验的基本思想及其初步应用课件(45张)(全国通用)(全国通用)
独立性检验的基本思想及其初步应用 考纲下载 1. 了解分类变量的意义 . 2 . 了解 2 × 2 列联表的意义 . 3 . 了解随机变量 K 2 的意义 . 4 . 通过对典型案例分析,了解独立性检验的基本思想和方法 . 知识复习 达标检测 题型探究 内容索引 知识复习 思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表: 答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断 . 知识点一 分类变量及 2×2 列联表 如何判定 “ 喜欢体育还是文娱与性别是否有联系 ” ? 体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计 270 520 790 梳理 (1) 分类变量 变量的不同 “ 值 ” 表示个体所属 的 , 像这样的变量称为分类变量 . (2) 列联表 ① 定义:列出的两个分类变量 的 , 称为列联表 . 不同类别 频数表 y 1 y 2 总计 x 1 a b a + b x 2 c d c + d 总计 a + c b + d a + b + c + d ② 2 × 2 列联表 一般地,假设有两个分类变量 X 和 Y ,它们的取值分别 为 和 , 其样本频数列联表 ( 也称为 2 × 2 列联表 ) 为下表 . { x 1 , x 2 } { y 1 , y 2 } 1. 与表格相比,图形更能直观地反映出两个分类变量间 是否 , 常用等高条形图展示列联表数据 的 特征 . 2. 如果通过直接计算或等高条形图 发现 相差 很大,就判断两个分类变量 之间 . 知识点二 等高条形图 相互影响 频率 有关系 1. 定义:利用随机变量 K 2 来判断 “ 两个分类变量有关系 ” 的方法称为独立性检验 . 2. K 2 = , 其中 n = a + b + c + d 为样本容量 . 3. 独立性检验的具体做法 ( 1) 根据实际问题的需要确定容许推断 “ 两个分类变量有关系 ” 犯错误概率的上界 α ,然后查表 确定 . 临界值 k 0 知识点三 独立性检验 (2) 利用公式计算随机变量 K 2 的 . (3) 如果 , 就推断 “ X 与 Y 有关系 ” ,这种推断犯错误的概率不超过 α ;否则,就认为 在 不 超过 α 的前提下不能推断 “ X 与 Y 有关系 ” ,或者在样本数据 中 支持 结论 “ X 与 Y 有关系 ”. 观测值 k k ≥ k 0 犯错误的概率 没有发现足够证据 1. 列联表中的数据是两个分类变量的频数 .( ) 2. 事件 A 与 B 的独立性检验无关,即两个事件互不影响 .( ) 3. K 2 的大小是判断事件 A 与 B 是否相关的统计量 .( ) √ × √ [ 思考辨析 判断正误 ] 题型探究 例 1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下: 类型一 等高条形图的应用 组别 阳性数 阴性数 总计 铅中毒病人 29 7 36 对照组 9 28 37 总计 38 35 73 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系? 解答 解 等高条形图如图所示: 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率 . 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系 . 反思与感悟 在等高条形图中,可以估计满足条件 X = x 1 的个体中具有 Y = y 1 的个体所占的 比例 , 也可以估计满足条件 X = x 2 的个体中具有 Y = y 1 的个体所占的 比例 . 两个比例的值相差越大, X 与 Y 有关系成立的可能性就越大 . 跟踪训练 1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了 1 000 人调查,发现其中经常上网的有 200 人,这 200 人中有 80 人期末考试不及格,而另外 800 人中有 120 人不及格 . 利用图形判断学生经常上网与学习成绩有关吗? 解答 解 根据题目所给的数据得到如下 2 × 2 列联表: 经常上网 不经常上网 总计 不及格 80 120 200 及格 120 680 800 总计 200 800 1 000 得出等高条形图如图所示 : 比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关 . 例 2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示: 类型二 独立性检验 根据表中数据,问是否在犯错误的概率不超过 0.05 的前提下认为 “ 南方学生和北方学生在选用甜品的饮食习惯方面有差异 ”. 喜欢甜品 不喜欢甜品 合计 南方学生 60 20 80 北方学生 10 10 20 合计 70 30 100 解答 解 将 2 × 2 列联表中的数据代入公式计算,得 因为 4.762>3.841 , 所以 在犯错误的概率不超过 0.05 的前提下认为 “ 南方学生和北方学生在选用甜品的饮食习惯方面有差异 ”. 反思与感悟 (1) 独立性检验的关注点 在 2 × 2 列联表中,如果两个分类变量没有关系,则应满足 ad - bc ≈ 0 ,因此 | ad - bc | 越小,关系越弱; | ad - bc | 越大,关系越强 . (2) 独立性检验的具体做法 ① 根据实际问题的需要确定允许推断 “ 两个分类变量有关系 ” 犯错误的概率的上界 α ,然后查表确定临界值 k 0 . ② 利用公式 K 2 = 计算 随机变量 K 2 的观测值 k . ③ 如果 k ≥ k 0 ,推断 “ X 与 Y 有关系 ” 这种推断犯错误的概率不超过 α ;否则,就认为在犯错误的概率不超过 α 的前提下不能推断 “ X 与 Y 有关系 ” ,或者在样本数据中没有发现足够的证据支持结论 “ X 与 Y 有关系 ”. 跟踪训练 2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了 50 人,其中有老教师 20 人,青年教师 30 人 . 老教师对新课程教学模式赞同的有 10 人,不赞同的有 10 人;青年教师对新课程教学模式赞同的有 24 人,不赞同的有 6 人 . (1) 根据以上数据建立一个 2 × 2 列联表; 解答 解 2 × 2 列联表如下所示: 赞同 不赞同 总计 老教师 10 10 20 青年教师 24 6 30 总计 34 16 50 (2) 判断是否有 99% 的把握说明对新课程教学模式的赞同情况与教师年龄有关系 . 解答 解 假设 “ 对新课程教学模式的赞同情况与教师年龄无关 ”. 所以没有 99% 的把握认为对新课程教学模式的赞同情况与教师年龄有关 . 例 3 (2017· 全国 Ⅱ 改编 ) 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网箱,测量各箱水产品的产量 ( 单位: kg) ,其频率分布直方图如图: 类型三 独立性检验的综合应用 (1) 设两种养殖方法的箱产量相互独立,记 A 表示事件 “ 旧养殖法的箱产量低于 50 kg ,新养殖法的箱产量不低于 50 kg ” ,估计 A 的概率; 解答 解 记 B 表示事件 “ 旧养殖法的箱产量低于 50 kg ” , C 表示事件 “ 新养殖法的箱产量不低于 50 kg ” , 由 P ( A ) = P ( BC ) = P ( B ) P ( C ) , 则旧养殖法的箱产量低于 50 kg 的频率为 (0.012 + 0.014 + 0.024 + 0.034 + 0.040) × 5 = 0.62 , 故 P ( B ) 的估计值为 0.62 , 新养殖法的箱产量不低于 50 kg 的频率为 (0.068 + 0.046 + 0.010 + 0.008) × 5 = 0.66 ,故 P ( C ) 的估计值为 0.66 , 则事件 A 的概率估计值为 P ( A ) = P ( B ) P ( C ) = 0.62 × 0.66 = 0.409 2 , ∴ A 发生的概率为 0.409 2. (2) 填写下面列联表,并根据列联表判断是否有 99% 的把握认为箱产量与养殖方法有关 . 解答 附: P ( K 2 ≥ k 0 ) 0.050 0.010 0.001 k 0 3.841 6.635 10.828 箱产量 <50 kg 箱产量 ≥ 50 kg 旧养殖法 新养殖法 解 根据箱产量的频率分布直方图得到列联表: 由 15.705>6.635 , 故有 99% 的把握认为箱产量与养殖方法有关 . 箱产量 <50 kg 箱产量 ≥ 50 kg 总计 旧养殖法 62 38 100 新养殖法 34 66 100 总计 96 104 200 反思与感悟 两个分类变量相关关系的判断 (1) 等高条形图法:在等高条形图中,可以估计满足条件 X = x 1 的个体中具有 Y = y 1 的个体所占的 比例 , 也可以估计满足条件 X = x 2 的个体中 具有 Y = y 1 的个体所占的 比例 . 两 个比例的值相差越大, X 与 Y 有关系成立的可能性就越大 . (2) 观测值法:通过 2 × 2 列联表,先计算 K 2 的观测值 k ,然后借助 k 的含义判断 “ 两个分类变量有关系 ” 这一结论成立的可信程度 . 跟踪训练 3 为了解某班学生喜爱打篮球是否与性别有关,对本班 48 人进行了问卷调查得到了如下的 2 × 2 列联表: 解答 已知在全班 48 人中随机抽取 1 人,抽到喜爱打篮球的学生的概率 为 . (1) 请将上面的 2 × 2 列联表补充完整 ( 不用写计算过程 ) ; 喜爱打篮球 不喜爱打篮球 合计 男生 6 女生 10 合计 48 解 列联表补充如下: 喜爱打篮球 不喜爱打篮球 合计 男生 22 6 28 女生 10 10 20 合计 32 16 48 (2) 能否在犯错误的概率不超过 0.05 的前提下认为喜爱打篮球与性别有关?说明你的理由; 解答 因为 4.286>3.841 , 所以 ,能在犯错误的概率不超过 0.05 的前提下认为喜爱打篮球与性别有关 . (3) 现从女生中抽取 2 人进一步调查,设其中喜爱打篮球的女生人数为 X ,求 X 的分布列与均值 . 解答 解 喜爱打篮球的女生人数 X 的可能取值为 0,1,2. 其概率分别为 故 X 的分布列为 达标检测 1. 某机构调查中学生的近视情况,了解到某校 150 名男生中有 80 名近视, 140 名女生中有 70 名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力 A. 平均数 B . 方差 C . 回归分析 D . 独立性检验 答案 √ 1 2 3 4 5 答案 解析 2. 对于分类变量 X 与 Y 的随机变量 K 2 的观测值 k ,下列说法正确的是 A. k 越大, “ X 与 Y 有关系 ” 的可信程度越小 B. k 越小, “ X 与 Y 有关系 ” 的可信程度越小 C. k 越接近于 0 , “ X 与 Y 没有关系 ” 的可信程度越小 D. k 越大, “ X 与 Y 没有关系 ” 的可信程度越大 解析 k 越大, “ X 与 Y 没有关系 ” 的可信程度越小,则 “ X 与 Y 有关系 ” 的可信程度越大, k 越小, “ X 与 Y 有关系 ” 的可信程度越小 . √ 1 2 3 4 5 答案 解析 3. 用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是 解析 由等高条形图易知, D 选项两个分类变量关系最强 . 1 2 3 4 5 √ 4. 若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得 “ 吸烟与患肺癌有关 ” 的结论,并且有 99% 以上的把握认为这个结论是成立的,则下列说法中正确的是 A.100 个吸烟者中至少有 99 人患有肺癌 B.1 个人吸烟,那么这个人有 99% 的概率患有肺癌 C. 在 100 个吸烟者中一定有患肺癌的人 D. 在 100 个吸烟者中可能一个患肺癌的人也没有 1 2 3 4 5 答案 √ 解析 解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生 . 解答 5. 高中流行这样一句话 “ 文科就怕数学不好,理科就怕英语不好 ” . 下表是一次针对高三文科学生的调查所得的 数据 1 2 3 4 5 总成绩好 总成绩不好 总计 数学成绩好 478 a 490 数学成绩不好 399 24 423 总计 b c 913 (1) 计算 a , b , c 的值; 解 由 478 + a = 490 ,得 a = 12. 由 a + 24 = c ,得 c = 12 + 24 = 36. 由 b + c = 913 ,得 b = 913 - 36 = 877. 1 2 3 4 5 解答 (2) 文科学生总成绩不好与数学成绩不好有关系吗? 解 计算随机变量 K 2 的观测值 1 2 3 4 5 因为 P ( K 2 ≥ 5.024) ≈ 0.025 , 所以在犯错误的概率不超过 0.025 的前提下,认为文科学生总成绩不好与数学成绩不好有关系 . 1. 列联表与等高条形图 列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系 . 2. 对独立性检验思想的理解 独立性检验的基本思想类似于数学中的反证法 . 先假设 “ 两个分类变量没有关系 ” 成立,计算随机变量 K 2 的值,如果 K 2 的值很大,说明假设不合理 . K 2 越大,两个分类变量有关系的可能性越大 . 规律与方法查看更多