- 2021-07-01 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020届二轮复习独立性检验的基本思想学案(全国通用)
独立性检验的基本思想 学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法. 知识点一 分类变量及2×2列联表 思考 山东省2011年大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表: 体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计 270 520 790 如何判定“喜欢体育还是文娱与性别是否有联系”? 答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 1.分类变量 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. 2.列联表 (1)定义:列出的两个分类变量的频数表,称为列联表. (2)2×2列联表 一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表. y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 知识点二 等高条形图 1.等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征. 2.观察等高条形图发现和相差很大,就判断两个分类变量之间有关系. 知识点三 独立性检验 1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 2.K2=. 其中n=a+b+c+d为样本容量. 3.独立性检验的具体做法 (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0. (2)利用公式计算随机变量K2的观测值k. (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”. 类型一 利用等高条形图判断两个分类变量是否有关系 例1 为考察某种药物预防疾病的效果进行动物试验,得到如下列联表: 患病 未患病 总计 服用药 10 45 55 未服用药 20 30 50 总计 30 75 105 试用等高条形图分析服用药和患病之间是否有关系. 解 根据列联表所给的数据可得出服用药患病的频率为≈0.18,未服用药患病的频率为=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系. 反思与感悟 1.本题采用数形结合法通过条形图直观地看出差异,得出结论. 2.应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例,也可以估计满足条件X=x2的个体中具有Y=y1 的个体所占的比例.“两个比例的值相差越大,H1成立的可能性就越大.” 跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗? 解 根据题目所给的数据得到如下2×2列联表: 经常上网 不经常上网 总计 不及格 80 120 200 及格 120 680 800 总计 200 800 1 000 得出等高条形图如图所示: 比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关. 类型二 由K2进行独立性检验 例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示. 又发作过心脏病 未发作过心脏病 合计 心脏搭桥手术 39 157 196 血管清障手术 29 167 196 合计 68 324 392 试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,由公式得K2的观测值k=≈1.779. 因为k≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别. 反思与感悟 1.独立性检验的关注点 在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强. 2.独立性检验的具体做法 (1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0. (2)利用公式K2=计算随机变量K2的观测值k. (3)如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”. 跟踪训练2 在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡. (1)根据以上数据建立一个2×2列联表; (2)试问该种药物对治疗“H1N1”病毒是否有效? 解 (1)2×2列联表如下: 存活数 死亡数 总计 服用该药物 132 18 150 未服该药物 114 36 150 总计 246 54 300 (2)由(1)知 K2=≈7.317>6.635. 故在犯错误的概率不超过0.01的前提下认为该种药物对“H1N1”病毒有治疗效果. 类型三 独立性检验的综合应用 例3 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示. 积极支持 企业改革 不太赞成 企业改革 总计 工作积极 54 40 94 工作一般 32 63 95 总计 86 103 189 对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系.” 他们两人的结论正确吗?他们的结论为什么不一样? 解 由列联表中的数据求得K2的观测值为: k=≈10.759, 10.759>7.879>6.635, 若以k0=7.879为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系; 若以k0=6.635为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系. ∴李明和张宇的结论都正确. 造成结论不一样的原因是他们两人采用了两种不同的判断规则,即所选用的临界值不同. 反思与感悟 要得到两个变量之间有关或无关的精确的可信程度,需作独立性检验的有关计算,K2越小,变量间的关系越弱,当K2<2.706时,我们认为两个变量无关. 跟踪训练3 某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%) 甲校高二年级数学成绩: 分组 [50,60) [60,70) [70,80) [80,90) [90,100] 频数 10 25 35 30 x 乙校高二年级数学成绩: 分组 [50,60) [60,70) [70,80) [80,90) [90,100] 频数 15 30 25 y 5 (1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分). (2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?” 甲校 乙校 总计 优秀 非优秀 总计 解 (1)依题意知甲校应抽取110人,乙校应抽取90人, ∴x=10,y=15, 估计两个学校的平均分,甲校的平均分为 ≈75. 乙校的平均分为 ≈71. (2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表 甲校 乙校 总计 优秀 40 20 60 非优秀 70 70 140 总计 110 90 200 k=≈4.174, 又因为4.174>3.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”. 1.下面是一个2×2列联表: y1 y2 总计 x1 a 21 73 x2 8 25 33 总计 b 46 则表中a、b处的值分别为( ) A.94,96 B.52,50 C.52,60 D.54,52 答案 C 解析 ∵a+21=73,∴a=52,b=a+8=52+8=60. 2. 某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表: 心脏病 无心脏病 秃发 20 300 不秃发 5 450 根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系.那么这种判断出错的可能性为( ) A.0.1 B.0.05 C.0.025 D.0.01 答案 D 解析 因为k>6.635,所以有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性有1-0.99=0.01. 3.根据如图所示的等高条形图可知吸烟与患肺病 关系(填“有”或“没有”). 答案 有 解析 从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率. 4.根据下表计算: 不看电视 看电视 男 37 85 女 35 143 K2的观测值k≈ .(保留3位小数) 答案 4.514 解析 k=≈4.514. 1.列联表与等高条形图 列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系. 2.对独立性检验思想的理解 独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大. 一、选择题 1.用等高条形图粗略估计两个分类变量是否相关.观察下列各图,其中两个分类变量相关关系最强的是( ) 答案 D 解析 由等高条形图易知,D选项两个分类变量相关关系最强. 2.分类变量X和Y的列联表如下,则( ) y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d A.ad-bc越小,说明X与Y的关系越弱 B.ad-bc越大,说明X与Y的关系越强 C.(ad-bc)2越大,说明X与Y的关系越强 D.(ad-bc)2越接近于0,说明X与Y的关系越强 答案 C 解析 k=(其中n=a+b+c+d),若(ad-bc)2越大,则k越大,说明X与Y的关系越强. 3.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量K2的观测值k的取值范围是( ) A.[3.841,5.024) B.[5.024,6.635) C.[6.635,7.879) D.[7.879,10.828) 答案 C 4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据: 种子处理 种子未处理 总计 得病 32 101 133 不得病 61 213 274 总计 93 314 407 根据以上数据可得出( ) A.种子是否经过处理与是否生病有关 B.种子是否经过处理与是否生病无关 C.种子是否经过处理决定是否生病 D.有90%的把握认为种子经过处理与生病有关 答案 B 解析 k=≈0.164<0.455, 即没有充足的理由认为种子是否经过处理跟生病有关. 5.在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是( ) ①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过的0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A.① B.①③ C.③ D.② 答案 C 解析 K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故①不正确;②中对“确定容许推断犯错误概率的上界”理解错误;③正确. 6.某班主任对全班50名学生进行了作业量的调查,数据如下表: 认为作业量大 认为作业量不大 合计 男生 18 9 27 女生 8 15 23 合计 26 24 50 则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A.0.01 B.0.005 C.0.025 D.0.001 答案 C 解析 由公式得K2的观测值k=≈5.059>5.024.∵P(K2≥5.024)=0.025,∴犯错误的概率不超过0.025. 二、填空题 7.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”或“无关) 答案 有关 解析 由K2的观测值k≈27.63与临界值10.828比较,我们有99.9%的把握说打鼾与患心脏病有关. 8.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验抽查了3 000人,计算发现K2的观测值k=6.023,根据这一数据查阅下表,市政府断言“市民收入增减与旅游愿望有关系”出错的概率不超过 . P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 答案 0.025 解析 因为K2的观测值k=6.023>5.024,所以市政府断言“市民收入增减与旅游愿望有关系”出错的概率不超过0.025. 9.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其中2×2列联表如下: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 对于同一样本,以下数据能说明X与Y有关的可能性最大的一组为 .(填序号) ①a=9,b=8,c= 7,d=6; ②a=9,b=7,c=8,d=6; ③a=6,b=7,c=8,d=9; ④a=7,b=6,c=8,d=9. 答案 ④ 解析 对于同一样本,|ad-bc|越小,说明x与y之间关系越弱;|ad-bc|越大,说明x与y之间关系越强.通过计算可知①②③中的|ad-bc|=|54-56|=2,④中的|ad-bc|=|63-48|=15,显然15>2. 10.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据: 无效 有效 总计 男性患者 15 35 50 女性患者 6 44 50 总计 21 79 100 设H:服用此药的效果与患者的性别无关,则K2的观测值k≈ (小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的可能性为 . 答案 4.882 5% 解析 由公式计算得K2的观测值k≈4.882, ∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错. 三、解答题 11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”? 总成绩不好 总成绩好 总计 数学成绩不好 478 12 490 数学成绩好 399 24 423 总计 877 36 913 解 依题意,计算随机变量K2的观测值: k=≈6.233>5.024, 所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”. 12.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 解 建立性别与态度的2×2列联表如下: 肯定 否定 总计 男生 22 88 110 女生 22 38 60 总计 44 126 170 根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系. 根据列联表中的数据得到K2的观测值 k=≈5.622>5.024. 因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系. 13.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂: 分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数 12 63 86 182 92 61 4 乙厂: 分组 [29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10, 30.14) 频数 29 71 85 159 76 62 18 (1)试分别估计两个分厂生产的零件的优质品率. (2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”? 甲厂 乙厂 总计 优质品 非优质品 总计 解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%; 乙厂抽查的产品中有'320件优质品,从而乙厂生产的零件的优质品率估计为=64%. (2) 甲厂 乙厂 总计 优质品 360 320 680 非优质品 140 180 320 总计 500 500 1 000 K2=≈7.35>6.635, 所以在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异.”查看更多