常见统计学错误

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

常见统计学错误

常见统计学错误与纠正----分析方法与设计的不匹配方积乾中山大学公共卫生学院医学统计与流行病学系\n1.随机区组设计不可用成组分析方法例1有5件标本I,II,III,IV,V,每一件均匀分成4份,随机分配给4种处理A,B,C,D,得下表资料,试比较处理间的差别。不恰当做法:视纵向4列为4组数据,进行4组间比较。\n多次t检验?!分别作两组比较的t检验,得认为:A与B,A与C,A与D差异具有统计学意义;B与C,B与D,C与D差异无统计学意义。\n单因素方差分析?!同时比较A,B,C,D四个处理组均数间的差异,得F=0.55,P=0.59认为:四个处理组均数的差异无统计学意义。\n为什麽不对?(1)辜负了设计的苦心——随机区组设计!*同一件标本为一个区组;*同一区组内4种处理有较好的可比性。无视区组的存在,组内个体间变异较大,识别差异的能力大大降低。(2)不能翻来覆去比较!*6次t检验会增大第一类错误!设每次t检验犯第一类错误的概率为0.05,则6次t检验中一次不错的概率=(1-0.05)6第一类错误的概率=至少一次出错的概率=1-(1-0.05)6=0.27\n正确作法:随机区组资料的方差分析将处理间的差别与扣除区组间变异后的随机误差进行比较,识别差异的能力大大提高。本例,处理组间F=8.23,P=0.003差别有统计学意义区组间F=1.21,P=0.36差别无统计学意义\n2.析因设计不能用单因素方差分析例2收集甲状腺术中正常甲状腺组织做成16份标本,按析因设计随机分为四个处理组。将处理后的标本分别行免疫组化染色,作单位面积HLA-Ⅱ抗原阳性细胞计数。试分析如下数据:第1组(经95%空气和5%CO2培养7天):2.5,2.4,2.6,2.5第2组(经95%空气和5%CO2培养14天):1.8,1.9,1.7,1.8第3组(经95%O2和5%CO2培养7天):2.2,2.3,2.1,2.2第4组(经95%O2和5%CO2培养14天):1.9,1.8,1.7,1.9\n单因素方差分析?!直接比较四组资料间的差别F=60.00,P=0.00认为:四组间差别具有统计学意义表2析因设计下的实验结果(均数)\n这是典型的两因素2水平的析因设计!i)有负初衷——分析各因素的效应!ii)直接比较四组资料,组间变异大,不敏感!为什麽不对?\n正确作法:析因设计的方差分析i)主效应:某一因素各水平间的平均差别。A因素的主效应=[(第三组均数+第四组均数)(第一组均数+第二组均数)]/2=[(2.2+1.9)(2.5+1.8)]/2=0.1ii)交互效应:若某因素的单独效应随另一因素水平的变化而有较大变化,则称这两个因素间存在交互效应。AB的交互效应=[(第四组均数第二组均数)(第三组均数第一组均数)]/2=[(1.9-1.8)-(2.2-2.5)]/2=0.2\n检验iii)A的主效应:F=1.37,P=0.26;B的主效应:F=47.13,P=0.00A与B的交互效应:F=0.03,P=0.87结论:B因素(培养天数)的效应具有统计学意义。\n检验A的主效应:F=1.37,P=0.26;B的主效应:F=47.13,P=0.00A与B的交互效应:F=0.03,P=0.87结论:B因素(培养天数)的效应具有统计学意义。\n3.剂量-反应关系 不能用单因素方差分析例3有人分析蛇毒因子(CVF)的剂量对血液白细胞噬菌率的影响,得表3的数据,欲讨论剂量-反应关系。\ni)单因素方差分析?!F=0.701,P>0.5,均数间差别无统计学意义为什麽不对?有负初衷——探讨反应随剂量变化的趋势*由多个剂量组的比较只能得知均数间是否有差异*有差异不等于有剂量反应关系\n均数关于log(剂量)的回归分析?!为什麽不对?均数做因变量造成假象!*回归方程是否有统计学意义与反应的变异状况有关*以诸个体反应值的均数作回归计算,掩盖变异性,造成假象回归方程:Y=61.786-6.886log(剂量)决定系数:R2=0.914。\n正确作法:用个体资料作回归分析回归方程:Y=61.782-6.884log(剂量)决定系数:R2=0.095。回归方程无统计学意义,无剂量反应关系!若反应和剂量间散点图呈曲线状,剂量可作适当变换。\n4.重复测量资料不能逐个时间点两组比较例4为研究某食物对血清胆固醇浓度的影响,各取7只兔子,分别以正常食物和待研究食物喂养,在实验前、喂养5周、10周后,各取血测量其中胆固醇浓度,其自然对数转换后的数据见表22.1,问血清胆固醇浓度随时间变化的趋势是否受该食物的影响。\n例5某药物有新、旧两种剂型。为了比较这两种剂型的代谢情况,对16例某病患者服药后0、4、8、12小时的血药浓度作了测量,问该药新旧两种剂型的血药浓度-时间曲线的差别是否具有统计学意义。\n\n常见的不妥i)对每个时间点,分别计算均数、标准差;将各时间点测量值的均值用线连接,标出“误差”线ii)在各时间点做t检验或Mann-WhitneyU检验\n为什麽不对?(1)连接各时间点测量值均数的方法将掩盖个体曲线位置和形状的特点;(2)各均数所对应的点连起来形成的曲线形状可能与诸个体的曲线形状毫不相干;(3)各时间点相应的标准差是一种误导;(4)上述方法无法体现不同时间点的数据来自同一个体,而每一个体的多次重复测量值间具有相关性。(关键所在)\n正确做法:1)综合指标法(summarymeasuresapproach)或派生变量法(derivedvariableapproach)采用少数独立的综合指标来概括每个个体多个时间点的测量值;用单变量方法比较各组的差异\n综合指标\n2)重复测量资料的方差分析先做“球形检验”不同时间点上数据之间没有相关性?任何两个时间点之间的相关性都一样?重复测量资料的方差分析!例6对表4资料进行单变量方差分析。处理因素(group):F=31.69,P=0.0001测量时间(time):F=11.93,P=0.0003时间与处理交互效应项(time×group):F=10.57,P=0.0005结果:食物对家兔血清胆固醇有影响;家兔血清胆固醇浓度随时间变化;所研究的食物对血清胆固醇浓度随时间变化的趋势也有影响。\n5.多维列联表资料不可反复做检验例7某地区呼吸系统疾病的患病率较高,有人怀疑与当地室内点香的习惯有关,经抽样调查,得数据如下\n合并后作检验?!\n为什麽不对?i)点香与不点香者患病率不可比!年龄组合并掩盖了:点香(B1)与不点香(B2)者年龄结构不同ii)不同年龄组患病率不可比!点香与不点香者合并掩盖了:不同年龄组中点香与不点香者比例的不同\n正确作法:对数线性模型或logistic回归i)对数线性模型平等地讨论A,B,C三因素对各格子中频数的影响仅当其他变量的影响与某变量无关时,才可通过合并消除该变量ii)logistic回归反应变量:患病与否,解释变量:点香和年龄交互效应:点香×年龄\n小结设计类型和变量类别决定分析方法:1.随机区组设计不能用成组分析方法不能用t检验或单因素方差分析要用随机区组设计资料的方差分析2.析因设计不能用单因素方差分析要用析因设计资料的方差分析\n3.剂量-反应关系不能用单因素方差分析要用原始资料的回归分析反映趋势4.重复测量资料不能逐个时间点两组比较可用几个综合指标逐一进行单指标分析或可用重复测量资料的方差分析(先做球形检验)5.多维列联表资料不能盲目合并后反复做检验可用对数线性模型或logistic回归模型研究分类变量间关系\n谢谢
查看更多

相关文章

您可能关注的文档