- 2022-08-24 发布 |
- 37.5 KB |
- 99页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
医学统计学案例选 完整
优质完整新颖医学统计学案例选第一章绪论部分案例1-1着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本书后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么?第二章实验设计部分案例2-1《丹栀逍遥散治疗混合性焦虑抑郁障碍的临床研究》(河南中医2004年第24卷第8期第62页)欲观察丹栀逍遥散治疗混合性焦虑抑郁障碍的临床疗效,以某西药作为对照组。将64例符合纳入标准的病例按诊疗次序交替分组,即单号为中药组,双号为西药组。请讨论该分组方法是否随机?案例2-299\n优质完整新颖《单宫颈双子宫畸形28例人工流产分析》(中国实用妇科与产科杂志1999年3月第15卷第3期172页)通过回顾分析某医院1990年1月至1998年3月期间28例单宫颈双子宫畸形早孕流产的结果,发现人流术前先给予米索前列醇素制剂可使得流产更容易、安全,减少病人痛苦并且可避免并发症的发生。而文中两组的分组方法为:所有病例按就诊先后顺序分组,1995年10月以后的为A组,1995年10月以前的为B组。A组(米索组)于手术前3小时服米索600μg或手术前1小时后穹隆放置米索200μg,然后进行人工流产吸宫术,共14例;B组(对照字)单纯采用常规流产术机械扩张宫颈后吸宫。作者认为该法“符合随机分配法则”。请讨论对照组的设置是否合适?案例2-3《用24小时食管pH监测法诊断食管原性胸痛》(中华外科杂志1995年33卷第2期第69页)一文中,作者对30例疑为食管原性胸痛患者的24小时食管pH监测,其中16例昼夜均异常,8例白天异常,2例夜里异常,18例胸痛与酸暴露有关。得出食管pH监测是诊断胃食管反流所致的食管原发性胸痛的有效方法的结论,请讨论该文结果是否成立?案例2-499\n优质完整新颖《强骨胶囊治疗原发性骨质疏松症的临床试验》(中药新药与临床药理,2004年15卷第4期284页)目的是观察强骨胶囊与骨松宝颗粒对骨质疏松症患者的疗效与安全性。原文共收集骨质疏松症患者307例,其中试验组612例使用强骨胶囊,对照组93例使用骨松宝颗粒,其余开放组52例。但对开放组患者的特征、所用药物、用药方法、观察方法、是否设盲等没有交代。请讨论3组之间有无可比性?小结1、一项研究设计的内容包括:提出假说,确定研究类型,确定研究对象的范围和数量,计划的实施与质量控制,数据管理,统计分析,结果与讨论。2、实验设计包括3个基本要素:处理因素、实验对象和实验效应。3、实验设计必须遵循:对照、随机、重复的基本原则。研究中所设立的对照组应尽可能达到对等、同步、专设的条件;随机包括3方面的内容,及随机抽样、随机分组和随机实验顺序;重复是指研究结果的重复、观察对象的重复和观察指标的重复。思考与练习简答题1、研究设计的作用是什么?99\n优质完整新颖2、研究设计的基本内容是什么?3、实验设计应该遵循的基本原则是什么?4、实验设计为什么要设立对照?设立对照要注意些什么?5、随机化的含义是什么?目的是什么?6、区组化的目的是什么?第三章观察性研究设计概述案例3-1某地(100万人口)拟开展当地中老年人非胰岛素依赖型糖尿病的现况调查,目的是了解当地糖尿病的流行状况,以及与糖尿病患病相关的危险因素。调查对象是当地居住超过5年、40岁以上的常住居民。该研究采取分层、整群随机的抽样方法,将该地区15个镇按城镇或乡村,经济发展水平分成3个层,每层随机抽取2个镇或街道,再从被抽中的镇或街道中随机抽取两个村或居委。被抽中村或居委的全部40岁以上居民包括原糖尿病患者均参加调查。调查结果男女两性比例为0.94:1,并划分为5个年龄组,性别和各年龄组构成比与当地人口性别和年龄的分布情况相符。99\n优质完整新颖调查内容包括:①问卷调查:被调查者的一般情况、糖尿病及其他病史、家族史、糖尿病临床表现、饮食调查、吸烟、饮酒情况及体力活动等;②体格检查:包括身高、体重、腰围、臀围及血压等;③血糖测定。⑴该研究采用的是全面调查还是抽样调查?各有何优缺点?⑵该研究采用的抽样方法有何优点?是否有更好的抽样方法?⑶该研究的设计方案是否合理?请你设计一个研究的方案。⑷该研究采用的调查表应该包括哪些项目?请你设计该调查表。小结1、观察性研究是有目的地观察或测量自然接触不同因素人群的结果事件发生状况,通过对比分析发现事件的分布特点与差异,从而获得有关因果假设的启示,为进一步研究提供线索。2、观察性研究包括描述性研究和分析性研究两大类。99\n优质完整新颖3、横断面研究是按照事先制定的计划,调查特定人群特定时点某种疾病的患病情况,以及与患病有关的因素。横断面研究的设计要考虑研究目的、对象、调查方法、调查表设计、样本量、组织计划、质量控制和分析计划等。4、问卷是调查研究中用来收集资料的一种工具,它的形式是一份精心设计好的问题表格,它的用途在于测量人们的行为、态度和特征。问卷设计的好坏是保证调查质量的关键,本章介绍问卷设计的基本原则和步骤。5、随机抽样是抽样调查中样本具有代表性和能进行总体参数估计的保证,常用的抽样方法有单纯随机抽样、系统抽样、分层抽样和整群抽样。简答题1、观察性研究与实验性研究有何异同?二者能否同时使用或结合使用?2、观察性研究主要有哪些方法?各有何优缺点?3、为什么大多数的观察性研究是抽样调查研究?99\n优质完整新颖4、根据对全国出生缺陷监测资料的统计分析,发现神经管缺陷的发生具有明显的季节性,表现为1~3月份出生的孩子的发生率比较高。今欲调查其原因,应采取什么调查方法?请做出完整的调查设计并制定出调查表。5、欲了解某市乙型病毒性肝炎患病情况及其影响因素,请做一个调查设计。6、现拟在大学生中进行一项吸烟习惯调查,请你考虑调查问卷应包括哪些项目,并设计出调查问卷。第四章统计描述案例4-1表4-24是某研究者在一项回顾性调查中收集的部分资料,其目的是研究抗生素的使用效果。表4-24某医院内、外科25例住院病人使用抗生素的情况病人编号性别年龄(岁)入院体温(℃)入院时白细胞计数(×103)抗生素使用细菌培养所在科室住院时间123037.28221599\n优质完整新颖227336.7521110324037.2122226424736.8422211522536.9112225618236.0612214716037.5811130825637.0722111924336.77221171015036.71221231125936.472119121436.6322231322237.51112281423336.91411281522036.911212599\n优质完整新颖1613237.2922251713637.3612271816936.7622241914736.1512132012236.8622272111136.81022292221937.014122112326736.44221112424337.0522292524136.752214注:性别:1=男,2=女;抗生素使用:1=是,2=否;细菌培养:1=是,2=否;所在科室:1=内科,2=外科。试分析:⑴构造性别的频数分布表,并绘制性别的频数分布条图;99\n优质完整新颖⑵以20岁为组距,构造年龄的频数分布表,并绘制年龄的频数分布直方图;⑶以5天为组距,构造住院时间的频数分布表,并绘制住院时间的频数分布直方图,观察其分布特征;⑷计算住院时间的算术均数、几何均数、中位数;⑸计算住院时间的最大值、最小值、四分位数与四分位数间距;⑹计算住院时间的全距、方差、标准差和变异系数;⑺构造内、外科使用抗生素情况的统计表、条图和圆图;⑻构造内、外科采用细菌培养情况的统计表、条图和圆图;⑼构造内、外科使用抗生素和采用细菌培养情况的统计表、条图和圆图;⑽绘制箱图,比较用与不用抗生素的住院患者住院天数的差异;⑾以住院天数为纵坐标,以年龄为横坐标,绘制散点图;小结99\n优质完整新颖1、计量资料的统计描述,主要了解数据的分布范围、集中位置以及分布形态等特征。大样本数据,需要编制频数分布表,通过频数分布表观察数据的分布特征。2、频数分布表的主要作用是揭示资料的分布特征;描述其集中趋势和离散趋势,有助于发现数据中远离数据群体的离群值。3、数据的分布形状分为对称分布与偏态分布。偏态又分为右偏态和左偏态。4、描述计量资料集中趋势的平均指标有:算术均数、几何均数、中位数等。算术均数适合于对称分布资料,几何均数、中位数等。算术均数适合于对称分布资料,几何均数适用于2右偏态和呈现比例递增的资料,中位数适合于任意分布的资料。5、描述计量资料离散趋势的变异指标有:全距、方差、标准差和变异系数、四分位数间距等。其中标准差是最常用的变异指标,适合于对称资料特别是正态分布资料;四分位数间距适合任意分布资料,尤其适合于大样本偏态分布资料。变异系数主要用于比较几个量纲不同的变量之间的离散程度的差异,也可以用来比较量纲相同但均数相差悬殊的几个变量之间离散程度的差异。99\n优质完整新颖6、描述计数资料基本特征的指标有:比、比例和率。比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的两个比是相对危险度和优势比(比数比)。7、内部构成不同的两个率比较时,应计算标准化率。8、动态数列用来描述一组按照时间顺序排列起来的统计指标,如绝对数、相对数、平均数等,在时间的变化和发展趋势。9、医学常用统计指标有:人口统计指标、出生与死亡统计指标、生育统计指标、疾病统计指标、期望寿命等。10、表达统计结果的数表称为统计表。统计表由标题、标目、线条、数字4部分组成,必要时增加注释。11、常用统计图有:条图、百分条图、园图、线图、半对数线图、箱图、散点图等,这些统计图所适用的数据类型,绘图目的和有关说明列在表4-25中。99\n优质完整新颖第五章概率分布案例5-1一般人群先天性心脏病的发病率为8‰,某研究者为探讨母亲吸烟是否会增大其子女的先天性心脏病发病的危险,对一群20~35岁有吸烟嗜好的孕妇进行了生育考察,在他们生育的320名子女中,经筛查有4人患先天性心脏病。试讨论:⑴若以X表示观察中患先天性心脏病的小孩数,X的分布是什么分布?⑵若按人群先天性心脏病的发病率为8‰,计算320名子女中,至少有4名小孩患先天性心脏病的概率。⑶这一研究过程是否有可改进的地方?案例5-2根据对青少年生长发育大样本的调查资料,计算得7岁男童的身高均数=119.95cm,标准差=4.72,按身高范围统计结果见表5-4.表5-4青少年生长发育调查资料统计结果99\n优质完整新颖身高范围(cm)实际人数百分比身高范围(cm)实际人数百分比115.32~124.568167.5111.47~130.1411394.17106.49~133.8711898.33(1)试计算所给身高范围的理论人数和百分比。(2)实际人数和理论人数(百分数)有何不同与联系。小结1、随机事件、概率与随机变量是研究随机现象的基本概念。通过随机变量可用数学手段对随机现象进行更深入的研究,随机变量分为两类,一类是连续型随机变量,另一类是离散型随机变量。99\n优质完整新颖2、二项分布和Poisson分布是离散型随机变量最为常见的分布类型。在医疗卫生领域,若研究结果只可能是两个对立结果中的一个,例如阳性、阴性,这样的观察独立、重复n次出现阳性的次数X服从二项分布。X取值为0,1,2,…,n,X=k的概率按下式计算:其中π为每次试验出现阳性的概率,且。Poisson分布主要用于描述在单位时间、面积、空间上某事件的发生数。医学和卫生领域中有些指标例如:单位时间接收到放射性物质的放射线数、某单位容积中的细菌数、野外单位空间的某种昆虫数等。服从Poisson分布随机变量X取值为非负整数0,1,…,其相应概率为当n大,π小时,二项分布近似Poisson分布。此时计算而项分布概率的工作量很大,可用Poisson分布公式作近似计算。3、正态分布是连续随机变量最重要的而基本的分布。其重要性体现在:(1)正态分布具有优良的性质和规律。99\n优质完整新颖(2)在解决实际问题时,许多研究指标服从(或近似服从)正态分布。(3)理论上,正态分布是许多统计方法的理论基础,一方面许多统计方法是在正态分布的基础上建立起来的;另一方面许多统计方法在一定条件下,有正态近似的方法。4、随机现象的规律只有在大量重复观察的情况下才能够出现,对随机现象的研究答多是采用抽样研究的方法。3个基于正态分布的抽样分布入分布、t分布、F分布是统计推断的基础,具有重要的理论价值。第六章参数估计案例6-1某地随机抽样调查了部分健康成人的血红蛋白含量(g/L),结果见表6-16.99\n优质完整新颖性别例数均数标准差标准值男360134.57.1140.2女255117.610.2124.7*《实用内科学》(1976年)所载均数(转为法定单位)(1)有人认为该地男女性血红蛋白含量均低于上表的标准值(若测定方法相同)且男性血红蛋白含量低于女性,你是否同意该结论?(2)如何估计男女性血红蛋白含量的总体均数和参考值范围,两者有何区别?小结1、抽样分布是通过大量重复抽样和计算各样本统计量并作样本统计量的频数分布图来揭示样本统计量的分布规律。从同一总体反复抽取若干样本,各样本统计量之间及与总体参数之间存在差异,此差异称为抽样误差。由于总体中个体变异的客观存在,抽样误差不可避免。99\n优质完整新颖2、标准误是反映抽样误差大小的指标。均数标准误的理论值是,样本估计值为;率的标准误理论值为,样本估计值为。注意均数标准误与原变量的标准差之间的区别,不能混淆其含义。3、参数估计是指用样本统计量推断总体参数。有点估计和区间估计两种方法。第七章假设检验案例7-1某医院检验科测定了30-40岁不同职业、不同性别人群的血清甘油三脂含量(见表7-2)。试分析比较工人和干部,男女的该项血脂水平有无差异?表7-2正常成人按不同职业、性别分类的血清甘油三脂含量人数均数标准差工人1121.200.3399\n优质完整新颖干部1061.080.30男1161.170.32女1021.110.32试分析:1、用什么方法比较工人和干部、男和女血清甘油三脂含量的差异?2、血清甘油三脂含量是常用的高血脂症筛查指标,血清甘油三脂含量升高常见于动脉粥样硬化、糖尿病、脂肪肝等的病人,男略高于女,参考值范围分别是男:0.45-1.81mmol/L、女:0.40-1.53mmol/L。如何解释男女血清甘油三脂的差异?3、如果工人组血清甘油三脂高于干部组,并且有统计学差异,能否说工人职业导致该人群血清甘油三脂的升高?推论因果关联?4、本研究工人组的血清甘油三脂平均高于干部组0.12mmol/L,是否有实际意义?99\n优质完整新颖5、本研究工人组的血清甘油三脂高于干部组,男女血清甘油三脂未见有统计学差异,是否是混杂因素影响?在比较均数之间差别时,如何根据现有资料分组计算均数,最大限度地减少性别对工人组和干部组血清甘油三脂的影响?小结1、假设检验采用的是反证法思想,根据“小概率事件在一次试验中不可能发生”原理,用一次试验(观察)结果发生的概率决定是否拒绝原假设。假设检验的常用方法有u、t、F、χ2检验与秩和检验。2、假设检验的三个步骤:①建立检验假设:H0、H1,确定检验水准α。②计算检验统计量;③确定P值并作出推断结论。3、已知总体方差并且样本量比较大时,推断样本所代表的未知总体均数μ与已知总体均数μ0是否有差别,可采用Z检验。已知总体方差并且两组的样本量n1和n2比较大时,用推断两总体均数之差是否为零,可采用两均数比较的Z检验。4、大样本率的Z检验,要求n比较大,对统计量要求可简单概括为:①99\n优质完整新颖如果样本率p介于0.1-0.9之间,每组例数大于60例;②如果样本率p介于0.1-0.9之外,np或n(1-p)的最小值大于5。5、假设检验的两类错误:当H0为真时,由于抽样的偶然性而得到P≤α的检验结果,假设检验结论拒绝H0,接受了H1,称为第一类错误或Ⅰ类错误,犯一类错误的概率记为α。当真实情况不成立而H1成立时,得到P>α的检验结果,拒绝H1,接受了H0。这类错误称为第二类错误或Ⅱ类错误,其概率大小用β表示。6、单侧检验与双侧检验:单侧检验不仅关心差别,同时关心差别的方向,备择假设为H1:μ1<μ2或H1:μ1>μ2。双侧检验只关心差别,不关心差别的方向,备择假设为H1:μ1≠μ2。两个均数或两个率的比较一般用双侧检验。采用单侧检验应该在研究设计阶段作出规定,不应当在计算出统计量后再主观决定。7、假设检验在拒绝H0的时候可以下“有差别”的结论,在不拒绝H0的时候不能下“无差别”的结论。假设检验的的P值大小只能够说明统计学意义的“显著”,不一定有实际意义。对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。99\n优质完整新颖8、检验效能1-β表示H1为真,假设检验结果拒绝H0,接受H1的概率。检验效能越高,通过样本发现总体差别的把握越大。影响检验效能的4个因素分别是总体参数的差异|δ|、个体差异的总体标准差σ,样本量n和检验水准α。9、在同一个研究中多次重复检验,即使总体参数没有差别,重复检验100次,平均有5次是假阳性错误,或重复检验20次,平均有一次是假阳性错误。因此,在试验设计时就应该确定主要分析指标,不能事后通过大量重复检验寻找阳性指标。10、要使假设检验的P值成为因果联系的证据,前提是要求研究设计符合“重复、对照、随机化”的3个实验设计基本原则,并且是前瞻性的研究,即试验对象随机分组后再施加干预。第九章多个样本均数比较的方差分析案例9-1某篇论文,研究4组病人某基因表达率的差异,结果见表9-16。表9-164组病人某基因的表达率比较99\n优质完整新颖组别ntP喉癌1923.0±8.75.38<0.01喉息肉1816.0±10.26.24<0.01转移癌159.0±4.72.20>0.05对照组227.0±5.0问:(1)该资料分析是否恰当?理由是哪几方面?(2)若该资料交给你统计分析,你的分析计划怎样?案例9-2某医生A,B,C3种营养素喂养小白鼠,用6窝小白鼠,每窝3只,随机安排喂养这3种营养素中的一种;6周后观察小白鼠增加体重情况(g),得表9-17的资料:表9-173种营养素喂养小白鼠所增加体重窝别ABC均数150576958.7248596657.599\n优质完整新颖355616761.0466547665.2576818380.1637466850.2763505455.7845434845.3均数55.156.266.459.2经过随机区组设计的方差分析得3种营养素间的F=6.319,P=0.011;窝别的F=6.670,P=0.001。认为营养素及窝别间两个因素均可影响增加体重,但营养素的作用不如窝别因素大。窝别常反映遗传因素,证明遗传因素对增加体重影响明显。问:(1)所用统计方法是否正确,为什么?(2)作者结论是否正确,表现在什么方面?99\n优质完整新颖小结1、方差分析常用于3个或3个以上均数的比较,当用于两个均数的比较时,同一资料所得结果与t检验等价,即有如下关系:t2=F。2、方差分析的基础是分解变异,统计量是两个均方之比。完全随机设计方差分析的基本思想是:在多个总体均数相等的假设条件下,样本总变异及自由度可分解为处理和组内两部分,由此估计出处理均方和组内均方,前者反映处理作用及随机误差,后者仅为随机误差;进一步将处理均方与组内均方之比值构成F统计量,查F检验界值表便可确定界值,最后做出是否拒绝检验假设的抉择。3、方差分析由多种设计类型,但基本思想和计算方法是一样的,只是因素的个数不同。4、均数的多重比较方法有多种,应用时应事先决定采用那一种方法。5、方差分析的前提条件是正态性和方差齐性,可通过假设检验来判断,但通常情况下样本比较小,由专业知识判断显的很重要。6、99\n优质完整新颖如果数据不满足方差分析的条件,可考虑采用数据转换的方法改善数据,或者采用非参数检验。第十章检验案例10-1某研究者欲比较甲、乙两城市空气质量状况,在甲、乙两城市个测定300个采样点,得表10-17数据,试比较两城市空气质量有无差别。表10-17甲、乙两城市空气质量状况比较组别空气质量类别合计优良轻度污染中度污染重度污染甲城市乙城市合计193672875300154942818630099\n优质完整新颖347161562511600检验步骤:(1)建立检验假设,确定检验水准H0:甲乙两城市空气质量无差别H1:甲乙两城市空气质量有差别α=0.05(2)计算检验统计量(3)确定P值,作出推断结论查界值表,=9.49,=13.28,,P<0.01。按α=0.05的检验水准,拒绝H0,接受H1,可认为甲乙两城市空气质量有差别。请讨论如下问题:(1)该资料结论是否正确?(2)你认为应该如何分析资料?99\n优质完整新颖小结1、使用卡方检验要注意理论频数T不能够太小,样本要求各格子理论频数不小于1,并且T<5的格子数不宜多于总格子数的五分之一,如果理论频数太小,最好的办法是增加观察例数以增大理论频数,或考虑使用确切概率法。2、完全随机设计的两个理论频数分布是互相独立的,而配对设计的两个频数分布却不是互相独立的。设计方法不同,资料性质不同,分析方法也不同。3、对反映两个属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立性的卡方检验和列联系数来描述关联性。关联性分析卡方检验所用公式与两个或多个频数分布比较的卡方检验所用公式是一样的,但它的设计和意义有根本区别,作关联性分析的资料是一份随机样本,同时按两种属性分类,而两个或多个频数分布是两分份或多份样本,谈不上关联性问题。4、99\n优质完整新颖列联系数可以描述两个分类变量之间在数量上的联系,但数量上的联系并不一定意味着因果关系。第十一章非参数检验-基于秩次的假设检验方法案例11-1某医生为评价甲乙两种药物对皮肤廯菌的杀菌作用,以咪康唑散为对照药物,将315例浅部真菌病患者随机分为甲乙两治疗组和对照组,分别为104例、105例和106例。治疗三周之后,结果见表11-9,试比较甲乙两药物治疗浅部真菌的疗效如何?表11-1某药物治疗某病的疗效疗效甲组乙组对照组合计痊愈564038134显效365056142好转10121133无效2316合计10410510631599\n优质完整新颖对于该资料,研究者进行了列联表卡方检验:=9.997,df=6,P<0.125,考虑到理论数小于5的格子数太多,用Fisher精确概率法得P=0.107,在α=0.05的检验水准上,不能够认为甲乙两药与对照组的疗效不同。请讨论:(1)该资料的分析方法是否合适?为什么?(2)应该如何分析资料?小结1、注意非参数方法不涉及特定的总体分布,又称为任意分布检验或称为分布无关检验,是因为其推断方法与总体分布无关,不应理解为与所有分布(例如有关秩的分布)无关。2、秩和检验的应用范围很广①样本所代表的总体分布不容易确定;②分布呈现非正态而又五适当的数据转换,或者无法进行数据转换;③等级资料,均可采用非参数检验。99\n优质完整新颖3、非参数检验方法内容丰富,尚又许多检验方法,可参考有关文献。第十二章简单线性回归案例12-1某地卫生防疫站根据10年乙脑发病率(1/10万,预报量Y),与相应前一年7月份日照时间(小时,预报因子X)建立回归方程,将乙脑发病率作平方根反正弦变换,即:,计算得回归方程为:。,,n=10。1990年7月份日照时间X0=260小时。试估计该地1991年的乙脑发病率?(设α=0.05)。解得:0.0233按α=0.05,df=10-2=8,查t界值表,得=2.306,又=-1.97+0.0068×260=0.571,按公式计算得95%的容许区间为:(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270)取原函数得,Y=(sin)2,得95%容许区间为(0.0000808,0.0001197)。故可预测该地1991年乙脑发病率又95%可能在:0.08~11.97/10万之间。99\n优质完整新颖利用回归方程进行控制,是利用回归方程进行逆估计,例如要求应变量Y在一定范围内波动,可以通过自变量X的取值来实现。这是回归应用的另乙方面。案例12-2根据某缺碘地区10例产妇在妊娠15-17周时母血TSH水平(X),与足月分娩时新生儿脐血TSH水平(Y)数据建立的直线回归方程为=2.993+0.9973X.,=0.3285若新生儿脐带血TSH水平超过5mU/L,可认为新生儿缺乏碘,应该对妊娠产妇采取补碘干预措施,问母血TSH水平应该控制在什么水平可使得新生儿脐带血TSH水平不超过5mU/L?(设α=0.05)。在扣除X对Y的影响之后,Y本身对回归直线的离散程度为(双侧)或(单侧),本例自由度df=10-2=8,查t界值表,单侧=1.860,单侧95%上限为:。当=5时,解得X=1.3985mU/L,即只有将母血TSH水平控制在1.3985mU/L水平以上,才有95%的可能使得新生儿脐带血TSH水平不超过5mU/L。99\n优质完整新颖小结1、简单线性回归分析时研究两个变量之间线性关系的数量表示,例如身高与体重、血糖与胰岛素之间关系。回归方程为,可根据最小二乘法计算,最小二乘法使得实际应变量与回归方程预测值之差的平方和达到最小。2、进行简单线性回归分析需要满足线性(linear)、独立(indenpdence)、正态(normal)与等方差(equalvariance)4个条件。通过绘制残差图可简单直接地评价是否满足这4个条件。3、在进行简单线性回归分析前,一般先绘制散点图,以判断其是否存在线性关系。若干不存在线性关系,仅当对X进行变换之后,如果呈现线性关系,可进行回归分析;如果需要对Y进行线性变换后才满足线性,则需要进行非线性回归分析。第十三章线性相关案例13-1某医生对某感冒患者进行连续观察60小时,每6小时观察测量该患者的体温和呼吸次数,资料见表13-3。99\n优质完整新颖观察序号12345678910体温(℃)39.840.239.638.838.338.138.238.037.837.5呼吸次数(次/分钟)28292625242421222021该医生对上述资料进行双变量正态性检验,α=0.2,正态性检验的P值大于0.2,不能拒绝资料服从正态分布,计算Pearson相关系数得r=0.9373,相应的P=0.0001,相关系数ρ的95%的可信区间为(0.7507,0.9854)。因此该医生判断:体温与呼吸次数呈现线性相关。请问:你对该医生作上述相关分析和所下结论有何异议?案例13-299\n优质完整新颖某研究者欲研究年龄与地方甲状腺肿患者之间的关系,将219例资料整理乘表13-4,问:年龄与地方甲状腺肿患者之间是否存在某种相关性?表13-2年龄与地方甲状腺肿患者疗效的关系年龄(岁)(X)疗效(Y)合计痊愈显效好转无效<306791059130~17131224440~15108235≥101123549合计109435314219小结1、相关系数ρ>0表示正相关,ρ=0表示不相关,ρ<0表示负相关。99\n优质完整新颖2、相关系数的大小与样本量有关,不能够仅凭相关系数大小判断两变量是否存在相关,而应该根据假设检验的结果做出判断。3、作Pearson相关或Spearman相关,都要求观察单位之间是独立的。4、Pearson相关系数为线性相关系数,要求变量X和Y服从双变量正态分布,并且在作相关分析时,一般先作散点图,考察是否存在直线相关。5、若变量X和Y服从双变量正态分布,则tr=tb,两个检验等价。6、若干变量X和Y不服从双变量正态分布,可用Spearson等级相关进行分析。7、若变量X和Y均为多分类有序资料,可以采用Spearson秩相关进行相关分析。8、两变量之间相关性并不表示一个变量的改变是由于另外一个变量所引起的,也可能是受第三变量影响而出生的伴随现象,所以相关分析只是刻画了一种伴随现象,因此在作相关分析时,还应该考虑两变量相关是否具有实际意义。99\n优质完整新颖9、由于通常的相关系数无效假设H0:ρ=0,但P<α时,是判断ρ≠0。仅能说明两个变量之间存在相关关系,但相关关系的强弱应该根据相关系数大小确定,与P的大小无关。第十四章临床测量误差评价与诊断试验案例14-1某研究者比较3种尿干化学分析仪进行平行测定结果的符合程度,同时观察不同仪器在阳性标本检出率方面是否存在显著性差异。采用3种不同厂家不同型号的尿干化学分析仪及配套试纸条对60例门诊和病房送检的新鲜阳性尿液标本(葡萄糖GLU、蛋白PRO、隐血BLD、白细胞LEU这四种至少有1项试阳性)进行平行检测,并对检验结果进行比较,统计4处理将各项指标分别计算阳性检出率并计算99\n优质完整新颖值,同时将每一例标本各项检测结果进行两两比较,计算出完全符合率P1和一般符合率P2(即两种检出结果不超过一各等级的比率),然后用Kappa检验值评价两种尿干分析仪测定结果之间的符合程度。分析结果列在表14-1和14-2中。根据研究结果,作者认为3种尿干分析仪测定结果的符合率都在80%以上,各检测项目的Kappa值>0.4,3台仪器葡萄糖(GLU),、蛋白(PRO)、白细胞(LEU)3项检测没有显著性差别。最后的结论:由于仪器本身的灵敏度、试纸条所规定的量级和检测原理以及稳定性的差异,造成部分项目的检出率和检测结果不完全一致,但是这三种仪器在尿液检查主要项目(GLU,PRO,LEU)的检出率和检出结果方面的一致性还是良好的,完全能够满足临床医生对病人诊断、观察的需要。试分析下列问题:(1)你是否认同作者的数据分析方法和所做出的结论?(2)你认为应如何做这一试验和进行数据分析?表14-13种仪器的阳性检出率项目GLUPROBLDLEU中国FA16.763.381.733.3日本US16.758.378.331.7匈牙利DO18.348.351.728.3值0.0782.8515.60.363P值>0.05>0.05<0.005>0.0599\n优质完整新颖表14-2不同仪器测定结果的符合率及检验的一致性检查指标中国FA与日本US中国FA与匈牙利DO日本US与匈牙利DOP1P2KappaP1P2KappaP1P2KappaGLUPROBLDLEU71.793.30.69444.096.70.78671.796.70.70731.788.30.75435.090.00.43645.590.00.56840.088.30.95243.383.30.59343.383.30.63599\n优质完整新颖50.096.70.53645.090.00.40166.793.30.702小结1、临床测量结果中可能含有多个误差成分,它主要包括生物变异、随机测量误差和系统误差。正确认识不同误差的性质和来源,有助于医生临床诊断和对临床试验做出客观的评价。临床测量误差评估方法有多种,常用方法有方差分量法和SN比值法,对定性资料给出Kpaap一致性评价方法。2、方差分量法的基本思想是:将试验结果的变异分解为受试者个体变异和重复测量误差的等方差分量,比较不同方差分量的比值,如果重复测量误差的方差分量在总变异中所占比例小,则说明测量的可信度高;同时可以对重复测量的误差范围进行估计。99\n优质完整新颖3、S/N比值是指测量信号与影响测量信号识别的噪声的比值,用于已知真值的条件下对测量误差进行度量。基本方法是:根据标准样品和实测值利用直线回归分析方法进行校正,然后根据回归系数和方差分析中误差均方估计出SNR值及测量误差范围。4、Kappa值是评价临床定性测量结果的一致度和信度的一种重要指标,常常用于评价不同医生对同一患者的判断结果,或者同一医生先后两次判断结果是否一致。Kappa值低。说明临床测定结果的一致性差,试验结果缺乏信度,分析结果不可靠。5、评价诊断试验最基本的指标是灵敏度(Se)和特异度(Sp)。灵敏度为实际患病检测结果正确判为有病的概率,1-Se是假阴性率;特异度是实际未患病且检测结果正确判为没病的概率,1-Sp是假阳性率。此外,Youden指数综合了灵敏度和特异度两个指标的值,预测值除与灵敏度和特异度有关外,还与检测人群的患病率有关。6、ROC曲线称为接收者工作特性曲线,它是以1-Sp为横坐标,Se为纵坐标按照连续变化的诊断阈值,由不同灵敏度和特异度绘制的曲线。ROC曲线绘制可以采用原始数据分组和利用模型拟合两种不同的方法。99\n优质完整新颖7、使用ROC分析是对诊断试验数据进行分析与评价,其优点是评价结果比较客观和一致,它适合定量和等级资料分析。ROC分析的结果主要包括ROC曲线的图形和综合评价统计两量。前者可以直观描述诊断效果及灵敏度特异度之间的变化关系,后者可理解为在所有特异度下的平均灵敏度,也可以理解为患病组测量值高于非患病组测量值的概率。8、计算ROC曲线下面积,可以采用双正态参数法和Hanley-McNeil非参数法。前者适用于定量资料的分析,后者适合等级资料分析。ROC曲线下面积比较,有成组设计和同源配对设计两种不同的数据分析方法,前者计算简单,后者可以采用Delong给出的非参数计算方法。第十五章研究设计方法案例15-1《利多卡因手控定量雾化吸入治疗激素抵抗型哮喘的研究》(临床内科杂志2004年6月第21卷第6期415页)目的是观察手控定量雾化吸入利多卡因治疗激素抵抗型(SR)哮喘的疗效。受试者吸入利多卡因3个月,观察临床疗效和口服激素减停剂量的情况。原文没有设立平行对照,而采用单盲、自身前后对照。15例患者治疗3个月后,咳嗽、喘息症状改善(P<0.001),肺部哮鸣音明显减少(P<0.001),外周血、痰中EOS数目减少(P99\n优质完整新颖<0.02),FEV1%明显提高(P<0.01),无一例出现严重的毒副作用。因而,原文认为:利多卡因入治疗激素抵抗型哮喘安全有效,可以提高FEVI的水平,并能成功地减少口服激素。案例15-4多糖是冬虫夏草的主要活性成分之一,具有抗肿瘤、增强机体免疫力和降低血糖等多方面的药理作用。虫草多糖的提取过程是:取100克虫草菌粉,加水若干,浸泡1小时,加热至微沸,维持一段时间,冷却,离心,残渣重复提取。为进一步确定虫草多糖的最佳提取工艺,拟考虑3个主要因素,A:加水量,B:煎煮时间,C:煎煮次数。每个因素个2考虑3个水平。加水量考虑分别为原药量的8、10、12倍;煎煮时间分别考虑微0.5、1和1.5小时;煎煮次数分别考虑1、2、3次。请讨论:(1)单独考虑一个因素时,采用何种设计方法?(2)同时考虑三个因素时,不考虑交互作用,采用何种设计?(3)同时考虑三个因素时,考虑所有的交互作用,采用何种设计?(4)同时考虑三个因素时,只是考虑一级交互作用,采用何种设计?小结99\n优质完整新颖1、常用的单因素设计方法有完全随机设计,完全随机区组设计、拉丁方设计、交叉设计。完全随机设计是将研究对象按完全随机分组的方法进行分组,通过各组间的比较找出处理因素各水平间的差异。完全随机设计是将研究对象按区组分层进行随机分组的方法,控制了一个已知来源的的变异,从而提高设计效率。拉丁方是3因素(不考虑交互作用)的设计方法,要求各因素水平数相同;可以安排两个区组因素一个处理因素的实验,达到控制两个已知来源的变异的目的,也是提高设计效率的方法之一。交叉设计是将自身对照和成组对照结合起来的一种设计方法,常常用于临床上尚无特殊治疗而病情缓慢的慢性病患者的对症治疗,不适用有自愈倾向,或病程短的疾病治疗研究。2、常用的多因素设计有析因设计和正交设计。析因设计是多因素各水平组合的完全随机设计,可以分析处理因素的主效应和处理因素间的交互作用。正交设计是多因素各水平组合的完全设计或部分组合的平衡不完全设计,主要用于试验方案的优选。99\n优质完整新颖3、临床试验和临床治疗不同,需要按照统一的临床试验方案进行。临床试验中除了要遵循对照、随机、重复的原则,还要符合伦理,并且尽可能地进行盲法试验,以避免主观偏性的影响。新药或新医疗器械的临床试验需要按照药品临床试验规范(GDP)及相应的知道原则进行。4、观察性研究包括横断面调查,回顾性病例-对照研究和前瞻性队列研究。横断面研究主要用于了解当前人群中的有关健康、疾病状况,得到患病率,为进一步研究提供基础资料。病例-对照研究通过回顾性调查过去某段时间内各种可能的危险因素的暴露史,测量并比较病例组和对照组各因素的暴露史之差异,判断研究因素与疾病存在的统计学联系程度,得到OR值。队列研究通过对研究对象随访观察,比较暴露组与非暴露组在观察期内某疾病的发生率,判断研究因素与疾病间存在的统计学联系及联系程度,从而进一步推断暴露因素与疾病的联系,得到RR值。第十六章样本量的估算案例16-1新药临床试验研究是典型的实验研究,在复方甘露醇注射液、甘露醇注射液治疗颅内高压症有效性和安全性的随机、双盲多中心试验研究中,按《新药审批办法》中对各类新药的各期临床试验规定,确定每组个100例,考虑不合格病例的淘汰,每组几乎撒完成120例,请回答下面问题:99\n优质完整新颖(1)《新药审批办法》规定的样本量是如何确定的?(2)在新药临床试验中是否不需要对样本量进行估算?(3)新药临床试验研究中如何确定样本量?案例16-2在胸腔积液良恶性(癌性与结核性胸腔积液)鉴别诊断研究中,发现胸水中的乳酸脱氢酶和溶菌酶有比较好的鉴别诊断意义。现需要制定结核性这两酶的正常值范围,考虑这两种酶的发布不服从正态发布,确定研究对象为120例。请讨论下列问题:(1)医学参考值范围制定是否属于总体参数估计的抽样研究?(2)这种规定的统计学依据是什么?怎样确定样本量?(3)在医学参考值范围研究中,是否样本量不得少于100例?100多例是否就足够了?小结1、99\n优质完整新颖样本量估算是依据统计方法在保证研究一定可靠性前提下确定的最少样本观察单位数,实际研究应结合研究推论的总体、研究中对象的失效和人力、物力和财力综合考虑。足够的样本量能够保证研究中误差的估计,减少抽样误差,发现事物应有的差别。同时,也是保证组间均衡性的基础。2、样本量估算的影响因素是容许误差δ、第一类错误α、第二类错误β、总体标准差σ和单双侧检验以及研究设计类型。3、样本量估算的方法很多,可以用公式估计,也可以用查表法。应根据研究设计实验或调查设计)类型、效应指标(观察指标)类型和研究目的选用相应的估算方法。4、率的估计和假设检验的样本容量估算。常见有以总体率估计为目的的单纯随机抽样调查、单个总体率的假设检验、两个总体率与多个总体率的检验的完全随机设计以及总体率检验的配对设计时的样本含量估算公式和相应的查表方法。5、在均数估计和假设检验的样本量估算中,常见的有以总体均数估计为目的的单纯随机抽样调查、单个总体均数的假设检验或均数的配对设计、两总体和多总体比较的完全随机设计、多个总体均数检验的配伍组设计、实验效应指标为计量资料的重复测量研究设计和直线相关与回归分析中的样本量估算公式和相应的查表法。99\n优质完整新颖6、系统抽样可按照单纯随机抽样的估算公式进行估计,有限总体时需要进行调整;分层随机抽样在无限总体时可对各层参数估计值进行加权后按照单纯随机抽样的估算公式进行估计,有限总体时有专门估计公式,总样本量估计后需要按照比例或最优分配方法分到各层;整群抽样是按照单纯随机抽样检查样本量再乘以整群抽样的设计效率进行样本量估算。7、病例-对照研究设计和队列研究设计中的OR和RR在单因素条件下的估计和假设检验时的样本容量估计参考有关章节。生存分析中以指数分布为基础,针对有无截尾数据两种情况给出了生存率估计和假设检验时样本量的估算的公式;并介绍了作Log-rank检验时样本量的估算公式。第十七章多因素实验的方差分析案例17-199\n优质完整新颖某研究探讨锌对热应激大鼠β内啡肽的影响,取锌饲料和热暴露时间两个因素,其中饲料中的锌含量有高中低三个水平;热暴露时间有:无人暴露(对照组)、暴露组5分钟、30分钟、60分钟4个水平。研究对象为SD雄性大鼠72只,每种组合6只大鼠,文中给出的实验结果见表17-1,结论概括为:“大鼠血浆中β-内啡肽含量的变化趋势是一致的,受热5分钟后即上升,至30分钟时继续升高,至60分钟时有所下降,单含量仍然比5分钟时高,饲料锌水平对热暴露大鼠β-内啡肽含量的影响:无论哪一个时间点上,高锌、中锌组含量均比低锌高,统计学有显著性差异”。表17-1锌和热暴露对大鼠血浆β-内啡肽含量(pg.mg-1)的影响()组别对照组5min30min60min高锌组60.82±6.2260.14±6.7690.48±6.9883.20±5.79中锌组57.13±6.1365.41±6.5583.20±7.1182.28±6.35低锌组28.04±5.2843.76±4.6249.14±6.0257.13±4.81案例分析:此研究采用的时3×4*6的析因设计,但所用方法仅仅时单独效应的方差分析,而没有通过析因分析来分析主效应和交互效应。如果能够给出主效应和交互效应的分析并配合轮廓图,会使研究结论更丰富和全面一些。本案例在公开发表的文献中具有一定代表性。小结99\n优质完整新颖1、所有方差分析的计算可依据离均差平方和分解实现。2、析因分析可分析各因素的主效应,因素间的的交互效应以及因素的单独效应。交互效应分析有助于最佳因素组合方案的筛选,交互效应轮廓图可以直观显示因素间的主效应和交互效应。3、析因设计最好选用平衡设计,因为效率比较高,但啡平衡设计也是可行的。析因设计的因素不宜安排太多,比如最好不要超过4个。4、二阶段交叉设计主要有所需样本量比较少和可以减少随机误差量大优点,缺点是后效应相同或无后效应的要求限制应用。故不适用于急性病研究和有明显后效应的药物研究。5、正交设计适于因素和水平数比较多时机型最佳因素和水平组合筛选的研究。第十九章重复测量设计资料的方差分析案例19-199\n优质完整新颖观察10名慢性乙型肝炎患者治疗前,治疗12周,治疗24周、36周4个时间点上谷丙转氨酶(ALT)水平的变化趋势,见下表19-3。表19-3A药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT)水平(U/L)治疗后患者编号治疗前12周24周36周1160105147135241537125818233279436514174113635052012655206289201721785445662817616513683976215348199\n优质完整新颖1075945159试回答问题:(1)写出方差分析的检验假设和备择假设(2)对上述数据进行随机区组设计的方差分析,结论如何?采用随机区组设计妥当吗?(3)对上述数据进行重复测量设计的方差分析,结论如何?采用重复测量设计妥当吗?s(4)如果两种方法结论不同,试解释其原因。案例19-2为研究国产某药品与同类型进口药品对慢性乙肝患者谷丙转氨酶(ALT)水平的影响,将20名慢性乙肝患者随机等分为两组,一组服用国产药品作为试验组,另外一组服用进口药品作为对照组。对每一患者在治疗前、治疗后12周、24周、36周重复4次测量ALT水平,试验结果如下。试讨论:(1)该研究类型?99\n优质完整新颖(2)每个患者的疗效变化用什么数据表示?(3)适用什么统计量说明疗效的差别?(4)慢性乙型肝炎患者的ALT水平受哪些因素影响?(5)用什么统计方法推论两药物的治疗效果?结论如何?表19-13两种药品治疗慢性乙型肝炎不同时间谷丙转氨酶(ALT)水平(U/L)观察时间分组编号治疗前12周24周36周99\n优质完整新颖试验组11601051471352415371258182332794365141741136350520126552062892017217854456628176165136839762153481107594515999\n优质完整新颖对照组12586727252271495292731009445734164441168251306312012561091331424577513467568851183120933574492710176841289799\n优质完整新颖小结1、前后测量设计不同于配对设计,配对设计可以同期观察实验结果,可以比较处理组之间的差别。前后测量设计不能同期观察试验结果,例如考察减肥药的服用效果,本质上比较的是前后差别,推论处理是否有效是有条件的,即假定测量时间对观测结果没有影响。配对t检验要求同一对子的两个实验单位的观察结果分别与差值互相独立,并且差值服从正态发布。而前后测量设计两次观察结果通常与差值不独立,常常不服从正态发布,大多数情况第一次观察结果与第二次观察结果差值负相关关系,即相关系数为负值。配对设计和前后设计都可以使用平均差值推论处理的作用,前后设计还可以进行相关分析,建立直线回归方程2、99\n优质完整新颖当前后测量设计的重复测量次数t≥3时,此时称为重复测量设计数据或重复测量数据当重复测量数据满足“球对称”(Huynh-Feldt简称H-F条件)假设时,可用随机区组方差分析比较处理组间差异。如果不满足“球对称”假设,需要对方差分析表的F值进行校正。校正的方法是用“球对称”系数ε(Eplison)乘以处理间效应F界值的自由度df1和df2,得到df1ε和df2ε,应用作为检验界值。“球对称”系数ε(Eplison)估计方法常用的有Green-Geisser,Huy-Feldt和Lower-bound3种方法,参考中医药统计学与软件第235页,SPSS操作部分。3、如果不考虑单组重复测量数据是否满足“球对称”假设,可采用HotellingT2检验分析各时间点的差别有无统计学意义。4、设立对照组的重复测量数据的方差分析,变异来源可以分解为处理组、测量时间、处、理组与测量时间的交互作用、受试对象的随机误差以及重复测量误差5个部分。如果处理与时间存在交互作用、说明试验组各时间点的单独效应与对照组各时间点的单独效应的变化趋势不同,应根据对照组与处理组各时间点的变化趋势判定处理效应。5、重复测量数据在医学论文中操作比较多的误用情况,例如重复进行各时间点的t检验,“平均”生长曲线不能够发现个体曲线变化特征,差值比较通常不满足正态性、方差齐性等假设。6、99\n优质完整新颖协方差分析也是设立对照的前后测量设计可选用的一种分析方法,单必须检验作为反应变量的测量结果是否满足协方差分析的前提条件,例如:总体斜率相等、正态性、方差齐性等。第二十章多重线性回归案例20-1为了研究糖尿病患者的C反应蛋白Y与年龄X1和体重指数X2的关系,某研究者调查了60名糖尿病患者,测量收集C反应蛋白Y(mg/L)与年龄X1和体重指数X2,结果见表20-15,试分析C反应蛋白Y与年龄X1和体重指数X2的关系。表20-15C反应蛋白Y与年龄X1和体重指数X2的资料NoX1X2YNoX1X2YNoX1X2YNoX1X2Y14826.22.0166124.11.8314622.41.2468025.42.228126.32.0176023.72.7325322.41.6478229.73.536725.61.0188128.13.0337325.72.7486124.11.645126.22.4197527.72.7347427.33.2495123.599\n优质完整新颖1.355224.41.7207526.22.4356724.72.0504724.01.767826.11.0216626.62.5368125.72.5517528.12.574921.71.0227926.02.0376026.72.7526727.02.585423.81.2236525.42.0384621.91.2538127.32.097524.92.0245323.40.6396125.61.8545623.61.1107426.21.6256625.31.2406927.52.4555325.91.1117426.32.4266223.01.0416524.62.0565723.80.4126325.21.1275526.81.7426327.02.5578029.499\n优质完整新颖2.5137826.12.2287625.92.0437725.91.2585122.90.5146027.02.2294622.41.7444825.42.0597427.01.3158026.52.5305022.01.2458327.22.2606423.71.8(1)建立C反应蛋白Y与年龄X1的回归方程:-0.063+0.030X1.(2)建立C反应蛋白Y与体重指数X2的回归方程:-4.521+0.251X2.(3)建立C反应蛋白Y与年龄X1和体重指数X2的回归方程:-4.320+0.004X1+0233X2(4)分析(1)、(2)、(3)三个回归方程有无统计学意义,并解释X1、X2对Y所起的作用。年龄与Y相关吗?小结99\n优质完整新颖1、多重线性回归要求预测值与应变量的差值(即残差)服从正态分布,当样本量比较大时,可忽略正态性的要求;多重线性回归一般要求观察单位之间是独立的,因此传染病资料药谨慎处理。2、在多重线性回归分析中,名义变量需要数量化;等级变量可根据实际情况选择直接引入回归模型货数量化后引入回归模型;连续变量直接引入。3、在多重回归中,不同研究问题要采用不同的回归分析策略,对于寻找最佳预测模型或寻找主要影响因素,可采用最优子集的方法,例如逐步回归分析就是最优子集的近似,在夏结论时要谨慎。对于实验性研究一般不宜采用逐步回归。特别对干预性研究,一般在模型中保留干预变量,并根据实际研究,引入合适的子变量控制可能的混杂因素。4、逐步回归的结果可以推断某因素与应变量有关联,单不能用逐步回归结果推断某因素与应变量无关联。5、99\n优质完整新颖逐步回归所提出的自变量只能说明被剔除的自变量与应变量关联性不强,但是被剔除的自变量还是有可能对应变量与某个因素(研究因素)之间的关联性构成混杂作用,所以在实验性统计分析一般不宜采用逐步回归。第二十一章协方差分析案例21-1表21-8是运动员与大学生的身高与肺活量的数据,考虑到身高与肺活量有关,而一般运动员身高高于大学生,为进一步分析肺活量的差异是由由于体育锻炼所致,必须考虑控制身高变量对分析结果的影响。表21-8大学生的身高与肺活量的数据运动员大学生身高肺活量身高肺活量184.94300168.73450167.93850170.84100171.04100165.03800171.04300169.73300188.04800171.5345099\n优质完整新颖179.04000166.53250177.05400165.03600179.54000165.03200187.04800173.03950187.04800169.04000169.04500173.84150188.04780174.03450176.73700170.53250179.05250176.04100183.04250169.53650180.54800176.33950179.05000163.03500178.03700172.53900164.03600177.0345099\n优质完整新颖174.04050173.03850经过计算,肺活量总均数为4033.25,运动员组均数为4399.00,大学生组均数为3667.50。常用是对两组肺活量变化Y做t检验或方差分析,其结果为:F=27.928,P<0.0001,差别有统计学意义。协方差分析表明,混杂因素身高(X)在两组间是有差异的(F=10.679,P=0.002),控制其影响后,两组肺活量的差别仍然存在(F=9.220,P=0.004),故可以认为两组间肺活量均数在消除了身高因素影响后仍然差值差别,即运动员肺活量大于大学生,即体育锻炼会增加肺活量。注意到增加协变量后其F值明显减小,试对该问题用SPSS软件作协方差分析,并考虑协变量对F值的影响。案例21-2为研究三种饲料(A1,A2,A3)对猪的催肥效果,用每种饲料喂养8头猪一段时间,测得每头猪的初始重量(X)和增重(Y),数据见表21-999\n优质完整新颖表21-93种饲料喂养猪的初始重量和增重(单位:kg)A1A2A3XYXYXY1585179722891383169024911165181002083127618962395128021103251001691221062710214841999301051790189432110请分析3种饲料对猪的催肥效是否相同?小结99\n优质完整新颖1、本章介绍协变量与协变量控制的基本思想,介绍完全随机设计分组的协方差分析的软件实现。2、协方差分析的应用条件是:一是与线性回归的应用条件相同,理论上要求残差服从正态分布,各观察相互独立,各样本方差齐性;二是各总体应变量与协变量之间差值线性回归关系并且斜率相同(回归线平行)即要求各样本回归系数有显著性,但是各个样本回归系数之间的差别无显著性。因此在做协方差分析时,需要对资料进行方差齐性检验和回归系数的假设检验,必须满足这两个条件才能够作协方差分析。3、协方差分析的变量可以是连续变量和等级变量,但不能是影响处理的变量。协变量是不能够人为控制,进行实验设计时,不能够对这个影响因素进行水平划分或对同一水平找到足够多的重复受试对象,但又不能够忽视其对观察指标的影响,只能人为它与观察因素存在回归关系,从而用协方差分析方法排除它对指标的影响。如果在多个因素研究中多因素(协变量)存在而难以控制,而这些协变量对观察变量可能有影响,解决这类问题可用多元协方差分析或多元线性回归的方法。99\n优质完整新颖第二十二章logistic回归案例22-1为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例?对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见表22-1,数据见表22-2。表22-1糖尿病10个相关因素与赋值因素变量名赋值性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X4<24=1,24?<26=2,26?=399\n优质完整新颖家族史X5无=1,有=2吸烟X6不吸=1吸=2血压X7正常=1,高=2总胆固醇X8甘油三脂X9高密度脂蛋白X10低密度脂蛋白X11糖尿病Y对照=0,病例=1表22-2糖尿病与血压、血脂等因素的关系研究的数据编号性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂高密度99\n优质完整新颖脂蛋白低密度脂蛋白糖尿病1160221114.301.501.242.3002148321114.601.321.152.3003263211124.601.151.152.3004168322114.151.431.073.2105145212113.421.220.632.3006145332114.160.960.982.6507159211114.321.021.053.4908168331113.801.422.860.8509263221113.871.552.440.81010258221115.420.874.463.14011144222124.351.015.132.20012146311213.421.261.400.28099\n优质完整新颖13262121123.181.381.670.48014265121113.300.851.920.69015258211124.411.052.971.79016122512225.101.633.240.96017169111215.091.503.290.75018255211123.981.410.664.25019266121114.271.352.301.05020147212114.191.242.491.65021247322114.191.042.431.02022264222114.471.603.010.95023263121114.231.504.041.14024164111214.161.441.631.95025170221214.771.081.792.69026148121113.781.001.192.63099\n优质完整新颖27264211115.201.561.211.28028147222124.251.063.340.94029254421123.561.351.240.88030257121114.801.263.190.93031145221114.650.922.990.79032162221124.231.153.281.07033152122123.700.852.552.97034250221114.111.232.541.67035250232213.851.352.341.09036158311113.011.081.861.14037154321213.021.231.550.40038160132114.161.022.460.80039260211125.121.313.501.11040263311114.301.402.800.97099\n优质完整新颖41165222113.670.722.290.66042137321115.461.453.560.94043252221124.351.133.861.11044246131113.600.872.271.00045263122123.160.682.301.23046263222123.821.361.981.18047260322114.631.282.460.33048158221124.050.852.600.77049265311123.801.421.850.79050143222114.981.485.071.03051158122215.041.133.770.77052261421113.530.741.660.55053146421123.501.531.940.44054158222114.830.832.820.96099\n优质完整新颖55254421112.881.041.580.55056245122113.311.691.630.72057238221124.131.383.921.26058222532213.660.730.710.53059144131224.151.311.900.73060149331124.211.592.491.02061249231123.971.344.101.10062241321113.130.751.620.57063144332114.461.332.860.27064148111214.061.542.350.80065148221114.331.604.811.17066251231112.751.100.841.59167260131124.501.220.743.27168167121212.701.000.960.80199\n优质完整新颖69148131213.540.631.211.90170258222213.090.822.052.50171241122215.120.711.382.61172152131214.811.660.753.29173254121114.931.430.613.12174160222224.381.561.933.71175167231123.611.141.172.60176243132224.231.341.263.06177161121124.971.321.050.45178252122124.421.311.242.30179160122224.801.650.852.92180150121224.441.491.202.91181245121224.831.661.040.96182245331215.681.431.441.44199\n优质完整新颖83260132115.852.571.393.03184234131224.692.041.122.86185254122214.303.100.752.05186258231224.671.762.290.84187261122224.912.562.370.86188153132223.440.742.770.78189146122123.951.651.182.04190272111223.861.321.192.30191158221223.680.971.311.97192250132225.174.312.541.63193260222124.072.452.421.19194255132223.381.152.680.49195234131224.752.452.510.32196264222223.891.291.930.61199\n优质完整新颖97262121215.731.724.410.66198165332213.680.971.970.61199143212223.571.172.821.081100252131225.501.793.951.401101261122213.826.472.671.111102253132223.081.392.281.121103164132123.871.191.720.351104138122119.472.382.260.861105260131113.061.032.070.671106244122224.170.942.210.831107162121216.792.653.820.681108260122223.030.892.140.901109255422224.511.242.980.871110160222214.981.973.310.99199\n优质完整新颖111265121115.012.593.281.021112163122114.281.693.010.601113167112124.020.932.760.741114142122215.121.584.051.361115160131213.581.512.121.431116157122225.481.773.761.021117169321114.811.732.950.861118162122215.721.243.500.961119155422224.711.202.920.881120167522215.411.302.991.081121165122214.101.101.720.731试用SPSS统计软件作logistic回归。小结99\n优质完整新颖1、logistic回归分析是分析二分类反应变量与多个解释变量(包括分类变量、等级变量、数值变量)的工具,根据研究目的的不同分为条件的和非条件logistic回归。2、由于logistic回归系数与流行病学的OR值有关,logistic常常用于流行病学中的病因分析,采用logistic回归分析还可以校正混杂因素的影响。3、应用logistic回归要注意设计类型、样本量大小等问题,不同研究设计类型的logistic回归分析,解释不同,特别是在病因学研究时,应根据流行病学的病因学分析原则和相关专业知识,作出正确解释。第二十三章生存分析案例23-1某医生观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某99\n优质完整新颖种不良染色体是否会影响患者病情的缓解,于是将治疗后120天内症状是否缓解作为结果变量y(缓解=0,未缓解=1),有无不良染色体chr(有=1,无=0)作为研究因素,同、时也调查了患者的年龄age(岁),骨髓原幼细胞数分组bl(大于等于50%=1,小于50%=0)、CD34表达cd(阳性=1,阴性=0)、性别sex(男=1,女=0)这几个变量(数据见表23-12)。不同研究者对此数据进行如下几种统计分析,请讨论哪种分析方法比较恰当,最后结论如何?(1)对此数据中症状是否缓解和有无不良染色体两个变量采用Fisher精确检验。(2)考虑患者年龄、骨髓原幼细胞数分组、CD34表达、性别这几个变量,采用多因素logistic模型进行分析。(3)采用log-rank检验比较有无不良染色体的两组病人的生存曲线。(4)考虑了患者年龄、骨髓原幼细胞数分组、CD34表达、性别这几个变量,采用多因素Cox分析。99\n优质完整新颖表23-12急性混合型白血病患者化疗后观察数据ageblcdchrsextyageblcdchrsexty28001030481011150331111120148101012013500107048101012013900105048100012014000101604911001200420010205401011204211011201551101116043011112015711011090440010406001104004400101906100101604401101201620110118099\n优质完整新颖4510001080631100120147001018074001070小结1、生存分析是把观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法,其主要特点是考虑每一对象出现某一结局所经历的时间长短。生存时间定义为终点事件与起始事件之间的时间间隔。终点事件不限于死亡,可以始疾病发生、一种处理(治疗)的反应、病情复发等。而起始事件是反映研究对象生存过程起始特征的事件。含有删失数据是生存资料的主要特点。此外,生存时间的分布也和常见的统计发布有明显不同,因此需要有分析这类数据的特殊统计方法。99\n优质完整新颖2、生存率与生存概率不同,生存概率是单个时间段的结果,而生存率实质是累积生存概率,是多个时段的累积结果。生存率的啡参数估计方法有乘积限法(Kaplan-Meier法)和寿命表法,乘积限法适用于小样本或大样本未分组资料,寿命表法适用于观察例数比较多的分组资料。生存曲线是以观察(随访)时间为横轴,以生存率为纵轴,将各时点所对应的生存率连。接在一起的曲线图。分析时要注意曲线的高度和下降的坡度。中位生存期表示恰好有50%的个体尚存活的时间。中位生存期的长短可直接反映预后的好坏。估计中位生存期可用图解法或线性内查法。3、log-ranktest是生存率比较的非参数方法之一,由于该检验能对各组的生存率做整体比较,实际工作应用比较多。多组生存率比较时,如分组变量是等级变量,在log-ranktest有统计意义后还可以分析危险率是否随分组等级而变化的趋势,称为趋势检验。4、Cox比例风险回归模型主要用于生存资料影响因素分析、多变量生存预测和调整其他影、响因素后的组间生存比较。属于比例风险模型,乘法模型。模型中回归系数βi的统计学意义是,经其他变量调整后,变量Xi每变化一个单位所引起的相对危险度改变量,或使得风险函数增加倍,预后指数PI=b1X1+B2X2+…+bPXP越大,则风险函数h(t)越大,预后越差。99\n优质完整新颖第二十四章聚类与判别分析案例24-1通过cDNA微阵列对急性白血病病人的外周血单个核细胞趋化因子基因表达水平的检测,研究白血病的分类和鉴定。按照临床表现和病例特征,选择22名被诊断为急性白血病的病人。其中,B细胞急性淋巴细胞核白血病(ALL-B)6名,T型细胞急性淋巴细胞核白血病(ALL-T)8名,急性髓性白血病(AML)8名,下表为白血病病人的9种基因表达的cDNA微阵列扫描数据(X1-X9)。(1)用欧氏距离下的最大相似系数法、最小相似系数法核离差平方法对数据进行聚类分析。(2)用系统聚类法(类间相似系数采用重心法核类平均法)进行聚类分析。99\n优质完整新颖(3)试述系统聚类法的基本思想与基因网络理论之间的异同点,并对各种聚类结果予以评述。试用系统聚类法进行指标聚类。(4)试建立该资料的多类Fisher判别函数与Bayes判别函数,并比较两种判别函数(5)试比较判别效果与聚类效果,并试述导致效果差异的原因。表24-9白血病病人cDNA微阵列扫描结果编号X1X2X3X4X5X6X7X8X912.574032.537822.534032.127102.000002.000002.000002.536562.4456022.874482.806862.883662.740362.000002.000002.303203.266233.4328132.559912.000002.568202.000002.563482.000002.456372.985433.3865042.650312.276462.372912.017032.000002.107212.000002.456372.5865999\n优质完整新颖53.123522.536562.651282.348302.264822.170262.437753.157463.8089563.145512.722633.028572.000003.187242.000002.852483.113273.1789872.774522.017032.525042.220112.774522.000002.000002.834423.7861183.052312.600972.432972.164352.315972.227892.659922.951822.0000092.974972.340442.774522.350252.000002.000002.000002.874483.31639103.008172.812912.659922.000002.037432.000002.575193.020783.21958112.956172.881382.617002.000002.716002.000002.511883.006893.34420123.015782.419962.598792.227892.000002.292262.344392.802093.7668699\n优质完整新颖132.722632.416642.161372.000002.603142.000002.447162.876223.07518142.980462.992112.698102.000002.000002.164352.557512.963793.35468152.956652.419962.484302.000002.133542.000002.000002.729163.17114163.042972.376582.298852.367362.307502.008602.103802.783193.40261172.622212.540332.547772.000002.703292.000002.000002.658963.13098183.134812.000002.471292.082792.041392.466872.660872.790293.29535192.987672.471292.780322.000002.096912.000002.689312.772322.85612202.929932.301032.586592.037432.000002.021192.000002.795183.2372999\n优质完整新颖213.052312.600972.432972.164352.315972.227892.659922.951822.00000223.023252.835692.775252.614902.000002.000002.478573.464193.51322小结1、聚类是一种重要的数据探索性分析方法,主要用于研究未知类别的前提下,对事物的类别进行归属。按照研究目的,聚类分析可以是R型聚类(指标聚类)和Q型聚类(样品聚类)。2、99\n优质完整新颖聚类分析使用相似性系数度量分类对象间的关系,通常有多种定义。经典的聚类分析有系统聚类法、动态聚类法以及用于有序样品聚类的最优分割法。系统聚类法,首先假定各样品自成一类,再把最为相似的两类合并,每次减少一类,直至所有样品合并成一类。动态样品聚类首先选择凝聚点,形成初始分类,再按某种原则逐次修改分类,直至分类合理为止。最优分割法根据直径和分类目标函数,求得二类、三类、…的最优分割,再根据所有的全部分割方案,结合专业知识,分析判断应该分成即类比较合理,确定分割方法。3、比较理想的样品聚类结果应该使得类间差别大,内内差别小。分类后,可应用方差分析检验类间差异有无统计意义。4、聚类前要对变量做预处理,剔除无效变量(例如变化比较小,缺失值比较多的变量)。一般需要对变量作标准化变换或极差变换,以消除量纲和变异系数大幅波动的影响。聚类分析的结果解释应密切结合专业知识,同时尝试用多种聚类分析方法,才能获得理想的结论。5、判别分析是通过观察到的分诶对象特征,建立分类对象类别归属的预测模型。它要求样本足够大,具有比较好的代表性,样本的原始分类必须正确无误;判别指标的选择要恰当,能代表分类对象的主要特征,必要时对判别指标进行筛选。6、99\n优质完整新颖经典的判别分析有最大似然法、Bayes法、Fisher法。通常,最大似然法和Bayes法适用于计数资料,Fisher和bayes判别适用于计量资料。最大似然法和Bayes公式分别建立在独立事件乘法公式和Bayes公式基础上。Fisher判别借助于方差分析思想,选择适当的投影方向,使类内差异尽可能小,而类间差异尽量大;Bayes使寻找错分损失尽可能小的划分方法;逐步判别使一种自动筛选指标的分类方法,与逐步回归思想类似。7、二类判别、Fisher判别、Bayes线性判别以及二值回归使等价的,它们均为线性判别。另外,二分类Logistic回归也可用于二判别,称为logistic判别,使非线性的。用Y表示判别,,建立logistic回归方程。获得的最大似然估计,判别规则如下:计算各例判别函数值Pi(Y)=1,如果第二十五章主成分分析和因子分析案例25-1某医院为了合理地评价该院各月的医疗工作质量,搜集了三年有关门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、治愈好转率、病死率、诊断符合率、抢救成功率等9个指标数据,如表23-8。试进行因子分析。99\n优质完整新颖表25-8某医院三年的医疗工作质量有关指标实测值年月X0门诊人次X1出院人数X2病床利用率X3病床周转次数X4平均住院天数99\n优质完整新颖X5治愈好转率X6(%)病死率X7(%)诊断符合率X8(%)抢救成功率X9(%)91.014.3438999.061.2325.4693.153.5697.5161.6691.023.4527188.280.8523.5594.312.4497.9473.3391.034.38385103.971.2126.5492.534.0298.4876.7991.044.1837799.481.1926.8993.862.9299.4163.1691.054.32378102.011.1927.6393.181.9999.7180.0091.064.1334997.551.1027.3490.634.3899.0363.1691.074.5736191.661.1424.8990.602.7399.6973.5399\n优质完整新颖91.084.3120962.180.5231.7491.673.6599.4861.1191.094.0642583.270.9326.5693.813.0999.4870.7391.104.4345892.390.9524.2691.124.2199.7679.0791.114.1349695.431.0328.7593.433.5099.1080.4991.124.1051492.991.0726.3193.244.22100.0078.9592.014.1149080.900.9726.9093.684.9799.7780.5392.023.5334479.660.6831.8794.773.59100.0081.9792.034.1650890.981.0129.4395.752.7798.7262.8692.044.1754592.981.0826.9294.893.1499.4182.3592.054.1650795.101.0125.8294.412.8099.3560.6192.064.8654093.171.0727.5993.472.7799.8070.2192.075.0655284.381.1027.5695.153.1098.6369.2392.084.0345372.690.9026.0391.944.5099.0560.4292.094.1552986.531.0522.4091.523.8498.5868.4299\n优质完整新颖92.103.9451591.011.0225.4494.882.5699.3673.9192.114.1255289.141.1025.7092.653.8795.5266.6792.124.4259790.181.1826.9493.033.7699.2873.8193.013.0543778.810.8723.0594.464.0396.2287.1093.023.9447787.340.9526.7891.784.5794.2887.3493.034.1463888.571.2726.5395.161.6794.5091.6793.043.8758389.821.1622.6693.433.5594.4989.0793.054.0855290.191.1022.5390.363.4797.8887.1493.064.1455190.811.0923.0691.652.4797.7287.1393.074.0457481.361.1426.6593.741.6198.2093.0293.083.9351576.871.0223.8893.823.0995.4688.3793.093.9055580.581.1023.0894.382.0696.8291.7993.103.6255487.211.1022.5092.433.2297.1687.7793.113.7558690.311.1223.7392.472.0797.7493.8999\n优质完整新颖93.123.7762786.471.2423.2291.173.4098.9889.80案例25-2某研究者在某小学测得三年级学生数学、语文、常识、音乐、美术与智商6个指标数据如下:数学语文常识音乐美术智商789080708510384707087731008072757793100525875627275936469857010589787573699799\n优质完整新颖9875738875110899570788012065847755667673756376649248824050736143454247656067705160648875787168729695977780751258892727968113999280957712681887672701021.试作主成分分析;2.试作因子分析。99\n优质完整新颖小结1、主成分分析的目的,是从多个数值变量之间的相互关系入手,寻找各变量之间的共享信息,将多个变量简化为少数几个互不相关,但是能充分反映总体信息的综合变量,在不损失主要信息的前提下,解决多重共线性的问题,以便进一步分析。在实际问题中,主成分分析只是一种中间手段,是为采用其他多元统计方法奠定基础。2、因子分析也是从多个原始变量的相关性入手,找出支配这种相关关系的有限个不可观测的潜在变量—公因子,并利用这些公因子解释原始变量之间的相关性作出解释。因此,因子分析一般要求提取出的各公因子要有实际意义,如果提取的公因子实际意义还不太清楚明确,则可通过适当的因子旋转,改变信息量在不同因子上的分布,进一步明确公因子的实际意义,使所得结果便于解释。3、由于主成分分析和因子分析都是从分析多个原始变量之间的相关关系入手,寻找各变量之间的共性因素,因此99\n优质完整新颖在方法学原理上两方法并无本质差别,只是因子分析在主成分分析的基础上进行了推广。主成份分析是用于综合原始变量的信息,便于进一步分析,二因子分析是为了寻找潜在因子,以便对原始变量反映出来的现象进行解释。4、本章的重要概念有:主成分、相关矩阵的特征值、第i主成分的贡献率、公共度(公因子方差)、因子贡献及因子贡献率、因子载荷及因子载荷矩阵、约相关矩阵。5、主成分计算步骤:原始数据标准化→计算相关矩阵R→计算相关矩阵的特征值和所对应的特征向量→写出主成分表达式→解释6、因子分析的计算步骤:原始数据标准化→计算相关矩阵R及约相关矩阵R*(需要对其对角线元素进行估计)→计算约相关矩阵R*所有大于零的特征值及特征向量→写出因子载荷矩阵A→并得出原始指标X的公因子表达式。7、确定主成分或公因子个数的原则(1)以累积贡献率来确定。当前k(k=p/q时)个主成分/公因子的累积贡献率达到某一特定的值时(一般以大于70%为宜),则保留前p/q个主成分/公因子。(99\n优质完整新颖(2)以特征值大小来确定。即若某主成分/公因子所对应的特征值大于1,则保留主成分/公因子。否者就去掉主成分/公因子。实际应该保留多少个主成分/公因子,要看其专业意义,样本说来,保留的主成分/公因子个数远小于原始指标的个数。8、因子分析的解是不唯一的:一是因为约相关矩阵不是唯一的,在处理实际问题时候,可根据实际情况选择不同方法来获得符合客观实际的解;二是当约相关矩阵确定后,求得的因子分析的解仍然不唯一,可采取不同方法进行因子旋转,以获得更为满意的解,选择旋转方法需要根据专业意义来确定,可进行多次旋转,以获得更为理想的结果。第二十六章统计分析的一般原则和方法小结1、根据研究类型的不同,医学科研数据分为观察性数据和实验性数据,准确可靠的原始数据,是得到准确统计分析结果的基本前提。目前,数据的统计分析基本上都依赖于计算机软件完成计算,还可以利用统计软件对数据质量进行检测和控制,在数据的计算录入过程中,应遵循方便录入、便于核查、易于转换,有利分析的原则。99\n优质完整新颖2、实际工作中可根据研究目的、设计类型、资料性质、样本大小和分析过程所遇到的实际情况,并结合相关专业知识来恰当地选择和运用统计分析方法,才能作出准确的、符合客观实际的结论。3、统计方法的选择步骤:第一,反应变量是单一变量、还是双变量、多变量;第二,判断要分析的资料属于是哪种类型,是定量的,还是无序分类或有序分类资料;第三,影响因素是单因素还是多因素;第四,资料是单一样本,还是两组样本,还是多组样本;第五,判断资料所属的设计方式,是完全随机设计还是随机区组设计,抑或是其他设计类型;第六,判断资料是否符合拟采用的统计分析方法的应用条件,必要时可做变量变换。99查看更多