研究生统计学讲义第1讲第2章统计学设计

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

研究生统计学讲义第1讲第2章统计学设计

第二章统计学设计基础一、医药研究的类型医药科学研究常分为实验研究与调查研究两类。调查研究是对某特定人群进行调查,被调查因素是客观存在的,研究者只能被动进行观测,研究条件较难控制,只有通过合理分组、设置对照等手段尽量减少干扰。实验研究是指研究者可以主动对实验对象设置处理因素,受试对象被随机分配到各处理组,可以较好控制处理因素。实验与调查虽然在设计上有区别,但是在实际中常常结合使用。医药实验研究一般是先做动物实验后再移到人体,如预防接种实验、药物毒力实验、某些手术方法等。实验研究中,以人为受试对象的临床实验研究特称为临床试验。\n二、医药实验的三要素处理因素、受试对象和试验效应被试因素(studyfactor)又称处理因素(treatmentfactor)、试验因素。被试因素必须是试验中的主因素,必须能表明进行研究的目的与意义,是研究者根据研究目的所决定欲施加或欲观察的能作用于受试对象并引起直接或间接效应的因素。被试因素的数目与水平组合的基本类型有:①单因素单水平:如夏枯草提出物对原发性高血压患者降压作用的观察等。②单因素多水平:如比较不同强度针刺某穴位对痹证治疗效果;比较不同剂量的某药对某病的疗效。③多因素单水平:如同—复方中不同单味中药,或同一单味中药中不同有效成分的疗效观察。\n④多因素多水平:如研究六味地黄丸诸成份和不同剂量对降低被切除胰腺狗血糖的影响。与“被试因素”同时出现,也能使受试对象产生效应的因素属于“非处理因素”或称“区组因素”。非处理因素虽然不是研究因素,但由于其中有些会影响实验结果,产生混杂效应,所以非处理因素又称混杂因素(confoundingfactor),因为它会干扰实验结果,又称干扰因素。例如,分析不同疗法对治愈某病所需时间,非处理因素有年龄、病程等,不同的年龄、病程治愈所需时间不一样,当两组病人的年龄构成或病程不同时,则影响不同疗法对治愈某病所需时间比较的可比性。所以,在确定被试因素的同时,还要根据专业知识和实验条件,找出重要的非处理因素,有意识地控制或消除其干扰作用。\n2.受试对象受试对象(subject)是处理因素作用的客体。受试对象的种类有活体动物、标本或样品、病人或正常人。受试对象的基本条件是:①敏感性:对被试因素敏感,容易显示效应。②特异性:不易受非处理因素干扰。③)稳定性:反应稳定。动物实验应选择敏感、特异、稳定及易于积累的动物,要考虑动物的生理解剖特点是否适合。如大白鼠只在喉部有气管腺,故不宜做支气管炎模型或祛痰平喘药实验。3.实验效应实验效应(experimentaleffect)是指处理因素作用于受试对象后所表现出来的效果。这种结果常以观察指标为载体客观地表现出来,有定量指标和定性指标。选择效应指标要求:一共有八条\n(1)关联性:指标必须和临床试验所要回答的问题密切相关。(2)客观性;选用客观性较强的指标,中西结合(3)敏感度与特异度:敏感度与特异度(计算见第七章)均等于或低于50%的指标,对于临床诊断不但没有帮助,而且可能干扰诊断。如中药对肝炎的疗效,宜选灵敏度和特异性高的转氨酶含量等肝功化验指标;中药对血小板减少症的疗效宜用血小板量等指标;对肾炎的疗效宜用24小时尿蛋白总量等指标。(4)准确度精密度,准确度是指测定正确性的量度,用来反映测定值与真实值接近的程度;精密度表示各次测定值集中的程度。准确度是最根本的。理想的指标是既准确又精密。\n(5)重现性:在相同条件下,不管谁作重复试验都能得到相同的评价结果。(6)指标标准统一:实验设计具体实施中,从标本采集取样方法、部位、时间、实验方法均应统一。(7)从实际出发,尽量采用先进指标,具体见举例(8)严格掌握指标测试条件,避免干扰因素的影响:三、中医药研究三要素的特点1.被试因素大体上说,中医学的理(理论)、法(方法与原则)、方(方剂)、药(中药与草药)有大量内容需要研究,均可作为被试因素。应当注意:(1)中医学研究中的被试因素需要具体化与物质化\n(1)中医学研究中的被试因素需要具体化与物质化中医学是以阴阳、五行、四诊、八纲、脏腑、经络、气血、津液学说为基础的临床医学,中医学研究的被试因素,需将抽象思维具体客观化。例如,将气质本质的研究列为被试因素,不但题目过大,而且不够具体,难以抓住要害。如果改为《脾气虚与血中胃泌素、促胰液素和胆囊收缩素关系的研究》或《心气虚与心脏收缩和舒张压能关系的探讨》或《肺气虚与血清血管紧张素转化酶关系的观察》等小题,则对气虚本质最后阐明可能更为有利。(2)中药的研究中医的效果大部分体现在中药的疗效上,以中药作为被试因素,要注意七大要点\n2.受试对象病例选择:①既有中医病证诊断,又有现代医学的诊断。②证典型而型清楚,无夹杂和不明型,应为辨证施治提供规范的依据。3.反应指标第二节误差知识一、误差的分类试验所得到的观测值,不但有处理的真实效应,而且还包含其它因素的影响,这就出现了观测值与真值的差异,这种差异在数值上的表现称为试验误差(error)。误差公理认为:试验结果都具有误差,误差自始至终存在于一切科学试验的过程之中。误差的分类有多种,根据引起误差的原因和性质不同,可以分为随机误差、系统误差和过失误差三类:\n1.随机误差随机误差(randomerror)又称偶然误差(accidentalerror),是很多影响较小且难以完全消除的因素综合影响的结果,其误差值较小。包括抽样误差和随机测量误差:(1)抽样误差:前已叙述,抽样误差是最重要的随机误差。抽样误差是不可消除的,只有通过完善试验设计,方可使抽样误差减少。(2)随机测量误差:由于观测中存在着随机测量变异,同一个体多次观测的结果有差异,这种差异称为随机测量误差。随机测量误差也是不可避免的,但改善测量手段和测量条件可以将随机测量误差控制在很小的范围内。\n测量值xi与真值x之间偏差的绝对值,称为测量值xi的绝对误差,记为∣Δxi∣,∣Δxi∣=∣x-xi∣。绝对误差与测量值比值的绝对值∣Δxi/xi∣称为相对误差。因为真值x未知,所以,不知道绝对误差∣Δxi∣和相对误差∣Δxi/xi∣的准确值,只能估计其不超过某个数量界限值,这种界值称为最大绝对误差和最大相对误差。实际工作中,绝对误差和相对误差都是指最大绝对误差和最小绝对误差。因为有效数字末位之前的数字是可靠数字,末位是按“4舍6入5凑偶”进行取舍的可疑数字,所以,只允许末位数有0.5个单位(±0.5)的误差。例如有四位有效数字的观测值1.234g,最大绝对误差为0.0005g,最大相对误差等于∣0.0005/1.234∣=0.0405%。\n随机测量误差与抽样误差的性质:①双向的,可正可负;②其产生不可避免。随机误差(主要指抽样误差)的思想贯穿科研统计的始终。2.系统误差(systematicerror)是由某种固定原因所造成的误差,使测定结果系统偏高或偏低。当重复测量时重复出现,有规律性,大小正负是可测定且可校正,故又称可测误差。在临床试验中,由于非试验因素干扰所形成的系统误差歪曲了被试因素真实效果,常称为偏倚(bias)。产生系统误差的原因主要有:①方法误差;②仪器和试剂误差;③条件误差;④顺序误差;⑤分配误差;⑥主观误差:\n系统误差可归纳为两个重要特性:①单向性:这种误差可重复测定,偏差的方向一致(偏高或偏低),并且这种误差常呈恒差或等比形式出现。②可消除性:只要找出原因,通过合理设计或控制原因,系统误差可以基本消除或减至最小程度。3.过失误差(grosserror)随机误差影响试验的精确性。系统误差和过失误差差影响试验的准确性,为了提高试验的准确性与精确性,即提高试验的正确性,必须避免系统误差和过失误差,降低随机误差。医药中有些数值是由多种实测值计算的,如动物用药剂量的计算,会受药物称重、药液量、注射量、动物体重四个实测值的影响:\n用药剂量=由于原始测量值总是存在误差的,所以运算的结果值也必然存在误差,这种特点称为“误差传递”。误差传递的法则主要有以下几点:(1)加减运算时,取实测值中小数位数最小的位数。例如:5.4321+543.21(kg)得548.6421(kg),应写为548.65(kg),最大绝对误差为0.005kg。(2)乘除运算时,取实测值中有效数字最小的位数。例如,20g小鼠用药100.0mg,其剂量是5000mg/kg,应写为5.0g/kg。最大绝对误差为0.05g/kg。\n【例2.1】药物称重600.0mg,药液取量50.00mL,注射容量0.86mL,动物体重0.0234kg,按误差传递规律计算用药剂量:用药剂量=(600.0/50.00)×(0.86/0.0234)=4.4×102(mg/kg)=0.44(g/kg)这里,4.4×102mg/kg是采用科学记数法表示保留2位有效数字,而不能写为440mg/kg(表示保留3位有效数字)。(3)对数运算时,对数尾数的有效数字与实测值相同。如;lg125是2.09691,应写为2.097(尾数有3位有效数字)。\n(4)均数及标准差,标准差一般取2或3位有效数字,均数按标淮差的小数位数取值。如2.1755±0.1552应取2.18±0.16(kg)。常数(如π,e)及分类变量值(如有效例数,实验次数)的误差为0,有效数字位数可任意选取。第三节实验设计的基本原则实验设计(experimentaldesign)是依据研究目的,按统计学要求而制定的研究计划的具体实施方案,包括所进行研究的三要素,估计样本含量,确定随机分配、统计分析方法等所要采取的技术路线和方法,使能用较为经济的人力、物力、财力及时间进行研究,最大限度地减少误差,保证研究结果的可靠性与可重复性。\n实验设计是研究过程的依据,统计数据处理的前提,是提高科研成果质量的一个重要保证。根据误差产生的来源,实验设计必须遵守三个基本原则,即对照原则、随机化分组原则、重复原则。(一)、对照原则1.对照的作用有比较才能鉴别,比较是实验研究的重要手段,如图2-1,对照(Control)的作用在于用对比鉴别的方法来研究处理因素的效应。设计的主要任务是尽可能将非被试因素所产生的影响分离出来,充分显示被试因素的效应。为此设立与实验组具有同质可比性的对照组,对照组与实验组除被试因素不同外,其它非被试因素尽量相同或相近,主要非处理因素均衡可比。\n说明一个新药、一种新治疗方法的疗效和安全性,必须有供比较的对照组:(1)对照使非处理因素在试验组和对照组处于均衡状态,减少实验误差,监控和鉴别处理因素的作用。(2)排除或控制自然变化对观察结果的影响:人或实验动物的生理现象常受自然发展和机体内环境的变化的波动影响,疾病有自然恢复、好转、加重或死亡的情况,如上呼吸道感染、胃肠炎、面瘫,病人往往在症状最严重时求医,这时疾病的好转可能是疾病的自然发展过程,设立对照组可以减少由于自愈、季节变化和主观心理效应带来的偏倚。(3)可以在比较中抵消安慰剂效应。\n1.常用对照方法对照的方式有多达11种,可根据研究目的及内容选择。(二)随机原则1.随机化的意义随机化(randomization)是指每个受试对象都有同等机会被抽取,避免偏差或渗入主观因素,使对实验结果有影响的未知与无法控制的因素均衡地分配到实验组与对照组中去,保证比较组间具有均衡齐同性。随机化是排除非试验因素干扰,防止选择性偏倚(Bias)的重要手段,是使用统计分析的基础,它使统计学方法要求观察值或误差为独立分布的随机变量有可靠依据。2.随机化方法常用随机数字表法或随机排列表法进行调整,使两组例数相等。\n(三)重复原则重复(replication)原则主要有重复数和重现性两方面的含义:①试验需要有重复数(即适当的样本含量),才能估计和降低实验误差。②可靠的实验结果,应能在相同的条件下重复出来,这对于推广试验结果至关重要。第四节常用实验设计方法一、完全随机设计1.完全随机设计方法(completelyrandomdesign)是一种单因素k(k≥2)水平单效应变量的设计方法。有两种分组方式:①将受试对象随机分配到各处理组中;②分别从不同总体中进行随机抽样,获取代表各不同总体的随机样本。\n要求:①组间均衡可比。可能条件下,先按非被试影响因素分层,而后在分层基础上随机分配样本。②尽量使每组间样本数相等或接近:完全随机设计各组样本含量可以不等,但在样本总量不变的条件下,n1=n2时检验效率较高,一般认为可高达10%~15%。【例2.2】将10个实验对象随机分配到甲(实验)和乙(对照)两组:先将实验对象编号。之后,可采用掷硬币法或随机数字表或随机排列表或统计软件进行随机分组。查240页随机数字表:①第5行第6列38被开始,②本例从第5行第6列起,由左向右抄录数字,用奇数为甲组,偶数为乙组,\n表2-1例2.2用随机数字表分组的过程和结果受试对象编号12345678910随机数字3854824622316243990所属组别乙乙乙乙乙甲乙甲甲乙调整甲甲分组结果乙甲乙乙乙甲甲甲甲乙\n③调整,如果各组例数不等,应从例数多的组中随机取出几例,调到例数少的组中。哪个对象应被调整,也由随机数字表决定。通常从最后—个随机数起(本例为90),任选一种方向取随机数,除以调出组的例数,所得余数(如余数为0,就用下一个数除)即为应调出对象的顺序数。本例从表2-1第3行可知,甲组3例,乙组7例,需要从乙组中调2例到甲组;如从90往右抄录二个随机数得6、18,分别除以7(乙组原有7例)、6;因随机数6除以7余数为6,将第6个乙(对象编号7)调入甲组,因18除以6(乙组现有6例)余数为0,抄录下一个数44,除以6余数为2,于是将乙组余下6例中的第2个乙(对象编号2)调入甲组,两组例数相等。\n如用随机排列表:从任意行查起,如第4行,舍掉大于10的数字后,依次分配给实验对象,规定奇数为甲组,偶数为乙组,得到如表2-2所示的结果。表2-2例2.2用随机排列表分组的结果受试对象编号12345678910随机排列数字6154078392所属组别乙甲甲乙乙甲乙甲甲乙故,2、3、6、8、9号实验对象分入甲组,1、4、5、7、10号实验对象分入乙组。\n【例2.3】将18只同品种、同性别、体重相近的小鼠随机等分成甲、乙、丙三组。(方法与前类似)2.随机同期对照设计临床试验中,将n个同质的合格的愿意加入试验的受试对象随机分配到对照组与试验组,使具有可比性。然后,试验组给予新措施,对照组给予标准对照或安慰剂,同步前瞻性观察两组结局的差别,称为随机同期对照试验(randomizedconcurrentcontrolledtrial,RCT)。基本要求是分层随机、同步试验、盲法观察。RCT是目前公认的标准研究方法,其论证强度比较高,重复性好,偏性较少。\n完全随机设计的统计分析方法依资料性质而异。分类资料用χ2或u检验;计量资料,满足参数检验条件(即正态性、方差齐、独立性)时,两组比较用t检验,多组用单因素方差分析,非正态或方差不齐时,用多组或两组秩和等非参数检验。二、配对设计配对设计(paireddesign)是将某些性质或条件相似的研究对象、部位配成相应的对子,然后采取随机分组的方法,将其中之一分配到试验组,另一个分到对照组,连续试验若干对,观察比较干预与对照的差异。配对设计可控制一些主要的影响因素,使两组非处理因素更具可比性,且此方法简便、经济、高效。\n1.配对设计的类型 根据受试对象的来源不同,配对设计可分为同源配对和异源配对。(1)同体配对(homobodymatching):又称同源配对(homogeneticmatching),试验和对照均在同一受试个体身上进行,可以消除组间对照个体差异的影响,可节约一半的样本量,无需特别的随机分组。同体配对可分为以下4种类型:1)自身前后对照设计(before-afterdesigninthesamepatients):观察同一个体在处理前后某些指标变化的一种设计。主要应用于急性与短期的实验。例如,观察中草药降低SGPT的含量的效应,每个受试对象分别在用药前和用药一段时间后测定血清SGPT的含量,进行前后对照比较。\n2)自身左右对照设计(left-rightpaireddesign):是二种不同处理分别施加于同一个体左右对称的部位、器官的设计。例如,研究某药的散瞳作用,如果理论上已经证明,该药只有局部作用,不易吸收或不致通过神经反射及体液因素影响对侧眼,则可以用双眼进行配对。3)同一受试对象或同一样品用两种方法或仪器检测:如分别用新法和旧法测定同一儿童的血钙含量。4)用同一方法或仪器检测同一受试对象不同标本的检测结果:如用原子吸收法测定同一儿童的血锌和发锌,以观察比较能否用发锌测定代替血清锌的测定.(2)异体配对设计(heterogeneouspaireddesign)也叫异源配对(heterogeneousmatching)指先将条件相同(或相似)受试对象配成对子。\n【例2.4】对16只实验动物,作配对设计:按同月龄、性别,体重相近的条件进行配对并编号,每个对子内又分为1号组、2号组。查随机排列表,任意指定行,如第6行,舍掉1至8以外的数字,依次分配给受试对象,规定随机排列数字为奇数者,在1号组为试验组,在2号组别为对照组,随机排列数字为偶数者,在1号组为对照组,在2号组别为试验组,得到如表2-7所示的分组结果。随机数字21430675对子内的1号组对试对试对对试试受试对象的对子编号12345678\n配对设计把可能对实验效应有影响的混杂因素“配平”,两组之间均衡可比,可使实验误差大为减小。在同样的样本含量条件下,采用配对设计的方法比采用完全随机设计的方法更容易检出两总体间的差别。但不是任何实验均可采用配对设计。七、几种常用试验设计之间的相互关系见图2-9。第五节临床试验设计一、临床试验的特点1.受试对象兼具生物和心理与社会性2.处理因素3.DME的程序和方法DME是DesignmeasureandEvaluationinclinicalResearch的缩写,即.临床试验的设计、测量、评估:\n二、合格受试者标准1.诊断标准;2.排除标准;3.病例剔除与脱落标准4.病例的研究导入三、盲法第六节样本含量估计一、决定样本含量的因素(1)实验设计类型:完全随机→配对设计→随机区组→拉丁方设计→序贯设计,所需样本数依次减少。(2)抽样误差:样本之间个体差异小,其所需样本数亦小。(3)实验误差:实验方法越精确,误差小,所需样本小,企图以样本大求得稳定性,忽视实验条件,及对其它误差控制不利的做法是不可取的。\n(4)处理效果:处理效果越明显,组间均值差别越大,其所需重复数越小。(5)统计资料类型:计量资料较计数资料所需样本数较小,容易取得统计学意义。(6)检验水准(见第四章第二节):实验样本数与检验水准成反比,如P<0.01所需样本数大于P<0.05所需样本数。二、样本大小的粗略估计在药理专业中有基本实验例数的习惯规定,实验动物的基本例数为:实验大动物(猪、狗)每组5~15只,计量资料不少于5只,计数资料不少于10只;中等动物(兔、豚鼠)每组8~20只,计量资料不少于6只,计数资料不少于20只;小动物(大、小鼠)每组10~30只,计量资料两组对比时,每组不少于10只。\n计数资料两组对比时,每组不少于30只,如果按照剂量分组为3~5个组时,每组仍然不少于8只。临床试验中,难治疾病(癌症)5~10例;急重症(如急性心力衰竭、呼吸衰竭、肝肾功能衰竭)30~50例;一般疾病(流感、哮喘、冠心病)100例以上;血清流行学调查300例以上;流行病学专题调查必须在1000例以上;慢性病调查在100~1000例,正常值范围在1000例以上。这些只是一个粗略的估计,具体样本含量的确定需要进行计算。三、定量反应结果与定性反应结果的样本含量估计定量反应结果的样本含量估计见第五章第九节。定性反应结果的样本含量估计见第八章第八节。
查看更多

相关文章

您可能关注的文档