- 2022-09-01 发布 |
- 37.5 KB |
- 23页
文档介绍
医学统计学考试重点归纳
标准正态分布与正态分布的关系:对正态分布的(X-μ)/σ进行u的变换,u=(X-μ)/σ,则正态分布变换为μ=0,σ=1的标准正态分布,亦称u分布。正态分布的特征:(1)正态曲线在横轴上方均数处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布有2个参数,即均数μ和标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数(亦称变异度参数),当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N(μ,σ2)表示均数为μ,方差为σ的正态分布。(4)正态分布在μ±σ处各有一个拐点。(5)正态曲线下面积的分布有一定规律。t分布:将看成变量值,那么可将正态变量进行u变换(u=-μ/σ)后,也可将N(μ,)变换成标准正态分布N(0,1)。常用s作为σ的估计值,统计量为t,此分布为t分布。统计量:t=t分布特征为:1.以0为中心,左右对称的单峰分布。2.t分布曲线形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近标准正态分布。t分布即为u分布。二项分布:对于二项分类变量,若某结果发生的概率为π,其对立结果发生的概率为(1-π),且各次试验相互独立时,这种试验在统计学上称为贝努里试验,二项分布概率函数的公式:P(x)=Cnxπx(1-π)n-x性质:μ=nπσ=若用相对数表示,即样本率的均数和标准差分别为,则μp=πσp=π未知时,用样本率P作为π的估计值,则Sp=二项分布的特点1、当π=0.5时,无论n大小,其图形均呈对称分布;2、当π≠0.5,且n小时呈偏态分布;随n不断增大,逐渐趋于对称分布;当n→∞时,逼近正态分布。实际工作中,只要n足够大,π与1-π均不太小时(通常规定n>50且nπ≥5与n(1-π)≥5时),可看作近似正态分布。Poisson分布:对于二项分类变量,若某结果发生的概率很小,如π<0.05时,单位时间、人群、空间内“阳性”发生次数x(x=0,1,2,…)的概率可用Poisson分布概率函数来描述:P(X)=递推公式:P(0)=P(x)=Poisson分布的性质:(1)、Poisson分布式一种单参数的离散型分布,其参数为μ,表示单位时间、人群、空间内某事件平均发生的次数。(2)、Poisson分布的方差与均数相等。(3)、Poisson分布可以看成是二项分布的极限形式。(4)、Poisson分布的极限形式也是二项分布,一般当n≥20时,可按正态分布处理,当π≤0.01时,二项分布可以当作Poisson分布来处理。(5)、Poisson分布具有可加性。分布:是一种连续型分布,u分布的平方即为分布。反映了实际频数与理论频数的吻合程度。只有考虑了自由度v的影响,值才能正确地反应实际频数A和理论频数T的吻合程度。分布的特点:分布是一种连续型分布,其形状依赖于自由度ν的大小:①当自由度ν≤2时,曲线呈L型;②随着ν的增加,曲线逐渐趋于对称;③当自由度ν→∞时,分布趋向正态分布。\n假设检验的基本思想:先提出假设(例:参数相等),在假设成立的前提下考察实际抽到的样本是否属于小概率事件,由此对提出的假设进行验证。若属于小概率事件,则拒绝该假设;否则不拒绝该假设。方差分析的基本思想:按照研究目的和设计类型,将观察值总变异的离均差平方和(SS)和自由度(γ)分别分解成若干个部分,并用每一部分的均方(MS=SS/γ)作为反映变异的指标。其中一部分变异主要反映个体变异造成的抽样误差,其余每一部分变异反映某个处理因素不同水平间的变异。假定各观测值均独立地来自同方差的正态分布总体,当所研究的处理因素各水平间总体均数相等(H0成立)时,则相应部分变异与误差部分变异的比值服从F( 1,n2)分布,因此可根据检验统计量F值做出假设检验的推断结论。检验的基本思想:首先根据检验假设H0计算各格子的理论频数,用反映各格实际频数与理论频数的吻合程度。若H0成立,理论上实际频数与理论频数应相等,但由于抽样误差的存在,样本中的A与T不会完全相等,但应相差不大,即在一次抽样中得到较大值的概率很小。若由现有样本得到了较大的χ2值(大于界值χ2(α,ν)),则按α检验水准拒绝H0,接受H1;否则不拒绝H0。多个样本率比较的分割法的基本思想:利用值的可加性原理,把2×k表分割成多个独立的四格表,这些四格表的自由度之和等于原2×k表的自由度,其值之和近似等于原2×k表的值。当进行多个样本率的两两比较时,为了保证假设检验中犯Ⅰ性错误的概率不变,须重新规定检验水准α,因分析目的不同,k个样本率两两比较的次数不同,故重新规定检验水准的估计方法亦不同。等级相关的基本思想:对于不符合正态分布的资料或等级资料,将两个变量的原始观察值分别由小到大编秩,然后利用量变量的秩次之差计算相关系数。标准化法的基本思想:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具有可比性。回归系数的t检验的基本思想:通过样本回归系数b与总体均数回归系数β进行比较来判断回归方程是否成立。配对设计资料的符号秩和检验的基本思想:假定两种处理效应相同,则其差值的总体分布是对称的,总体中位数为0。配对设计资料的符号秩和检验正太近似法的基本思想:由H0成立的总体中抽样,当观察例数比较多时,正、负秩和理论上应相等,即使存在差别,也只是某些随机因素造成的。因T++T-=n(n+1)/2,若H0成立,多数情况下T+和T-都应该在(T++T-)/2=n(n+1)/4附近,并且由差值d的随机样本中获得正、负秩和相差悬殊的可能性很小。因此若样本的正、负秩和相差太大,就有理由拒绝H0,接受H1;反之,不能拒绝H0。成组设计两样本秩和检验的基本思想:若H0假设成立,即可认为两样本是从同一个总体中抽取的随机样本,将二者混合后由小到大编秩,两样本组的平均秩和应大致相等,若有细微差别,也可认为是随机抽样造成的。也就是说,从相同总体中随机抽样,两样本平均秩和相差很大的可能性非常小,根据数理统计推断原理,这样的小概率事件在一次抽样中不可能发生。因此,实际研究中,若按上述方法计算的两样本平均秩和相差很大,就有理由拒绝H0,接受H1。小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。“小概率”的标准a是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定a=0.01,甚至更小。逐步回归分析的基本思想在供选择的个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当时,将该自变量引入回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。\n参考值范围可信区间(总体均数的区间估计)概念包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围意义大部分(如95%)变量值的所在范围反映的是总体参数在某在的范围的概率(95%)用途用于临床上辅助诊断的依据用于估计总体参数计算方法均数加减u倍的标准差均数加减t倍的标准误对象步骤①明确研究总体:从“正常人”总体中抽样②同一测定方法以控制系统误差③判断是否需要分组④根据专业知识确定单侧还是双侧医学参考值范围的估计方法:(1)正态分布方法:适用于正态或近似正态分布的资料。双侧界值:X±uσ/2S单侧上界:X+uσS,或单侧下界:X-uσS(2)对数正态分布方法:适用于对数正态分布资料。双侧界值:Lg-1(Xlgx±uσ/2Slgx)单侧上界:Lg-1(Xlgx+uσSlgx),或单侧下界:Lg-1(Xlgx-uσSlgx)(3)百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。双侧上界:P2.5和P97.5;单侧上界:P95,或单侧下界:P5总体均数的估计方法:一种是点估计,即用统计量估计总体均数;二是区间估计,亦称可信区间。(1)σ未知且n小:-tα/2,vsx<μ<+tα/2,vsx(2)σ未知,但n足够大,t分布逼近u分布:-uα/2sx<μ<+uα/2sx(3)σ已知:-uα/2σx<μ<+uα/2σx二项分布可信区间估计:当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率p的抽样分布近似正态分布,总体率的可信区间:Poisson分布可信区间估计:当样本阳性数X>50时,可按正态近似原理先求总体平均数的95%或99%可信区间:的的可信区间是指总体中自变量X取某个特定值x0时,应变量Y的总体均数。其100(1-a)%的可信区间为:,标准差和标准误的比较标准差标准误S==表示观察值的变异程度大小估计均数的抽样误差大小计算变异系数CV=100%估计总体均数可信区间-tα/2,vsx<μ<+tα/2,vsx确定医学参考值的范围进行假设检验计算标准误联系:标准误与标准差成正比;若标准差固定不变,可通过增加样本含量来减少抽样误差。两类错误:Ⅰ型错误:拒绝了实际上成立的H0,即样本来自μ=μ0的总体,由于抽样的偶然性,按α=0.05检验水准拒绝了H0,接受H1。这类在假设检验中拒绝了原本正确的H0的错误称为Ⅰ型错误。,理论上犯Ⅰ型错误的概率为α,α值得大小视研究目的而定。通常设α=0.05。Ⅱ型错误:不拒绝了实际上不成立的H0,即样本来自μ≠μ0的总体,由于抽样的偶然性,按α=0.05检验水准不拒绝H0,这类在假设检验中不拒绝原本不正确的H0的错误称为Ⅱ型错误。犯Ⅱ型错误的概率为β,它只有与特定的H1结合起来才有意义。\n同时减少α和β的方法是增加样本含量。1-β称为检验效能或把握度,即两总体确有差别时,按α水准能识别该差别的能力。如1-β=0.95表示:若两总体确有差别,理论上平均100次抽样中,有95次能得出两总体有差别的结论。直线相关和回归的区别与联系:⑴区别:①资料的要求不同:相关要求两个变量呈双变量正态分布;回归要求y服从正态分布,而x可以是精确测量和严格控制的变量;②统计意义不同:相关反映的是两变量间的伴随关系,二者的关联程度如何,而回归反映的是两变量间的依存关系,即因果关系,或从属关系;③分析的目的不同:相关分析的目的是描述两个变量间的相互关系,用r来反映这种关系的方向以及密切程度,而回归分析的目的是描述两个变量间的数量依存关系,从而进行统计预测和统计控制;⑵联系:①对于同一资料,r和b的符号一致,说明两变量间关系的方向;②相关系数与回归系数的假设检验是等价的,对于同一样本,tr=tb,实际应用中只检验其中之一即可;③二者可以相互解释,相关系数的平方和等于回归平方和占总平方和的比例,即反映应变量y的总变异中归因于x的部分;回归系数的意义偏回归系数的意义流行病学意义多元线性回归在其他自变量保持不变的条件下,自变量X改变一个单位是因变量Y的平均该变量。在其他因素不变的条件下,某因素改变1个单位时,疾病或死亡危险性的增加量。Logistic回归当其它协变量均不变时,xi每变化一个单位或一个等级时,比数比的自然对数(lnORi)平均变化bi个单位,可以反映xi对结局事件的作用强度。在其他因素不变的条件下,暴露因素使疾病或死亡发生的改变量。Cox回归当其它协变量均不变时,xi每变化一个单位或一个等级时,相对危险度的自然对数(lnRRi)平均变化bi个单位,可以反映xi对结局事件的作用强度。在其他因素不变的条件下,暴露组发病或死亡是非暴露组的倍数。率的标准化法:目的:消除混杂因素对结果的影响,使资料更具有可比性。其基本思想是:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具有可比性。标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。通常可从下列3种方法选用标准组:①以两组资料中任一组的年龄别人口数或构成比作为标准组;②以两组资料合并的各年龄组的人口数或构成比作为标准组;③以公认的或便于与他人资料比较的标准作为标准组。变量变换:目的:是使方差齐,使资料正态化,还可用于曲线的直线化。变换方法常用于对数变换①使服从对数正态分布的资料正态化;②使方差不齐切各组的变异度接近的资料达到方差齐的要求;③使曲线直线化,常用于曲线拟合。平方根变换①使服从Poisson分布的计数资料或轻度偏态的资料正态化;②使方差不齐且各样本方差与均数间呈正相关的资料达到方差齐的要求。平方根反正弦变换使总体率较小或总体率较大的二项分布资料达到正态或方差齐的要求。倒数变换数据两段波动较大的资料,课时极端值的影响变小偏回归系数标准化;多元线性回归方程中,各自变量的单位不同,其偏回归系数之间是无法直接比较的。需要对偏回归系数标准化,以消除量纲的影响。标准偏回归系数绝对值的大小,可用以衡量自变量对因变量贡献的大小,即说明各自变量在多元回归方程中的重要性。t分布与u分布相同点:t分布与u分布均为以0为中心的单峰对称分布。不同点:(1)t分布是一个分布族,t曲线的形状与自由度有关,自由度越小,t值越分散,曲线越低平;自由度越大,t值越往中间集中,曲线峰值越高。而u分布即标准正态分布的图形,是唯一的一条曲线。(2)特定自由度的t分布曲线与u分布曲线相比,峰值低而尾部高翘,相应区间内曲线下的面积小于u分布。\n联系:t分布的极限形式是u分布。随着自由度的增加,t分布逐渐接近u分布,当自由度n®¥时,t分布®u分布。正态分布、二项分布、poisson分布的区别和联系区别:二项分布、poisson分布是离散型随机变量的常见分布,用概率函数描述其分布情况,正态分布是连续型随机变量的最常见分布,用密度函数和分布函数描述其分布情况。联系:(1)二项分布与poisson分布的联系,当n很大,π很小时,σ2为一常数时,二项分布近似服从poisson分布(2)二项分布与正态分布的联系,当π0不太靠近0或1,且样本含量n足够大;或np和n(1-p)均>5时,二项分布近似正态分布(3)poisson分布与正态分布的联系,当n≥20时,poisson分布近似正态分布。不同分布的统计描述:正态分布资料对数正态分布资料等比级数资料偏态分布资料集中趋势均数几何均数中位数离散趋势标准差几何标准差四分位数间距误差:统计上所说的误差泛指测量值与真值之差,可分为随机误差和非随机误差。分类随机误差非随机误差系统误差非系统误差定义由随机因素引起的误差在试验过程中产生的呈现一定规律性的误差是在试验过程中由于偶然的失误所造成误差,又称过失误差举例抽样误差仪器为校准数据录入错误特点具有随机、变化、不恒定的性质,不可避免。具有累加性。观察值有系统性、方向性、周期性的偏离真值。处理可用统计学的方法估计其大小应设法消除其影响,不能消除的估计其大小通过认真核对资料予以消除减少抽样误差的方法:(1)改进抽样方法(增加样本的代表性),误差从大到小:整群抽样³单纯随机抽样³系统抽样³分层抽样(2)增加样本量;(3)选择变异程度较小的研究指标。偏倚:在临床试验过程中,由于对某些非处理因素未加严格控制,致使这些非处理因素对试验效应产生干扰,此种干扰所造成的系统误差称为偏倚。偏倚只能控制但不能完全避免,严格遵守实验设计的基本原则是控制偏倚的重要途径。可分为选择性偏倚、测量性偏倚和混杂性偏倚。在完全随机设计资料的方差分析与随机区组设计资料的方差分析在试验设计和变异分解上有什么不同?实验设计变异分解完全随机设计采用完全随机化的分组方法,将全部实验对象分配到g个处理组(水平组),各组分别接受不同的处理。随机区组设计随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。分类变量资料和计量资料分类变量资料:将观察单位按属性或类别计数所得的资料。计量资料:这种由数值变量的测量值组成的资料。变量类型变量值表现实例资料类型数值变量定量(具体数值)身高计量资料分类变量多分类无序所分类别或属性之间无顺序和程度上的差异血型计数资料(等级资料)有序有顺序和程度上的差异文化程度二分类对立的两类属性性别二分布资料\n适用于适用条件亚分类亚分类适用资料类型亚分类研究目的t检验①样本均数与总体均数比较(σ未知且n<50或n<30);②成组设计的两小样本均数的比较(n1,n2均小于30或50);③配对设计的两样本均数比较。①当样本含量较小(n<50或n<30)时,要求样本来自正态分布总体;②用于成组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。单样本t检验样本均数与已知总体均数的比较推断样本所代表的总体均数μ与已知总体均数μ0有无差别配对t检验配对设计资料的两均数的比较推断某种处理有无作用,或两种处理的效果有无差别两样本t检验完全随机设计的两样本均数的比较推断两样本所分别代表的总体均数是否相等u检验①样本均数与总体均数比较(σ已知,或n>50);②成组设计的两小样本均数的比较(n>50)单样本u检验样本均数与已知总体均数比较推断样本所代表的总体均数μ与已知总体均数μ0有无差别两样本的u检验完全随机设计的两样本均数的比较推断两样本所分别代表的总体均数是否相等方差分析1)两个或多个样本的均数间的比较;2)分析两个或多个因素间的交互作用;3)回归方程的线性假设检验;4)多元线性回归分析中偏回归系数的假设检验等。5)两样本方差齐性检验1)各样本是相互独立的随机样本;2)个样本来自正态分布总体;3)各总体方差相等,即方差齐。概括地说,就是任何一个观察值都是独立地来自具有等方差的正态总体。完全随机设计资料的方差分析完全随机设计的多个样本均数比较的资料推断各个样本所代表的总体均数是否相等配伍组设计资料的方差分析配伍组设计的多个样本均数比较的资料推断各样本所代表的总体均数是否相等,但考虑了个体差异对试验效应的影响重复测量数据的方差分析二项分布⑴各观察单位只能具有两种相互对立的结果⑵已知发生某结果的概率为π,其对立结果的概率为1-π⑶n次试验是在相同的条件下进行的。样本率与总体率的比较推断样本率所代表的未知总体率π与已知总体率π0是否相等两样本率的比较推断两个样本各自代表的两总体率是否相等Poisson分布⑴各观察单位只能具有两种相互对立的结果⑵已知发生某结果的概率为π,其对立结果的概率为1-π⑶n次试验是在相同的条件下进行的⑷π<0.05。样本阳性数与总体平均数的比较断样本所代表的未知总体平均数μ与已知总体平均数μ0是否相等两样本阳性数的比较推断两个样本各自代表的两总体平均数是否相等非参数检验(1)资料不符合参数统计法的应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当的变量转换方法使之满足参数统计条件;(4)在资料满足参数检验的要求时,应首选参数法,以免降低检验效能配对设计的符号秩和检验推断其差值是否来自中位数为零的总体成组设计两样本比较的秩和检验完全随机设计的两个样本的比较推断两样本分别代表的总体分布是否相同成组设计多样本比较的秩和检验完全随机设计的多个样本的比较推断各样本分别代表的总体分布有无差别随机区组设计资料的秩和检验配伍组设计资料的比较\n适用于适用条件亚分类亚分类适用资料类型亚分类研究目的检验①两个总体率间或构成比间有无差别;②多个总体率间或构成比间有无差别;③多个样本率间的多重比较;④两个分类变量间有无关联性;⑤两个总体率间或构成比间有无差别;四格表资料的检验:⑴两个或多个样本率(或构成比)的比较⑵关联性检验⑶频数分布拟合优度检验配对四个表资料的检验两种检验方法、培养方法、诊断方法的比较行*列表资料的检验:①多个样本率的比较,②两个或多个构成比的比较,③双向无序分类资料的关联性检验。线性回归模型①定量描述两变量之间的线性数量依存关系;②利用回归方程进行预报;③利用回归方程进行统计控制。⑴线性:任意给定的X多对应的应变量Y的总体均数与自变量X呈线性关系;⑵独立:任意两个观察单位之间相互独立;⑶正态:任意给定的X值,Y均服从正态分布;⑷等方差:在自变量X的取值范围内,不论X取什么值,Y都具有相同的方差。直线相关了解两个数值变量间是否存在相关关系,以及这种关系的密切程度和方向如何。等级相关①不服从双变量正态分布②总体分布未知的资料③原始数据用等级表示④原始数据一端或两端无确切值多元线性模型描述一个因变量Y与多个自变量X1,X2,…Xm间的数量关系。①影响因素分析②估计与预测③统计控制①线性:Y与X1,X2,…Xm之间具有线性关系;②独立:各观测值Y之间相互独立;③正态、等方差:残差ε服从均数为0、方差为σ2的正态分布,等价于对于任意一组自变量X1,X2,…Xm,应变量Y均服从正态分布且方差齐。Logistic回归研究因变量是二分类或多分类观察结果与影响因素之间的关系⑴因变量Y不满足正态性⑵有些自变量对因变量的影响为非线性生存分析①对生存状况进行统计描述(生存概率、生存率、中位生存时间);②寻找影响生存时间的“危险因素”和“保护因素”;③估计生存率和生存时间长短,进行预后评价。①样本要有代表性,由随机抽样的方法获得,要有一定的数量;②完全数据所占的比例不能太少,即截尾值不宜太多;③截尾值出现的原因无偏性;④生存时间尽可能精确;⑤缺项要尽量补齐。研究协变量X与观察结果即生存函数之间的关系Cox比例风险回归模型通过风险函数和基础风险函数的比值反映协变量对生存时间的影响\n数值变量资料的假设检验t检验单样本t检验:t=v=n-1配对t检验:t=v=n-1两样本t检验:t==v=n1+n2-2u检验单样本u检验:u=两样本的u检验:u==方差分析完全随机设计资料的方差分析:单因素方差分析的计算公式变异来源SSvMSF总变异n-1组间变异k-1组内变异SS总-SS组间n-kSS组内/v组内*C为校正系数C=配伍组设计资料的方差分析:两因素方差分析的计算公式变异来源SSvMSF总变异n-1处理组k-1SS处理/v处理MS处理/MS误差配伍组b-1SS配伍/v配伍MS配伍/MS误差误差SS总-SS处理-SS配伍(k-1)(b-1)SS误差/v误差*C为校正系数C=b为配伍组数多个样本均数间的两两比较(Newman-Keuls):简称q检验,q==分类资料的假设检验二项分布二项分布:又称为贝努里试验:P(x)=Cnxπx(1-π)n-x服从二项分布资料的假设检验:(1)样本率和总体率的估计:直接计算法:最多有k例阳性的概率:P(x≤k)=最少有k例阳性的概率:P(x≥k)==1-\n正态近似法:u==(2)两样本率的比较:可用u检验。u==为合并阳性率,=(x1+x2)(n1+n2)x1,x2为两个样本的阳性例数。Poisson分布Poisson分布:P(X)=P(0)=P(x)=服从Poisson分布的假设检验:(1)样本均数与总体均数的比较:适用于μ0<20,且样本阳性数X较小作单侧检验时。直接计算法:最多有k例阳性的概率:P(x≤k)=最少有k例阳性的概率:P(x≥k)==1-正态近似法:当μ≥20时,Poisson分布逼近正态分布。u=(2)两样本阳性数的比较:当两样本阳性数X1,X2均大于20时,可用u检验。两样本观察单位(时间、面积、容积等)相同时:u==两样本观察单位(时间、面积、容积等)不同时:u=检验四格表资料的检验:资料特点检验方法当n≥40且所有的T≥5检验的基本公式四格表资料检验的专用公式当n≥40且所有的T≥5,且P≈α时四格表资料的Fisher确切概率法当n≥40,但1≤T≤5时四格表资料的检验的校正公式四格表资料的Fisher确切概率法当n<40,或T<1时四格表资料的Fisher确切概率法v=1,尤其是n小时(当v≥2时一般不做校正)连续性校正(1)四个表资料检验的专用公式:(2)四个表资料检验的校正公式:配对四个表资料的检验:v=1(条件为:b+c≥40)v=1(条件为:b+c<40)\n行*列表资料的检验:专用公式:自由度v=(行数-1)(列数-1)双向无序分类资料的关联性检验:Pearson列联系数多个样本率比较的分割法:重新规定检验水准的估计方法通常有两种情况:(1)多个实验组之间的比较:(2)实验组与同一对照组的比较:直线回归与相关分析直线相关:直线相关系数:总体的为ρ,样本的为r。相关系数的假设检验:常用t检验:(或直接查t界值表)直线回归:回归方程为:回归方程的假设检验:检验方法有方差分析和t检验①方差分析:各部分的自由度为:=+=n-1,=1,=n-2各部分变异的计算公式为:SS总=SS剩余=SS总--SS回归统计量F的计算公式:②回归系数的t检验:;;;为剩余标准差,是指扣除了x因变量线性影响后离散程度。回归模型的拟合优度假设检验:决定系数\n非参数检验配对设计资料的符号秩和检验:当n>50,超出附表的范围,用正态近似法作u检验:若相同秩次较多时(不包括差值为0者),计算校正uc:其中tj为第j(j=1,2…)个相同秩次的个数。成组设计两样本比较的秩和检验(计量or等级)若n1或n2-n1超出了T界值表的范围,可用正态近似法:式中N=n1+n2,0.5为连续性校正数。若相同秩次较多(如超过25%)时应进行校正,其中tj为第j个相同秩次的个数成组设计多样本比较的秩和检验Ti为各组的秩和,ni为各组例数,N=Σni当相同秩次较多时(如超过25%),应计算校正值HCHC=H/C,式中C=1-Σ(tj3-tj)/(N3-N)多个样本间两两比较的秩和检验式中,、和nA、nB分别为任2个对比组(A、B)的平均秩和与样本含量,,k为处理组数,N为各处理组的总例数,H为秩和检验中算得的统计量H值或Hc值。随机区组设计资料的秩和检验当处理组数k或配伍组数b超出M界值表的范围时,可采用近似x2分布法:式中,k为处理组数,b为配伍组数,Ti为第i个处理组的秩和。当各区组间相同的秩次较多时,须进行校正:C=1-Σ(tj3-tj)/bk(k2-1)。式中,t为各区组内第j个具有相同秩次的个数,b为配伍组数,k为处理组数。多个样本间两两比较的秩和检验其中,k为处理组数,b为配伍组数,TA、TB分别为对比组的秩和,是其对应的标准误。spearman等级相关spearman等级相关系数rs:式中d为每对观察值所对应的秩次之差;n为对子数相关系数检验:当>50时,可用检验:\n直线回归总体回归系数的区间估计式中sb为回归系数的标准误;n-2为自由度。直线回归的置信区间估计是指总体中自变量X取某个特定值x0时,应变量Y的总体均数直线回归个体Y值的容许区间估计表示当自变量X取某个特定值时,估计因变量y值个体值的波动范围多元线性回归分析方程中参数的估计可用最小二乘法求得,也就是求出能使估计值和实际观察值的误差平方和为最小值的一组回归系数值。对模型及偏回归系数的假设检验:1、对模型的假设检验—方差分析(F检验)2、对偏回归系数的假设检验—方差分析(F检验)和t检验3、标准偏化回归系数logistic回归模型:参数估计的基本思想:先建立似然函数与对数似然函数,求使对数似然函数最大时的参数值,其估计值即为最大似然估计值。偏回归系数与比数比(优势比)有对应关系。在其它影响因素相同的情况下,某危险因素两个不同暴露水平和发病的优势比为:为调整后优势比,表示扣除了其它自变量影响后危险因素的作用。由于值与模型中的常数项无关,因此在危险因素分析中常常被视为无效参数。对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度(RR)的近似估计。即:模型评价包括三部分内容:一是对模型中的每个自变量进行检验;二是对所建立的回归方程进行拟合优度检验;三是对所建立的回归方程预测准确度的检验。Cox回归模型①只考虑一个协变量X时:RR=exp(β)②考虑多个危险因素,其中Xi增加1个单位而其它变量都不变时,相对危险度:RRi=exp(βi)③同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为:RR=RR1×RR2若,则,该因素为危险因素;若,则,该因素为保护因素;若,则,该因素为无关因素。\n模型参数意义参数估计多元线性回归分析也称复线性回归分析,它研究一组自变量如何直接影响一个因变量。假定因变量Y与自变量xi间存在如下关系:式中,是常数项,称为偏回归系数,βi的含义为在其它自变量保持不变的条件下,自变量xi改变一个单位时因变量Y的平均改变量。ε为随机误差,又称残差,它表示Y的变化中不能由自变量xi解释的部分。最小二乘法logistic回归模型设因变量是一个二分类变量,其取值为=1和=0。影响取值的个自变量分别为。在个自变量(即暴露因素)作用下阳性结果发生的条件概率为,则logistic回归模型可表示为:作logit变换后,logistic回归模型可以表示成如下的线性形式:常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。偏回归系数表示在其它自变量固定的条件下,第个自变量每改变一个单位时logit的改变量。它与比数比(优势比)有对应关系。最大似然法Cox回归模型不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。h(t,X):表示具有协变量X的个体在时刻t的危险率,又称为瞬时死亡率。T为生存时间,H0(t):所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。表示与生存时间可能有关的协变量或交互项。其中的因素可能是定量的或定性的,在整个观察期间内不随时间的变化而变化。为Cox模型的偏回归系数,是一组未知的参数,需根据实际的数据来估计。当其它协变量都不变时,每变化一个单位,相对危险度的自然对数()变化个单位。借助于偏似然函数\n应用相对数时的注意事项:①、计算相对数的分母不宜过小;②、分析时不能以构成比代替率;③、对观察单位数不等的几个率,不能直接相加求其平均虑;④、比较相对数时应注意其可比性;⑤、样本资料的相对数也存在抽样误差,进行统计推断时应遵循其抽样误差的分布规律,进行参数估计或假设检验。率的标准化时应注意的事项:①标准化的目的在于消除混杂因素对结果的影响,使计算的标准总率具有可比性;通常,直接法因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用间接法; ②标准化率并不表示某地实际水平,只能表明对比资料间的相对水平,且同一资料用不同“标准”标化,所得标化率不同,但是对比时的分析结论通常不变; ③对于存在混杂因素的两个总率进行比较时,若不进行标准化,也可通过比较两组的各年龄别发病(死亡)率,得出正确结论; ④比较两样本的标准化率时,还应进行两样本标准化率的假设检验。假设检验时应注意的事项:①要有严密的抽样研究设计---假设检验的前提②正确选用检验方法③正确理解“显著性”的含义④对差别有无统计学意义的判断不能绝对化。⑤当检验结果为接受原假设时,如果检验效能较差,应考虑结论是否可靠。⑥假设和水准需要事先确定。假设检验与检验水准的注意事项:检验假设和检验水准应该在研究的设计阶段就确定,不能等到已知实验结果后,再根据个人需要和实验数据确定,更不能随意修改。配对四个表资料的检验注意事项:本方法只适用于样本含量不太大的资料,它仅考虑了两种方法结果不一致的情况,而未考虑样本含量n和两种方法一致的两种情况,所以当n很大且a与d的数值也很大,而b与c的数值相对较小时,即使检验统计结果有统计学意义,其实际意义也不大。行*列表资料的检验注意事项:⑴一般人行*列表资料中各格的理论频数不能小于1,且1<=T<5格子数不能超过总数的1/5。如果出现以上情况,可通过以下方法解决:①最好是增加样本含量,使得理论频数增大;②根据专业知识,考虑能否删去理论频数太小的行和列,能否将理论频数太小的行和列于性质相近的邻行或邻列合并;③改用双向无序R*C的Fisher确切概率计算法。⑵当多个样本率比较时,所得统计推断为拒绝H0,接受H1时,只能认为各样本率间总的来说有差别,但不能说明任两个样本率间均有差别,需要做多个样本率的多重比较。⑶对于有序的R*C表资料不宜用检验。对于R*C表的资料要根据分类类型和研究目的选用恰当的检验方法。服从Poisson分布的假设检验注意事项:对于总体均数可以用乘法将小单位化大,也可以用除法将大单位化小,对于样本均数,只能用除法将大单位化小,而不能用乘法将小单位化大。直线相关分析的注意事项:⑴计算相关系数时首先绘制三点图,判断两变量是否存在线性趋势;⑵相关分析时要求X、Y均为随机变量,而不能用于事先界定X、Y的资料;⑶相关分析时必须剔除异常点;⑷相关分析要有实际意义,两变量相关,并不一定存在联系,可能是另外一种因素引起的;⑸分层资料不宜盲目的合并,进行相关分析;同时进行相关分析时,如果不能确定各层研究对象具有同质基础,不宜盲目合并。⑹不能将假设检验中显著性大小理解为两变量相关程度的大小,后者是由相关系数的大小决定的。直线回归分析的注意事项:Ⅰ回归分析要有实际意义,注意变量之间的内在联系和规律,两变量之间还必须是因果关系;Ⅱ对资料的要求:一般y来自正态总体的随机变量,x可以是正态总体的随机变量,也可以是精确测量和严密控制的值;Ⅲ进行分析前应先绘制散点图;Ⅳ必须剔除一些异常点;Ⅴ回归方程的适用范围不能随意外延。其适用范围一般以自变量取值范围为界。绘制直线回归的回归线的注意事项:①不应超过x的实测值范围;②绘制的直线必然通过(,);③直线的左端延长与纵轴的焦点必然是截距a。\n实验设计中处理因素的注意事项:⑴要区分处理因素和非处理因素;主要依据研究目的来确定;⑵抓住实验中的主要因素,且因素的水平数不宜过多;⑶处理因素必须标准化,即保证处理因素在整个实验过程中始终如一,保持不变;交叉设计的注意事项:⑴处理因素只有2个水平(A,B),且2个非处理因素(实验阶段、受试对象)与处理因素之间无交互作用;⑵两个实验阶段之间要安排一定的间隔时间,以便消除前一阶段治疗措施的残留效应,保证两个阶段的起始条件一样;⑶两次观察的时间不能过长,处理效应不能持续过久;⑷适用于病情较稳定,病程可以分阶段,短期治疗可见疗效的疾病;⑸为消除患者的心理作用或防止研究者的暗示,一般多采用盲法。多元线性回归应用时的注意事项1.样本含量:应注意样本含量与自变量个数的比例。样本含量至少为变量数的5-10倍。2.方程“最优”问题:目的是精选自变量以求得拟合效果最好的多元回归方程。最优子集回归是选择一组使回归方程拟和最好的自变量;而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用合适的方法。3.关于逐步回归:进行逐步回归分析时,随剔选变量界值的不同,所得的回归方程不一定相同。方程中引入什么样的变量,应该由研究者结合专业知识以及经验来确定。4.多元共线性:共线性诊断常用方法有方差膨胀因子和特征根系统。5.异常值识别与强影响分析:常用方法有学生化残差和Cook's距离。RR(相对危险度):表示暴露组与非暴露组发病率(或死亡率)的比值,也称为危险比。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。比数比(OR):病例对照研究中表示疾病与暴露间联系强度的指标,也称比值比。相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。OR>1,说明该因素是疾病的危险性增加,为危险因素;OR<1,说明该因素是疾病的危险性减小,为保护因素;同质:统计学中对研究指标影响较大的,可以控制的主要因素。变异:同质基础上各观察单位某变量值的差异。总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限总体和无限总体。样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表性的前提:同质总体,足够的观察单位数,随机抽样。总体的三个基本特征:同质性、大量性、差异性。现象不同质,无法将其结合在一起;少量单位,反映不出现象的规律性;各个单位都一样,没有差别,无须进行统计研究。1.总体是相对的,总体的大小是根据研究目的而确定的。2.样本应有代表性,即应该随机抽样并有足够的样本含量。随机性就是要保证总体中的每个个体有相同的几率被抽作样本。随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法等概率抽样的方法包括:简单随机化抽样、系统抽样、分层抽样、分群抽样。参数:总体的统计指标。为固定常数。统计量:样本的统计指标。为参数附近波动的随机变量。例如研究中国25岁以上的成年人高血压患病率,对全国25岁以上的成年人进行普查,所得到的患病率为参数;若用随机的方法抽出一部分地区的人进行检查,计算的患病率则为统计量。概率:是描述随机事件发生的可能性大小的数值。频率与概率频率与概率的区别:(1)频率:某种现象在样本中出现的比率,是样本特征。样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。(2)概率:随机事件发生可能性的数值度量,常用P表示,取值范围0≤5时,u检验↘两样本来自正态分布且方差齐但不满足u检验条件,卡方检验回归分析中,总变异,回归变异,剩余变异的统计学意义总变异:,为Y的总离均差平方和,反映未考虑与的回归关系时的变异。回归变异SS回归:即,称为回归平方和,反映在Y的总变异中,由于X与Y的直线关系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。剩余变异SS剩余:即,称为残差平方和或剩余平方和(residualsumofsquares),反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。在散点图中,各实测点离回归直线越近,SS剩余也就越小,SS回归越大,说明直线回归效果越好。多元线性回归的共线性和其诊断指标。多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。诊断指标:①方差膨胀因子()(),其中为与其余()个自变量线性回归的决定系数。值越大,多元共线程度越严重。当时,可认为多元共线性严重存在。②特征根系统:主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根:()当且对应的方差比大于0.5时,可认为多元共线性严重存在。写出百分位数计算公式,并解释各符号含义:百分位数,0