- 2022-08-24 发布 |
- 37.5 KB |
- 38页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
医学统计学整理资料
统计有三大特性,用三句话予以简单的概括:实用性丰富性公平性统计学是研究数据搜集、整理与分析的科学,是认识社会和自然现象数量特征的重要工具。医用统计学(MedicalStatistics):运用概率论和数理统计的原理,方法,结合医学实际,研究数字资料的搜集,整理,分析,推断的一门学科。统计结论的正确取决于:实验设计,资料搜集,数据管理等;随机事件(Randomevent):一次试验结果不确定,,在一定数量重复条件下呈现出规律性。同质(homogeneity)的事物:研究的事物性质基本相同总体(population:是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合有有限总体和无限总体之分。样本:根据随机化原则从总体中抽取的一定数量(samplesize)的个体,称为样本,用样本信息来推断总体特征。从总体中抽取部分个体的过程称为抽样。抽样必须遵循随机性、可靠性、可比性、代表性代表性:指样本中的每一个个体必须符合总体规定的同质性。随机性:指总体中的每个个体都有相同几率被抽作样本。随机不是随便或随意。可靠性:实验结果的可重复性即由样本结果推测总体的结论有较大的可信度。可比性:即处理组的样本与对照组的样本,除处理因素不同外,其他可能影响实验结果的因素应基本保持相同。同质:是指影响被研究指标的非实验因素相同。变异:同质基础上的各观察单位(亦称为个体)之间的差异为变异。统计学是研究变异的科学。没有变异就不需要统计学。总体的统计指标称为参数;样本的统计指标称为统计量。误差:观察值与实际值的差异,成为误差。分为:过失误差(可以避免);系统误差(可以);随机测量误差(无法避免);随机抽样误差(无法避免);抽样误差:总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。由于生物的个体变异是客观存在的,因而抽样误差是不可避免\n的,但抽样误差有一定的规律性概率:是反映某一事件发生的可能性大小的量,常用符号P表示。变量:观察对象的特征或指标。对变量进行取值所采用的工具或标准称为测量尺度。测量的结果称为变量值常见的四种抽样方法:随机抽样、系统抽样、分层抽样、整群抽样抽样误差:分层抽样<系统抽样<单纯随机抽样<整群抽样资料类型根据是否定量划分为:计量资料计数资料等级资料计量资料:用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。常用:平均数,标准差,t检验,方差分析,相关与回归等分析。计数资料:将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料常用:率、构成比、卡方检验等。等级资料:将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。常用:率、构成比、秩和检验等。等级资料介于计量资料与计数资料之间。不同类型的资料可以进行转化,但资料只能由“细”向“粗”转化统计工作的基本步骤:即设计、搜集资料、整理资料、分析资料。是相互联系,不可分割的设计:有调查设计和实验设计之分。调查设计一般包括专业设计和统计设计实验设计:医学实验的基本要素包括处理因素、受试对象和实验效应三部分。实验设计应遵循对照、随机、重复(即样本例数)的原则。计量资料的统计描述频数分布表:对资料中各变量值的频数汇总而成的表格,用来反映各变量值与其频数间的关系,可以观察该资料的分布类型。是最基础的统计描述。1..计算极差:找出观察值中最大值与最小值,二者之差称为极差(全距Range)。R表示。本例134.5-110.2=24.3。2.决定组数、组段、组距:组数:不宜过多或过少。8-—12组\n组段:变量值的范围。有上限,下限。组距:相邻两组段下限值之差称为组距,一般等距,R/组数之商。本例:预分为组,组距:24.3/10=2.43,取2自上而下、从小到大排列。第一组段包括最小值,最后组段包括最大值。3)列表划记:将原始数据用划记法做出频数表,得出各组段的频数、频率、累计频率。注意事项:A:除最后组段除外,组段无上限。B:尽量做到等组距。特殊情况特殊对待。如年龄,数值差异很大;(有时可以非等距即组距有时可以不相等)C:要有频数、频率、累计频率标记频数表的用途:揭示频数的分布特征:两个重要特征:集中趋势:数值高低不等,但中等水平的人数最多。离散趋势:数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。两方面含义:数值大小和位置。集中趋势:平均数:用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数\n算数平均数:对同质事物求均数才有意义适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法均数的两个重要属性:几何均数:适用于观察值为非对称分布,差距较大,等比资料、对数正态分布资料(一种正偏态分布)如:抗体滴度,药物效价等计算方法:直接法,加权法直接法:当观察例数不多时采用。加权法:观察例数多时采用。直接法:加权法:G==几何均数的应用:常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;观察值不能有0观察值不能同时有正值和负值。同一组资料求得的几何均数小于算术均数。中位数:位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。适用于:资料偏态分布;两端无确定数值;资料分布不清楚;中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。\n但理论上,中位数等于算术均数。潜伏期,毒物测定值等用中位数表示其集中趋势。百分位数:常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。也是一种位置指标。对于一些偏态分布的医学资料百分位数常用于确定医学正常值范围,不用样本观察值的极差,习惯上用包括95%正常人的界值,百分位数是数列的百分界值。如:白细胞数的确定,过高,过低都属异常,故计算P2.5,P97.5,为双侧的正常值范围。如:肺活量95%正常值范围,只有过低算异常,故计算P5.如:尿铅,过高为异常,故计算P95.离散趋势:全距,四分位数间距,方差,标准差,变异系数全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。(适用于任意分布的资料)四分位数间距:将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。(适用于任意分布的资料特别是描述偏态分布以及分布一段或两端没有确切数值资料的离散趋势)意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。方差和标准差:对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,为了消除例数的影响,将其取均值,就是方差。(适用于正态或近似正态分布资料)标准差:方差的平方根的正值。总体的标准差:样本的标准差:自由度=n-1样本的标准差:\n分组资料的标准差计算意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。标准差应用:反映一组观察值的离散程度:直接比较标准差:数值单位相同;计算变异系数:数值单位不同;变异系数也称离散系数:标准差与均数之比用百分数表示。公式:常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。(适用于正态或近似正态分布资料)比如:身高,体重的变异比较;对变量值单位相同,但均数相差较大的资料,用标准差和用变异系数来比较它们的离散程度,其结论可能是不同的。正态分布:频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布正态分布用N(µ,σ2)表示,其位置与均数有关,形状与标准差有关。频数高峰在中央,两边对称(或基本对称)地逐渐减少,称为正态分布(或近似正态分布)。高峰位于左侧,正偏态分布;位于右侧,负偏态分布。医学资料多为正偏态。均数-众数>0,正偏态;均数--众数<0,负偏态;\n估计医学正常值范围:双侧:均数±1.96倍标准差单侧:均数±1.645倍标准差另外一个重要应用就是计算标准误上述均数±标准差法适用于正态分布以及近似正态分布的资料,也适用于以一定方法能将非正态分布资料转换成正态分布的资料对其他偏态资料求正常值,不宜应用均数±标准差法,而应该用百分位数法。标准正态分布:为了应用方便,常将式进行变量变换,即:u变换.所得到的新变量u的分布即为标准正态分布。u的含义:变量到均数间的距离相当于标准差的倍数。u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布亦称u分布。标准正态分布N(0,1).(不是任意类型数据都能进行u变换)正态分布的特征和分布规律:曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。f(u=0)=0.3989曲线关于直线x=μ左右对称。正态分布有两个参数:均数,标准差;标准正态的参数分别为:0,1正态分布的面积分布有一定规律。正态分布和标准正态分布曲线下面积分布规律\n95%正常值范围的估计实验中,常以作为上下警戒值,以作为上下控制值。正态分布是很多统计方法的理论基础关于离均差平方和的四条规则:1.原始数据加减一个数,离均差平方和或积和不变。2原始数据除以一个数,则简化计算出来的离均差平方和要乘以该数的平方。3如将两变量之一除以一个数,则离均差积和要乘以该数,如同时另一变量也除以一个数,则离均差积和要同时乘以这两个数。4各观察值同乘以一个不等于零的常说后,中位数等于原来的常数倍,标准差等于原来的常数倍,变异系数不变。均数的抽样误差和标准误:由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。即:如何估计?用样本均数的标准差来估计,称标准误。标准误越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。计算公式:即:由总体标准差,样本例数求得。但通常以样本标准差作为总体标准差的估计值。因此:\n当样本例数一定时,标准误与标准差成正比;当标准差一定时,标准误与样本含量n的平方根成反比。增加样本含量可以减小抽样误差。与标准差的区别:标准差:表示一般变量值的离散程度;标准误特别说明样本均数这一变量值的离散程度。标准误的应用:1用来衡量抽样误差的大小:标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;2结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间。3用于假设检验。抽样时样本量大小决定了样本均数分布的形状,当样本量足够大时,均数分布趋向正态分布。总体均数置信区间的估计区间估计:根据选定的置信度估计总体均数所在的区间(a<μ50)足够大也可参考u分布进行总体标准差未知,样本例数较小(n<50)按t分布原理,依据自由度,查出某个概率相应的t界值,\n95%置信区间的意义:理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5个置信区间未包括总体均数.这是针对某个总体进行的参数估计,对多个总体的参数推断又是什么呢?要用假设检验,u,t-检验。由于抽样误差,从某总体中随机抽得的样本,得到的样本均数与该总体的均数不同;同一总体中两次抽样的样本均数也不相同。原因在于:总体均数不同(同时有抽样误差);总体均数相同,差别仅由抽样误差所致。假设检验的思想:反证法和小概率事件假设检验的步骤:1建立检验假设H0和设定检验水准备择假设H1:即差别不仅是由抽样误差所致,而且总体参数不同。H1是和H0相联系的,对立的假设。(μ≠μ0,μ>μ0,μ<μ0)双侧,单侧检验:根据专业知识,μ可能大于u0,也可能小于μ0,称双侧检验;若认为μ大于、等于不可能小于μ0(或相反),为单侧检验。若不能确定单侧的情况,应采用双侧检验。确定检验水准:也叫显著性水准,用α表示。即:拒绝了实际上成立的H0的概率;一般取0.05,或0.01.也就是犯一类错误的几率2计算统计量3确定概率P值,作出统计推断结论如果P大于α,是接受H0的区间;如果大于或等于界值的范围,P小于或等于α,是拒绝H0区间4做出结论。第一类错误与第二类错误:假阳性错误,统计上称为第一类错误用α表示。即无效假设H0是正确的,但被拒绝,误判为有差别(弃真错误)。故统计学上有意义的界限实际上就是允许犯第一类错误的界限。假阴性错误:,统计学上称为第二类错误即无效假设不正确,,但算得的统计量t没有超过t0.05的水平从而接受了无效假设,错误地得出无差别的结论(取伪错误)。用β表示。第一类错误减小,第二类错误的概率就增大了\n。一般来说,定0.05为有统计学意义的水平是比较适宜的。其他条件不变,增大样本含量可使第二类错误的概率减小。一般做假设检验时,先控制犯第一类错误α的概率,在此基础上使β尽量的小要降低β一般要增大样本容量。拒绝H0只能犯一类错误,不可能犯二类错误;不拒绝H0,只能犯二类错误,不可能犯一类错误。1-β称为检验效能或把握度:即两总体有差别,按水准α能发现它们有差别的能力。要同时减少α及β唯一的方法是增加样本例数。实际差别与统计学意义统计学意义:抽到这样大统计量的可能性很小,可以拒绝H0,但并不意味两总体均数差别很大。样本量很大时,即使均数差别不大,统计学意义却显著。样本小时,即使均数差别很大,统计学意义却不显著。u检验和t检验常见的假设检验的方法,因其统计量为u,、t得名。u检验条件:总体标准差已知,资料服从正态分布情况下1样本均数与总体均数比较2两大样本均数的比较;(n1n2均大于50,课本上要求均大于100)t检验条件:用于样本量小、总体标准差未知时1样本与总体均数比较2配对设计资料比较3两样本均数比较(同时要求两样本的总体方差相同,服从正态分布)t检验的条件:正态总体,两总体方差相等。如果:两样本方差不齐,则应该用t’检验。方差齐性检验查F界值表,若大于相应的界值,则有统计学意义。两个独立样本的计量资料,当满足正态性和方差齐性时,可用t检验推断两个总体均数是否相等。当组数大于2时,为推断多个总体均数是否全相等时,能否每两个样本作一次t检验呢?若用两样本均数比较的t检验进行多重比较,将会加大犯Ⅰ类错误(把本无差别的两个总体均数判为有差别)的概率。当H0(多个总体均数相等)真时,由随机样本计算一个t,事件“|t|>t0.05(v)”是小概率事件,但若由随机样本计算多个t,事件“|t|>t0.05(v)”就不再是小概率事件了。对于4组的两两比较,共比较C42=6,每次比较犯I类错误的概率为αa,不犯I类错误的概率为1-αa,比较6次都不犯I类错误的概率为(1-a)6,比较6次至少有一次犯I类错误的概率为1-(1-a)6>>0.05。例如aα=0.05,1-(1-a)6=0.265>>0.05t分布:t分布以0为中心,两侧对称的类似正态分布的一种分布,这就是t分布随着样本所包含的个体数(n)的变化,t分布曲线的峰度有变化。当n小时,曲线低平;n越大,越接近正态分布t\n分布曲线的形状是随自由度的大小有规律的变动的。这里的自由度是ν=n–1,当自由度ν趋向于∞时,t分布趋向于均数为0,标准差为1的正态分布,在一般情况下,t分布形状较正态分布的低平,只有当ν为∞时,t分布于标准正态分布相同。因而t0.05(ν)≧1.96t0.01(ν)≧2.58ν越小,t分布曲线越低平,t0.05(ν)t0.01(ν)的值就比1.96和2.58大得多。因此在样本较小时,计算总体均数的95%可信区间不能用公式均数±1.96标准误,而需用均数±t0.05(ν)标准误(n<50)方差分析方差分析是检验两个或两个以上样本均数间差别有无统计意义的统计检验方法。前提条件:各组总体均数为正态分布,方差齐。如果检验两个样本均数间差别的统计意义可以用t检验法,也可以用方差分析法。方差分析的基本思想是:将所有测量值间的总变异按照其变异的来源分解为多个部份,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。方差分析主要用于:1均数差别的显著性检验2、分离各有关因素并估计其对总变异的作用3、分析因素的交互作用,4、方差齐性检验方差分析又称F检验,样本均数间之所以有差别,有两种原因造成:首先它必然有随机误差的影响;其次如果各组接受的不同处理方法是有不同作用的,那么它也有由于处理不同所造成的影响。如果当处理因素没有作用时,用方差分析算的的组内均方与组间均方都是σ2的估计记用组间均方除以组内均方所得的统计量为F,如无抽样误差,F应该等于1。但由于抽样误差的存在所以F不总是等于1。组内均方和组间均方都是正值,故F值总是正的,且接近1的概率很大,远离1的概率很小。相反,如果处理因素有作用,组间均方则不仅是由于误差所致,同时也由于处理作用不同所致。均方:变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方。组间均方和组内均方的计算公式为总变异=组间变异+组内变异总变异:全部测量值Xij与总均数X间的差异组间变异:各组的均数Xi与总均数间的差异组间变异反映了处理因素的作用,也包括随机误差即个体差异。组内变异(withingroupvariation\n):每组的每个测量值Xij与该组均数的差异组内变异反映了随机误差的作用。方差分析的步骤1.建立假设H0:H1:总体均数不等或不全相等2.确定显著性检验水平,用αa表示,常取0.053.计算统计量F值4.求(判断)概率值P5.做出推论:统计学结论和专业结论。方差分析后如果我们得到几个样本均数差别有统计意义,此时只能说明总体上是有差别的,如果我们想知道两两之间均数的差别是否有统计意义,我们比较常用的一种方法叫SNK法也称Q检验适用于任意两组间进行比较。Dunnett-t检验:适用于多个实验组与同一个对照组的比较LSD-t检验:称最小显著性差异t检验,适用于对多组中某一对或几对在专业上有特殊意义的均数进行比较。三种方法是一致的,但并非等价,实际应用中应根据设计选取,不可多种方法一起使用,然后选取有利的结果。此外方差分析还可以进行方差的齐性检验:多个方差齐性的Bartlett法(各组样本含量相等)具体步骤:方差分析中的数据转换:方差分析中要求所分析的各组数据服从正态分布,且总体方差齐。如果不满足条件,可通过一定的数据转换后使新的随机变量近似满足方差分析所假定的条件。(1)平方根转换(2)平方根反正弦转换\n(3)对数转换当实验的处理是由两个或两个以上的因素,每个因素至少有两个水平的全面组合时,称之为析因实验。几种试验设计资料的方差分析:1.完全随机设计资料的方差分析:采用完全随机的方法直接将受试对象分配到各个处理组,每组接受一种处理,各组例数可以相等也可以不等,因为只分析处理因素有无作用,故又称单因素方差分析。完全随机设计资料的方差分析主要用于成组设计的两个或多个样本均数的比较2..随机区组设计资料的方差分析:又叫配伍组方差分析,是配对资料的扩展,将受试对象的自然属性相同或相近者组成单位组(区组),形成若干区组。然后把每个区组中的各个受试对象随机地分配给不同处理,每个区组的受试对象数与处理数相等。设计中有两个因素,一个是处理因素,另一个是按自然属性形成的单位组。单位组的选择原则是“单位组间差别越大越好,单位组内差别越小越好。”3.析因设计资料的方差分析:是一种多因素的交叉分组实验设计。它是将两个或多个因素的各个水平做全面排列组合,交叉分组进行试验,主要用于比较各处理因素不同水平的平均效应。直线回归与相关直线回归与直线相关的联系与区别。区别:1.直线回归反映的是两变量的依存关系;直线相关反映的是两变量的相互关系。2.对资料的要求:直线回归自变量是正态总体的随机变量或指定变量,Y一定是正态总体的随机变量;直线相关:两变量均为正态总体的随机变量。联系:1.同一组资料的r和b的正负符号是一致的;2.同一组资料的r和b的假设检验是一致的,即tr=tb3.两变量有相关关系,不一定有因果关系;但两变量有因果关系,一定有相关关系。a为回归直线在y轴上的截距;b为回归系数,即回归直线的斜率;其统计学意义是x增加(减)一个单位,y平均变动b个单位。b>0,Y随X\n的增大而增大(减少而减少)——斜上;b<0,Y随X的增大而减小(减少而增加)——斜下;b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。直线回归方程参数的计算y=a+bx最小二乘法原则:使各实际散点(Y)到直线的纵向距离的平方和最小。即使(残差或剩余值)最小。残差或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。例:用某饲料喂养12只大白鼠,得出大白鼠的进食量与体重增加量结果,试作直线回归分析。\n(2).计算X、Y的均数X、Y,离均差平方和lXX、lYY与离均差积和lXY剩余标准差:在直线回归中,各实际值Y与由回归方程算出的估计值之间是有一定误差的,这种y与间的离差可以用类似求标准差的式子进行计算,成为剩余标准差由于决定于均数及回归系数,所以自由度为n-2\n回归系数的标准误:我们求的回归方程回归系数是由样本求出的,它是对总体回归系数β的估计值,其误差可以用标准误Sb表示。有了Sb我们就可求出β的可信区间,其95%可信区间计算公式为:t值自由度为Syx的自由度,即υ=n–2回归系数的假设检验:建立样本直线回归方程,只是完成了统计分析两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?回归系数的t检验和回归系数的方差分析两种方法\n决定系数:回归平方和与总平方和之比,大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。直线相关对资料的要求:xy都是正态分布资料的随机变量\n相关系数:我们常常要了解两者间的数量关系是否密切。描述两个变量直线相关的方向与密切程度的指标。-1£r£1相关系数的统计意义检验——t检验Spearman秩相关:适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始数据用等级表示等级相关系数rs—反映两变量间相关的密切程度与方向。直线回归的应用:1.总体回归线的95%置信带相对数及其应用:常用相对数:1.比:又称对比指标或相对比,表示两个有联系的同类指标之比,常用倍数或百分数表示。计算公式为\n2、比例:又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常用百分数表示。计算公式为:注意:构成比之和为100%(或1),具体计算时,有时受尾数取舍的影响,其和不等于100%,可将尾数作适当调整,使其和等于100%。各构成比之间是相互制约的,其比重的增减互相影响(取值在0~1)3、率:又称频率指标,表示某现象发生的频率或强度,比例基数用k表示,据习惯定,一般至少保留1~—2位整数。包括%、‰、1/万、1/10万,计算公式为:某一段时间某事件的发生率=(该一段时间某事件的发生例数/某一段时间开始时暴露总例数)×K反映疾病发生水平的频率指标(疾病统计指标)1、发病率:某病发病率=(一定时期某病新发生的病例数/同时期内可能发生某病的人口数)×K(1)时期:指观察所包括的时间范围,通常为年或月;(2)新发生的病例数:指第一次发生某种疾病,以第一次就诊为准。(3)可能发生“某病”:指存在发生某病的危险性和条件(流行病学上为暴露人群)。2、患病率指在某时点接受医学检查时,可能发生某病的全体受检人群中被发现的某病病人现患新、旧病例数。某病患病率=(检查时发现的某病现患病例数/该时点受检人口数)´K3、病死率:某病死亡率=(观察期间内因某病死亡人数/同期某病病人总数)×K应用相对数应注意的问题\n1,计算率和构成比的分母不宜过小:否则样本率不稳定,易造成错觉;2,不要将构成比作率分析;3,求平均率时不能直接将几个率相加求其合并率或平均率,而应以总发生数除以总可能发生例数。4,应注意资料的可比性资料是否存在偏性当内部结构不同的相对数间进行比较时,若比较合计率,应计算标准化率。当两组资料因内部构成有所不同时,应分组计算频率指标,再进行对比或计算标准化的率。率的差别的统计意义检验:率的抽样误差与标准误率的抽样误差:由抽样造成的样本率和总体率的差别称为率的抽样误差。率的抽样误差可以用绿的标准误来表示。总体率用π表示,样本率用p表示,率的总体标准误用σp表示造成,因总体率一般是未知的,若用样本率p估计,σp的样本估计值为率的样本标准误sp,其计算公式为:总体率的区间估计:当总体率π不是太接近0%100%且样本含量足够大时,即npn(1-p)>5,样本率p近似服从均数为π、标准误为σp的正态分布,故标准正态变量为当总体率未知时,σp用估计值sp取代,则近似有当π在0%或100%附近或n较小时,不能用上述公式资料呈二项分布或普哇松分布相关计算方法计算总体率的可信区间。总体率的假设检验(u检验)不应该用t检验\n适用条件:1.适用于一个样本率与一个总体率的比较(有一个随机样本率和一个标准值或经验值),或两个样本率间的比较。(成组设计,有两个随机抽取的样本率)而不能用于多个率或构成比资料的比较;2.要求样本量较大,一般np与n(1-p)均大于5,率的分布近似于正态分布。标准化法的意义:当比较两个总率时,如果两组内部某种能影响指标水平的重要特征的构成上有差别,往往造成总率的升高或下降,影响两个总率的对比;因此要设法消除其内部构成的差异,使之能合理地进行比较,所用的方法称为标准化法。目的:采用统一的标准构成以消除内部构成不同对总率的影响,使标准化后的标准化总率具有可比性。标准化法的计算方法(1).选择标准人口:a.应选择有代表性、较稳定的、数量较大的人群,如世界的、全国的、全省的、本地区的或本单位历年积累的数据的人口构成作标准。b.将比较的两组(或多组)的人口数合并作为标准组c.选其中一组(选人口数较多组)作为标准组。[2].计算标准化率:直接法和间接法。卡方检验:c2检验是一种用途广泛的统计资料,主要用于:推断两个或多个总体率(或构成比)之间有无差别\n,两种因素或特征之间有无关联及频数分布的拟合优度,卡方检验的基本思想:反映了实际频数和理论频数吻合的程度。如果检验假设成立,则实际频数与理论频数之差一般不会很大,出现大的卡方值的概率是很小的。c2检验的基本公式:n=(R-1)(C-1)理论数:TRC=nR×nC/nR为行;nR为行合计 C为列;nC为列合A是实际频数。所有其他形式的c2检验公式都来源于基本公式。从公式可以看出c2值永远是非负数,其大小受自由度的影响。一、四格表资料的c2检验对于任何两个独立样本率比较的资料均可表达为如下形式,即有两个处理组,发生数和未发生数两种结果。图中有四个基本数据,故称此种资料为四格表资料,又称2×2表,对应的检验成为四格表c2检验处理组发生数未发生数合计甲aba+b乙cdc+d合计a+cb+dn已知两个独立样本的样本率,推断两个总体率有无差异时,可将资料整理成四格表形式,并选择合适的c2检验公式。c2检验的步骤:例如:比较两种治疗方法对卵巢癌的疗效1.基本公式法(1)建立假设和确定检验水准(2)计算理论数(TRC)T1.1=26.2,T1.2=43-26.2=16.8T2.1=53-26.2=26.8,T2.2=44-26.8=17.2(3)计算c2值\n(4)根据P值,下结论ν=(R-1)(C-1)拒绝H0,接受H1,差别有高度统计学意义,可以认为化疗联合放疗疗效优于单独化疗。c2检验的专用公式法四格表专用公式用这两个公式的条件是n≥40且所有的T≥5连续性较正公式:校正条件:当四格表中有任一格子理论数1≤T≤5,同时总例数n≥40,配对四格表资料c2 检验:将含量为n的一个随机样本同时按照连个二分类的属性进行交叉分类,形成二行二列的交叉分类表,即配对的四格表。如图:乙处理+-+ab甲处理-cd(1)配对四格表资料c2 检验\n(2)配对四格表资料的关联性分析Pearson列联系数四格表精确检验法条件:四格表资料中若n<40,或有任一格子理论数T<1。基本思想是在周边合计数不变的条件下,表格中实际频数各种组合的概率。P值=所有小于等于样本点概率的各种组合的概率之和.行×列表资料的c2 检验:当R>2orC>2两个以上的率的比较两个或多个构成比的比较按两种属性分类的频数表资料的关联性分析\n① 多个样本率比较时,有R行2列,称为R×2表;② 两个样本的构成比比较时,有2行C列,称2×C表;③ 多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为R×C表。单变量计数资料可用列表形式表达,基本数据有R行C列,称为行×列表,有多种资料形式:两个或多个样本率的比较,两组构成比的比较,多组构成比的比较等。行×列列表的c2 检验可使用c2 检验的基本公式,也可使用行×列列表的简化计算公式:简化公式基本公式简化公式行×列表c2检验的注意事项:(1)R*C表中4/5以上格子的理论数应该>5;假设1/5以上格子理论数小于5,,a.增加实验样本含量b.根据专业知识删去或合并c.改用双向无序R×C表的Fisher确切概率法(如可用SAS软件实现)检验的结果接受H1时仅提示所比较的各组总体来说有差别,但不能表示其间任一两者间有差别,也不表示差别的强度.对于有序的分类变量,采用卡方检验方法不能考虑数据的有序性质。为此,对于单向有序可采用秩和检验、Ridit分析,双向有序可采用趋势检验等。行×列表资料c2检验的结果说明差异有统计学意义,需做两两比较时,先调整α值再进行率的两两比较。当多个样本率比较的表资料检验,推断结论为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间有差别。要进一步推断哪两两总体间有差别,若直接用四格表资料的检验进行多重比较,将会加大犯Ⅰ类错误的概率。多个样本率间的多重比较\n行乘列表资料的分类和相应检验目的及方法可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。A、对于双向无序行乘列表资料①若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及Pearson列联系数进行分析。可用行×列表资料c2检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数r进一步分析关系的密切程度:双向无序分类资料的关联性检验B、单向有序行乘列表资料有两种形式:一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的(列为顺序变量)。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜用行平均分检验(P164)或秩转换的非参数检验(秩和检验Ridit分析)进行分析。C、双向有序属性相同的行乘列表资料资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数3或以上的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验。D、双向有序属性不同的行乘列表资料资料中两个分类变量皆为有序的,但属性不同,对于该类资料,①若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换的非参数检验;②若研究目的为分析两个有序分类变量间是否存在相关关系,宜用\n行列平均分检验计算(P166)或等级相关分析(spearman等级相关)或Pearson积矩相关分析。③若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。二项分布与普哇松分布在医学生可遇到一些事物,其结果为两种互斥的情况之一。如一个病人的治愈或死亡,动物的性别非雌即雄等等,这时如从阳性率(死亡率,感染率)为π的总体中随机抽取许多大小为n的样本,则出现阳性数为Χ(Χ=012……)样本的分布,即二项分布。出现样本阳性数为Χ的概率可由二项式展开后的各项求得,即:因此,也可以说在n固定时,随机变量x的不同取值的概率可以用上式表示时,就成x服从。式中π是总体中的阳性概率。二项分布的要求:1各观察是相互独立的2各事件是相互排斥的二项分布的形态:当π≈0.5时,分布式对称的,当π≠0.5,分布是偏的,特别是π≦1%或π≥99%时分布非常偏,但当n增大时分布又趋于对称一般来讲,当nπ<5时偏的。偏态可以用二项分布,对称不一定正态,正态一定对称。二项分布在医学上的应用:1应用二项分布的展开计算概率大小以观察疗效\n分析:此题为样本率与总体率的比较。5个人之间的疗效是相互独立的,治愈和病死是相互排斥的。5个人在一般疗法下治愈数nπ=5×0.6=3<5符合二项分布7.8%属于大概率事件,按一般疗法治愈率,五人均治愈的可能性较大(>5%)如果我们加大样本用新药治疗了10人,结果有1人死亡这时我们可恶意这样来计算对于上面这个资料,我们可以做出新药的疗效比一般疗法好的结论。求总体率的可信区间(查表法附表14—1)普哇松分布:当总体比例π很小,样本含量n趋向于无穷大时,二项分布也就趋向于普哇松分布。条件:要求各事件是相互独立的。通常我们用样本均数代替总体平均数实际频数和算出来的理论频数是否有差别,还需要做卡方检验—拟合适度检验普哇松分布的一些特征:普哇松分布的形态:只决定于平均数\n普哇松分布的可加性(看P200-P202)总体均数的可信区间:由样本计数x就可求出总体均数μ的可信区间的上下限;当x≤50时,可用查表法求得,这是精确的可信区间。(查表法附表15—1),此外,还有两种求可信区间上下限的近似方法,当x>50时,可以把变量x看做近似于正态分布,计算公式如下;普哇松计数差别的统计意义检验样本计数和总体均数差别的统计意义检验\n因为当普哇松分布均数μ较大时,可用正态分布来近似,而且其方差等于均数,因此可以用上述公式作样本计数x和总体均数μ的差别的统计意义检验。两样本计算差别的的统计意义检验:\n非参数统计;我们前面所讨论的方法,尤其是计量资料,常用来估计总体某一参数(如均数或标准差)或是用来检验总体参数是否不同。这些统计方法或可称”参数统计”。这些统计方法的应用常有一个关于总体分布的前提,例如t检验法要求总体分布为正态分布,如与正态分布相差太大则方法即不适用。非参数检验常用于解决那些总体分布类型未知或不满足参数检验方法要求的假设检验问题,它检验的是分布而不是参数,因而具有广泛的适应性和较好的稳定性。但由于损失了部分资料信息,非参数检验的效能较低。因此,对符合参数检条件,或经变量变换后符合参数检验条件的资料应首选参数检验方法。非参数检验适用的资料类型:1总体分布为偏态或分布形式未知的计量资料(尤其在n<30的情况下)2等级资料3个别值偏大或数据的某一端无确定的数值。如“<0.01㎎、>150㎎”等,只有一个下限或上限,而没有具体数值。4各组数据离散程度相差悬殊,即各总体方差不齐。\n完全数据:在随访过程中,,观察到了病人的确切结局,也就知道其具体的存活时间。删失数据:随访工作中,由于某种原因未能观察到病人的明确结局,这样,就不知道该病人的确切生存时间,称之为删失数据。常在生存时间数据后加上符号+表示删失数据生存时间类型:2种类型,即完全数据和删失数据:完全数据:提供了病人确切的生存时间,是生存分析的主要依据;删失数据:删失数据也提供部分信息,说明病人在某时刻之前没有死亡,一般用于确定暴露人口生存率:基本原理:先计算活过一定时期的病人再活过下一时期的概率,称为生存概率,然后根据概率的乘法定理将逐个生存概率连续相乘,即得从开始活到一定时间的概率,即生存率。生存概率:某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小生存率:亦称生存函数(survivalfunction)或累积生存概率指病人经过t个单位时段之后仍存活的概率。例如临床经常使用的5年生存率等生存概率与生存率的差别:前者:单位时段存活的条件概率。后者:t=0开始连续若干时段上存活的概率寿命表计算步骤:\n按观察时间长短排列;按观察时间列出死亡人数,但死于非研究疾病则作为失访不记为死亡;由下向上累积观察人数;计算生存概率;计算生存率。生存率图示\n不发生死亡的日期不包括,但最后一个不发生死亡的日期则包括在计算之内。\n计算结果表明:A疗法组的平均生存时间是1022.433天,B疗法组为607.685天。生存率差别的统计意义检验:两种疗法的生存率曲线差别的统计检验常用两种方法:时序检验和Gehan比分检验。时序检验步骤:无效假设和计算期望死亡1将数据列于表22-4格式;2计算期望死亡数;例如,在第8天时暴露的25人中,A组12人,B组13人,该日共死亡2人。如果两组疗效相同,则A组应死亡2/25*12人,即0.960人;而B组应死亡2/25*13人,即1.040人。3将期望数与实际数做卡方检验;4统计推断具体步骤:将前表过录,生成一张新表,即表22-4;列出A组和B组的暴露人数;计算期望数;将A组和B组的期望数相加,实际数相加;使用公式22-3作卡方检验(自由度=组数-1);结果:P>0.05,差别无统计意义消除一个因素的影响\n同样可计算无肾功能损害组的计算表,所得期望值为EA=5.009,EB=4.991。将两组的EA值相加,两组的EB值相加得总的EA和EB值,分别为10.43和6.57。这时检验结果是P<0.05,差别有统计意义多元线性回归和曲线回归:几个变量之间如果与数量上有关,可以是线性关系,也可以是非线性关系。线性回归研究自变量(一个或多个)和一个应变量是否存在线性关系以及存在什么样的线性关系。事物之间的关系往往是错综复杂的,一个事物的数量变化往往与另外几个事物的数量变化有关,我们的目的就是要透过变量间错综发杂的表面现象深入地了解几个自变量与应变量的数量关系,当然这种关系可以是线性的,也可以是非线性的,先在我们只讨论多元线性回归。多元回归对数据的要求:\n查看更多