- 2022-09-01 发布 |
- 37.5 KB |
- 122页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
医学统计学-全科1
医学统计学闫世艳2011-4-18\n绪论\n为什么医学科研工作离不开统计学?\n什么是医学统计学?运用概率论、数理统计学的原理与方法,研究医学领域中随机现象有关数据的搜集、整理、分析与推断,进而阐明其客观规律性的一门应用科学。\n医学统计学的研究对象随机现象(事件)--变异必然现象(事件)“若无变异,无需统计”\n医学研究的基本流程研究设计:专业设计、统计设计研究实施—收集资料整理资料分析资料结论\n统计学在医学科研中的地位统计学是工具,是为医学科研服务的;需要与临床专家相互协作。没有好的研究设计,再好的统计方法都无济于事。统计学是在搜集、整理、分析和解释大量数据的过程中完成使命的。“研究结束之后,再找统计学家,相当于进行尸体解剖,他能告诉你的只能是试验失败的原因”—RA,Fisher\n统计学的基本概念同质与变异总体与样本概率与频率变量个体误差\n同质与变异同质:研究事物现象存在的共性,是统计学的基础。同质:观察单位间被研究指标的影响因素相同。变异:同质总体中,不同个体间的差异。\n总体与样本个体:观察单位,统计研究中的最基本单位。总体:根据研究目的确定的同质个体构成总体有限总体:有时间、空间、人群范围的限制无限总体:无时间、空间的限制样本:从总体中随机抽取的部分个体,构成样本。\n概率与频率频率:在相同条件下,重复n次试验,某随机事件A发生的次数X与n次试验的比值,即为该事件发生的频率。Buffon4040次硬币2048次正面频率:0.5069概率:某随机事件发生可能性大小的度量。用P表示。上述试验,当n逐渐增大时,频率始终在一个常数左右微小波动,这个常数就是概率。扔硬币的试验中,出现正面的概率为0.50.小概率事件,P≤0.05\n参数与统计量参数:反映总体的统计指标统计量:反映样本的统计指标\n变量(variable)与资料(data)观察或测量的个体(或观察单位)的某项特征,称为变量。如某地7岁儿童的身高、体重等。变量值构成资料。如,一组病人的血压值\n资料类型计量资料:表现为具体的数值、有度量衡单位,如血压、血糖等。百分率资料:减分率计数资料:观察指标是定性的,如阴性、阳性,有病、无病等。二分类、多分类等级资料:尿糖检测结果的++++++、治疗效果:痊愈、显效、有效、无效等不同的资料类型可以相互转化不同的资料类型有不同的统计分析方法\n描述性统计(一)\n统计处理统计描述:描述样本特征:列表、图示、数字统计推断:\n计量资料分布特征和描述指标集中趋势:平均水平算术均数、几何均数和中位数离散趋势:变异性极差、四分位数间距、方差、标准差、变异系数\n集中趋势指标-均数mean算术均数:简称均数,用以描述一组服从正态分布或近似正态分布资料的平均水平。总体均数,样本均数离均差总和离均差平方和\n几何均数G(geometricmean)用于对数正态分布的资料。即原变量值分布不对称,但经对数转换后,近似或服从正态分布的资料。血清学平均抗体效价\n中位数M(median)位置指标中位数:一组资料按大小顺序排列后,中间位置上的观测值。1234567123456----median=3.5\n百分位数(percentile,Px)位置指标一组资料从小到大排序后,x%的观测值比Px小,(100-x)%的观测值比Px大,则这个位置点的数值,即为第x百分位数Px。第5百分位数P5:有5%的观测值比P5小,有95%的观测值比P5大。中位数即第50百分位数。用于偏态分布的资料。\n离散趋势的指标-极差R极差或全距range:最大值与最小值之差。只考虑最大值和最小值,没有考虑所有的变量。\n四分位数间距Q第25百分位数P25,第50百分位数P50,第75百分位数P75,将所有的数据分为四份。P75-P25即为四分位数间距。考虑了较多的变量信息,但信息利用仍不充分。\n方差variance方差:总体方差,样本方差S2离均差平方和的平均值即为方差。\n标准差SD/STD(standarddeviation)方差开方即为标准差求方差后,量纲为原量纲的平方。为使量纲恢复到原量纲,将方差开方,即为标准差。总体标准差,样本标准差S\n变异系数CV用于比较不同量纲的变量的变异程度。无量纲\n小结上述指标都是用于计量资料的统计描述除变异系数外,均有量纲变异性指标中,指标值越大,说明数据变异越大分布类型不同,适用的描述指标不同。正态分布常用偏态分布常用中位数M和最小值、最大值或四分位数间距。如:年龄中位数为33.5岁,最小年龄3岁,最大年龄55岁。\n计数资料的统计描述绝对数:实际观察所得相对数:率、构成比、相对比\n例题:2005年某市五地区糖尿病患病情况地区编号调查人数患病人数患病率(%)构成比(%)患病率相对比(%)(1)(2)(3)(4)(5)(6)A97776857.0121.52--B114106325.5419.8679.03C121816985.7321.9281.74D103915415.2117.0074.32E105116275.9719.7085.16合计5427031835.87100.00--\n率(rate)说明在一定条件下,某现象发生的频率或强度。K:比例基数,常用百分率(%)、千分率、万分率、十万分率等。使结果中保留1-2位小数;根据习惯用法\n常用的率发病率、患病率、死亡率、病死率等;发病率(incidencerate):一定期间内、一定人群中,某病新病例出现的频率。描述疾病的发生频率。\n常用的率患病率(prevalencerate):现患率,某特定时间内总人口中,现患有某病的人(包括新和旧病例)所占的比例。常用于表示病程较长的慢性病的发生或流行情况。与发病率和病程有关。\n常用的率死亡率(mortalityrate):一定期间内,一定人群中,死于某病(或死于所有原因)的频率。是测量人群死亡危险最常用的指标。\n常用的率病死率(fatalityrate):表示一定时期内(通常为1年),患某病的全部病人中因该病死亡者的比例。用于表示确诊疾病的死亡概率,可表明疾病的严重程度,也可反映医疗水平和诊断能力。多用于急性传染病,较少用于慢性病。\n常用的率在临床实际中,要注意区分上述四种常用率指标的含义,不要混淆。\n构成比(proportion)说明某一事物的内部各组成部分所占的比重或分布。常用来表示疾病或死亡发生的分布情况,不能表示其发生频率或严重程度。\n比(ratio)又称相对比,表示两个有关的指标之比,可用倍数或百分数表示。甲乙两个指标可以是绝对数、相对数等;性质可以相同,也可以不同。如果计算时,分子大于分母,结果用倍数表示;反之,结果用百分数表示。\n注意事项分母不宜过小:正确区分率与构成比的意义:正确计算总率:即合计率或平均率。应将各组实际发生某现象的观察单位数之和,除以各组可能发生该现象的观察单位数之和,再乘以比例基数K。\n注意事项比较相对数指标时,注意资料的可比性:随机化:随机抽样原则;观察对象同质、研究方法相同、观察时间相等以及其他影响因素相同或接近;观察对象的内部构成是否相同:即与比较指标有关的影响因素在比较组间是否均衡。内部构成不同时,需分层分析或进行标化。\n注意事项样本率(或构成比)的比较,要做假设检验:样本率或构成比存在抽样误差,相互比较时需要进行假设检验。\n正态分布一种连续型随机变量常见而重要的分布。高斯分布:最初由德国数学家和天文学家德.莫阿弗尔于1733年提出。但高斯将其迅速应用到天文学中,并对其性质进行了进一步的研究,因此又称为高斯分布。\n正态分布是自然界中最常见、最重要的一种连续型分布,是许多统计分析方法的基础。医学中很多数据都近似服从正态分布。\n频数分布当样本量无限增大以及横轴上的组距无限减小时,直方图外缘就变成一条光滑的曲线,这条概率密度曲线所描述的分布就近似于正态分布。\n正态分布是两个常数,分别为圆周率(3.14159)和自然对数的底(近似于2.71828)是正态分布的两个参数,其中为x的总体均数,是x的总体方差。和可以完全决定一个正态分布的形状,因此,对于一个正态分布,可记为\n正态分布的特征1、单峰分布,以x=为中心,左右完全对称,正态曲线以x轴为渐近线,两端与x轴永不相交。2、在x=处有最大值,即此时曲线最高。3、有两个参数:位置参数,决定正态曲线在x轴上的位置;形状参数,决定正态曲线的分布形状。\n正态分布的特征在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若μ变小时,曲线位置向左移。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”。\n正态分布的特征N(μ1,σ2)、N(μ2,σ2)N(μ,0.52)、N(μ,12)、N(μ,22)\n正态分布的特征\n正态分布的特征4、曲线下的总面积为1或100%。所有正态曲线,在左右的任意个标准差范围内面积相同\n曲线下面积\n正态分布曲线下的面积\n正态分布的应用许多医学现象服从正态分布或近似正态分布,可制定医学参考值范围;偏态分布的资料可转换为正态分布或近似正态分布,然后按照正态分布的规律进行处理;正态分布是许多统计分析方法的理论基础;\n标准正态分布对于任意一个正态分布,均可转换为均数为0,标准差为1的标准正态分布。标准化变换:u变换或Z变换u或Z叫标准化离差,实际就是用标准差作单位来度量离均差的大小。\n标准正态分布\n标准正态分布\n标准正态分布纵坐标从-∞移到u所对应区域的面积为上图红色区域面积的大小,这样一个区域的面积我们用Ф(u)表示,可通过查标准正态分布曲线面积分布表得到Ф(u)的大小。u值查表所对应的面积是区间(-∞,u)所对应的面积,即Ф(u)。若u=-1.96,那么Ф(-1.96)则表示从-∞移到-1.96所对应区域的面积,通过查标准正态分布曲线面积分布表得到Ф(-1.96)=0.025\n标准正态分布曲线下的面积\n医学参考值范围的确定正常值范围:按一定概率所确定的数据波动范围。计算方法:正态分布法、百分位数法\n医学参考值范围的确定选择足够数量的正常人作为参照样本对选定的参照样本进行准确地测定单双侧范围的确定选择适当的百分范围\n正态分布法正态性检验计算均数、标准差计算参考值范围双侧:单侧:或90%、95%、99%参考值范围95%参考值范围:单双侧的确定,要依据专业知识\n制定医学参考值范围的注意事项研究对象:“正常人”同质足够例数---有代表性控制误差:系统误差随机误差单双侧界值:专业知识适当的百分界值:假阳性(误诊)、假阴性(漏诊)\n医学参考值范围的含义95%的参考值范围:95%的变量值的波动范围;95%的变量值在这个范围内不可理解为:在参考值范围内的均为健康人,在参考值范围外的均不健康。\n统计推断\n基本概念总体:根据研究目的确定的同质个体构成总体。样本:从总体中随机抽取的部分个体,构成样本。抽样研究:从总体中随机抽取部分观察对象进行研究,通过样本信息来推断总体特征的研究方法。\n抽样误差由于抽样所导致的误差。某地区7岁男童的身高110cm样本1100例105cm样本2100例100cm样本3100例120cm由于随机抽样而引起的来自同一总体的样本均数之间以及样本均数与相应的总体均数之间的差异,称之为均数的抽样误差。\n标准误标准差:反映个体差异,反映变量值的变异程度。标准误:样本均数的标准差,用以反映抽样误差的大小。与总体标准差成正比,与样本含量的平方根成反比。一定时,n越大,标准误就越小,n越小,标准误就越大。影响抽样误差的主要因素是样本含量。\n标准误作为总体参数,通常是未知的,在实际工作中常用样本标准差S来估计。所以:作为标准误的估计值。\n中心极限定理样本均数的抽样分布特点:从正态总体中随机抽取例数为n的样本,其样本均数的分布服从正态分布;从非正态总体中抽样,当n足够大时,样本均数的抽样分布近似服从正态分布\n标准误的应用反映样本统计量变异程度的指标,常用来反映抽样误差的大小。用于计算总体均数的可信区间。进行假设检验所必需的重要统计量。\nt分布正态分布通过标准化转换可转换为标准正态分布。中心极限定理:样本均数的分布服从正态分布。u转换:\nt分布在实际工作中,是未知的,用来代替。因此,标准误估计值代替了理论标准误,因此,此时转化后的分布不再符合标准正态分布,而服从t分布。自由度t分布与自由度有关。不同的自由度对应不同的t分布曲线。\nt分布的特征以0为中心,左右对称的单峰分布。t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当时,t分布即为u分布。t分布曲线的峰值较低,而尾部曲线较高,说明远侧t值的个数较多,自由度越小,这种情况越明显。\nt分布的特征t分布曲线下面积的分布规律由于t分布曲线是一组曲线,故t分布曲线下面积为95%和99%界值不是一个常量,随着自由度的变化,95%或99%面积的界值发生变化,当时,95%和99%面积对应的界值趋近于u值。\n总体均数的估计参数估计:点估计、区间估计点估计:样本统计量直接作为总体参数估计值区间估计:可信区间或置信区间CI。用已知的样本统计量和标准误确定一个有概率意义的区间,该区间有较大可信度包含总体参数。可信度:1-。95%、99%\n可信区间的含义如果能进行重复抽样试验,平均有1-的可信区间包含了总体参数。有1-的可能性包含了总体均数。\n假设检验的基本思想小概率反证法,即先建立一个关于样本所属总体的假设,考察在假设成立条件下随机样本的特征信息是否属小概率事件,若为小概率事件,则怀疑假设成立有悖于该样本所提供特征信息,因此拒绝假设。A疗效=B疗效A药65%B药80%?\n假设检验A有效率=B有效率A药65%B药80%抽样误差A有效率A药65%B药80%不同总体B有效率\n假设检验抽样误差不同总体μ0=72.1次/分74.3次/分μ74.3次/分μ0=72.1次/分=在μ=μ0的前提下,计算从这个总体中进行随机抽样,得到目前这样结果的概率有多大,然后与事先确定的检验水准0.05比较,得出结论。\n假设检验的步骤1建立检验假设和确定检验水准:无效假设H0:μ=μ0,即山区成年男子与一般成年男子的脉搏总体均数相同,或来自同一总体。备择假设H1:有单双侧之分。双侧H1:μ≠μ0单侧H1:μ>μ0或μ<μ0单双侧根据专业知识和研究目的而定。\n假设检验的步骤1单侧检验应特别注明。同一资料,单侧检验比双侧检验更易获得拒绝H0的结论。双侧检验更为稳妥和保守,多用双侧检验。如无特殊说明,一般均为双侧检验。\n假设检验的步骤1确定检验水准α是预先人为确定的概率,一般为0.05。表示拒绝实际上成立的H0时,推断错误的最大允许概率,即在拒绝H0做出“有差别”结论时可能犯错误的最大允许概率。就是一个标准。用于和P值比较,得出结论。P≤α时,拒绝H0,接受H1\n假设检验的步骤2计算检验统计量根据资料类型、试验设计方法、研究目的和各种统计检验方法的应用条件选择恰当的检验方法如t检验、方差分析等\n假设检验的步骤3确定P值,做出统计推断结论。根据计算出的检验统计量的抽样分布确定P值,与α比较,决定是否拒绝H0。\nt检验应用条件:1、样本含量较小时,理论上要求样本为来自正态分布总体的随机样本2、当两小样本均数比较时,要求两总体方差相等(方差齐性)\n单样本t检验用于样本均数与已知总体均数(一般为理论值,标准值或大量观察得到的稳定值)的比较。\n例建立假设和确定检验水准:H0:μ=μ0=9.3cmH1:μ>μ0=9.3cmα=0.05(单侧检验)计算检验统计量:\n例确定P值和做出推断结论:查附表2的t界值表,得单侧界值t0.05,11=1.796,因t=1.0257查看更多
相关文章
- 当前文档收益归属上传用户