医学统计学研课件

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

医学统计学研课件

医学统计学卫生统计学教研室田考聪\n绪论一、医学统计学的定义1.引言:Statistics政治算术必然现象随机现象概率论数理统计各应用统计学:生物统计学、经济统计学…state:国家(征兵税收)赌博\n2.定义:医学统计学是运用概率论与数理统计的原理和方法,收集、整理、分析医学中反映随机现象的数字资料,并推断其客观规律的一门学科。这个定义指出了医学统计学的:1)研究对象:医学中的随机现象(数字资料)2)研究步骤:收集、整理、分析、推断3)研究方法:概率论与数理统计的基本原理和方法4)研究目的:从随机现象中找出统计规律\n3.医学统计学的用途生物医学实验临床试验流行病学调查公共卫生管理医学科研项目申请新药开发和报批医学杂志发表研究论文\n二、医学统计学的基本内容1.研究设计定义:目的安排要求(可行、高效、低误、经济)要素:对象处理效应原则:对照随机可重复方案:成组自身配伍析因正交\n2.数据处理1)统计描述:用某些特征值或统计图表来描述统计资料的特征。2)统计推断:运用统计方法对统计资料进行分析、研究、推断其统计规律性。\n三、基本概念1.随机试验:满足下列条件的试验称为随机试验:1)在相同条件下可以重复进行的试验;2)可能出现的试验结果不止一个;3)试验前不能预知本次试验会出现哪一个结果。为事件A在n次试验中出现的频率。0≤f(A)≤12.随机事件:1)基本事件:随机试验所得的结果。2)随机事件:由基本事件及其复合而成的事件。3.频率:若在n次试验中,事件A出现了m次,则称\n4.概率:反映随机事件A发生的可能性大小的量,通常记为P(A)。它是随机事件本身所固有的一种本质属性。5.随机变量:为方便计,定义一个变量X,按试验的不同结果取不同的值。这个变量X称为随机变量。注:由于事件的发生具有一定的概率,故随机变量X的取值也有一定的概率。6.统计资料的类型:(两大类)定量资料(计量资料):测定观察单位某项指标所获得的统计资料。其特征是:每个观察单位对应一个具体的测量值。\n定性资料:计数资料:将观察单位的某项指标的观测结果按性质或类别的不同,分两类计数而得的统计资料。等级资料:将观察单位的某项指标的观测结果按性质的不同程度,分等级计数而得的统计资料。其特征是:各等级之间存在“递进关系”。分类资料:将观察单位的某项指标的观测结果按类别分多类计数而得的统计资料。其特征是各类别间并不存在“递进关系”。统计资料的转换:为了研究需要或数据分析方便,有时需要对统计资料进行转换,一般是将计量资料转换为计数或等级资料。\n7.总体与样本个体:各观察单位的某项指标的测定值。总体:根据研究目的所确定的、具有某种相同性质的所有个体的集合。样本:同一总体中一部分有代表性的个体所构成的集合。样本必须具备的三个条件是:同一性:保证被研究对象的同质基础,包括时间、空间、条件等;随机性:总体中每一个体都以同样的概率被抽到样本中去;可重复性:保证样本中有足够的个体数,即样本含量足够大。\n医学研究的统计学设计一、医学研究的基本步骤二、医学研究的类型三、实验设计\n一、医学研究的基本步骤1.查阅文献,做出综述,进行评价;2.建立科学假说,提出拟探索和解决的医学问题,明确具体的研究目标;3.拟定研究设计方案和技术路线;4.实施研究计划;5.收集、整理分析研究所得的信息和资料;6.对研究结果进行解释,对提出的假说进行评价。专业设计--重要性、科学性、创新性、可行性统计设计--可靠性、有效性、合理性\n二、医学研究的类型根据研究者是否主动安排处理因素,对观察对象施加干预,医学研究分为实验研究与调查研究两大类。实验研究:对研究对象人为施加干预,控制实验条件,比较不同干预措施间的效果。调查研究:对研究对象不加任何干预措施,被动地进行观察,比较不同条件下研究对象之间的差异。\n三、实验设计(一)实验设计的基本内容一个完整的实验设计方案,从统计学的角度来讲,应该包含以下主要内容:1.研究目的2.研究方法时间——现状、回顾、前瞻对象——临床实验、动物实验3.三要素:研究对象、处理因素、研究效应4.三原则:对照、随机、重复5.研究的整体程序和方案(包括实验方案、数据分析方案)技术路线关键问题解决方法质控措施\n(二)实验设计的三要素1.研究对象:根据研究目的所确定的同质的实验观察个体。同质(纳入标准、排除标准)总体、样本2.处理因素:根据研究目的对研究对象给予的某种干预或措施。(可以是研究者主动施加的或客观存在的)处理因素的标准化问题:在整个研究过程中,处理因素必须相对固定,统一标准。非处理因素的控制:在实验过程中,应注意控制非处理因素的干扰,避免混杂效应。\n3.实验效应:处理因素作用于研究对象的反应或结果,通常以指标(变量)的形式来表达。所选指标应具备:客观性、精确性、敏感性、特异性客观性:主观指标和客观指标。精确性:准确度:观察值与真值的接近程度,受系统误差的影响。精密度:重复观察时,观察值与其均值的接近程度,受随机误差的影响。敏感性和特异性:\n降压药高血压病人血压值处理因素研究对象研究效应其他因素其他效应实验设计三要素\n(三)实验设计的三原则1.对照原则:在确定接受处理因素的实验组时,要同时设立不施加处理因素的对照组。通过对照消除非处理因素对实验结果的影响。设置对照时应满足均衡原则,即对照组与实验组除处理因素不同外,其余影响实验效应的非处理因素应尽量均衡一致。设置对照还应满足同步原则,即对照组与实验组在整个实验过程中始终处于同一空间,同一时间。\n常用对照形式:安慰剂对照(placebocontrol):对照组给安慰剂特点:克服心理导致的偏倚;消除疾病自然进程的影响。空白对照(blankcontrol):对照组不给予任何处理因素。特点:简单易行,易引起心理差异,从而影响实验效应的测定。实验对照(experimentalcontrol):对照组施加基础实验条件(非处理因素)。如:在赖氨酸添加实验中,儿童课间餐方式为:实验组赖氨酸面包对照组面包\n自身对照:实验在同一受试对象上进行。特点:简单易行,使用广泛。若试验前后某些环境或自身因素发生改变,会影响试验结果,难以说明问题。标准对照(standardcontrol):以现有的标准或正常值作对照。某种新的方法能否代替传统方法的研究。\n2.随机化原则:指每个受试对象以均等机会被抽取、被随机地分配到试验组和对照组。即每个受试对象接受处理的机会均等。目的是使各组非实验因素的条件均衡一致,以消除对实验结果的影响。随机化分组:将实验对象按相同的概率分配至预先设定的几个处理组中去。随机化分组的方法有很多,我们介绍二种常用的方法:完全随机设计、随机区组设计。\n例1.完全随机设计:试将12头动物应用随机数字表分配到甲、乙两组。⑴将动物编号:1,2,…,12。⑵从附表1的第11行,第11列往右查12个2位数的随机数。⑶规定按随机数大小分组,较小的6个数对应的动物为甲组,较大的6个数对应的动物为乙组。动物编号123456789101112随机数字411076479144049549663960组别甲甲乙甲乙甲甲乙乙乙甲乙\n完全随机设计虽然提高了各组的均衡性,但不能保证各组的均衡性。例如在例1中,如果12只动物中雌雄性各有6只,而实验效应可能受动物性别不同的影响,按照完全随机设计的方法显然不能保证甲乙两组中同性别的动物数相等。为了解决这个问题,我们可用随机区组的方法来进行分组。随机区组设计:先将可能影响实验结果的非处理因素进行分层,即区组化(blocking),然后在每一层内进行随机化分组。\n例2.随机区组设计:如果体重是影响实验效应的非处理因素,需要将16头动物分为4组,怎样分组才能保证均衡性?(1)将16头动物称重后,按体重由小到大依次为1,2,…,16号.(2)把体重相近的4头动物作为一个区组,即等分成4个区组.(3)对于每一个区组,从随机数字表中任意一行一列作起点顺序取4个随机数字,取两位随机数字,对应于该区组的4个动物,然后将随机数字由小到大顺序排列后得序号,再按序号的大小依次排列组别。\n随机区组设计动物编号随机数字序号分组1.1222B1.2171A1.3684D1.4653C…………4.1682B4.2954D4.3231A4.4923C练习:将例1中的12只动物随机分为甲乙两组,使甲乙两组中同性别的动物数相等。\n3.重复原则:在相同条件下进行多次研究或观察,以保证实验的可靠性与科学性。即要求研究对象要有足够多的数量(样本量)。\n统计描述一、频数分布1.频数分布表:为了解数据的分布范围、集中位置、分布形态等特征,需要编制频数表。例1:某医生收集了81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果如下,试编制频数分布表。\n219.7184.0130.0237.0152.5137.4163.2166.3181.7176.0168.8208.0243.1201.0278.8214.0131.7201.0199.9222.6184.9197.8200.6197.0181.4183.1135.2169.0188.6241.2205.5133.6178.8139.4131.6171.0155.7225.7137.9129.2157.5188.1204.8191.7109.7199.1196.7226.3185.0206.2163.8166.9184.0245.6188.5214.397.5175.7129.3188.0160.9225.7199.2174.6168.9166.3176.7220.7252.9183.6177.9160.8117.9159.2251.4181.1164.0153.4246.4196.6155.481例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果\n步骤:1).求全距R=max-xin=278.8-97.5=181.32).定组数K通常取8~15组为宜。本例取K=10.3).求组距I=R/K(注意取整)。本例I=181.3/10=18.13≈204).制表确定各组段的下限、统计各组段内的频数、算出各组段的频率、累计频数、累计频率,将所得数据填入表中。\n81例健康男子血清总胆固醇值(mg/dl)的频数分布表组段(mg/dl)频数频率(%)累计频数累计频率(%)90~22.4722.47110~33.7056.17130~89.881316.05150~1720.993037.04170~2024.695061.73190~1518.526580.25210~89.887390.12230~56.177896.30250~22.478098.77270~29011.2381100.00合计81100.00\n2.频数分布表的作用1)描述数据分布特征;2)计算有关指标;3)发现奇异值。\n二、计量资料的统计描述1.集中趋势:反映集中趋势和集中位置的指标,亦称平均数。1)算术均数适用于分布比较对称的资料。定义式:加权式:例2.3例:由例1的数据:\n组段(mg/dl)频数(fi)组中值(xio)fixio90~2100200110~3120360130~81401120150~171602720170~201803600190~152003000210~82201760230~52401200250~2260520270~2901280280合计8114760\n2)几何均数适用于变量值呈倍数关系的资料。例2.5例2.6\n3)中位数:将n个数据按大小顺序排列,位置居中的那个数称为中位数.中位数有以下特点:1.对离群值不敏感.故当有离群值或数据分布不对称时,可采用中位数来描述集中趋势.2.当数据分布对称时,均数和中位数很接近,当数据呈右偏态时,均数大于中位数;当数据呈左偏态时,均数小于中位数.例2.7\n2.离散趋势:反映数据分布的离散程度例2.10常用的分位数有四分位数、百分位数等。四分位数下四分位数Q1上四分位数Q3中位数Q2=M百分位数1)全距R=MAX-MIN2)分位数与分位数间距分位数是介于最大值与最小值之间的一个数值,它使得一部分观察值小于或等于它,另一部分观察值大于或等于它。两个分位数之间的距离称为分位数间距,可用来描述数据的离散程度。Xp%\n百分位数的计算公式如下:式中:L是所在组段的下限,i是该组段的组距,fp是该组段的频数,n是总频数,∑fL是该组段以前的累计频数。显然,中位数即为50%位数,下四分位数即为25%位数,上四分位数即为75%位数。例2.8\n3.方差4.标准差5.变异系数例2.13例2.15\n几个离散指标的比较:全距简单易求,但所用的信息较少,对离群值较敏感,与样本含量n有关,n越大,全距可能越大。分位数间距简单易求,对离群值的敏感度小于全距,受样本含量影响较小。但使用的信息量仍然较少。方差使用了全部信息量,特别是利用了数据集中位置的信息,优于全距和分位数间距。但方差作了一个平方处理,夸大了各数据点与集中位置的离散程度。标准差是方差的平方根,它将方差夸大了的离散程度作了还原,且具有方差的全部优点,因此标准差在实际应用中最为常用。变异系数用来度量相对变异程度,是一个无量纲的指标,可以用来比较不同量纲变量之间的变异程度,也可以用来比较量纲相同但均数相差较大的变量之间的变异程度。
查看更多

相关文章

您可能关注的文档