(医学)医学统计学 绪论

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

(医学)医学统计学 绪论

医学统计学Contact:86862755mspzh2003@yahoo.com.cn彭志行南京医科大学NanjingMedicalUniversity流行病与卫生统计学系\n第一章绪论统计学与医学统计学医学统计学的内容医学研究的三个步骤三类资料医学统计中的基本概念建立统计学思维\n统计学是当今最重要的科学技术之一美国“科学84年”杂志选出“20世纪对人类生活影响最大的20项科技成果”;统计学入选其中(其它如:相对论、激光、电视、DNA等).\n统计学定义:□Statisticsisthesciencedealingwiththecollections,analysis,interpretationandpresentationofmassesofnumericaldata.(Webster)□Statisticsisthescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresult.(Armitage)\n“统计学是收集和分析数据的科学与艺术。”《不列颠百科全书》不像其他学科,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。GudmundR.lversen\n□Believeitornot?Youareusingstatisticsalmosteveryday!□我要在中午12:40赶到新街口,12:00走比较好…□天气预报说今天有70%的几率会下雨,我还是带伞吧!□我这次找张大夫治疗效果不错,下次还要找他!\n医学统计学(medicalstatistics),是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。\n数理统计学与生物医学的结合□生物统计学(Biostatistics)应用于生物学研究,又称生物测量学Biometrics□医学统计学(MedicalStatistics)应用于医学研究,侧重于医学的生物性□卫生统计学(HealthStatistics)应用于医学研究,侧重于医学的社会性\n三个步骤:研究设计运用医学统计学的起点,也是高质量地完成整个研究的重要基础。资料分析在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。结论在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。\nExample:\n□1936年美国总统选举;□literarydigest,民意调查;堪萨斯州州长A1flandon?当任总统,FranklinD.Roosevelt?□电话簿和车辆登记簿上的名单□“A1flandonwin!”□Infact,Franklinwin!□why?\n三类资料:(1)定量资料(quantitativedata)(2)定性资料(qualitativedata)(3)等级资料(rankeddata,ordinaldata)\n资料类型的判断:病例号年龄(岁)性别身高(cm)血型心电图尿WBC职业RBC1012/L135女1.65A正常-教师4.67244男1.74B正常-工人5.21326男1.80O正常+职员4.10425女1.61AB正常+农民3.92541男1.71A异常++工人3.49645女1.58B正常++工人5.48750女1.60O异常++干部6.78828男1.76AB正常+++干部7.10931女1.62O正常+军人5.24\n另一种分类:数值变量资料(numericalvariable)分类资料(categoricalvariable)二分类(binary(dichotomous)variable)多分类(polytomousvariable)无序多分类(multinomial)有序多分类(ordinal)(等级资料,rankeddata)\n数学上的分类□连续型资料(continuousdata)□离散型资料(discretedata)\n1950-2003年全国法定传染病报告情况0.001000.002000.003000.004000.005000.006000.007000.008000.00505356596265687174778083868992959801发病率(1/100,000)0.0010.0020.0030.0040.0050.0060.00死亡率(1/100,000)总发病率总死亡率\n1950-2003年全国法定报告传染病病死率50515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798990123012345总病死率(%)1990-2003年全国法定报告传染病病死率90919293949596979899200020012002200300.10.20.30.4\n1990-2003年全国甲肝、乙肝发病率010203040506019901991199219931994199519961997199819992000200120022003发病率(1/10万)甲肝发病率乙肝发病率\n1985~2001年全国报告的STD发病率\n近年来全国性病年报告例数不断增加\n1989年1998年1995年1985年\n1955-2003年全国狂犬病发病率00.10.20.30.40.50.60.70.81955196019651970197519801985199019952000发病率(1/10万)\n基本概念(1):同质与变异:□同质(homogeneity):观察单位具有相的性质。□异质(heterogeneity):性质不同。同质性是构成研究总体的必备条件;研究内容(指标/变量)不同,对同质性的要求不同;\n制定血红蛋白参考值范围时:\n制定白细胞参考值范围时:\n基本概念(2):个体变异(individualvariation)□同质个体间的差异。□一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现。□结果是随机的(无法绝对正确地预测)。□个体变异是普遍存在的。□个体变异是有规律的。□没有个体变异,就没有统计学!\n例1:个体变异的表现某地所有20岁健康男生的血红蛋白√某地所有20岁健康男生和女生的血红蛋白Χ江苏和西藏所有20岁健康男生的血红蛋白Χ某地所有20岁健康男生和女生的白细胞计数√\n□总体(population)有限总体(finite)无限总体(infinite)□个体(individual)□样本(randomsample)代表性,包含了总体的特性基本概念(3):\n□总体参数(populationparameter)未知的,固有的,不变的,!□样本统计量(samplestatistics)已知的,变化的,有误差的!□样本含量(samplesize)基本概念(4):\n基本概念(5):随机(random)机会均等随机抽样(randomsampling)有相同的机会被抽到随机分组(randomallocation)有相同的机会被分到不同的组中\n基本概念(6):随机变量(randomvariable),变量个体观察指标\n频率:在n次随机试验中,事件A发生了m次,则比值称为事件A在这n次试验中出现的频率(frequency)基本概念(7):\n频率和概率抛硬币试验在概率的统计学定义上的诠释试验者投掷次数出现“正面”次数频率**20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005\n概率(probability):描述了随机事件发生的可能性的大小。是一种参数。数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数:随机事件A发生的概率(又称为统计学上的概率定义)。\n小概率事件(rareevent)小概率原理如果某事件的发生概率很小则在一次试验中,认为不发生。\n基本概念(8):抽样误差(samplingerror)□由抽样引起的样本统计量与总体参数间的差别□原因:个体变异+抽样□表现:样本统计量与总体参数间的差别不同样本统计量间的差别□抽样误差是有规律的!\n基本概念汇总总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风险\n医学统计学思维归纳型思维推理型思维从样本到总体从个别到一般\n建立医学统计学思维□生物体的变异是普遍存在的,这种变异是有规律的;□抽样误差是不可避免的,抽样误差是有规律的;□统计推断是有风险的,这种风险是可以控制的。\n统计学的作用:□统计学上得到的结论都具有概率性,它不能证明什么,但可以提供结论成立或不成立的概率,从而提高研究者的分辨能力,为科学决策提供依据。□发现规律,而不是创造规律,统计学不能创造原本不存在的结论。□统计方法是一个中立性的工具。\n学习医学统计学的要求:□建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;□学会设计结合专业作出严密的试验设计并获得可靠、准确、完整的资料;□学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。\n第二章、统计资料的整理与描述□频数分布□描述集中趋势的指标□描述离散程度的指标\n例2:乱七八糟的原始数据某地120名14岁女童身高(cm)资料如下给我给我一双慧眼吧,让我把这纷扰看个清清楚楚明明白白真真切切……142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9\n计量资料的频数、频率分布组段(1)频数(2)频率(3)124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合计1201.0000\n2.1频数分布□原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。□现状:医学研究得到的原始数据(rawdata)往往是庞大的、混乱的。□解决:频数分布的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。\n120名14岁女童身高的频数分布图124132140148156164010203040人数身高(cm)\n某城市892名老年人生存质量自评分的频数分布01020304050607080901001002003000400自评分人数\n102名黑色素瘤患者的生存时间频数分布051015202530354045010203040生存时间(月)人数\n某地某年10000例死亡者年龄分布0102030405060708001000200030004000死亡年龄(岁)人数\n分类资料的频数分布血型频数频率(%)O20540.43A11222.09B15029.59AB407.89合计507100.00\n频数分布所提供的信息频数分布图用以表示数据的分布规律。观察有无可疑值。考察分布的类型。对称分布非对称分布(偏态分布)左偏态(负偏态)右偏态(正偏态)考察分布的特征集中趋势(CentralTendency)离散程度(TendencyofDispersion)\n289名近视患者Lasik术后1月裸眼视力Frequencynv0.000.100.200.300.400.500.600.700.800.901.001.101.200.0071.00\n偏态分布1:老年人生存质量自评分01020304050607080901001002003000400自评分人数\n偏态分布2:黑色素瘤患者的生存时间051015202530354045010203040生存时间(月)人数\n偏态,正偏态和负偏态□分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。\n集中趋势和离散程度124132140148156164010203040人数身高(cm)\n2.2定量资料的统计描述\n集中趋势的描述—算术均数□算术均数(arithmeticmean,mean,μ)\n□加权均数(weightedmean)均数是加权均数的一个特例\n集中趋势的描述—几何均数□几何均数(geometricmean,G)\n例3、几何均数(P14)1:10,1:20,1:40,1:80,1:160\n集中趋势的描述—中位数□中位数(median,M)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。□TheMedianisthatvalueforwhich50percentoftheobservations,whenarrangedinorderofmagnitude,lieoneachside.\n例4、中位数9例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.5M=4.810例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.516.3M=(4.8+5.6)/2=5.2\n集中趋势的描述—百分位数□百分位数(percentile)X%PX(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)\n描述集中趋势的指标平均数(Average)算术均数(Mean)几何均数(GeometricMean)中位数(Median)百分位数(Percentile)\nThanks
查看更多

相关文章

您可能关注的文档