- 2022-08-13 发布 |
- 37.5 KB |
- 14页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
医学统计学重点
1.变异:同质事物之间的差别。2.频数分布的两个特征:集中位置,离散趋势3.数据分布的类型:对称分布和非对称分布。非对称分布又称偏态分布,包括正偏态和负偏态。单峰分布,双峰分布,多峰分布。4.统计描述:用统计表、统计图和统计指标等方法对资料的数量特征与分布规律进行描述。5.集中位置的描述,集中位置指标又称平均数指标。有哪些及适用条件?(1)算数平均数:最适用于单峰对称分布资料的平均水平的描述,特别是正态分布资料(2)几何平均数:适用于①等比资料②对数正态分布资料(3)中位数和百分位数:适用于①偏态分布的资料②开口资料③资料分布不明等6.离散趋势的描述(1)全距亦称极差,适用于单峰小样本资料(2)四分位数间距,适用于单峰小样本资料(3)方差和标准差,适用于对称分布尤其是正态分布资料(4)变异系数,常用于①比较度量衡单位不同的两组或多种资料的变异度②比较均数相差悬殊的两组或多组资料的变异度7.常用相对数(1)率,是二分类指标(2)构成比(3)比8.正确应用相对数应注意几个问题:(1)计算相对数的分母不宜过小(2)分析时不能以构成比代替率(3)对观察单位数不等的几个率,不能直接相加求其总率(4)计算率时要注意资料的同质性,对比分析时应注意资料的可比性\n(5)也有抽样误差,需要假设检验。9.率的标准法(1)基本思想:采用统一的标准,以消除病情构成不同对治愈率比较的影响,使算得的标准化治愈率有可比性。(2)目的:控制混杂因素对研究结果的影响。10.正态分布(1)概念P16(2)标准正态分布,u变换:u=,u是标准正态离差,μ是均数,σ是标准差。u~N(0,1)(3)正态分布的特征:①是单峰分布,高峰位置在均数X=μ处。②以均数为中心,左右完全对称。③取决于两个参数,均数μ和标准差σ。μ为位置参数,μ越大,则曲线沿横轴向右移动;μ越小,则曲线沿横轴向左移动。σ为形态参数,表示数据的离散程度,若σ小,则曲线形态“瘦高”;σ大,则曲线形态“矮胖”。④有些指标不服从正态分布,但通过适当的变换后服从正态分布,如对数正态分布。⑤正态分布曲线下的面积是有规律的:总面积恒定为1,对称区域面积相等,对应区域面积相等。(4)几个u界值:①90%:双侧=单侧=1.64②95%:双侧=单侧=1.96③99%:双侧=单侧=2.5811.二项分布\n(1)样本率的标准差的估计值计算公式:=,p是样本率(2)样本个数n和概率π如何影响二项分布的图形?给定n后,形状取决于π。当π=0.5时,分布对称;当π<0.5时分布呈正偏态;当π>0.5时分布呈负偏态。随n的增大,分布逐渐逼近正态分布。如果nπ或n(1-π)大于5时,则可用正态近似原理处理二项分布的相关问题。(3)应用条件:对立性,重复性,独立性。12.Poisson分布(1)概念,描述罕见事件发生次数的概率分布,是特殊的二项分布。(2)均数与方差相等,均为λ。(3)形状取决于λ的大小,为正偏态分布,λ越小分布越偏;随着λ的增大,分布逐渐趋于对称,当λ=20时,已基本接近对称分布;当λ≥50时,可按正态分布原理处理Poisson分布的有关问题。(4)Poisson分布具有可加性。(5)应用条件:对立性,重复性,独立性。即事件的发生是相互独立的,且发生的概率不变,结果是二分类的(发生或不发生)13.参考值范围(1)概念:绝大多数正常人某指标的波动范围。(2)正态分布法计算100(1—α)%正常值范围:双侧S单侧—S(高侧)+S(低侧)注意α取值:双侧95%1.96S\n单侧95%高侧<—1.64S低侧>+1.64S(3)百分位数法:知道求得第几个百分位数P2614.抽样误差(1)概念:由于个体变异的存在,由抽样引起的样本统计量与总体参数间的差异。(2)产生的两个必备条件:①抽样研究②个体变异,是根本原因(3)中心极限定理的涵义①从均数为μ、标准差为σ的正态总体中独立、重复、随机抽取含量为n的样本,样本均数的分布仍为正态分布,其均数为μ,标准差为。X~N(μ,)→X~N(μ,)②即使从非正态总体(均数为μ、标准差为σ)中独立、重复、随机抽取含量为n的样本,只要样本含量足够大(如n≥50),样本均数也近似服从均数为μ,标准差为的正态分布。(4)标准误意义:1.用来衡量抽样误差的大小2.=标准误与个体变异σ成正比,与样本含量n的平方根成反比(5)标准误的估计值的计算公式:样本标准差s代替总体标准差σ,=(6)标准差与标准误的关系区别标准差s标准误意义个体变异统计量的抽样误差用途正常值范围(1.96s)总体均数的可信区间(1.96)与n关系n,s趋于稳定n,趋于联系:①两者都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误;②当样本量不足时,标准差大,标准误也大,均数的标准差与标准误成正比。=15.\n医学统计学:运用概率论和数理统计等数学的原理和方法,研究医学领域中资料的搜集、整理、分析和推断的一门学科。15.三类资料:①定量资料(数值资料)②定性资料(无序分类资料)③等级资料(有序分类资料)16.总体:按研究目的所确定的研究对象中,所有观察单位某项指标取值的集合。17.样本:从研究总体中,随机抽取具有代表性的部分观察单位某项指标取值的集合。18.同质性:具有相同性质的事物。19.参数:描述某总体特征的指标。20.统计量:描述某样本特征的指标。21.概率:随机事件发生可能性大小的一个度量,取值范围为0≤P≤122.小概率事件:发生概率≤0.05的事件。23.小概率原理:小概率事件发生的可能性很小,进而认为其在一次抽样中不可能发生。24.理解和解释可信区间25.统计推断:根据样本所提供的信息,以一定的概率推断总体的性质。包括两方面的内容:参数估计和检验假设。26.可信区间的两个要素:可靠性,精确性27.均数的可信区间:从正态分布总体N(μ,)中随机抽取一个样本,则t=服从自由度ν=n-1的t分布。总体均数的(1-α)可信区间定义为(—,+)。如n>100,可用标准正态分布代替t分布,相应的100(1-α)%可信区间为(—,+)。28.率的可信区间:(1)率的标准差又称率的标准误,为=\n(2)总体率π的区间估计用正态近似法的条件:样本含量n足够大,且样本率p和(1-p)都不太小时,如np和n(1-p)均大于5时,π的可信区间为(p—,p+)。30.事件数的可信区间:当X≤50也可以查附表7“Poisson分布λ的可信区间”,得到λ的95%或99%可信区间。31.假设检验(1)基本思想:(2)4个基本步骤:①建立检验假设::===……:、、……之间不等或不全相等。②确定检验水准(拒绝时的最大允许误差α)③计算检验统计量并求值④界定P值并作结论(要回下结论):≤α,拒绝,接受;>α,不拒绝。(3)Ⅰ型错误:真实时被拒绝。P>0.05却拒绝H0接受H1(4)Ⅱ型错误:不真实时不拒绝。H1真实即P<0.05却不拒绝H0(5)检验功效:Ⅱ型错误率β表示失去对真实的作出肯定结论之概率,故1-β就是对真实的作出肯定结论之概率,常被用来表达某假设检验方法的检验功效,即假设检验对真实的作出肯定结论之把握程度。(6)Ⅰ型错误与Ⅱ型错误的关系P51(7)单侧检验与双侧检验的关系\n(3)假设检验与可信区间的关系32.怎么做题?判断资料类型→设计方法→计算自由度→确定P值→下结论33.区分配对和成组配对:同质性差,要算差值①自身配对②一般有编号成组:①无原始数据(还有均数)②两组样本含量不等,不能配对③无编号34.t检验(1)应用条件:独立性,正态性,方差齐性(2)两样本均数比较方差不齐时t’检验(3)两样本几何均数比较:取对数,t检验,不用反对数35.方差分析,多个均数比较(1)总变异:=+处理因素、个体差异、随机因素,共同导致的差异。(2)组间变异:多个组的处理因素不同和随机误差,导致的差异。(3)组内变异:组内个体差异和其他随机因素,导致的差异。(4)三种变异的关系:=+,=+/(5)单因素方差分析表和两因素方差分析表36.多个样本均数的两两比较,对比的组数k大于2,分别t检验则需经过m=k(k-1)/2次比较,若每次比较的第一类错误率为α,则多次比较后,至少犯一次第一类错误的概率为,比预先设计的α要大。37.变量转换目的\n38.F值、t值、q值、q’值之间的关系(1)两样本均数比较时,=。用q检验或q'检验也得到同样的结论。说明在两样本均数比较时,t检验、F检验、q检验和q'检验是等价的。(2)当组数k>2时,q'检验的检验功效高于q检验,所以当实验研究设计为一个对照组与多个实验组均数比较时,q'检验科得到较高的功效。定性资料的分析39.假设检验步骤P7340.检验(1)基本思想:(2)应用条件:①n≥40,T≥5,用检验②n≥40但1≤T<5,需用校正检验③T<1或n<40,改用确切概率法。(3)理论频数T的计算公式:=(4)R×C表的自由度ν=(行数-1)(列数-1),故四格表ν=1(5)要记的界值:=3.8441.配对检验的应用条件:b、c为结果不同部分(甲阳乙阴、甲阴乙阳)①b+c≥40时不用校正=ν=1②20≤b+c≤40时要校正=ν=1\n42.R×C表的应用条件:①多个率或构成比的比较,其自由度大于1②R×C表中不宜有以上格子的理论频数小于5,或不宜有一个理论频数小于143.对理论频数太小的样本的处理办法:①增加样本例数②删去理论频数太小的行或列③将太小理论频数所在的行或列的实际频数,与性质相近的邻行或邻列的频数,合并。44.参数检验:以特定的总体分布(如正态分布、二项分布)作为前提,对总体的参数进行的假设检验,限制条件:总体正态分布、总体方差齐性。45.非参数检验:不依赖于总体的分布类型,不针对总体参数,只针对总体分布是否相同的检验方法;常用于解决总体分布未知的统计问题。46.秩和检验(1)基本思想:两组秩和相加等于N(N+1)/2。(+=N)(2)两组比较的秩和检验①基本思想:若A、B两组等级分布相同,则含量为的样本之实际秩和T与其理论秩和(N+1)/2之差纯系抽样误差所致,因此差值不会很大,差值越大的概率越小。②方法步骤:P88仔细弄明白1°建立检验假设::两组分布相同;:两组分布不同。α=0.052°编秩\n3°求秩和T4°确定检验统计量T5°确定P值,作出推断性结论(1)配对秩和检验:设n为非0差值的个数,则+=n(n+1)/2。(2)秩和检验的使用范围:理论上可用于任意分布的资料①等级资料②定量资料,开口资料③定量资料,分布极度偏态,或个别数值偏离过大而不属于“过失误差”者④定量资料,各组离散程度相差悬殊,即使经变量变换,也难以达到方差齐性⑤定量资料,分布型尚未确知⑥兼有等级和定量性质的资料(3)秩和检验的优缺点:P9547.直线相关(1)概念:用来描述两个呈正态分布的变量之间的线性共变关系。(2)应用条件:双变量正态分布48.相关系数(1)概念:表达两变量间线性相关的程度和方向的一个统计指标。(2)特征:①无量纲②取值范围为-1≤r≤1。相关系数小于0为负相关;大于0为正相关;等于0为零相关③相关系数的绝对值越大,表示两变量间的相关程度越密切;相关系数越接近于0,表示相关越不密切。\n(3)相关系数的假设检验用t检验为相关系数的标准误=r有公式t==/①建立检验假设::ρ=0,…与…无相关关系;:ρ≠0,…与…有相关关系。α=0.05②计算检验统计量,r,t,ν=n-2③作结论:按ν=8查t界值表得P<0.001。按α=0.05水准拒绝,接受。故可认为…与…之间有正相关关系。50.何时用等级相关?51.直线回归(1)自变量x,应变量y(2)直线回归方程的一般表达式:=a+bXa、b是决定回归直线的两个参数:a为回归直线在y轴上的截距;b为回归系数,即回归直线的斜率。(3)b的意义:表示自变量增加一个单位时,应变量的平均改变量。要会解释,例如b=0.2385(/kg),表示体重增加1(kg),则体表面积平均递增0.2385()。(4)的意义:表示给定X时Y的平均值的估计。例如X=12(kg)时,=5.3832(\n),其意义是:所有体重为12(kg)的3岁男童,估计其平均体表面积为5.3832()。(3)Y-的意义:称为剩余、残差,是y的观察值与对应的估计值之差。在回归图中表示各散点到回归直线的纵向距离。=0(4)的意义:剩余平方和。坐标系中,每一条直线均可计算散点到该直线的纵向距离之平方和;但只有各散点到回归直线的纵向距离之平方和,即是唯一最小的。以此为准则,可导出a、b的最小二乘估计(公式)。52.回归系数的假设检验用t检验(1)为剩余标准差,常用于评价啊回归方程的拟合精度。扣除x的影响后,y本身的变异程度。==(2)为样本回归系数的标准误=/(3)①检验假设::总体回归系数β=0,即…与…无回归关系;:总体回归系数β≠0,即…与…有回归关系。α=0.05。②计算检验统计量:,,=,ν=n-2③作结论:按ν=8查t界值表得P<0.001。按α=0.05水准拒绝,接受。故可认为…与…有回归关系。(4)=,因为自由度相同,故回归系数是否为0的假设检验与相关系数是否为0的假设检验是等价的。相关系数的假设检验更简单。\n53.应变量总变异的分解=+=+=+;=n-1;=1;=n-254.回归方程的方差分析要会填表P125==,即在直线相关与回归分析中,相关系数的t检验、回归系数的t检验、回归方程的方差分析是等价的。55.直线回归与直线相关的区别及联系(1)区别①对资料的要求:回归只要求应变量y是随机变量且服从正态分布,变量x有两种:精确测量和严格控制的变量(Ⅰ型回归)、随机变量(Ⅱ型回归)。相关:x、y均为随机变量且服从双变量正态分布②应用:回归反映两变量间的依存关系;相关反映两变量间的相互关系。③计量单位:r没有单位;b的单位是:y单位/x单位(2)联系①正负符号:在同一资料,r与b的正负符号相同。②假设检验:在同一资料,r与b的假设检验等价。③换算关系:P13256.回归分析应用条件:线性、独立、正态、等方差57.研究设计的三要素:研究因素、受试对象、实验效应58.\n研究可分为2种性质:前瞻性和回顾性;又可分为两类:试验和调查。所以,研究设计的形式组合有4种。56.试验研究与调查研究的区别:(1)研究条件(2)观察对象(3)例数60.研究设计的基本原则:对照、随机、重复。查看更多