统计学名词解释07162

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

统计学名词解释07162

名词解释:医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。变量(variable):观察单位的某项特征变量值(valueofvariable):变量的观察结果(测量值)总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。随机抽样(randomsample):按随机化原则从总体中抽取部分观察单位的过程。同质(homogeneity):是针对被研究指标来讲,其影响因素相同。简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。等级资料(ordinaldata):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。有序变量(定性变量的一种)。概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0=40且所有T>=5时,用普通的2检验,若所得的P约等于0时,改用确切概率法,2,当n>=40但1<=T<=5时,用校正2检验;3当n<40或T<1时,不能用2检验,改用确切概率法。3,秩和检验的基本思想:假定从一总体中,随机抽取一个样本,可以求出T+和T-,当重复所有可能组合的样本,得T+和T-的分布,T的分布以均数为中心对称的非连续分布,当H0成立,从总体随机抽取任一样本,所得T值在均数附近的概率最大,当T值远离均数概率较小,随着n增大,T的分布逐渐逼近均数n(n+1)/4,方差n(n+1)(2n+1)/24的正态分布,当n<25时,T的分布已较好地近似正态分布。4,成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本,来自同一总体和分布相同的两个总体,即假设检验H0成立,则n1样本的秩和T与平均秩和n1(N+1)/2一般相差不大,也就是u值小于u,若T与平均秩和n1(N+1)/2相差很大,则表示筹得的样本统计量T值的概率很小,因而拒绝检验假设H0。5,直线回归方程的应用:描述两变量的依存关系;利用回归方程进行预测;利用回归方程进行统计控制。6,应用直线回归应注意的问题:做回归分析要有实际意义,不能把毫无关联的两种现象勉强做回归分析,即使有回归关系也不一定是因果关系,还必须对两种现象间的内在联系有所认识,能从专业理论上做出合理解释或有所依据,在进行直线回归分析前,应绘制散点图,当观察点的分布有直线趋势,才适宜直线回归分析;直线回归方程的适用范围一般以自便量的取值为限,不能任意外延。7,直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。5单位不同,回归系数b有单位,相关系数r没单位。8,直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1。9,列表的原则1重点突出,简单明了2主次分明,层次清楚,符合逻辑。10,列表的基本要求1标题,概括表的内容,写于表的正上方中央,必要时注明时间地点。主要内容2标目\n以横纵向标目分别说明主语与谓语,文字简明,层次清楚,有单位用()3,线条用三线条表示,粗略的顶端线及纵标下的横线,其余一律省去,4数字以阿拉伯数字表示,暂缺或无数字分别以“”、“——”表示,不应有空项,为核实与分析,表常应有合计。5不列备注,必要说明者表*,于表下方说明。1,实验的基本原则随机化,对照,重复。2,对照的种类:空白,安慰剂,自身,实验,标准3,实验设计的基本步骤:建立研究假设,明确研究范围,确立处理因素,明确观察指标,控制误差和偏倚。4,常用的实验设计方法:完全随机设计,配对设计,交叉设计,随机区组设计,析因设计。5,确定样本含量时应具备的条件:建立假设检验,定出检验水准,提出所期望的检验效能,必须知道有样本推断总体的一些信息。6,常用的估计样本含量的方法:两样本均数比较,配对实验和交叉试验,样本均数与总体均数的比较,两样本率的比较,配对分类资料多用X2检验进行处理,估计总体均数的样本含量,估计总体率的样本含量。7,实验设计和调查设计的主要区别:调查设计1在研究过程中没有人为施加的干预措施,而是客观的观察记录某些现象的现状及其相关特征,2不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响;实验设计1研究者根据研究目的主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题,2按随机分配的方法去除混杂因素。8,标准误与标准差的区别与联系区别1概念不同:标准差是描述样本中个体值间的变异程度指标,标准差越小,表示变量值围绕均数波动越小,标准误是描述样本均数间的变异程度指标,标准差越小,表示变量值围绕均数波动越小。2用途不同:标准差用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等,标准误常用于表示样本统计量和总体参数的波动情况,可估计参数可信区间进行假设检验。3与例数的关系不同,当样本含量足够大时,标准差趋向稳定,而标准误随例数增大而减小,甚至趋向于0,若样本含量趋向于总例数,标准差趋近于0或更高。9,非参数检验的适应情况:1分布型未知,2能以严重程度,优劣等级,效果大小和名次先后等划分的等级资料。3分布极度偏态。4本组内个别变量偏离越大,远离本组其他变量值,5,方差不齐时,6筛选或只需获得初步结果。10,如何正确选用单侧检验和双侧检验:单侧检验首先应根据专业知识来确定,同时也应考虑所要解决问题的目的,若从转押知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果高低时,用双侧检验,若研究者对于低于或高于两种结果都关心时,则用双侧检验,若只关心其中一种可能,则取单侧检验,一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,更易得出有差别的结论,但应慎用。11,配对t检验与配伍组设计的方差分析之间有何联系?两样本t检验与完全随机设计的方差分析有何联系?配伍组设计的方差分析是配对t检验的推广,他们的基本原理相同。完全随机设计的方差分析是两样本t检验的推广,他们的基本原理相同。不管是配伍组设计害死完全随机设计,当对比样本为两组,可用t\n检验也可以用方差分析,他们是等价的,当对比样本在两组以上只能用方差分析。1,P0.05拒绝H0的理论根据。P值是指从H0规定的总体随机抽取等于及大于(或等于及小于)现有样本统计量的概率,P0.05,说明在H0成立的条件下,得到现有检验结果的概率小于小概率事件标准0.05.因小概率事件在一次实验中几乎不可能发生,现的确发生了,说明样本信息不支持H0,所以怀疑假设H0不成立,故拒绝H0。2,配对比较的假设检验,能否出现t检验结果P>0.05,而非参数检验结果P<0.05?答:可能出现。配对t检验的统计量t=,式中d为差值均数,当Sd固定时,t的大小取决于d,差值均数小,t值就小,表明每个对子是接近的,故检验结果为P>0.05。推断两总体差值为0的假设未能拒绝,在参数检验中,综合了差数大小与方向的全部信息,差数大小更能提供两组数据之差有无实际意义的信息,而配对秩和检验更侧重方向的作用,设想当n对差数全部为正号时,尽管两组数据非常接近,也会出现T+很大,T-为零的局面,即P<0.05的结果,这种局面虽然可以出现,但随n的增大,如果H0为真,则差数的方向是随机出现的,故T+和T-一般相差不大,其检验结果与参数检验结果多数情况下还是一致的。3,参数检验和非参数检验所得结果不一致,以何为准?仅供参考第一章绪论统计学(statistics),是研究数据的收集、整理、分析的一门科学,帮助人们分析占有信息。达到去伪存真、去粗存精、争取认识世界的一种重要手段。卫生统计学(healthstatistics):是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。统计描述(descriptivestatistics)用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行滴定和描述。统计推断(statisticalinference):通过样本指标来说明总体特征,从样本获取有关总体信息的过程总体(population):是根据研究目的确定的同质观察单位的全体。样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。变量(variable):在确定总体之后,研究者则应对每个观察单位的某项特征进行测量和观察,这种特征称为变量。变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。随机抽样(randomsample):按随机化原则从总体中抽取部分观察单位的过程。以避免误差和偏倚对研究结果有所影响。样本含量或样本大小(samplesize):样本包含的观察单位数称为样本含量,医学上也称为样本例数。定量资料(quantitativedata)是测量每个观察单位某项指标大小所得到的资料,一般均有度量衡单位。分类资料(categoricaldata):观察值是定性的,表现为互不相容的类别或属性。有序分类(ordinalcategories):各类之间有程度的差别,给人以“半定量”的概念。概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P\n(A)越大,说明A事件发生的可能性越大,050),也近似正态分布。2从均数µ,标准差σ的正态或偏态总体,抽取例数为n的样本,样本均数的总体均数也为µ,标准差用σ()=统计推断包括:参数估计和假设检验。标准误的用途:可反映样品均数与总体均数距离远近,反映可靠性:与样本均数结合估计总体均数的可信区间;进行假设检验。假设检验应注意的问题:1,要有严密的研究设计2,不同变量或资料应选择不同的检验方法3,正确理解“显著性”一词的含义4,做结论不能绝对化5,统计“显著性”与医学临床/生物学“显著性”。可信区间与假设检验:1可信区间亦可回答假设检验的问题,2可信区间比假设检验可提供更多的信息。第一章方差分析变量变换:将原始数据做某种函数转换,使各组达到方差齐性,也可使资料转换为正态分布。方差分析的基本思想:就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。离均差平方和除以自由度得均方,组间均方与误差均方之比为F值,F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P。方差分析的用途:两个或多个样本均数的比较,分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。方差分析的应用条件:1,各样本是相互独立的随机样本,2各样本来自正态总体,3各处理组总体方差齐性。变量变换:1目的:使方差性齐;资料正态化;还可用于曲线直线化;2类型:对数变换:平方根变换;倒数变换;平方根反正弦变换等。第二章分类资料的统计描述\nRelativenumber相对数:由两个有联系的指标之比组成的用以描述分类变量的统计指标。Rate率:又称频率指标,说明某现象发生的频率或强度。率=发生某现象的观察单位数/可能发生某现象的观察单位总数×100%Proportion构成比:又称构成指标,说明某一事物内部组成部分所占的比重或分布。构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%Ratio比:又称相对比。是A,B两个有关指标之比,说明A是B的若干倍或百分之几。比=A/BStandardmortalityratioSMR标准化死亡比:指被标化组实际死亡数与预期死亡数之比。若SMR>1,表示被标化人群的死亡率高于标准组:反之若SMR<1,表示被标化人群的死亡率低于标准组。Dynamicseries动态数列:是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。定基比:即统一用某个时间的指标作基数,以各时间的指标与之相比,是常用的动态数列分析指标之一。环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。是常用的动态数列分析指标之一。应用相对数应注意的问题:计算相对数的分母一般不宜过小,当例数小于30时,宜用绝对数表示为好;分析时不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。标准化法的基本思想:当两组或多组率之间比较,其内部各小组的率明显不同,且各小组的观察例数的构成比也明显不同时,则不能直接比较两组或多组的总率,得出结论。为消除构成不同造成的影响。采取统一的标准构成进行调整,使之标准化,以具有可比性。标准化率的计算(直接法):p’=或p’=Ni:标准组个小组例数:pi:被标化组各小组的率,N:标准组总例数平均发展速度=a0=基期指标;an:第n年指标平均增长速度=平均发展速度-1第九章秩和检验参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。非参数统计:当样本来自总体分布型是未知的或总体分布与检验所要求的条件不符时,所使用的统计方法。不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。非参数统计的优缺点:1应用范围广,简便,易掌握,对资料分布特征无特殊要求。2当资料适合参数统计,而用非参数统计会损失部分信息,减低检验效能。\n秩和检验方法配对设计差值的符号秩和检验成组设计两样本比较的秩和检验成组设计多样本比较的秩和检验假设H0M=0H1M≠0α=0.05H0两总体分布相同H1两总体分布不同α=0.05H0总体分布均相同H1总体分布不同或不完全相同α=0.05方法1,差值由小到大编秩,人去T+或T-,查表确定p值。2,N>25,用μ检验1.所有数据由小到大编秩,小ni组秩和为T。查表确定p值。2.n1>10或n2-n1>10时,用μ检验1.所有数据由小到大编秩,求出各组秩和Ri计算H值。2.当k=3,n≤5时查H界值表确定p,当最小n>5时,v=k-1.查X2表,确定p。注意事项编秩时,绝对值相等者,取平均秩次1.编秩时,相同数据在不同组内取平均秩次2.相同秩次较多时,需要校正。1,编秩时,相同数据在不同组内取平均秩次。2.相同秩次较多时,需校正。第十一章回归和相关直线相关:或简单相关,描述两变量的相互关系,用于双变量正态分布资料。有正相关、负相关和零相关(非直线相关)系。相关系数:或累积相关系数,说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。样本相关系数用r表示,总体相关系数用ρ表示。直线回归:描述两变量间的依存关系。利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。回归系数:或直线的斜率,样本回归系数b,总体回归系数β,b的统计学意义为:X每增加/减少一个单位时,Y平均改变b个单位。剩余:或残差,即实际值与估计值之差。SSB即2,为Y的离均差平方和。说明未考虑X与Y的回归关系时Y的变异。剩余平方和:SS剩,即2,它反映X对Y的线性影响之外的一切因素对Y的变异情况。也就是在总平方和中无法用X解释的部分,其值越小,说明直线回归的估计误差越小。回归平方和:SS回,即2,它反映由于X与Y的直线关系而使Y的总变异减小的部分。也就是在总平方和中可以用X解释的部分,其值越大,说明回归效果越好。剩余标准差:指当X对Y的影响被扣除后,Y仍存在变异,此变异由抽样误差造成,与X无关。用来反映Y的剩余变异。预测:吧预报因子(X)代入回归方程对预报量(Y)进行估计,其波动范围可按求个体Y值容许区间方法计量。统计控制:利用回归方程进行逆估计,要求Y在一定范围内波动,可以通过控制X\n的取值来实现。决定系数:即r2=SS回/SS总.当总平方和固定不变时,回归平方和的大小取决于r2。秩相关:又称等级相关,用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。等级相关系数:即rs,说明两个变量间相互关系的密切程度与相关方向,用于下列资料:1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。假设检验:1b,方差分析,t检验;2界值表,t检验。直线回归方程的应用:1描述两变量的依存关系;2预测;3统计控制应用直线回归应注意的问题:1.作回归要有实际意义。2.回归分析前绘制散点图,观察直线趋势,修正或删除异常点。3.直线回归方程的适用范围一般以自变量的取值范围为限。相关和回归的区别:1.资料要求不同:回归要求Y服从正态分布,X可精确测量和严格控制:相关要求双变量正态分布。2.应用情况不同:回归——依存关系:相关——相互关系。相关和回归的联系:1.方向一致:r,b符号一致。2.假设检验等价:统一样本,r,b的假设检验得到的t值相同。3.用回归解释相关。A.SS回越接近SS总,,则r2越接近l,说明引入相关的效果越好。B.相关系数的大小与SS总及回归系数有关,所以相关系数不能作为回归估计精度的指标。秩相关的应用条件:1.不服从双变量正态分布而不宜作积差相关分析。2.总体分布型未知。3.用等级表示的原始数据。第十二章常用统计表统计表:在科技报告或论文中,常将统计资料及指标以表格列出,称为统计表。可分为简单表和复合表。统计图:是用点的位置、线段的升降、直线的长短或面积的大小等形式表达统计资料,可直观反映出事物间的数量关系。列表原则:1重点突出,简单明了2主次分明,层次清楚,符合逻辑。列表基本要求:1标题2标目3线条4数字5不列备注制图基本要求:1标题2标目3图例常用统计图统计图定义制图直条图用等宽长条的高度表示按质量分组的资料起点为0,等宽,等间距直条,按高低顺序排列。圆图以圆面积表示事物的全部,用扇形面积表示各组成部分所占比重圆面积为100%,各构成比分别乘3.6度,绘扇形面积,以12\n点为始,由大到小依次绘制。普通线图用线段的升降表示随时间变化的趋势,用于连续性资料X,Y轴为算术尺度,相邻两点以折线连接半对数线图用线段的升降表示随时间变化的变动速度,用于连续性资料X轴为算术尺度,Y轴为对数尺度。直方图用矩形面积表示连续性变量的频数分布。X轴表示连续性变量的组段,Y轴表示频数或频率,尺度从0开始散点图以点的密集程度和趋势表示两种事物间的相关关系。同线图,但相邻两点间不连接。第十三章实验设计实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。依研究目的分为实验研究和临床试验。实验研究设计(experimentaldesign):是以动物或标本(如血,痰,尿等)为研究对象采取干预措施的研究。临床试验(clinicaltrial):从统计学角度出发,只要是以人为研究对象并采取了干预措施的研究统称为临床试验,可分为临床疗效实验和社区干预实验。随机化原则:即总体中的每个观察单位都有相等的机会被选入到样本中来。随机分配(randomizedallocation):为增强可比性,依型讲究假设的要求规定了纳入标准,将实验对象分入实验组和对照组中。空白对照:对照组不施加任何处理措施。安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。实验对照:对照组和实验组的处理措施区别在于:实验组加入了有效成分,而对照组则无。标准对照:用公认的有效药物、现有的标准方法或常规方法做对照。自身对照:对照和实验措施在同一实验对象上实施。相互对照:几个处理(或水平)互为对照。处理因素:是根据研究目的而施加的特定的实验措施。实验效应:主要只处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。观察指标应该客观性较强,灵敏度较高。精确性较强。准确度(accuracy):观察值与真值的接近程度。精确度(precision):重复观察时:观察值与其平均值的接近程度。随机对照试验(randomizedcontroltrial):将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。随机双盲对照实验(randomizeddoubleblindcontroltrial):在随机对照试验的基础上再采用双盲法。配对设计(paireddesign):将实验对象按一定条件配成对子,如将年龄、体重一致的动物配成对子。再将每对中的两个受试对象随机分配到不同处理组。据以配对的因素为可能影响实验结果的主要混杂因素。系统误差:由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。\n选择性偏倚selectivebias:由于纳入观察对象的方法不正确而产生的偏倚。测量性偏倚measurementbias:实验过程中对研究对象进行观察或测量而造成的偏倚。沾染contamination:对照组实验对象接受实验组的处理措施,提高了对照组的有效率,结果导致了实验组和对照组的差异。干扰cointervention:实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验的有效率,结果扩大了实验组和对照组的差异。依从性:compliance受试者对于干预措施及实验过程的执行程度。非依从性noncompliance:受试者为按照研究人员的规定方案执行称为非依从性。失访losttofollowup:受试者在实验过程中由于各种原因退出实验称为失访。双盲法(doubleblindmethod):课题主持人采取措施使研究者和研究对象均不知道接受实验措施或对照措施。单盲法:singleblindmethod:只有患者不知道处理措施的内容。三盲法:tripleblindmethod:主持人/研究者/患者均不知道处理措施的内容。混杂偏倚confoundingbias:在总结分析阶段,由某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂因素的偏倚。实验设计的基本原则:随机化、对照、重复。对照原则的目的:实验研究的目的是验证研究假设是否正确,只有经过比较才能鉴别其真伪,设对照组是比较的基础,没有对照很难说明研究假设是否正确;设立对照也是控制实验过程中非实验因素的影响和偏倚的一种有力措施。常用的对照有:空白对照,安慰剂对照,实验对照,标准对照,自身对照,相互对照。重复原则:含义为1足够的样本含量;2实验的次数。实验设计的三要素:处理因素、实验效应、受试对象。确定受试对象纳入标准应注意:1应纳入对处理因素的效应反应灵敏的患者。2某些处理措施对一些特殊人群产生有害作用,应排除实验之外。常用的实验设计方法:随机对照实验,配对设计,交叉设计,配伍组设计。随机对照试验有点(随机化的目的)1有效避免非实验因素的影响,使实验因素充分显示2增强各比较组间的可比性,使研究结论更可靠。3更好地控制非实验因素对实验因素的影响,有效地控制了偏倚和误差。4满足了随机化原则,使检验结果反映真实差异。交叉设计的优点:1节约样本含量2能控制时间因素及个体差异对处理因素方式的影响3从医德观点出发,均等考虑每个患者的利益。交叉设计的注意事项:1前提是两种处理方式不能相互影响。2不适用于病程较短急性病效果的研究3应尽可能采用盲法。确定样本含量的意义:正确确定样本含量是实验设计的一个重要组成部分,估计样本含量应克服两种倾向:1片面追求增大样品含量导致人力、物力和时间的浪费,还可能引入更多的混杂因素。2\n样本含量偏少,检验效能偏低,导致总体本来存在的差异未能检出,导致非真实的阴性结果。样本含量大小还受个体差异和研究实验要求的精神有关。阅读专业文献时,对假设检验阴性结果有必要复核样本含量和检验效能是否偏低。以正确分析假设检验的结论。第X章2检验2test(Chi-squaretest)2是一种用途较广的假设性检验方法,可用于推断两个及多个总体率或总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。2检验的基本思想:2值是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。若检验假设成立,则实际数与理论数的差别不会很大,出现大的2值的概率p是很小的,若P≤α检验水准,就怀疑假设,因而拒绝它,若P≥α,则无理由拒绝它。理论数的计算:Tic=,Ti,r第i行第c列的理论数,ni为Tic所在的行合计,nc为Tic所在的列合计:n为总例数。2检验的基本公式:2=————————————(1)2检验的校正公式:2=——————————(2)四表格专用公式四表格专用公式:2=—————————(3)校正公式2=———————(4)四格表2检验的条件:1当n≥40且所有的T≥5时,用普通的2检验(公式1,3),若所得P≈α,改用确切的概率法。2当n≥40但又1≤T≤5,用校正的2检验(公式2,4)。3当n<40或有T<1时,不能用2检验,改用确切概率法。配对四格表资料的2检验:2=,v=1(b+c≥40时使用)\n校正公式2=,v=1(b+c<40时使用)行X列表的2检验公式2=n()无校正公式行X列表的2检验的注意事项:1不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5.2当检验有统计学意义(拒绝H0)时,只能认为各总体率或构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若要进一步解决此问题,可用2分割法。3若表格有一个方向按多个等级分类,则称单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。四格表的确切概率法的应用条件:1,四格表内理论频数T<12,样本含量n<403,2检验后所得概率P接近检验水准α。试题:一、名词解释:1,coefficient(相关系数):又称积差相关系数(product-momentcorrelation),是说明具有直线关系的两个变量间,相互关系的密切程度与相关方向的指标。2,proportion(构成比):又称构成指标。说明某一事物内部的各组成部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。3,coefficientofvariation(变异系数):常记为CV。它被定义为标准差与算术平均数之比。即CV=S/×100%。它描述了相对于算术均数而言。标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。4,population(总体):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。5,standarderrorSE(标准误):样本均数的标准差也称均数的标准误(standarderrorofmean)它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。6,incidencerate(发病率):表示一定时期内,在可能发生某病的一定人群中新发生的某病例数。其计算公式为:某病发病率=该期间新发生的某病例数/一定期间内可能发生某病的平均人口数×100%7,Chi-square(2值)是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。8,Chi-squaretest(2检验\n):是一种用途较广的假设检验方法,即推断两个及多个总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。1,Normaldistribution(正态分布):若X的频数曲线应用于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称),则称该指标服从正态分布。2,Mortalityrate(死亡率):指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。死亡率=某人群某年(因某病)总死亡人数/该人群同年平均人口×1000简单题1:应用相对数应该注意什么?计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。2,方差分析的基本思想?根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P.3,相关和回归的区别和联系?直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。5单位不同,回归系数b有单位,相关系数r没单位。直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近14,行X列表2检验注意事项。答:1.不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5;2.当检验有统计学意义(拒绝H0)时,只能说明各总体率或构成比之间总的来说有差别,但不能说明它们之间都有差别,成两者之间有差别,若要进一步解决此问题,可用2分割法。3,若表格有一个方向按多个等级分类,则称单向有序行X列表,当等级数大于3时,一般用秩和检验分析更为适宜。5,可信区间和假设检验的关系?\n可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。6,二项分布应用条件?答:1.每次试验结果,只能是两个互斥的结果之一(A或非A)。2.每次试验的条件不变,即每次试验中A发生的概率不变,均为x,3.各次实验独立,即一次试验出现什么样的结果与前面已出现的结果无关。7.t检验的应用条件,方差不齐时的处理方法?答:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。若两总体方差相等,则直接用t检验。若总体方差不等,可采用t’检验或变量变换或秩和检验等方法处理。8.实验设计的几个原则,要素,方法,适用范围,优缺点?答:原则:1对照原则2重复原则3随机化原则。要素:1处理因素2受试对象3实验效应。方法和优点:1随机对照实验:是将受试对象随机分配到试验组和对照组,通过比较分析回答研究假设的问题,该设计既贯彻了随机化原则,又设有对照。优点是A有效的避免了某些非实验因素的影响B增强了各比较组的可比性,使结论更可靠C有利于所比较总体间存在真实差异D满足了随机化原则,更能反映真实差异。2配对设计:将实验对象按一定条件配成对子,再随机分配每对的两个对象接受不同的处理方式。优点最大限度排除了非处理因素的干扰;降低个体差异水平;提高实验效果;增强均衡性。3交叉设计:是一种特殊的自身对照设计。优点:A节约样本含量B能够控制时间因素及个体差异对处理方式的影响C每个实验对象同时接受了实验因素和对照,考虑了每个患者的利益。4.配伍设计:是将条件相近的实验对象配成一组。优点:增强了各组间的均衡性,可进一步控制混杂性偏倚。计量数据统计描述和统计图表的是非题1.在同一连续分布总体中作随机抽样,理论上样本均数越大,则样本标准差s越大。(错)2.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本标准差越小(错)3.对称分布就是正态分布。(错)4.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本极差越大。(对)5.样本中位数不受样本中的极端值影响。(对)6.正态分布资料也可用中位数描述其中集中趋势(中心位置)。(对)7.分组的连续分布资料,计算百分位数要求组距相等。(错)8.第80百分位数ρ80表示有80%变量值比它大。(错)9.对于连续分布资料,单位相同时,也可用变异系数比较两个变量的相对离散度。(错)10.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则从样本算得的变异系数越小。(错)\n1.对于计量数据,不应按分组方式决定是否计算机和均数。(对)2.若男女儿童平均是高接近,可用标准差s来比较其绝对离散度。(对)3.四分位数间距也是描述连续分布数据离散度的指标。(对)4.自由度p(-∞,∞)时的t分布就是标准正态分布。(对)5.标准正态分布常用N(0,1)表示。(对)6.严格地说,是一定以0为中心,左右对称。(错)7.标准差是位置系数。(错)8.对于连续分布数据,样本标准差的均数理论上等于总体标准差。(错)9.对于连续分布数据,样本方差的均数理论上等于总体方差。(对)10.只有当样本含量很大时,连续分布数据的样本均数的平均数理论上才等于总体均数。(错)11.μ±1.96σ表示任何分布计量指标的95%变量值所在范围。(错)12.正态分布总体,理论上P,P和μ±1.96σ范围是一样的。(对)13.直方图是描述连续分布变量频数分布的统计图。(对)14.构成比资料可画圆图。(对)15.线图可以描述一个计量指标随另一个计量指标变化而变化的趋势。(对)16.半对数线图可以描述和比较事物的发展变化的相对速度。(对)17.表示某中学高三年级10个班学生近视比例的比较,应用线图(错,条图)18.描述200人血压饿分布,应画直图。(错,圆图或百分条图)19.在同一正态总体N(μ,σ)中随机抽样,两个变量值X1和X2之差d服从正态分布N(μ,σ)(错)20.两正态分布变量XN(μ1,σ1)和X2N(μ2,σ2)之差的方差是σ12-σ22(错)。21.比较2000年年底某地三种疾病的患病率,宜绘制之线图。(错,条图)22.描述300人肺活量与身高关系可画散点图。(对)23.纵坐标取等比尺度而横坐标取等差尺度时的线图成为对数线图。(对)24.一般的正常值范围是指95%正常人的该指标所在范围。(对)25.理论上正态分布的标准差不会大于平均数。(错)26.变量值有负数时不能直接计算几何均数。(对)27.均数大于0时所计算的变异系数才有意义。(对)28.利用组距不相等的频数分布表资料计算样本均数x和样本标准方差s,宜用加权法。(对)29.在同一连续分布总体中作随机抽样,理论上样本含量n越大,样本四分位数间距越大。(错)30.超出95%正常值范围的个体都是异常个体。(错)
查看更多

相关文章

您可能关注的文档