- 2022-08-24 发布 |
- 37.5 KB |
- 112页
文档介绍
统计学的基础知识
预备内容:统计学基础知识\n统计学—statistics统计学是收集、分析、解释与报告数据资料的一门科学。“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”.----Webster国际大辞典\n第一节统计学的一些基本概念1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差与错误6.准确性与精确性\n1.总体与样本Populationandsample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体\n从总体中得到样本的方法:抽样。(抽样方法与样本量)从样本推论总体的方法:统计推断(区间估计,假设检验等)抽样与推断\n变量——可以测量的任何特征或属性。Anycharacteristicorattributethatcanbemeasured。如热量值、蛋白质含量、碳水化合物含量。随机变量——在概率论中称变量为随机变量2、变量与随机变量Variableandrandomvariable\n3、变量(随机变量)的分类离散型变量(discretevariable):计数资料(15,17,24,…)连续性变量(continuousvariable):计量资料(1.65,1.73,1.77,…)有序变量(ordinalvariable):等级资料(优、良、中、差)\n4.参数与统计量Parameterandstatistic参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。通常是固定的常数。总体样本抽样统计量参数推断统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。\n误差与错误Errorandmistake误差:试验中不可控因素所引起的实际观察值与客观真实值(真值)之差系统误差systematicerror随机误差randomerror错误:试验过程中,人为作用引起的差错如药品称量错误,数据录入错误等\n误差(Error)测量值=真值+随机误差+非随机误差Xi=i+i1.随机误差(抽样误差):影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。2.系统误差受确定因素影响,大小变化有方向性。3.非系统误差(错误)研究者偶然失误而造成的误差。偏差bias可以避免\n6.准确性与精确性准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异性)。精密度(precision)、也称可靠度(reliability)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。\n系统误差使数据偏离了其理论值,影响数据的准确度。随机误差使数据相互分散,影响了数据的精密度。准确度和精密度都好准确度差、精密度好准确度?精密度差准确度和精密度都差\n第二节计量资料的统计描述连续型变量(可测量的变量)频数表与频数分布平均指标(算术均数、几何均数、中位数、众数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)\n一、频数表与频数分布(frequencytableandfrequencydistribution)\n160名正常成年女子的血清甘油三酯(mmol/L)编号血清甘油三脂编号血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77\n组段(1)划记(2)频数,f(3)组中值,X(4)0.5~30.550.6~正90.650.7~正正120.750.8~正正130.850.9~正正正170.951.0~正正正181.051.1~正正正正201.151.2~正正正181.251.3~正正正171.351.4~正正131.451.5~正91.551.6~正81.651.7~1.8合计31.75160\n男子血清总胆固醇水平(mmol/L)Stem-and-LeafPlotFrequencyStem&Leaf5.002.7899913.003.011122233344434.003.555555556666666677777888899999999932.004.0000000111111122222333333444444435.004.5555555556666666667777788888889999917.005.0011222223333334410.005.55556778994.006.0022Stemwidth:1.00Eachleaf:1case(s)茎叶图\n二.平均指标总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.几何均数(geometricmean)3.中位数(median)4.众数(mode)5.调和均数(harmonicmean)6.截尾平均值(5%trimmedmean)\n1.均数(mean)适用条件:资料呈正态或近似正态分布的资料\n2.几何均数(geometricmean)\n几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料抗体的效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。对于同一资料,几何均数<均数\n3.中位数(median)中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。\n中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据\n例随机抽查了9名中学生某月的到校天数分别为12,13,14,14,15,15,15,17,19天,求其中位数。\n4.众数(mode)出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。\n均数、中位数、众数三者关系正态分布时:均数=中位数=众数正偏态分布时:均数>中位数>众数负偏态分布时:均数<中位数<众数\n5、调和平均数资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即调和平均数主要用于反映变量不同阶段的平均增长率或平均规模。\n某种转基因鱼不同世代鱼群保种的规模分别为:F0代200尾,F1代400尾,F2代600尾;F3代900尾,F4代1500尾,试求其平均规模。\n对于同一资料:算术平均数>几何平均数>调和平均数上述五种平均数,最常用的是算术平均数。几种平均数之间的关系\n5%trimmedmean:将一组数中去掉最小的5%数值,再去掉最大的5%,然后将剩余的90%计算平均值得出的数值。减小了极端值的影响。截尾平均值\n三.变异(variation)指标反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation\n1.极差(Range)(全距)优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定\n1.6m1.8m2.百分位数与四分位数间距Percentileandquartilerange百分位数:数据从小到大排列,在百分尺度下,所占百分比对应的值。记为Px。四分位间距Quartilerange:QR=P75-P25四分位半间距Quartiledeviation:QD=QR/2XFrequency25%75%\n3.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。\n4.标准差标准差(Standarddeviation,Std,SD)即方差的正平方根;其单位与原变量X的单位相同。总体标准差\n样本方差为什么要除以(n-1)与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。例如一个有5个观察值的样本,因为受到统计数 的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。\n基本概念:样本容量及样本个数样本容量(n):指一个样本所包含的单位数。一般将样本单位数不少于三十个(50?)的样本称为大样本,样本单位数不到三十个的样本称为小样本。样本个数(g):又称样本可能数目,是指从一个总体中抽取了多少个样本。\n基本概念:抽样误差抽样误差:指按照随机原则抽样时,样本指标与总体指标之间存在的误差。主要包括:总体平均数和样本平均数的误差;总体标准差和样本标准差的误差。\n基本概念:抽样平均误差为什么要研究抽样平均误差?未知实际误差未知:即使知道,由于样本均值是随机的,每次的误差也不一样。\n均数的抽样误差与标准误例如,从总体均数μ=4.136mmol/L、标准差σ=0.817mmol/L的正态分布总体N(4.136,0.8172)中,随机抽取n人为一个样本(n=5,10,20,30),并计算该样本的均数、标准差。如此重复抽取1000次(g=1000),可得到1000份样本,可得到1000份均数和标准差S。\n1000份样本的均数和标准差均数的抽样误差与标准误\n将这1000份样本的均数看成新变量值,按频数分布方法,得到这1000份样本均数的直方图。随机抽样所得1000份样本均数的分布当n=5时\n当n=10时\n当n=20时\n当n=30时\n1000份样本均数的抽样分布特点样本含量均数均数标准差nmeansd54.140300.36305104.140390.25024204.138590.17849304.141730.14954总体均数μ=4.136总体标准差σ=0.817\n1000份样本均数的抽样分布特点:①1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。②样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。③随着样本量增加,样本均数的标准差明显变小:\n4个抽样实验结果比较通过增加样本含量n来降低抽样误差。\n5.变异系数(Coefficientofvariation,CV)适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%\n6.数据的标准得分假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(SPSS数据:grade.sav)。分数的均值标准差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢?怎么比较才能合理呢?\n数据的标准得分均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standardscore,又称为z-score)。即:\n数据的标准得分然后可以比较来自不同样本的标准得分。这样:张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多,刘涛的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。\n原始数据是在各自的均值附近,散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。\n第三节计数资料的统计描述\n按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合计2071411022085372061401\n统计软件的种类SPSS:这是一个很受欢迎的统计软件;容易操作,输出漂亮,功能齐全;对于非统计工作者是很好的选择。Excel:作为数据表格软件,有一定统计计算功能;对于简单分析比较方便;对于较复杂的分析,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。\n统计软件的种类SAS:功能非常齐全的软件;某些美国政府机构认可;需要一定的训练才可以使用,对于非专业统计人员不那么方便。S-plus:统计学家喜爱的软件;其功能齐全,具有强大的编程功能;专业统计人员可以编制自己的程序来实现自己的理论和方法。\n统计软件的种类Statistica:容易操作;统计资料分析、图表、资料管理;应用程序开发。Origin:容易操作;输出图形的清晰度高(很多杂志要求)。\n第三节常见的概率分布一概率的有关概念二概率分布概述三离散型随机变量的概率分布四正态分布五常用的抽样分布\n一概率的有关概念\n样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f次,则事件A出现的频率为f/n。概率:随机事件发生的可能性大小,用大写的P表示;取值[0,1]。样本含量n越大,频率的波动幅度越小,频率越接近概率。频率与概率frequencyandprobability\n必然事件P=1随机事件00.5,左偏二项分布的特点\n2、泊松分布当二项分布中n很大,π很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为:\n全部右偏μ越大越趋于正态PPoisson分布概率的特点\nPoisson分布与正态分布及二项分布的关系当较小时,Poisson分布呈偏态分布,随着增大,迅速接近正态分布,当20时,可以认为近似正态分布。Poisson分布是二项分布的特例,某现象的发生率很小,而样本例数n很大时,则二项分布接近于Piosson分布。=n(应用:Poisson替代二项分布)\n四正态分布正态分布(Normaldistribution)也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布。1、正态分布的数学形式2、正态曲线3、标准正态分布4、曲线下面积\n1、数学形式\n2、正态曲线(normalcurve)图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m\nN(μ,0.52)、N(μ,12)、N(μ,22)N(μ1,σ2)、N(μ2,σ2)正态分布曲线由两个参数决定,即总体均数μ和总体标准差σ。在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若变小时,曲线位置向左移,故称μ为位置参数。在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”,故称σ为形态参数或变异度参数。\n3、标准正态分布标准正态离差标准正态分布:N(0,1)正态分布:\n标准正态分布的概率密度函数实质上就是正态分布的概率密度函数中μ=0,σ=1的情形。实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为μ=0,标准差σ=1。这种变换称为标准化正态变换。因此将这种具有平均数为μ=0,标准差σ=1的正态分布称为标准正态分布,记为N(0,1)。\n4、曲线下面积u-∞累计概率分布函数:\n曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%\n正态分布的特征,归纳起来有两点:对称性(symmetry)正态峰(mesokurtosis)偏度系数和峰度系数skewnessandkurtosis\n偏度skewness若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。正态分布时,mean、median、mode相等\n偏度系数(skewness):若分布是以平均值对称的,则偏度=0;若分布是右偏的,则偏度系数>0;若分布是左偏的,则偏度系数<0。\n峰度系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峭峰。峰度kurtosisa.尖峭峰b.正态峰c.平阔峰\n峰度系数(kurtosis):Skewness=.088kurtosis=-0.2215血清总胆固醇.sav\n正态分布在横轴上方均数处最高。正态分布以均数μ为中心,左右对称。正态分布由参数μ和σ确定。μ是位置参数,当σ不变时,μ越大,则曲线沿横轴越向右移动;反之,μ越小,曲线沿横轴越向左移动σ是变异度参数,当μ不变时,σ越大,表示数据越分散,曲线越平坦;σ越小,表示数据越集中,曲线越陡峭标准正态分布曲线与X轴所围成的面积为1。在μ±σ的区间内占总面积的68.27%,在μ±1.96σ的区间内占总面积的95%;在μ±2.58σ的区间内占总面积的99%。5、正态分布的特征\n五常用的抽样分布\n如果总体不是正态总体,但其均数和标准差分别为μ和σ,则当样本含量n不断增大时,样本均数的分布也趋近于正态分布,且其均数为μ,标准差为不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此称为中心极限定理。1、中心极限定理\n2、常用的三种抽样分布t分布F分布χ2分布均为连续型随机变量分布,分布只与自由度,即样本含量有关。\nt分布根据中心极限定理,当样本含量足够大时,对从均数为μ,标准差为σ的任意总体中随机抽样所得的样本均数进行标准化变换,有\nt分布的演化由于总体标准差σ往往是未知的,此时往往用样本标准差s代替总体标准差σ,这里,ν为自由度,取值为n-1由W.S.Gosset以student的名义提出全国成年人身高平均值我们班身高的标准误\nf(t)=∞(标准正态曲线)=5=10.10.2-4-3-2-1012340.3自由度分别为1、5、∞时的t分布:t分布的图形\nt分布的性质t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。t分布以0为中心,左右对称。分布的高峰位置比u分布低,尾部高。t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。\nt分布曲线下的面积-tt0GAMMADIST\nt界值表1.8122.228-2.228tf(t)ν=10的t分布图\nχ2分布(chi-squaredistribution)\n3.847.8112.59P=0.05的临界值χ2分布(chi-squaredistribution)5.99图中列出了各种自由度的上95%分位点对应的概率,如χ20.05(2)=5.99。\nF分布\nF分布的概率密度函数F分布是由英国著名统计学家RonaldA.Fisher提出的。GAMMADIST\nF分布曲线\nF分布曲线下面积与概率\n小结随机变量、概率分布、抽样分布是统计学推断的基础二项分布描述二项分类变量两种观察结果的出现规律。泊松分布是二项分布的特例,常用于事件发生率很小,样本含量很大的情况。正态分布是其他分布的极限分布,许多统计方法的理论基础。检验统计量分布(或抽样分布)包括:卡方分布,t分布,F分布等。这些分布是卡方检验、t检验、方差分析等假设检验的基础。\n谢谢大家!