- 2022-08-13 发布 |
- 37.5 KB |
- 257页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学及统计学软件使用教程
统计学及统计学软件使用教程1统计学简介2方差分析3回归分析4正交设计5统计分析软件SAS6统计分析软件SPSS系统分析室制作\n前言:统计学简介什么是统计学:统计学是关于数理统计的收获、整理、分析和推断的一门科学,他可以分为描述性统计学和推断性统计学两大类。描述性统计学给出的是将原始数据资料加工成有用的图表的方法(例如:南阳汉冶特钢11月份不合格品综合判定统计分析),这些方法包括数据的收集、整理、概括和描述等。如果在研究中可以得到整个整体,那么描述性统计学就足够了,但是,实际中往往只能得到总体的一小部分(成样本),这就需要通过这些样本的有限的、不确定的信息来确定有关总体的信息,这就是推断统计的研究领域。\n统计学的理论基础是数理统计学,数理统计学是数学的一个分支,有一系列的公理、定理以及严格证明来组成,它还涉及到助学的其他领域,例如微积分、概率论合高等代数等。为了使这些理论也适用于一般的研究者,人们将其简单化,变的非数学化,由此产生了一般统计学。不同的专业领域(如建筑学,人类学、生物学、经济学等等)与一般统计学结合,就产生了相应的专业统计学。08【全美经典】统计学原理(上).pdf08【全美经典】统计学原理(下).pdf统计学经典教材:\n描述性统计学知识章节\n\n推断性统计学知识章节\n\n\n第一节方差分析一、几个概念二、单因子方差分析\n一、几个概念在试验中改变状态的因素称为因子,常用大写英文字母A、B、C、…等表示。因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标表示,记为A1,A2,…,Ak。试验中所考察的指标(可以是质量特性也可以是产量特性或其它)用Y表示。Y是一个随机变量。单因子试验:若试验中所考察的因子只有一个。\n[例2.1-1]现有甲、乙、丙三个工厂生产同一种零件,为了了解不同工厂的零件的强度有无明显的差异,现分别从每一个工厂随机抽取四个零件测定其强度,数据如表所示,试问三个工厂的零件的平均强度是否相同?工厂量件强度甲乙丙1031019811011310710811682928486三个工厂的零件强度\n在这一例子中,考察一个因子:因子A:工厂该因子有三个水平:甲、乙、丙试验指标是:零件强度这是一个单因子试验的问题。每一水平下的试验结果构成一个总体,现在需要比较三个总体均值是否一致。如果每一个总体的分布都是正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析方法来解决。\n二、单因子方差分析假定因子A有r个水平,在Ai水平下指标服从正态分布,其均值为,方差为,i=1,2,…,r。每一水平下的指标全体便构成一个总体,共有r个总体,这时比较各个总体的问题就变成比较各个总体的均值是否相同的问题了,即要检验如下假设是否为真:\n当不真时,表示不同水平下的指标的均值有显著差异,此时称因子A是显著的,否则称因子A不显著。检验这一假设的分析方法便是方差分析。\n方差分析的三个基本假定1.在水平下,指标服从正态分布;2.在不同水平下,各方差相等;3.各数据相互独立。\n设在一个试验中只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用表示,i=1,2,…,r。常常把数据列成如下表格形式:单因子试验数据表\n记第i水平下的数据均值为,总均值为。此时共有n=rm个数据,这n个数据不全相同,它们的波动(差异)可以用总离差平方和ST去表示记第i水平下的数据和为Ti,;\n引起数据波动(差异)的原因不外如下两个:一是由于因子A的水平不同,当假设H0不真时,各个水平下指标的均值不同,这必然会使试验结果不同,我们可以用组间离差平方和来表示,也称因子A的离差平方和:这里乘以m是因为每一水平下进行了m次试验。\n二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示:Se:也称为误差的离差平方和\n可以证明有如下平方和分解式:ST、SA、Se的自由度分别用、、表示,它们也有分解式:,其中:因子或误差的离差平方和与相应的自由度之比称为因子或误差的均方和,并分别记为:两者的比记为:\n当时认为在显著性水平上因子A是显著的。其中是自由度为的F分布的1-α分位数。单因子方差分析表\n各个离差平方和的计算:其中是第i个水平下的数据和;T表示所有n=rm个数据的总和。\n进行方差分析的步骤如下:(1)计算因子A的每一水平下数据的和T1,T2,…,Tr及总和T;(2)计算各类数据的平方和;(3)依次计算ST,SA,Se;(4)填写方差分析表;(5)对于给定的显著性水平α,将求得的F值与F分布表中的临界值比较,当时认为因子A是显著的,否则认为因子A是不显著的。\n对上例的分析(1)计算各类和:每一水平下的数据和为:数据的总和为T=1200(2)计算各类平方和:原始数据的平方和为:每一水平下数据和的平方和为\n(3)计算各离差平方和:ST=121492-12002/12=1492,fT=3×4-1=11SA=485216/4-12002/12=1304,fA=3-1=2Se=1492-1304=188,fe=11-2=9\n(4)列方差分析表:[例2.1-1]的方差分析表\n(5)如果给定=0.05,从F分布表查得由于F>4.26,所以在=0.05水平上结论是因子A是显著的。这表明不同的工厂生产的零件强度有明显的差异。当因子A是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第i个水平指标均值的估计为:,\n在本例中,三个工厂生产的零件的平均强度的的估计分别为:由此可见,乙厂生产的零件的强度的均值最大,如果我们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。误差方差的估计:这里方差的估计是MSe。在本例中:的估计是20.9。的估计是[例2.1-2]略(见教材P92)\n三、重复数不等的情况若在每一水平下重复试验次数不同,假定在Ai水平下进行次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动:\n例2.1-3某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构(记为因子A)对平均比油油耗的影响是否显著。(这里假定每一种结构下的油耗服从等方差的正态分布)\n[例2.1-3]的试验结果水平试验结果(比油耗-220)A1:原结构11.012.87.68.34.75.59.310.3A2:改进方案12.84.5-1.50.2A3:改进方案24.36.11.43.6(为简化计算,这里一切数据均减去220,不影响F比的计算及最后分析因子的显著性)\n(1)各水平下的重复试验次数及数据和分别为:A1:m1=8,T1=69.5A2:m2=4,T2=6.0A3:m3=4,T3=15.4总的试验次数n=16,数据的总和为T=90.9\n(2)计算各类平方和:(3)计算各离差平方和:ST=757.41-516.43=240.98,fT=16-1=15SA=672.07-516.43=155.64,fA=3-1=2Se=240.98-155.64=85.34,fe=15-2=13\n(4)列方差分析表:[例2.1-3]方差分析表\n(5)如果给定=0.05,从F分布表查得由于F>3.81,所以在α=0.05水平上我们的结论是因子A是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显的差异。\n我们还可以给出不同结构生产的化油器的平均比油耗的估计:这里加上220是因为在原数据中减去了220的缘故。由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构1。在本例中误差方差的估计为6.56,标准差的估计为2.56。\n第二节回归分析例2.2-1合金的强度y与合金中的碳含量x有关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?这时需要研究两个变量间的关系。首先是收集数据(xi,yi),i=1,2,…,n。现从生产中收集到表2.2-1所示的数据。\n表2.2-1数据表\n一、散布图6050400.150.200.10xy[例2.2-1]的散布图\n二、相关系数1.相关系数的定义在散布图上n个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数r去描述它们线性关系的密切程度\n其中\n性质:表示n个点在一条直线上,这时两个变量间完全线性相关。r>0表示当x增加时y也增大,称为正相关r<0表示当x增加时y减小,称为负相关r=0表示两个变量间没有线性相关关系,但并不排斥两者间有其它函数关系。\n2.相关系数的检验若记两个变量x和y理论的相关系数为,其中x为一般变量,y服从等方差的正态分布,则对给定的显著性水平,当可以认为两者间存在一定的线性相关关系,可以从表2.2-2中查出。(其中n为样本量)。\n3.具体计算求上例的相关系数:步骤如下:(1)计算变量x与y的数据和:Tx==1.90,Ty==590.5(2)计算各变量的平方和与乘积和:\n(3)计算Lxx,Lyy,Lxy:Lxy=95.9250-1.90×590.5/12=2.4292Lxx=0.3194-1.902/12=0.0186Lyy=29392.75-590.52/12=335.2292(4)计算r:在=0.05时,,由于r>0.576,说明两个变量间有(正)线性相关关系。\n四、一元线性回归方程1.一元线性回归方程的求法:一元线性回归方程的表达式为其中a与b使下列离差平方和达到最小:通过微分学原理,可知,称这种估计为最小二乘估计。b称为回归系数;a一般称为常数项。\n求一元线性回归方程的步骤如下:(1)计算变量x与y的数据和Tx,Ty;(2)计算各变量的平方和与乘积和;(3)计算Lxx,Lxy;(4)求出b与a;\n利用前面的数据,可得:b=2.4392/0.0186=130.6022a=590.5/12-130.6022×1.90/12=28.5297(5)写出回归方程:画出的回归直线一定通过(0,a)与两点上例:或\n2.回归方程的显著性检验有两种方法:一是用上述的相关系数;二是用方差分析方法(为便于推广到多元线性回归的场合),将总的离差平方和分解成两个部分:回归平方和与离差平方和。\n总的离差平方和:回归平方和:离差平方和:且有ST=SR+SE,其中它们的自由度分别为:fT=n-1,fR=1,fE=n-2=fT-fR\n计算F比,对给定的显著性水平,当时认为回归方程是显著的,即回归方程是有意义的。一般也列成方差分析表。\n对上面的例子,作方差分析的步骤如下:根据前面的计算(1)计算各类平方和:ST=Lyy=335.2292,fT=12-1=11SR=bLxy=130.6022×2.4292=317.2589,fR=1SE=335.2292-317.2589=17.9703,fE=11-1=10\n(2)列方差分析表:[例2.2-1]的方差分析表\n对给定的显著性水平=0.05,有F0.95(1,10)=4.96由于F>4.96,所以在0.05水平上认为回归方程是显著的(有意义的)。\n3.利用回归方程进行预测对给定的,y的预测值为概率为的y的预测区间是其中当n较大,与相差不大,那么可给出近似的预测区间,此时\n进行预测的步骤如下:(1)对给出的x0求预测值上例,设x0=0.16,则(2)求的估计上例有\n(3)求上例n=12,如果求概率为95%的预测区间,那么t0.975(10)=2.228,所以(4)写出预测区间上例为(49.43-3.11,49.43+3.11)=(46.32,52.54)\n由于u0.975=1.96,故概率为0.95的近似的预测区间为:∵∴所求区间:(49.43-2.63,49.43+2.63)=(46.80,52.06)相差较大的原因总n较小。\n四、可化为一元线性回归的曲线回归在两个重复的散布图上,n个点的散布不一定都在一条直线附近波动,有时可能在某条曲线附近波动,这时以建立曲线回方程为好。1.确定曲线回归方程形式2.曲线回归方程中参数的估计通过适当的变换,化为一元线性回归的形式,再利用一元线性回归中的最小二乘估计方法获得。\n回归曲线的形式:(1),(a>0,b>0)(2),(b>0)(3),(b>0)(4),(b>0)\n3.曲线回归方程的比较常用的比较准则:(1)要求相关指数R大,其平方也称为决定系数,它被定义为:(2)要求剩余标准差s小,它被定义为:\n第三节正交设计一、试验设计的基本概念与正交表(一)试验设计多因素试验遇到的最大困难是试验次数太多,若十个因素对产品质量有影响,每个因素取两个不同状态进行比较,有210=1024、如果每个因素取三个不同状态310=59049个不同的试验条件\n选择部分条件进行试验,再通过数据分析来寻找好的条件,这便是试验设计问题。通过少量的试验获得较多的信息,达到试验的目的。利用正交表进行试验设计的方法就是正交试验设计。\n(二)正交表\n“L”表示正交表,“9”是表的行数,在试验中表示试验的条件数,“4”是列数,在试验中表示可以安排的因子的最多个数,“3”是表的主体只有三个不同数字,在试验中表示每一因子可以取的水平数。\n正交表具有正交性,这是指它有如下两个特点:(1)每列中每个数字重复次数相同。在表L9(34)中,每列有3个不同数字:1,2,3,每一个出现3次。(2)将任意两列的同行数字看成一个数对,那么一切可能数对重复次数相同。在表L9(34)中,任意两列有9种可能的数对:(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)每一对出现一次。\n常用的正交表有两大类(1)一类正交表的行数n,列数p,水平数q间有如下关系:n=qk,k=2,3,4,…,p=(n-1)/(q-1)如:L4(23),L8(27),L16(215),L32(231)等,可以考察因子间的交互作用。(2)另一类正交表的行数,列数,水平数之间不满足上述的两个关系如:L12(211),L18(37),L20(219),L36(313)等这类正交表不能用来考察因子间的交互作用常用正交表见附录\n二、无交互作用的正交设计与数据分析试验设计一般有四个步骤:1.试验设计2.进行试验获得试验结果3.数据分析4.验证试验\n例2.3-1磁鼓电机是彩色录像机磁鼓组件的关键部件之一,按质量要求其输出力矩应大于210g.cm。某生产厂过去这项指标的合格率较低,从而希望通过试验找出好的条件,以提高磁鼓电机的输出力矩。\n(一)试验的设计在安排试验时,一般应考虑如下几步:(1)明确试验目的(2)明确试验指标(3)确定因子与水平(4)选用合适的正交表,进行表头设计,列出试验计划\n在本例中:试验目的:提高磁鼓电机的输出力矩试验指标:输出力矩确定因子与水平:经分析影响输出力矩的可能因子及水平见表2.3-2表2.3-2因子水平表\n选表:首先根据因子的水平数,找出一类正交表再根据因子的个数确定具体的表把因子放到表的列上去,称为表头设计把放因子的列中的数字改为因子的真实水平,便成为一张试验计划表,每一行便是一个试验条件。在正交设计中n个试验条件是一起给出的的,称为“整体设计”,并且均匀分布在试验空间中。表头设计ABC列号1234\n试验计划与试验结果\n9个试验点的分布3C3C2C1A115798642A2A3B1B2B3\n(二)进行试验,并记录试验结果在进行试验时,要注意几点:1.除了所考察的因子外的其它条件,尽可能保持相同2.试验次序最好要随机化3.必要时可以设置区组因子\n(三)数据分析1.数据的直观分析(1)寻找最好的试验条件在A1水平下进行了三次试验:#1,#2,#3,而在这三次试验中因子B的三个水平各进行了一次试验,因子C的三个水平也各进行了一次试验。在A2水平下进行了三次试验:#4,#5,#6,在这三次试验中因子B与C的三个水平各进行了一次试验。在A3水平下进行了三次试验:#7,#8,#9,在这三次试验中因子B与C的三个水平各进行了一次试验。\n将全部试验分成三个组,那么这三组数据间的差异就反映了因子A的三个水平的差异,为此计算各组数据的和与平均:T1=y1+y2+y3=160+215+180=555=T1/3=185T2=y4+y5+y6=168+236+190=594=T2/3=198T3=y7+y8+y9=157+205+140=502=T3/3=167.3同理对因子B与C将数据分成三组分别比较\n所有计算列在下面的计算表中例2.3-1直观分析计算表\n(2)各因子对指标影响程度大小的分析极差的大小反映了因子水平改变时对试验结果的影响大小。这里因子的极差是指各水平平均值的最大值与最小值之差,譬如对因子A来讲:RA=198-167.3=30.7其它的结果也列在上表中。从三个因子的极差可知因子B的影响最大,其次是因子A,而因子C的影响最小。\n(3)各因子不同水平对指标的影响图从图上可以明显地看出每一因子的最好水平A2,B2,C3,也可以看出每个因子对指标影响的大小RB>RA>RC。CBA22020519017516090011001300101112708090RARBRC图2.3-2因子各水平对输出力矩的影响\n由于正交表的特点,使试验条件均匀分布在试验空间中,因此使数据间具有整齐可比性,上述的直观分析可以进行。但是极差大到什么程度可以认为水平的差异确实是有影响的呢?2.数据的方差分析要把引起数据波动的原因进行分解,数据的波动可以用离差平方和来表示。\n正交表中第j列的离差平方和的计算公式:其中Tij为第j列第i水平的数据和,T为数据总和,n为正交表的行数,q为该列的水平数该列表头是哪个因子,则该Sj即为该因子的离差平方和,譬如SA=S1正交表总的离差平方和为:在这里有:\n[例2.3-1]的方差分析计算表\n第4列上没有放因子,称为空白列。S4仅反映由误差造成的数据波动,称为误差平方和。Se=S4利用可以验证平方和的计算是否正确。\n[例2.3-1]的方差分析表因子A与B在显著性0.10与0.05上都是显著的,而因子C不显著。\n3.最佳条件的选择对显著因子应该取最好的水平;对不显著因子的水平可以任意选取,在实际中通常从降低成本、操作方便等角度加以选择。上面的例子中对因子A与B应该选择A2B2,因子C可以任选,譬如为节约材料可选择C1。\n4.贡献率分析方法当试验指标不服从正态分布时,进行方差分析的依据就不够充足,此时可通过比较各因子的“贡献率”来衡量因子作用的大小。由于S因中除因子的效应外,还包含误差,从而称S因-f因Ve为因子的纯离差平方和,将因子的纯离差平方和与ST的比称为因子的贡献率。(四)验证试验对A2B2C1进行三次试验,结果为:234,240,220,平均值为231.3此结果是满意的\n三、有交互作用的正交设计与数据分析例2.3-2为提高某种农药的收率,需要进行试验。(一)试验的设计明确试验目的明确试验指标确定试验中所考虑的因子与水平,并确定可能存在并要考察的交互作用选用合适的正交表。\n在本例中:试验目的:提高农药的收率试验指标:收率确定因子与水平以及所要考察的交互作用:因子水平表还要考察因子A与B交互作用\n选表:首先根据因子的水平数,找出一类正交表再根据因子的个数及交互作用个数确定具体的表。把因子放到表的列上去,但是要先放有交互作用的两个因子,并利用交互作用表,标出交互作用所在列,以便于今后的数据分析。把放因子的列中的数字改为因子的真实水平,便成为一张试验计划表。\nL8(27)的交互作用表\n试验计划\n(二)数据分析1.数据的方差分析在二水平正交表中一列的离差平方和有一个简单的计算公式:其中T1j、T2j分别是第j列一水平与二水平数据的和,n是正交表的行数\n[例2.3-2]的计算表\n[例2.3-2]的方差分析表\n其中:SA=S1,SB=S2,SC=S4,SD=S7SA×B=S3,Se=S5+S6fA=fB=fC=fD=fA×B=1,fe=2\nA×B的搭配表2.最佳条件的选择故最佳条件是:A2B1C2A2B1的搭配为好,C取2水平为好。\n(三)避免混杂现象——表头设计的一个原则选择正交表时必须满足下面一个条件:“所考察的因子与交互作用自由度之和≤n-1”,其中n是正交表的行数。不过在存在交互作用的场合,这一条件满足时还不一定能用来安排试验,所以这是一个必要条件。\n例2.3-3给出下列试验的表头设计:(1)A、B、C、D为二水平因子,同时考察交互作用A×B,A×C(2)A、B、C、D为二水平因子,同时考察交互作用A×B,C×D(3)A、B、C、D、E为三水平因子,同时考察交互作用A×B它们分别要用L8(27),L16(215),L27(313)\nSAS软件简介SAS是美国与西欧使用最为广泛的三大著名统计分析软件(SAS,SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。是国际上公认的最权威的统计软件。以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。2004年开始中国新药临床试验结果规定应用SAS软件分析。\nSAS与SPSS比较作为统计软件大家族里的“傻瓜相机”,SPSS的功能是最弱的,但易用性排在所有统计软件之首。不过SPSS的易用性也极大的限制了它的功能和可扩展性。除了SPSS本身的菜单提供的功能,用户无法通过编程或者插件来扩展它的功能,而且SPSS提供的都只是最基本的常用的方法。\nSAS全球专业认证SAS专业认证是一项拥有极高国际声誉的专业认证,在欧美等国的职场上流行的一句话“IfyouhaveaSAScertification,Youwillneverloseyourjob”。销售模式:只租不售(每5年一个周期)财富500强中97%的企业都在使用SAS商业智能解决方案\n\n2003年(301医院与军事医科院博士生)各统计软件使用情况\nPubmed检索SCI英文文献各统计软件使用情况\nSAS软件功能进行数据管理数据输入、建库、保存……进行统计分析t检验方差分析卡方检验相关、回归秩和检验……\nSAS的安装SAS8.12版本是windows操作系统下的32位软件,和其他windows系统下的软件安装方法类似。用鼠标左键双击光盘根目录下的setup图标,然后按照提示安装。\nSAS的启动单击开始菜单“程序”项。桌面上双击此快捷方式也可启动SAS。\n执行开始菜单中程序单项【程序】-【TheSASSystem】-【TheSASSystemforWindows】\nSAS退出方式1:选择关闭按钮方式2:执行菜单命令【File】→【Exit】方式3:在命令框执行BYE或ENDSAS命令\nSAS窗口PGM窗口(ProgramEditor):提供编写SAS程序的文本编辑器LOG窗口:显示执行程序过程中的相关信息OUTPUT窗口:显示程序运行的结果命令窗口与探索者窗口\n程序编辑窗口日志窗口结果输出窗口探索者窗口命令窗口\n\n\n\nSAS程序的编写一个完整的SAS程序一般由数据步(DATA步)和过程步(PROC步)两部分组成。DATA步以DATA语句开始,通过指定数据集名称、定义变量名及类型和读入数据等建立SAS数据集。过程步以PROC语句开始,通过调用不同的分析模块来分析SAS数据集。\n其它格式的数据库直接导入转换:excel(.xls);dbase(.dbf);lotus(.wk)等将数据读入系统,建立数据集(直接输入Editor窗口)。SAS数据集建立\n外部数据导入例:有一批体检数据,包括受检者的姓名、性别、年龄、身高、体重信息。要求按性别分别计算身高、体重的描述性统计量:均值、标准差、最大值、最小值。该数据以Excel.xls文件形式储存。文件名称:tijiandata.xls\n\nImportData\n\n\n\n库标记导入的SAS数据库文件名\n\n探索者窗口\n\n\n在Editor程序编辑窗口输入源程序数据步:将数据读入系统,建立数据集:DATA语句开始,后面加上数据库的名字。INPUT语句描述数据变量,用$表示变量是字符型CARDS语句指示后面是数据,每行为一个观测数据,数据间无分号。数据最后以“;”开头的空行结束。每个语句都以“;”结束。\nSAS程序数据步格式Data<数据库名称>;Input<变量名1>$<变量名2>….<变量名K>@@;Cards;..............................;\n数据步过程步\nSAS过程步对数据集中数据进行分析、处理。以PROC语句开始,调用SAS过程。每个语句都以“;”结束。整个程序最后要有RUN语句。\n过程步\nSAS程序的书写格式不分大小写单个名称中不能空格,不同名称间必须空格一行可写多条语句,用分号分割一条语句可写多行数据行后不加分号,数据最后单独加分号行程序用“RUN;”语句结束\n运行SAS程序方式一:鼠标点击执行按钮方式二:按功能键“F8”方式三:执行菜单命令Run→Submit方式四:在命令框输入SUBMIT命令并执行\n\nSAS程序实例例子 某学生上学期8门课程的分数分别为88,90,87,76,92,78,80,86。试用SAS编程求其平均分数。(1) 在PGM窗口键入下列程序datafenshu;inputchengji@@;cards;88 90 87 76 92 78 80 86;procmeans;varchengji;run;过程步数据步\n查看结果(output窗口)AnalysisVariable:chengjiN Mean StdDev Minimum Maximum-----------------------------------------------------------------------8 84.6250000 5.8782286 76.0000000 92.0000000-----------------------------------------------------------------------从结果看出,该学生上学期8门课程的平均成绩为84.625。\n查看运行过程及出错信息激活LOG窗口(F6)黑色文字:源程序及运行情况蓝色文字:程序运行情况的说明信息红色文字:出错信息绿色文字:警告信息\n\n保存SAS程序及其他窗口内容激活相应窗口,然后选择:方式一:鼠标点击“存盘”工具按钮方式二:执行菜单命令【File】→【Save】/【Saveas】可保存程序、数据文件、运行结果、日志等。SAS保存成纯文本格式文件(.txt)。\n保存的文件的名\n在SAS系统内打开已保存的文件只能在ProgramEdit窗口打开文件,选择:方式一:鼠标点击“打开”工具按钮方式二:执行菜单命令【File】→【Open】可打开以前保存的程序、数据文件、运行结果、日志等文件及其他文本格式的文件。\nSAS程序主要关键词means;(n,mean,std,Q1,Q3,CV,median,clm…)univariatenormal;(正态性检验,均数是否为0的假设检验:参数与非参数检验)ttest;(两个样本均数比较的t检验)anova;(各样本含量相等的方差分析)glm;(各样本含量不等的方差分析)npar1way;(非参数检验)reg;(线性回归方程:单元或多元)corr;(线性相关:线性相关或秩相关)freq;(卡方、Fisher检验)logistic;(非线性回归)lifetest;(生存分析)proc\n定量资料的描述性分析\n分析结果\n定量资料的正态性检验\n正态性检验结果\n配对设计的t-test为了比较两种方法对乳酸饮料中脂肪的含量测定结果是否不同,随机抽取了10份乳酸饮料制品,分别采用哥特里-罗紫法和脂肪酸水解法测定其结果,问两种方法检测结果是否不同?编号哥特里-罗紫法脂肪酸水解法10.8400.58020.5910.50930.6740.50040.6320.31650.6870.33760.9780.51770.7500.45480.7300.51291.2000.997100.8700.506\n\n\n成组设计资料的t-test国产药进口药-5-176448634777607458-2-14897277486361705436228266-14采用国产药物和进口药物治疗绝经后妇女骨质疏松症,试比较两种药物的疗效是否有差别\n\n\n完全随机设计资料的方差分析(教科书73页)安慰剂组2.4g组4.8g组7.2g组3.532.422.860.894.593.362.281.064.344.322.391.082.662.342.281.273.592.682.481.633.132.952.281.894.042.632.321.743.532.862.612.163.652.933.643.373.852.172.582.974.072.723.651.693.932.223.682.114.192.902.652.812.962.973.022.52\n\n方差齐性检验\n\n\n\n\n\n\n四格表资料的χ2-test组别有效无效合计有效率胞磷胆碱4665288.5%神经节苷脂1882669.2%合计64147882.1%某医师欲比较胞磷胆碱与神经节苷脂治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,试比较两种药物的疗效\n\n\n\n配对四格表资料的χ2-test配对设计的卡方检验\n\n\n\n非参数检验(配对)\n\n\n非参数检验9D11CDSC25325526636646647748751097121071111比较小白鼠接种三种不同菌型伤寒杆菌9D、11C、DSC1后存活的日数。\n\n\n\n\n\n直线相关与回归年龄尿肌酐含量133.54113.0193.0962.4882.56103.36123.1872.65某地方病研究所调查了8名正常儿童的尿肌酐含量,试估计尿肌酐含量对其年龄的回归方程。\n回归相关\n\n\n一、基础介绍1、SPSS的简介2、SPSS的安装和界面介绍3、变量的属性和定义方法4、SPSS数据的录入5、数据文件的操作(可以打开Excel文档,保存为多种格式)\n1、SPSS简介SPSS的全称是:StatisticalProgramforSocialSciences,即社会科学统计程序。该软件是公认的最优秀的统计分析软件包之一。作为统计分析工具,理论严谨、内容丰富,数据管理、统计分析、趋势研究、制表绘图、文字处理等功能,几乎无所不包。\n2、SPSS的安装步骤:1、启动Windows,并将SPSS系统安装盘插入CD-ROM光盘驱动器。2、若系统设置为自动运行光盘状态,则光盘自动执行setup.exe文件,若光盘没有自动运行,可启动资源管理器,用鼠标双击光盘驱动器图标,运行setup.exe文件,进入安装前的选择画面。3、双击installSPSS选项,进入SPSS15.0forwindow安装初始画面,(接受软件使用协议,输入用户名,机构名称,选择安装路径,单击“install”按扭,开始安装SPSS15.0forwindow软件。4、根据安装过程的提示,依次顺序插换原盘直至安装完成。5、安装完毕后,运行SPSS许可证向导,选择注册软件的类型和序列号。当软件注册后,方可正常使用。\nSPSS的启动在Windows的程序管理器中双击SPSSFORWINDOWS图标以打开SPSS程序组,选择SPSS图标并双击之,即可启动SPSS。SPSS启动成功后出现SPSS的封面及主窗口,5秒钟后或点击鼠标左键,封面消失,呈现SPSS的预备工作状态\nSPSS的菜单界面菜单栏选项:1、File:文件管理菜单,有关文件的调入、存储、显示和打印等;2、Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等;3、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等;4、analyze:SPSS软件统计分析功能的最核心部分。几乎所有的统计分析功能都可以通过主菜单中的Analyze模块提供的各类过程来完成。5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;6、Statistics:统计菜单,有关一系列统计方法的应用;7、Graphs:作图菜单,有关统计图的制作;8、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等;9、Windows:窗口管理菜单,有关窗口的排列、选择、显示等;10、Help:求助菜单,有关帮助文件的调用、查寻、显示等。点击菜单选项即可激活菜单,这时弹出下拉式子菜单,用户可根据自己的需求再点击子菜单的选项,完成特定的功能。\n3、定义变量启动SPSS后,出现如图2-1所示数据编辑窗口。由于目前还没有输入数据,因此显示的是一个空文件。\n定义变量输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。单击数据编辑窗口左下方的“VariableView”标签或双击列的题头(Var),进入如图2-2所示的变量定义视图窗口,在此窗口中即可定义变量。\n图2-2变量定义视图窗口\n变量的定义信息在图2-2所示的窗口中每一行表示一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。\n1.定义变量名(Name)SPSS默认的变量为Var00001、Var00002等,用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。变量名必须以字母、汉字或字符@开头,其他字符可以是任何字母、数字或_、@、#、$等符号。变量最后一个字符不能是句号。变量名总长度不能超过8个字符(即4个汉字)。不能使用空白字符或其他特殊字符(如“!”、“?”等)。\n2.定义变量类型(Type)单击Type相应单元中的按钮,弹出如图2-3所示的对话框,在对话框中选择合适的变量类型并单击“OK”按钮,即可定义变量类型。SPSS的主要变量类型如下:\n3.变量长度(Width)设置变量的长度,当变量为日期型时无效。\n4.变量小数点位数(Decimal)设置变量的小数点位数,当变量为日期型时无效。\n5.变量标签(Label)变量标签是对变量名的进一步描述,变量只能由不超过8个字符组成,而8个字符经常不足以表示变量的含义。而变量标签可长达120个字符,变量标签可显示大小写,需要时可用变量标签对变量名的含义加以解释。\n6.变量值标签(Values)值标签是对变量的每一个可能取值的进一步描述。\n7.缺失值的定义方式(Missing)SPSS有两类缺失值:系统缺失值和用户缺失值。单击Missing相应单元中的按钮,在弹出的如图2-5所示的对话框中可改变缺失值的定义方式,在SPSS中有两种定义缺失值的方式。可以定义3个单独的缺失值。可以定义一个缺失值范围和一个单独的缺失值。\n8.变量的显示宽度(Columns)输入变量的显示宽度,默认为8。\n9.变量显示的对齐方式(Align)选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。默认是右对齐。\n10.变量的测量尺度(Measure)变量按测量精度可以分为定性变量、定序变量、定距变量和定比变量几种。SPSS将其分为定距变量(Scale)、定序变量(Ordinal)、定类变量(Nominal)。定距变量:年龄、温度、重量、次数等,包括连续变量和不连续变量。定序变量:职称(高下)、程度(高低)等。定类变量:职业、性别等。\n4、数据的录入录入数据的一般方法:定义了所有变量后,单击“DataView”标签,即可在出现的数据视图(编辑)窗中输入数据。数据录入时可以逐行录入,也可以逐列。\n数据的录入技巧:1.减少无用击键次数技巧1:问卷录入时一般从左到右输入,换行时多有不便。开始输入时不要按”右”方向键,按tab键光标自然向右,需要换行时按回车,光标自然回到第一行开始录入的列,节省时间。另:如果在其他情况下需要从上往下输入,先用鼠标选定特定区域,输入时按回车键光标自然向下。到了最底行光标自然换行。技巧2:按“F4“(=Ctrl+Y)可以重复上一步操作。\n数据的录入技巧:2.数字小键盘的盲打注意指法,食指放4,管7和1,中指放5,管6和2和小数点,无名指放6,管9和3,小拇指管回车键,大拇指管0.熟练加以练习。\n数据的录入技巧:3.批量录入相同数据连续以及不连续空间都可以。不连续分布数据:按Ctrl不放然后用鼠标点击需要填入数据的单元格,再再最后的单元格里输入数据,最后按Ctrl+回车就行了。连续区域输入:用鼠标圈出一块地,在光标所在单元格(白色那个)输入数据,再Ctrl+回车,一气呵成。\n录入带有变量值标签的数据在录入带有变量值标签的数据时,用户手工输入的是实际的变量值,而屏幕上显示的是与该变量对应的变量值标签。选中“ValueLables”的效果\n5、读取Excel软件文件(.xls)Excel软件可能是Windows系列操作系统中使用最多的数据表格软件。Excel文件以.xls为扩展名保存。该文件除了保存纯数据信息外,还保存了另外一些数据信息。SPSS提供了与Excel文件的接口,可以方便地将Excel文件读入数据编辑窗口。具体的操作过程如下。\n图2-58读取Excel文件\n图2-59“OpeningExcelDataSource”对话框\nSPSS默认将某个sheet中所有数据都读入到数据编辑窗口中。在“Range”框中输入要读取数据的范围,也允许指定读取一部分区域的数据,如要读入前50行数据,则在该框中输入A1:F50,表示读取的区域是以A1单元为左上角,F50为右下角的矩形区域。Excel表格中每一行为SPSS的一个个案。单击“Continue”按钮,即可完成数据导入。\nSPSS数据文件的保存在录入数据时,应及时保存数据,防止数据的丢失,以便再次使用该数据。\n用户确定盘符、路径、文件名以及文件格式后单击“Save”按钮,即可保存为指定类型的数据文件。SPSS支持的常见的数据文件存放格式如下。SPSS(*.sav)SPSS/PC+(*.sys)SPSSPortable(*.por)Tabdelimited(*.dat)\nSPSS的数据结构定义1.用Execl录入数据之后,复制(或者用SPSS打开.xls文档)到SPSS中去。2.定义变量的属性。打开“Data”选择“DefiningVariableProperties”命令,分别或者一起设置各变量的属性。\n整体定义变量属性\n二、SPSS的使用2.1、基本统计分析2.11基本统计量的定义和计算2.12频数分析过程2.2、spss统计图形的创建和编辑2.21spss图形基本功能介绍2.22具体介绍一下图表的用法(条形图、线图、面积图)\nSPSS基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。这里主要介绍如何在SPSS中进行平均数、中位数、众数、均值标准误差、频数、方差、标准差等的操作。大家可以据此自己探索其它的统计分析操作。\n常用基本统计量的英文名均值(Mean)中位数(Median)众数(Mode)百分位数(Percentile)样本方差(Variance)样本标准差(Std.deviation)偏度(Skewness):取值分布对称性峰度(Kurtosis):取值分布形态陡缓\n2.1均值(Mean)和均值标准误差(S.E.mean)2.11统计学上的定义和计算公式定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。计算公式如下。\n总体平均数:若一组数据X1,X2,…,XN,代表一个大小为N的有限总体,则其总体平均数为\n样本平均数:若一组数据x1,x2,…,xn,代表一个大小为n的有限样本,则其样本平均数为\n样本数据来自总体。样本的统计描述量可以反映总体数据的特征,但由于抽样等原因,使得样本数据不一定能够完全准确地反映总体,它可能与总体的真实值之间存在一定的差异。进行不同次抽样,会得到若干个不同的样本均值,它们与总体均值存在着不同的差异。均值标准误差(StandardErrorofMean,S.E.mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。\nSPSS中实现过程研究问题求某班级学生在一次数学测验中的平均成绩,数据如表3-1所示。数学成绩998879595489795689992389705067788956表3-1某班级的数学成绩\n实现步骤图3-1在菜单中选择“Frequencies”命令\n图3-2“Frequencies”对话框(一)\n图3-3“Frequencies:Statistics”对话框(一)百分位数偏离度中心趋势分布标准差方差标准误差\n结果和讨论\n中位数(Median)统计学上的定义和计算公式定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。\n计算公式:一个大小为的数列,要求其中位数,首先应把该数列按大小顺序排列好,如果为奇数,那么该数列的中位数就是位置上的数;如果N为偶数,中位数则是该数列中第与第+1位置上两个数值的平均数。\nSPSS中实现过程研究问题求某班级学生身高的中位数,数据如表3-2所示。表3-2某班级学生的身高身高(cm)174168164174176150183162171146189167\n实现步骤图3-4“Frequencies:Statistics”对话框(二)\n结果和讨论\n众数(Mode)统计学上的定义和计算公式定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。\nSPSS中实现过程研究问题求某医院当天出生新生儿的体重的众数,数据如表3-3所示。表3-3新生儿的体重体重(斤)8767545687564765.574\n实现步骤图3-5“Frequencies:Statistics”对话框(三)\n结果和讨论\n统计学上的定义和计算公式方差(Variance)和标准差(StandardDeviation)定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。\n\nSPSS中实现过程研究问题求某班级学生数学成绩的方差和标准差,数据如表3-1所示。\n实现步骤图3-7在菜单中选择“Descriptives”命令\n图3-8“Descriptives”对话框(一)\n图3-9“Descriptives:Options”对话框(一)\n结果和讨论\n2.12频数(Frequency)统计学上的定义和计算公式定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。\n变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。\nSPSS中实现过程研究问题10个学生在某次数学、语文、化学考试中成绩如表3-6所示,试求学生在3门课程上的频数分布。\n表3-6学生成绩姓名数学语文化学hxh99.0098.00100.00yaju88.0089.0045.00yu99.0080.0056.00shizg89.0078.0067.00hah94.0078.0078.00lisa90.0089.0087.00watet79.0087.0089.00jess75.0076.0097.00wish89.0056.0076.00iiakii80.0076.00100.00\n实现步骤图3-13“Frequencies”对话框(二)\n结果和讨论程序运行结果如下表所示。\n2.2SPSS统计图形的创建和编辑2.21SPSS图形基本功能介绍2.22具体介绍一下图表的用法(条形图、线图、面积图)\n2.21SPSS图形基本功能介绍SPSS输出图形的方式有多种,既可以由各种统计分析过程产生,也可以直接从Graphs图形菜单包含的一系列图形选项中直接产生。SPSS图形的制作可分为3个过程。建立或打开已有的数据文件。利用SPSS的Graphs模块或其他过程生成图形。编辑和修改生成的图形,形成高质量额图形。\n2.21SPSS图形基本功能介绍图形生成器交互模式创建图形传统模式创建图形主题地图功能\n条形图条形图是用条带的长短或高低来表现数据的大小的图形。用于性质相识的数据进行比较。可分为3种类型,包括简单条形图、复合条形图和堆栈条形图。\n基本操作1、打开主对话框。选择LegacyDialogs,——Bar命令,打开Barchart(条形图)对话框2、选择条形图图示:单条形图、复合条形图和堆栈条形图。3、选择统计量的描述方式。在Barchart对话框的DateinChartAre选项组中选择条形图的统计量的描述方式。提供三种模式:个案分组模式、变量分组模式、个案模式\n线图线图是用线段的升降来说明现象变动情况的一种统计图,它主要用于表示时间上的变化趋势、现象的分配情况和两个现象之间的依存关系等。有三种类型,包括简单线图,多重线图,下降线图。(演示)\n面积图面积图是用线段下的阴影面积来强调现象的变化的统计图。SPSS提供了两种类型的面积图:(演示)简单面积图。队栈面积图。查看更多