- 2022-08-13 发布 |
- 37.5 KB |
- 88页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
应用统计学统计描述
统计描述\n在数据收集、整理完毕后,进行深入统计分析之前,首要的工作就是去了解这个数据的整体情况,随后考虑作深入的推断。用少量数字(描述指标)概括大量原始数字,对数据进行描述的统计方法即为描述性统计分析。统计描述连续变量的统计描述分类变量的统计描述\n集中趋势的描述指标算术均数:适合单峰和基本对称的分布中位数:适用于任意分布类型截尾均数:数据中有极端值,用截尾均数更好几何均数:适用于原始数据分布不对称,但经过对数转换后呈对称分布的资料众数(Mode):样本数据中出现频次最大的那个数字调和均数(H):较少使用,观察值x倒数之均数的倒数,常用于完成的工作量相等而所用时间不同,求平均速度的情况\n全距大体了解数据的分布范围,用于预备性检查方差和标准差适用于正态分布百分位数如中位数(P50)、四分位数(P25、P50、P75)四分位间距即P75-P25,适用于任意分布类型,不受极端值影响变异系数(CV)S/,适用于测量尺度相差太大或数据量纲不同时,比较两组数据离散程度的大小离散趋势的描述指标\nSPSS的许多模块均可完成统计描述的任务,除各种用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于连续变量统计描述的过程,均集中于Analyze-DescriptiveStatistics子菜单中。Frequencies过程Descriptives过程Explore过程Ratio过程\nFrequencies:产生原始数据的频数表,并能计算各种百分数,并可绘制频数图,如连续型变量的直方图,或分类变量的饼图或条图。下面以demo.sav为例,对人群的年龄数据(age)进行描述。Frequencies过程\n若无变量标签,则列表框中只显示变量名对话框中,从左边变量列表中选择要分析的变量,放入右边的Variables(变量)列表中至少一个变量选入后,OK按钮才可使用Frequencies过程变量标签变量名\n鼠标右键单击变量,可以获得更多变量信息选择下拉按钮,显示所有定义的值标签Frequencies过程\n:表示该变量为数值型变量:表示该变量为字符型变量,且右下角的<表示短字符,即变量长度<=8位Frequencies过程\nStatistics:设定要分析的统计量分位数值集中趋势离散趋势分布指标若数据为组中值,将其选中本例选择四分位数和5%、95%分位数Frequencies过程\n本例选中绘制直方图图表类型:箱式图、饼图、直方图等Frequencies过程Charts:设定要绘制的统计图\nFormat:在SPSS对话框中,用于设定结果文件中的数据格式,通常默认即可。数据排序方式多变量分析时的显示方式设定组别超过n组时不显示表格Frequencies过程\n通过大纲视图可以快速定位各项结果例如:点击大纲视图上的Histogram,则可快速定位至age的频数直方图Frequencies过程\n分析结果(1)统计量人群年龄无缺失值,四分位数为33岁、41岁、51岁,即人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外,90%的人在24~64岁之间。Frequencies过程\nFrequencies过程分析结果(2)频数表Frequency:频数Percent:百分比=当前频数/总数(包括缺失值)ValidPercent:有效百分比=当前频数/有效总数(不包括缺失值)CumulativePercent:累积百分比=累积频数/有效总数(不包括缺失值)\nFrequencies过程分析结果(3)频数直方图\nDescriptive:一般性统计描述,相对于Frequencies,它不能绘制统计图,所能计算的统计量也较少,适用于对服从正态分布的连续型变量进行描绘。同样以demo.sav为例,对人群的年龄数据(age)进行描述。Descriptives过程\n单击中间的箭头,可以实现变量从一张表移入另一张表,现将变量age移入右边variable列表中Descriptives过程\nOptions:设定要分析的统计量及数据的显示顺序本例选择:均数、标准差、最大值、最小值、峰度系数、偏度系数等Descriptives过程\n人群年龄的最小值为18岁,最大值为77岁,均数42.06岁,标准差12.29岁,偏度系数0.299,峰度系数-0.602,基本近似正态。Descriptives过程分析结果描述性统计量\nExplore:对连续型资料分布不清楚时的探索性分析,可以分类别进行描述(Frequencies和Descriptives不行),计算多种描述统计量,给出各种统计图,进行简单参数估计。以demo.sav为例,对男女性(gender)的年龄(age)分别进行描述。Explore过程\n要进行分析的应变量:age分类变量:genderExplore过程\n点估计中的稳健估计:M估计极端值百分位数一般描述默认情况下,选择的是Descriptives,本例选择默认Explore过程\n箱式图用于正态性检验的Q-Q图茎叶图直方图Levene’s方差齐性检验选项Explore过程\n缺失值的设置,一般默认即可Explore过程\n本例无缺失值,有效人数女性3179人,男性3221人Explore过程分析结果(1)缺失值报告\n现仅对女性的分析结果依次解释,查看详情Explore过程分析结果(2)统计量\n集中趋势指标、离散趋势指标分布特征指标、参数估计Explore过程分析结果\n集中趋势指标:3179名女性的平均年龄为41.74岁(Mean),去掉两侧各5%的极端值后,截尾均数为41.45岁(5%TrimmedMean),中位数41.00岁(Median),本例上述三指标值基本相同,可推测数据应当是对称分布的。Explore过程离散趋势指标:年龄的方差为142.988岁2(Variance),其平方根即标准差为11.958岁(Std.Deviation)。全部女性中最小的18岁(Minimum),最大的76岁(Maximum)。两者之差即全距58岁(Range),中间一半女性的年龄差即四分位数间距17岁(InterquartileRange)。\n分布特征指标:表明数据偏离正态分布程度的偏度系数(Skewness)为0.327,峰度系数(Kurtosis)为-0.534。偏度系数大于0为正偏态,峰度系数小于0表明峰比正态低,本例偏度和峰度系数均接近0,因此认为近似正态分布。参数估计:均数(Mean)的标准误(Std.Error)为0.212岁,相应的总体均数95%可信区间(95%ConfidenceIntervalforMean)为41.32~42.15岁,表明有95%的可能性认为该区间包含了总体均数。Explore过程\nExplore过程分析结果(3)茎叶图\nExplore过程分析结果(4)箱式图最小值:18岁最大值:76岁四分位间距:17岁\nRatio:功能较特殊,用于对两个连续性变量计算相对比指标,它可以计算一系列非常专业的相对比描述指标,相对而言使用面较窄,在此不详述。Ratio过程\nSPSS的许多分析过程均可完成统计描述的任务,还专门提供了用于分类变量统计描述的过程,均集中于Analyze-DescriptiveStatistics子菜单中。Frequencies过程Crosstabs过程\nFrequencies:主要针对分类输出频数表,从而得到频数、百分数、累计百分比,给出原始频数表,众数,条图,饼图等。以demo.sav为例,分别对人群的教育水平(ed)、职业满意度(jobsat)进行描述。Frequencies过程\n6400人的教育水平和职业满意度的数据都是完整的,无缺失值。Frequencies过程分析结果(1)缺失值报告\nFrequencies过程分析结果(2)频数表\nCrosstabs:用于输出交叉列联表,以demo.sav为例,描述人群的婚姻情况marital(0、1)、退休状况retire(0、1)的交叉频数分布Crosstabs过程\n用于分类变量统计推断时的参数设定,此例暂不使用Crosstabs过程行变量:ed列变量:jubocat\nCells:在SPSS对话框中,对于单元格要显示的参数进行设定合计百分位数残差非整权重设置Crosstabs过程\n6400人的婚姻状况和退休状况的数据都是完整的,无缺失值。Crosstabs过程分析结果(1)缺失值报告\n婚姻状况(行)和退休状况(列)的交叉表Crosstabs过程分析结果(2)交叉表行百分比列百分比\n交叉分组下的频数分析Crosstabs过程应用目的:掌握多变量的联合分布特征,分析变量间的关系。功能:产生描述多变量联合分布的列联表比较两个(或以上)样本率或比例差异(卡方检验)变量间的关联度分析\n1、变量关系概述变量间的关系:有关与无关。有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化无关:如果一个变量的变化不引起另一个变量的变化。\n性别与四级英语考试通过率的相关统计表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。因变量自变量\n表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。自变量因变量\n2、双变量关系的统计类型\n观测频数行变量列边缘分布行边缘分布列变量期望频数列联表的格式\n列联分析——行列变量间的关系两变量是否相互独立。两变量是否有共变趋势。一变量的变化多大程度上能由另一变量的变化来解释。\n卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。\n由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此,Pearson卡方的表达式如下:当为四格表时,卡方的取值在0~∞之间。卡方值越大,行列变量的关联性越强。\n列联表的产生:Analyze-DescriptiveStatistics-Crosstabs\n界面说明【Rows】:用于选择行*列表中的行变量。【Columns】:用于选择行*列表中的列变量。【Layer】:层变量。【Displayclusteredbarcharts】:显示复式条图。【Suppresstable】:不输出行*列表。【Exact】:针对2*2以上的行*列表设定计算确切概率的方法。注:安装SPSS时除非特别选定,否则Exact模块一般不安装。\n列联表所研究的问题城镇和农村的储户收入水平状况相同吗?行变量:户口列变量:月收入不同年龄段的储户对物价水平的看法一致吗?行变量:年龄段列变量:物价水平城乡储户认为存钱合算的比例是否相同?行变量:户口列变量:什么合算\n回答城乡储户收入水平是否相同的问题,需要引入卡方检验。\n1、卡方检验步骤提出假设H0:行、列变量独立(对立假设为?)计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布)确定检验水平与界值结果判断:查界值表、看P值大小\n卡方检验操作:Statistics选项\n【Cells】:用于定义列联表单元格中需要计算的指标:Counts:是否输出实际观察数(Observed)和理论数(Expected);Percentages:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);Residuals:选择残差的显示方式;【Format】:用于选择行变量是升序还是降序排列。\n结果:城乡储户的收入水平没有明显差异。\nPearson卡方值的影响因素实际频数与期望频数之差期望频数的大小列联表的单元格子数样本量大小\n2、卡方检验的校正自由度为1时,期望频数均大于5:连续性校正(ContinuityCorrection)20%的单元格期望频数小于5:似然比卡方检验(LikelihoodRatio)T<5andn<40或T<1时:确切概率法(Fisher‘sExactTest)\n例1:城镇对象感到存钱合算的比例是否高于农村对象?\n\n例2:城乡储户对“未来收入的变化趋势”的态度是否相同\n\n3、行列变量的关联度分析该关联度类似于参数检验中相关系数的含义,取值多在(-1,1)区间可描述行列变量的关联强度,多数是对Pearson卡方测量值进行的修正。为两变量相关研究中的非参数方法,卡方检验中的关联度分析不太常用。\n3.1、两定类变量的关联度列联系数(Contingencycoefficient):取值0~1,其取值随着行列数的增加而增大Phi系数:取值-1~1,适用于四格表,对样本量进行了修正V系数:取值0~1,对样本量和行列数进行修正;四格表时,等于Phi系数\n例:居民储蓄调查中了解城乡户口与“买东西还是存钱合算”的关联度\n3.2、两定序变量的关联度同序对数(P)、异序对数(Q):当一个变量为升序排列时,另一变量序列中有后面的一个变量值大于前面的一个变量值,则记为一个同序对;否则为异序对。Kendall’stau-b:行列数相等时Kendall’stau-c:任意列联表Gamma系数:四格表检验\n例3:居民收入水平与对物价水平评价的关联度\n评价关联度主要看Value值大小。\n3.3、其他关联度一个定类变量,一个定距变量的关联度:Eta系数,类似方差分析的非参数检验两定距变量(或定序变量)的关联度:相关(Correlations):计算Pearson和Spearman相关系数\n4、配对计数资料的卡方检验例子:海尔公司的市场调查数据:对每个消费者调查两个问题:1、是否购买过海尔冰箱(是、否)?2、是否购买过海尔洗衣机(是、否)?问1:海尔冰箱和洗衣机的购买率是否有差别?问2:每位消费者对海尔冰箱和洗衣机的购买一致性程度如何?\n\n4、配对计数资料的卡方检验McNemar:配对计数资料的卡方检验。零假设为两变量的阳性率无差别Kappa一致性检验:系数取值-1~1。测量同一观测对象在两变量(两变量服从二项分布)上取值的一致性程度。其绝对值越接近1,说明一致性程度越高。一般来说:系数>=0.7,一致性程度较高;0.4~0.7,一致性程度一般;<0.4,一致性较弱\n\n\n例:两种方法同时检测患者乙肝抗体的阳性率两种方法的阳性率有无差别?两种方法的检测情况是否一致?\n五、多选项分析目的:解决问卷设计中的多选项问题的分析多选项分析步骤:先将多选项问题分解,分解方法(是否丢失信息、是否易于分析):二分法:把每个选项均转为二分类变量有序分类法:把该问题按顺序转为多个问题再进行频数分析\n例子:高考志愿调查请按顺序选择你想报考的三所大学北大清华人大北师大北京理工大学北外第一第二第三。\n二分法分解你报考北大吗?1、是2、否你报考清华吗?1、是2、否你报考北师大吗?1、是2、否你报考北外吗?1、是2、否你报考人大吗?1、是2、否你报考北理工吗?1、是2、否\n有序分类法分解志愿一:1~6志愿二:1~6志愿三:1~6有序分类法较优。另一个例子:您有过下列症状吗(可多选)?A.失眠、B.多梦、C.情绪低落、D.记忆力减退如何分解?\nSPSS的多选项分析基本操作:Analyze—MultipleResponse—Definesets定义多选项\n多选项频数分析基本操作:Analyze—MultipleResponse—Frequencies多选项频数分析例:对居民储蓄调查数据,指定目的一、目的二、目的三为多选项变量集后,选择频数分析后,SPSS自动汇总各种目的的频数表如对不同年龄段的居民储蓄目的分析,可选择多选项的交叉表分析,分析不同年龄人群的储蓄目的\nCategorylabelCodeCountPctofResponsesPctofCases买高档消费品1657.723.0结婚用2516.018.1正常生活零用317921.263.5做生意4526.218.4购买农业生产资料5161.95.7买证券及单位集资6344.012.1买房或建房78810.431.2支付孩子教育费8769.027.0养老金9556.519.5防以外事故1010712.737.9得利息1112014.242.6\n六、比率分析目的:对两变量间的比率关系进行简单或分组描述分析。特点:除基本描述统计量外,还有WeightedMean:加权比率均值,是两变量均值的比AAD:平均绝对离差;COD:离散系数;PRD:相关价格微分,是比率均值与加权比率均值的比;COV:基于均值或中位数的变异系数\n基本操作:DescriptiveStatistics-Ratio过程\n查看更多