- 2022-09-01 发布 |
- 37.5 KB |
- 44页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学基础知识培训
统计学基础知识培训2007年5月\n根据测量尺度数据的分类姓名性别级别年龄绩效分数月均收入甲乙丙丁戊戌1101100001122125262725318.67.89.27.98.98.4247923452547268927763124注:1.本表纯属虚构,如有雷同实属巧合;2.性别栏0代表男,1代表女;级别栏0代表员工,1代表领班,2代表主管;3.绩效栏10分为满分。1999年某公司员工情况明细表\n数据的分类•根据数据测量的尺度:分为定类数据、定序数据、定距数据、定比数据•根据描述对象与时间的关系:分为截面数据和时间序列数据•根据统计数据的收集方法:分为观测数据和实验数据\n你想要干什么?一.归纳、描述或者显示数据二.观察变量和数据的分布三.比较组间数据的不同四.变量之间显著性关系的测度五.相似数据分组的测度六.相似变量的压缩测度结束4\n你要归纳整理的是什么类型的数据?1.已分类数据(定类、定序)2.连续、数值型数据(定距、定比)返回\n你想如何归纳整理数据?1.分类计算频数和百分比2.计算两分类变量下的频数和百分比3.计算比率值:比率是各不同类别数值之间的比值返回\n分类变量的图形及图表显示员工级别频数百分(%)累积百分比(%)员工领班主管经理助理75158275%15%8%2%75.00%90.00%98.00%100%合计100100%——Analyze——DescriptiveStatistics——Frequencies返回\n两分类变量数据的图表及图形显示员工级别<30岁30-39岁40-49岁49-50岁合计员工领班主管经理助理4772——205216231211——751582合计5628124100Analyze——DescriptiveStatistics——Crosstabs返回\n比率值的计算及显示Analyze——Reports——Casesummaries员工级别<30岁30-39岁40-49岁49-50岁<40岁在本级别中的比率合计员工领班主管经理助理4772——205216231211——89.33%80%50%50%751582合计562812484%100返回\n如何整理连续数值型数据?1.描述连续数值型数据的统计量及数据分组法2.图表显示返回\n连续数值型数据统计量及数据分组法1.统计量:度量集中趋势的统计量包括平均数、几何平均;度量离散趋势的统计量包括极差、方差和标准差等。3.数据分组:分组是根据统计分析的需要,将原始数据按照某种标准划分成不同的组别,形成分组数据,分组后计算数据出现的频数,形成频数分布表。\n各常用统计量的计算方法平均值(mean):一组数据之和除以数据个数;几何平均值:用于计算比率的平均,实际应用中,主要用于社会经济现象的年平均增长率;极差(Range):也称全距,是一组数据的最大值和最小值之差;方差:各变量与其均值离差平方的平均数;标准差(std.Deviation):即是方差的平方根;与方差不同的是,标准差具有与变量值一样的量纲,实际的意义要比方差清楚。SPSS实现:Analyze—DescriptiveStatistics—Descriptives\n数据分组法数据分组包括单变量分组和组距分组两种,单变量适合离散变量分组,一般数据都使用组距分组。数据分组的步骤:1.确定组数,可以按斯特奇斯(Sturges)提出的经验公式来确定组数K;K=1+lgn/lg2。n为数据的个数,对结果四舍五入即为组数;2.确定各组的组距。组距是上限与下限的差,组距=(最大值-最小值)/组数;3.根据分组整理成频数分布表。分组需要“不重不漏”,因此习惯上规定“上组限不在内”。若有的值过大,可以设置开口组。等距分组由于各组的组距相等,各组频数分布不受组距大小的影响,可以从频数分布中直接观察频数分布的特征和规律,而不等距分组就必须计算频数密度,频数密度=频数/组距,频数密度才能准确反映频数分布的实际情况。返回\n连续数值型数据的显示方法分组数据的图形显示——直方图这是406例汽车的马力的直方图50100150200汽车马力0204060频数\n未分组数据的显示方法——箱线图箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段组成,5个特征值为:最大值、最小值、中位数和两个四分位,下面是406例产地为美国、欧洲和日本三个地区的汽车马力值的箱线图。欧洲箱线图有两个离群点。连续数值型数据的显示方法返回\n你有何种数据?1.分类数据(定类、定序)2.连续数值型数据(定距、定比)返回\n分类数据分布的统计量指标1.集中趋势:计算众数、中位数众数是一组数据中出现次数最多的变量值;中位数是一组数据排序后,处于中间位置的变量值;2.离散趋势:异众比率、四分位差异众比率是指非众数组的频数占总频数的比率,用Vr表示,Vr=(Σfi-fm)/Σfi。四分位差也称内距或者四分间距,计算方法:Qd=QU-Ql。四分位差反映的是50%数据的离散程度,其数值越小,说明中间数据越集中,反之,越分散。3.频数分布和百分比返回\n连续数值型数据分布的统计量指标1.集中趋势:平均值、加权平均值、算术平均值简单均值就是一组数据值之和除以其数据个数;加权平均的均值与其各个数值的个数有关;几何平均是适用于特殊数据的一种平均数,只要用于比率的平均。2.离散趋势:极差(全距)、方差、标准差极差也称全距,为一组数最大值减去最小值得到。方差是各变量值与其均值离差平方的平均数,它是测度数值型数据离散程度的最主要的方法。计算方法:s2=Σ(xi-x平均)/(n-1)。实际分析问题时,我们常用标准差,标准差为方差开根号。3.数据偏态与峰态的测度偏态及其测度:计算公式SK=nΣ(xi-x平均值)3/[(n-1)(n-2)s3];如果数据分布是对称的,则偏态系数为0,如果偏态系数明显不等于0,表明分布是非对称的;当SK为正值时,可以判断为右偏;当SK为负值时,为左偏。SK越大,说明偏斜的程度就越大。峰态及其测度:计算方法:K={n(n+1)Σ(xi-x平均值)4-3[Σ(xi-x平均值)2]2(n-1)}/[(n-1)(n-2)(n-3)s4]。标准正态分布的峰态为0,当K>0时为尖峰分布;当K<0时为扁平分布\n与数据分布相关的测度量总结定类定序定距和定比集中趋势适用的统计量众数——————————中位数分位数众数——————均值加权平均几何平均中位数分位数众数离散趋势使用的统计量异众比率————————四分位差异众比率——————全距方差标准差四分位差异众比率用于比较不同组数据的相对位置————标准分数:zi=(xi-x平均)/标准差用于比较不同组数据相对离散程度————离散系数:V=标准差/x平均值\n常见的数据分布——正态分布在社会经济问题中,有许多随机变量的概率分布服从正态分布,如身高、体重等。正态分布记作X~N(μ,σ),μ为随机变量X的均值,σ为随机变量X的标准差。μ决定了正态分布图形的中心位置,σ决定了图形中峰的陡峭程度,当σ较大,图形较缓,当σ较小,图形趋于陡峭。所有的正态分布均能通过Z=(X-μ)/σ化成标准正态分布X~N(0,1)(均数为0,方差为1)。随机变量X处在一个正负一个σ之内的概率为68.26%;2个σ之内的概率为95.45%;3个σ之内的概率为99.73%。返回\n你要比较什么类型的数据?1.分类数据(定比、定序)2.已分组的连续数值型数据(定距、定比)返回\n应用列联分析解决分类数据的组间比较频数分布表每次只能描述一个变量的情况,而列联表是由两个以上的变量进行交叉分类的频数分布表,是反映两个或多个变量联合分布的表格。可用于各组比例值是否一在列联表中,可以计算以列合计为基数的列百分比或以行合计为基数的行百分比。卡方统计量提供对列联表中观察到的联系的统计显著性检验(拟合优度和变量联系),通过ф系数、列联系数、Cramer’sV和λ系数测量变量关系强度的指标。Analyze-Descritives-Crosstabs\n举例说明某公司为了提高市场占有率,某行业有两个主要的竞争对手,A和B公司同时开展了广告宣传。在广告宣传之前,A公司的市场占有率为45%,B公司市场占有率为40%,其它公司为15%。广告战后,随机抽取了200名消费者,其中102人准备买A公司产品,82人买B公司产品,另外有16人准备买其它公司产品。问以广告战前后各公司市场占有率是否发生了变化。公司观察频率期望频率AB其它1028216908030合计200200检验观察值和期望值的拟合优度:计算卡方值为8.18,而显著性0.05、自由度为2时的卡方值5.99,因此说明占有率发生了显著的变化。\n举例说明列联表格的卡方检验还用于判断两个分类变量之间是否存在联系的问题中。一种原料来自不同的地区,原材料质量被分为三个不同的等级。从这批原料中随机抽取500件进行检验,结果如下表:地区一级二级三级合计甲乙丙526050645965245274140171189合计162188150500计算卡方值为19.82大于显著性为0.05、自由度为4的的卡方值为9.488,所以地区和原材料等级之间存在依赖关系,原材料的质量受地区影响。存在关系的假设成立,可以计算ф系数、列联系数Cramer’sV和λ系数测量变量关系强度的指标。返回\n你想要比较多少组数据或多少个变量?1.一组数据或变量与一个已知数值进行比较2.两组数据或变量3.三组或者三个以上变量返回\n应用单样本T检验检验一组数据或变量与一已知数值是否相等工作中经常碰到根据已有的知识或者给定的标准对单个变量做出结论,比如新产品的份额是否超过了15%等。这样的问题就可以转化为通过单样本T检验进行检验的零假设。单样本T检验检验的是抽样总体均值是否与给定假设一致。根据样本计算得出的T统计量值与给定的0.05显著性水平下的临界值进行比较,从而得出结论。SPSS实现:Analyze-CompareMeans-OneSampleTTest返回\n你的数据是如何组织起来的?1.分成两不相关组的一个连续数值型变量2.具有相关关系的两连续数值型变量返回\n你想要进行何种独立的样本检验?步骤:1.首先检测变量是否服从正态分布,方法为通过Graphs-Interactive-Histogram(直方图)进行观察2.如果变量服从正态分布,那么应用独立样本T检验进行两样本均数的比较:Analyze-CompareMeans-IndependentSamplesTTest3.如果变量不服从正态分布,那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验:Analyze-NonparametricTests-2IndependentSamples返回\n你想要何种配对样本的检验步骤:1.同样通过直方图观察变量是否服从正态分布;2.如果服从正态分布,那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较:Analyze-CompareMeans-PairedSamplesTTest.3.如果不服从正态分布,那么应用双相关样本检验:Analyze-NonparametricTests-2RelatedSamples.返回\n方差分析(ANOVA)前面介绍的方法均为一个因素水平下,两组数据的比较方法,当一个因素水平下,有三个或者三个以上的组别时,就需要用到方差分析。方差分析适用于两组或者两组以上均值差异的检验。方差分析必须有一个定量(定距或定比尺度)的因变量,以及一个或者多个自变量(定类),定类自变量称为因子,一个因子成为单因子方差分析,若有n个自变量,成为n因子方差分析。其原理为通过对数据误差来源的分析来判断不同总体的均值是否相同。方差分析的3个基本假定:1.每个总体都应该服从正态分布;2.各个总体的方差σ2;3.观测值是相互独立的。SPSS实现:Analyze—CompareMeans—One-WayANOVA\n举例说明观测值行业零售业旅游业航空公司家电制造业123456757664940345344683929455651——3149213440————4451657758————下表为一年内,四个行业抽取的样本企业投诉次数表,问这几个行业之间的服务质量是否有显著性差异。下表为方差分析的结果表,从F统计量值为3.4066大于给定0.05水平下的F分布的临界值3.1273,应该拒绝原假设,说明各个行业的投诉之间的差异是显著的。差异源平方和(SS)自由度(df)均方(MS)F统计量P值给定0.05水平下F分布的临界值组间组内1456.6082708319485.536142.5263.40660.0387653.1273总计4164.608722返回\n你有什么样的数据?1.分类数据(定类、定序)2.定序、等级顺序、或者非参数连续性数据3.连续数值型数据(定距、定比)返回\n分类数据(定类、定序)应用前面讲过的列联分析,卡方对独立性进行检验,进而计算通过ф系数、列联系数、Cramer’sV和λ系数测量变量关系强度的指标。返回\n定序、等级顺序、或者非参数连续性数据计算Spearman相关系数和Kendall’stau-b相关系数,看两变量的关系的密切程度。计算排序的相关系数又称秩相关或者等级相关,记作r。当|r|<0.3,视为不相关;当0.3≤|r|<0.5,视为低度相关;0.5≤|r|<0.8,视为中度相关;|r|≥0.8,视为高度相关。SPSS实现:Analyze-Correlate-Bivariate选Spearman相关系数和Kendall’stau-b相关系数返回\n连续数值型数据(定距、定比)1.两变量:计算Pearson相关系数来度量两变量关系的密切程度,记作r。当|r|<0.3,视为不相关;当0.3≤|r|<0.5,视为低度相关;0.5≤|r|<0.8,视为中度相关;|r|≥0.8,视为高度相关。SPSS实现Analyze-Correlate-Bivariate选择Pearson项。2.控制了一个或者两个的其他其变量的影响之后两变量的相关,为偏相关,也记作r。Spss实现Analyze-Correlate-Partial选择要分析的两变量进入要分析的变量框;选择要控制的变量进入要控制的变量框\n测度变量的因果关系——回归分析前面介绍的数值型变量的相关系数或者偏相关系数主要了解两变量关系的密切程度,而回归分析主要度量一个因变量,与一个、两个或两个以上的自变量的数量伴随关系,是测度因变量和自变量的因果关系的方法。回归分为线性回归和曲线回归。以一元线性回归为例:其回归方程形式为y=ax+b。回归直线的拟和优度的测度应用的是判定系数,判定系数说明了因变量的数据变动中,有多少是由自变量的的变动所决定的。而估计标准误用于测度各实际观测点在直线周围的分散程度,其越小,说明回归直线对各观测点代表性好,反之则代表性差。另外还用F检验检验线性关系的显著性。应用T检验检验回归系数的显著性检验,检验自变量对因变量的影响是否显著。SPSS实现:Analyze-Regression-Linear返回\n你有什么类型的数据?1.连续数值型数据(定距、定比)2.分类数据(定类、定序)返回\n你想要判别分组还是判别已知组的特征?1.判别分组,应用聚类分析。聚类分析是一组将研究对象分成相对同质的群组的统计分析技术,不区分自变量和因变量。聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组。某一组的内部成员更加相似,与其它组的成员不同。当数据量小于200时,应用系统聚类分析将数据分组,Analyze--Classify--HierarchicalCluster;当大于200个数据时应用K均数聚类法,又称快速聚类法,Analyze--Classify--K-meansCluster。\n已知分组的判别2.判别已知组的特征应用判别分析。判别分析是一种数据分析技术,适用于标准变量或因变量为定类数据,预测变量或者自变量为定距(或者定比数据)的情况。就像医生看病的判断过程一样,有各种各样的病症的症状、检测结果值分类储存在脑子里,医生根据现在来的病人的症状、检测结果等判断病人得的是什么病。判别分析就是构造判别函数,然后判别新调查对象的组别。SPSS实现:Analyze—classify--Discriminant返回\n分类数据的数据分组分类数据不可进行数据聚类分析!SPSS也未提供此项功能。返回\n你有什么类型的数据?1.连续数值型数据(定距、定比)2.分类数据(定类、定序)返回\n应用因子分析对变量进行压缩因子分析是一组主要用于数据提炼与概括地分析方法的总称。在各种数据分析中,可能涉及大量的变量,其中大部分变量是相关的,需要将变量的数目缩减到合适的水平,以便进一步分析。大量相互关联的变量之间的关系可以用几个潜在的因子表示。比如,在测量店面形象时,可以让调查对象对商店的一系列指标打分,然后用因子分析确定构成商店形象的主要因子。方差分析、回归分析和判别分析中需要确定一个因变量或者标准变量,而将其它的变量作为自变量或者预测变量,因子分析并不进行这样的区别,它是全面考察全体变量之间的相互依赖关系的方法,这与聚类分析相似。常用于:1.识别解释一组变量之间相关关系的潜在维度或因子;2.用一组较少的、相互独立的因子代替原始变量,用于进一步的多元分析(回归分析或者判别分析等);3.从一大组变量中找出数量较少的一组主要变量用于进一步的多元分析。Analyze—DataReduction—Factor返回\n对于分类数据变量的压缩?因子分析需要连续数值型变量,分类变量不能进行因子分析!返回\n谢谢!查看更多