社会统计学书稿

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

社会统计学书稿

第十二章相关与回归分析社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。第一节变量之间的相互关系1.相关程度与方向从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfectassociation)。而变量相关程度的另一个极端值是无相关(noassociation)或零相关(zeroassociation),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0<<1时,表现为不完全相关。但在采用相关系数r这一指标时必须注意到,存在着完善曲线而r=0的情况。当然,变量在其他测量层次的关系强度,也可以用同样的思路加以考虑。当变量间相关时,还可以探讨其相关方向,可以分正和负两个方向。所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。而负相关关系是指一个变量的值增加时,另一变量的值却减少要强调的是,只有定序以上测量层次的变量才能分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。2.因果关系除了相关程度与方向这两种性质外,还应注意两个变量的相关关系是否具有因果性。只有当两个变量之间的关系同时满足以下三个条件时,才能断定这种关系是因果关系:(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。因果关系是一种非对称关系(asymmetricalrelationship),这时只是自变量影响因变量,因变量不会反过来影响自变量。如果不能确定或无法区分变量的作用方向,这种情况就称为对称关系(symmetricalrelationship)。第二节定类变量的相关分析1.列联表-7-\n列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。2×2列联表,是最简单的交互分类表,r×c频数分布列联表则是一般形式。条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。在相对频数分布列联表中,各数据为各分类出现的相对频数(或者频率)。将频数化成相对频数有两种做法:①如果=,我们得到的是联合分布的列联表,此时也可以称为联合频率;②如果=或者=,我们得到的是关于X或者关于Y的相对频数的条件分布,此时也可以称为条件频率通过列联表研究定类变量之间的关联性,实际上是通过相对频数条件分布的比较进行的。如果不同的X,Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。2.削减误差比例在社会统计中,表达相关关系的强弱,削减误差比例PRE(ProportionateReductioninError)的概念是非常有价值的。削减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变量预测另一变量时.其盲目性必然较关系不密切者为小。因此,变量间的相关程度,可以用不知Y与X有关系时预测Y的误差E0,减去知道Y与X有关系时预测Y的误差E1,再将其化为比例来度量。将削减误差比例记为PRE,得PRE=削减误差比例PRE适用于各测量层次的变量,但公式中E1、E2的具体定义,不仅对不同测量层次的变量有所不同,而且对同一测量层次的变量也有所不同。系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。3.系数(1)对称的系数(假设X是自变量,Y是因变量)(2)不对称的系数(假设X是自变量,Y是因变量)系数有PRE意义,其统计值域是[0,1]。系数的缺点是比较粗略,不够灵敏,因为它以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会-7-\n。另外,如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。3.系数系数的统计值域是[0,1],其特点是在计算时考虑所有的边际频数和条件频数。先求出不知X,预测Y时全部误差E0;然后求出知道X,以X预测Y时的全部误差E1;最后求出消减误差比例作为其相关系数值。公式是=系数有PRE意义,它比系数灵敏。第三节定序变量的相关分析如果变量不仅可以区分类,而且可排出序(或秩),那么我们就得面对定序变量的相关分析了。定序变量是只能排列高低次序、而无法确定其精确数量的变量。故在分析定序变量的X与Y相关时,只能考虑X与Y两变量变化的顺序是否一致及其等级之间的差距,并以此来求算两变量相关关系之相关系数。1.同序对、异序对、同分对社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数,肯得尔系数、系数等。所以我们在讨论这几种相关系数之前,先要掌握这三个概念。(1)同序对在观察X序列时如果我们看到<,在Y序列中看到的是<,则称这一配对是同序对。同序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号表示。(2)异序对在观察X序列时如果我们看到<,在Y序列中看到的是>,则称这一配对是异序对。同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。异序对的总数用符号表示。(3)同分对如果在X序列中,我们观察到=,则这个配对为X同分对;X同分对的总数用符号表示。如果在Y序列中,我们观察到=,则称这个配对为Y同分对,Y同分对的总数用符号表示。如果我们观察到=时,也观察到=,则称这两个配对为X与Y同分对,以代表。对于列联表的资料,计算同序对,要用“右下余子式”法;计算异序对,要用“左下余子式”法。五种不同配对的总的数目是。-7-\n2.Gamma系数Gamma系数适用于测量两对称的定序变项的相关系数,计算公式是。Gamma系数同样具有削减误差比例PRE性质。3.肯德尔等级相关系数对于求等级相关系数,统计学家肯德尔(Kendall)提出了多种方案:(1)系数;(2)系数;(3)系数。4.萨默斯(d系数)与G系数、系数、系数不同,系数的值依赖于将哪一个变量作为自变量,哪一个变量作为因变量,是一种不对称测量。具体地说,测量,用于以X预测Y;测量,用于以Y预测X。两者的值域是[–1,1],公式是5.斯皮尔曼等级相关系数第一位推导等级之间相关系数的人是英国心理学家查尔斯·斯皮尔曼。他创造的一个等级相关的公式,可以用来计算两个定序变量之间的相关程度。斯皮尔曼系数通常以代表,即6.肯德尔和谐系数()前面我们谈的都是对双变量求等级相关系数。对于多变量求等级相关系数,肯德尔运用数理分析方法,提出了一个计算公式第四节定距变量的相关分析两个定距变量之间的相关测量,最常用的就是所谓积差系数.它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。而在本章一开头,关于相关程度与方向,我们谈到了定距—定距变量线性相关的问题。其实,积差系数表达的是两定距变量之间的线性相关关系。不仅如此,我们根据两变量之间的这种线性关系,可以进一步建立代数公式,以一个自变量X的值去预测一个因变量Y的值,这就是下一节讲的回归分析。-7-\n1.相关表和相关图在社会统计学中,由于变量之间的测量层次不同,研究相关关系的方法也有所不同。相关表是在定距测量的层次上,反映两变量之间对应关系的数据表,它是积差系数计算的依据。将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X和Y之间的相互关系,即得相关图。相关图又称散点图。如果数据足够多,从散点图上可以直观地看出两变量之间存在着何种相关关系。2.积差系数的导出和计算皮尔逊相关系数用来测量两个定距变量相关强度和方向,即r=不难看出,在r系数的计算公式中,变量X和Y是对等关系。引入协方差,积差系数又可以表达为r=不难看出,积差系数是协方差与两个随机变量X、Y的标准差乘积的比率。实际计算时,一般采用以下简化r=3.积差系数的性质(1)皮尔逊相关系数是线性相关系数。(2)r的取值在-1和-1之间。绝对值越大,相关程度越高;绝对值越小,相关程度越小。(3)皮尔逊相关系数具有PRE性质,但这要通过r2加以反映。(4)积差系数不解释两变量间的因果关系。(5)r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。第五节回归分析积差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或通过已知变量精确地预测未知变量,就要进行回归分析。1.线性回归线性回归分析,一般是先依据相关表做出散点图,直观地估计X和Y关联性。如果两变量的确呈现出一定的线性相关趋势,便可以设所要求的回归直线方程为=运用最小平方法可得-7-\n==-=-在回归方程中,b有十分重要的意义,被称为回归系数。b值的大小,反映了X对Y有多大的影响,即b值就是当X增加一个单位时Y值的增量。b的绝对值越大,表示X对Y的影响也越大,等于零则表示X对Y没有影响。也就是说,b与积差系数一样也可以反映X和Y之间的关系强度。而且b与一样也具有方向性,即b也有正负之分,正值表示X对Y有正向影响,即X增加,Y也增加;负值则是负向影响,即X增加,Y却减少。不过,b也有与不同之处:首先,b的大小不限于-1至+1之间,而是取决于回归直线的斜率;b的的单位取决于变量X和Y的测量单位。这点与不同,的取值范围在-1到1之间,它也没有量纲,是个纯数。其次,计算r时,公式中X与Y是对等的,即将二者位置互换,的值不变,这表明是一种对称关系的测量。但在估算b时,X与Y位置不能互换。b系数和前面的系数、系数、系数一样,具有非对称性。只能用X预测Y,不能反过来用Y预测X。再次,r公式中的两个变量都是随机的。而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。2.积差系数的PRE性质=+如果将称为总变差,将称为回归变差,将称为剩余变差(即称残差),于是上式又可以写成总变差=回归变差+剩余变差决定系数也可以表达为回归变差在总变差中所占比例=就测量变量之间相关关系而言,上式具有独立的意义,就是它不仅适用于线性相关,也适用于非线性相关。于是,统计上引入相关指数这个概念,用符号R表示,即R=相关指数R,对于直线相关来说,等同于,即R=。但对于非线性相关来说,就只能用相关指数R来加以测量了。第六节曲线相关与回归一些非线性关系,有可能通过适当的变量变换,将非线性函数转化为线性函数,从而把非线性相关和回归问题转化为线性相关和回归问题来处理。而且,这些比较简单的非线性方程对于社会研究中产生的许多非线性关系来说,通常还是足以胜任的。例如:-7-\n(1)二次曲线=二次曲线的回归方程中有三个待定参数,运用最小平方法求得标准方程为=n==有了标准方程,二次曲线的回归方程及相关指数的计算都迎刃而解了。(2)指数曲线=若令=1g,=1g,=1g,再利用最小平方法,可以得到如下标淮方程==有了标准方程,指数曲线的回归方程及相关指数的计算都迎刃而解了。-7-
查看更多

相关文章

您可能关注的文档