[理学]张德存 统计学

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

[理学]张德存 统计学

第六章 简单的相关与回归分析第一节 相关分析概述第二节 一元线性回归分析第三节 回归方程的显著性检验与预测应用\n第一节 相关分析概述一、变量间的关系二、散点图与相关关系种类三、相关系数\n一、变量间的关系㈠问题的提出㈡函数关系与相关关系\nSTAT《统计学》第六章相关与回归分析联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析\n一、变量间的关系㈠问题的提出㈡函数关系与相关关系\nSTAT《统计学》第六章相关与回归分析出租汽车费用与行驶里程:总费用=行驶里程每公里单价家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。确定性关系函数关系非确定性关系相关关系\n第一节 相关分析概述一、变量间的关系二、散点图与相关关系种类三、相关系数\n二、散点图与相关关系种类㈠散点图㈡相关种类\n散点图(Scatterdiagram):在平面直角坐标系上标识两变量间关系的统计图。设一个变量为X,另一变量为Y,则散点图上所描绘的就是下列数据数值:(X1,Y1)、(X2,Y2)、(X3,Y3)、…(Xn,Yn)。STAT《统计学》第六章相关与回归分析\nXY\n散点图矩阵\n三维散点图\n二、散点图与相关关系种类㈠散点图㈡相关种类\n线性正相关\n无(不)相关\n线性负相关非线性相关\n第一节 相关分析概述一、变量间的关系二、散点图与相关关系种类三、相关系数\n三、相关系数㈠协方差㈡相关系数\nSTAT《统计学》第六章相关与回归分析协方差(covariance):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。总体协方差:样本协方差:COVxy\nSTAT《统计学》第六章相关与回归分析对协方差的理解Ⅰ为正Ⅱ为负Ⅲ为正Ⅳ为负协方差为大的正值时,表示强的正线性相关关系。\nSTAT《统计学》第六章相关与回归分析对协方差的理解协方差接近于零时,表示很小或没有线性相关关系。\nSTAT《统计学》第六章相关与回归分析对协方差的理解协方差为大的负值时,表示强的负线性相关关系。\nSTAT《统计学》第六章相关与回归分析协方差为大的正值时,表示强的正线性相关关系。协方差接近于零时,表示很小或没有线性相关关系。协方差为大的负值时,表示强的负线性相关关系。对协方差的理解似乎是这样cmkgmmkg大于基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。\n三、相关系数㈠协方差㈡相关系数\n相关系数(correlationcoefficient):度量变量间相关关系的一类指标的统称。就参数统计而言,常用的是皮尔逊积矩相关系数(Pearson):即协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。总体相关系数样本相关系数\n相关系数的常用算法:相关系数取值在-1与1之间。相关系数是一种对称测量。相关系数无量纲,可以进行比较。\n相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。注意相关关系成立的数据范围。警惕虚假相关使用相关系数时应注意的问题:STAT\n第二节一元线性回归分析一、回归分析概述二、一元线性回归模型三、回归估计误差四、判定系数\n一、回归分析概述㈠回归的含意㈡自变量与因变量㈢回归分析的种类\nSTAT《统计学》第六章相关与回归分析回归:退回regression1877年弗朗西斯•高尔顿爵士遗传学研究回归线平均身高\n回归分析(regression):通过一个或几个变量的变化去解释另一变量的变化。包括找出自变量与因变量、设定数学模型、检验模型、估计预测等环节。STAT《统计学》第六章相关与回归分析\n一、回归分析概述㈠回归的含意㈡自变量与因变量㈢回归分析的种类\nSTAT《统计学》第六章相关与回归分析自变量(independentvariable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependentvariable):响应变量,由自变量来解释其变化的变量。XYXY••••••••\n一、回归分析概述㈠回归的含意㈡自变量与因变量㈢回归分析的种类\n回归分析分类按自变量个数分类一元回归简单回归多元回归复回归按方程式特征分类线性回归非线性回归一元线性回归SimpleLinearregressionSTAT《统计学》第六章相关与回归分析\n第二节一元线性回归分析一、回归分析概述二、一元线性回归模型三、回归估计误差四、判定系数\n二、一元线性回归模型㈠模型的基本形式㈡最小二乘法㈢模型的假定\n总体一元线性回归模型:模型参数误差项假定:E()=0总体一元线性回归方程:STAT《统计学》第六章相关与回归分析\n一元线性回归方程的几何意义一元线性回归线的可能形态截距斜率1为正1为负1为0STAT\nSTAT《统计学》第六章相关与回归分析样本一元线性回归方程:(估计的回归方程)总体未知参数以样本统计量估计总体参数回归系数回归系数\n二、一元线性回归模型㈠模型的基本形式㈡最小二乘法㈢模型的假定\n最小二乘法(Leastsquaresmethod):以极小化为目标的求估计方程的过程。残差(Residual):e\n求a、b的公式:STAT《统计学》第六章相关与回归分析\n学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.70916705702792203303295546-0\nSTAT《统计学》第六章相关与回归分析\n最小二乘法估计的优良性质:残差之和为零;所拟合直线通过样本散点图的重心;误差项与解释变量不相关;a与b分别是总体回归系数的无偏估计量;a与b均为服从正态分布的随机变量;\n二、一元线性回归模型㈠模型的基本形式㈡最小二乘法㈢模型的假定\n一元线性回归模型的假定\n第二节一元线性回归分析一、回归分析概述二、一元线性回归模型三、回归估计误差四、判定系数\n三、回归估计误差㈠SST、SSR与SSE㈡MSE与Se\nSST(Sumofsquaresoftotal):总的平方和SSR(Sumofsquaresofregression):回归平方和SSE(Sumofsquaresoferrors):误差平方和\n\nSST=SSR+SSE\n\n三、回归估计误差㈠SST、SSR与SSE㈡MSE与Se\n\nMSE(Meansquaresoferrors):估计的均方误差,是总体误差项的方差的估计量。\nSe:回归估计标准差,总体误差项标准差的估计量,是计算样本回归系数a、b标准差的要素。\n第二节一元线性回归分析一、回归分析概述二、一元线性回归模型三、回归估计误差四、判定系数\n四、判定系数㈠判定系数的概念与意义㈡判定系数的计算㈢判定系数与r、Se\nSTAT《统计学》第六章相关与回归分析判定系数(Coefficientofdetermination):估计的回归方程拟合优度的度量,表明Y的变异性能被估计的回归方程解释的部分所占比例。r2\n未判定系数\nSTAT《统计学》第六章相关与回归分析当SSR=SST时,为完全的拟合,残差平方和为0,判定系数为1。判定系数的意义\n当SSE=SST时,为最差的拟合,残差平方和最大,判定系数为0。判定系数的意义\n四、判定系数㈠判定系数的概念与意义㈡判定系数的计算㈢判定系数与r、Se\n判定系数的计算STAT《统计学》第六章相关与回归分析\n学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00\n四、判定系数㈠判定系数的概念与意义㈡判定系数的计算㈢判定系数与r、Se\n判定系数与相关系数STAT《统计学》第六章相关与回归分析\n判定系数与相关系数判定系数的平方根即皮尔逊积矩相关系数。判定系数无方向性,相关系数则有方向,其方向与样本回归系数b(b1)相同。判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向。相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。STAT《统计学》第六章相关与回归分析\n估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。判定系数与估计标准差\n\n第三节回归的显著性检验与预测应用一、回归的显著性检验二、回归方程的估计、预测应用\n一、回归的显著性检验㈠检验的意义㈡相关系数的检验(t检验)㈢回归系数的检验(t检验)㈣回归方程的检验(F检验)\n由于样本的相应统计量(相关系数、判定系数、回归系数等)具有随机性,因此,我们需要对其进行显著性检验,以验证是否可以据此推断总体的参数。STAT《统计学》第六章相关与回归分析\n一、回归的显著性检验㈠检验的意义㈡相关系数的检验(t检验)㈢回归系数的检验(t检验)㈣回归方程的检验(F检验)\n相关系数检验的目的:总体是否如同r?提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。检验的程序:\n统计理论已经证明STAT《统计学》第六章相关与回归分析\n学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为明显地不等于零,相关关系是显著的。\n一、回归的显著性检验㈠检验的意义㈡相关系数的检验(t检验)㈢回归系数的检验(t检验)㈣回归方程的检验(F检验)\n回归分析中我们最关心的是:X与Y是否有真正的相关关系。即:STAT《统计学》第六章相关与回归分析\n回归系数的检验提出假设;确定检验统计量;给定显著性水平,确定临界值;确定原假设的拒绝规则;计算检验统计量并做出决策。STAT《统计学》第六章相关与回归分析\n统计理论已经证明\n学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为b明显地不等于零,X与Y是显著的。\n一、回归的显著性检验㈠检验的意义㈡相关系数的检验(t检验)㈢回归系数的检验(t检验)㈣回归方程的检验(F检验)\nF检验是基于F分布进行的,是方差分析内容之一。方差来源平方和自由度均方F值回归误差总计SSRSSESST1n-2n-1均方回归均方误差STAT《统计学》第六章相关与回归分析\n当1=0时,SSR=0,则F值=0。当10时,SSR>0,则F值>0。当我们设1=0时,则较大的F值将推翻这一假设。故拒绝原假设,接受备择假设,即认为回归方程是显著的。\n第三节回归方程的显著性检验与预测应用一、回归方程的显著性检验二、回归方程的估计、预测应用\n二、回归方程的估计、预测应用㈠点估计㈡区间估计\n估计的前提:回归方程经过检验,证明X和Y的关系在统计上是显著的。回归分析的点估计:对于给定的X值,求出Y平均值的一个估计值或Y的一个个别值。若x=169,则:STAT《统计学》第六章相关与回归分析\n使用点估计应注意的问题:利用点估计得到的Y平均值的点估计值和Y的一个个别值其结果是相同的。点估计不能提供估计量的精确度。在样本自变量取值范围之外进行预测要特别谨慎。STAT《统计学》第六章相关与回归分析\n二、回归方程的估计、预测应用㈠点估计㈡区间估计\n回归分析的区间估计:对于给定的X值,求出Y的平均值的置信区间或Y的一个个别值的预测区间。STAT《统计学》第六章相关与回归分析\nY的平均值的置信区间估计总体的回归模型:样本回归方程:如果样本回归方程通过检验,则:如果给定x=x0,则有:分布形态?\n可以证明,ŷ0是服从正态分布的,其数学期望:其方差:其标准差:STAT《统计学》第六章相关与回归分析\n对于给定的x=x0,Y的1-置信区间为:也就是:自由度为n-2的t分布的水平双侧分位数\n学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00若令=0.05,则有t/2(n-2)=2.31当时,得到最小值。当时,的值随的减少或增加而逐步增大。\n\nY的个别值的置信区间估计对于给定的X=X0,如果要预测Y的一个个别值Y0的置信区间,则其相应的残差为:Y的个别值相对于其平均值的方差当X=X0时,所估计的Y0的方差组成与用Ŷ估计Y平均值相联系的方差\n即:Y0的方差为:即:则:Y的一个个别值Y0的标准差的估计值为:\n对于给定的X0,Y的一个个别值Y0的预测区间估计值为:也就是:与估计Y的平均值公式相比,此公式中多了一项“1”,因此,这个置信区间要相对大一些。STAT《统计学》第六章相关与回归分析\n学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00若令=0.05,则有t/2(n-2)=2.31当时,得到最小值。当时,的值随的减少或增加而逐步增大。\n
查看更多

相关文章

您可能关注的文档