- 2022-08-13 发布 |
- 37.5 KB |
- 16页



申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学-复习资料
统计学复习资料第一章数据系统一、数据类型1、定性数据2、定量数据定量数据(scale):可以得到具体数值,一般还有测量单位。定距变量:如温度、年龄……定比变量:如收入……定距数据(Scale):通常指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据。定序数据(ordinal):是具有内在固定大小或高低顺序的数值或字符,如文化程度、职称,等。定类数据(nominal):没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据,如性别、民族,等。二、数据来源1、野外调查2、定位或半定位观测3、室内实验4、判图5、统计资料和文献二、数据的整理1、检查资料、统计分组与图表绘制确保资料的可靠性、完整性和准确性统计分组是按照一定标志和要求,把数据分成不同的组,为后续的统计研究打下基础。统计分组可分为:按质量标志分组和按数量标志分组。按质量标志分组,多用于人文-经济地理领域,其组数取决于社会经济现象的基本类型和其在研究中的意义,而且不分组距。如:在人口地理研究中,将人口按性别、民族、职业进行分组。按数量标志分组,是先依其变量类型不同,分为离散型变量和连续型变量,然后再根据其特征的不同进行分组。离散型变量可采用单项式(每个变量为一组)和组距式(整个变量分成几个区间,每个区间为一组)处理。连续型变量只能采取组距式分组。又可分为等距和不等距分组两种。组距分组:第一步,求变量的全距RR=Xmax-Xmin第二步,确定组数nn=1+3.32lgN(N为样本总量)第三步,计算组距:h=R/n第四步,确定每组的上、下限2、数据的合并与分割3、数据的函数变换4、数据的其他变换数据的函数变换是将原始数据的每一个数值通过特定的运算方式变换成新的数值。在原有数据基本上,计算产生一些含有更丰富信息的新数据。使数据更直观、更有效。常见的数据变换有:对数或多项式变换;时间序列的平稳化处理;利用区间变换压缩数据取值范围和标准化处理等。包括算术表达式、条件表达式和函数三大部分。\n第二节数据的分布特征数据经过整理后,得出了频数分布的大致情况。但为了确切地表示地理数据的分布性质和在数量上的特征,需要进一步定量计算其特征值。在数据的分布性质中,最重要的两个性质是集中性和分散性。反映数据集中性的特征值有:平均值(均数)、中位数、众数等。反映数据分散性的特征值有:绝对离差度(离差、离差平方和、标准差、方差等)和相对离差度(变异系数)1、平均数(均数,Mean)可代表数据的一般水平,并可作为对比分析的指标。主要包括算术平均数和几何平均数。(1)简单算术平均数:(2)加权算术平均数:3)几何平均数一般用来分析和研究国民经济、企业生产或人口等方面的平均发展速度和平均增长速度2、中位数(Median)也称中央值,它是数据按大小排序后位居中间的那个数值。当一个数据变量值分布很偏时,以中位数表示集中趋势比算术平均数更合理。如收入、分数的分布。对于未分组的数据:3、众数(Mode)是数据中出现频数最多的那个数。对于未分组的数据,可以根据每一个数据出现的频数大小直接确定众数。\n对于分组数据,按以下公式计算众数:三、数据的分布形态1、偏度(Skewness):反映频数分布偏态方向和程度的测度偏度值大于0,表示正偏差值大,称为右偏或正偏;偏度值小于0,表示负偏差值大,为负偏或左偏。(2)峰度(Kurtosis):指频数分布曲线高峰的形态,即反映分布曲线的尖峭程度的测度。当β=0时,表示分布的峰度是正态分布的峰度;当β>0时,表示分布曲线的高峰是尖顶高峰;当β<0时,表示分布曲线的高峰是平顶高峰。\n右面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。•交叉列联表的卡方(X2)检验•在列联表确定的情况下,卡方统计量观测值的大小仅取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关。反之,当总差值越小时,卡方值也就越小,实际分布与期望分布越接近,表明行列变量之间越独立。卡方检验结果:P=0<α(0.05),则拒绝0假设,说明变量之间存在着显著联系,即强相关性。第二章时间序列分析数据的时间序列分析:事物存在于空间和时间之中,对事物的空间分布和时间序列的描述和测度,是分析问题或现象研究结果的基础。时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。\n一、数据空间分布类型1、点状分布2、线状分布3、面状分布:包括离散型区域、连续型区域两种。离散型区域是一种不连续的面状分布,两个相邻区域之间为不同的质量或性质差异的数据系统。数据的时间序列分析时间序列分析(TimeSeriesAnalysis)是研究事物发展变化规律的一种量化分析方法。是一些有着严格先后顺序的数据,它们之间存在着某种前后相承的关系,而非互相独立。数据的时间序列分析2、时间序列分析方法(1)时域分析:认为时间序列是过去值和一些相关变量的函数,即当前的表现是由过去的状态和一些外部因素决定的,通过过去和当前的序列数据可以预知未来的表现。(2)频域分析:认为时间序列是由若干个具有不同周期的正弦波成分叠加而成,通过复杂的数学工具,对其周期成分进行识别和分解,可以认识时间序列的特性,掌握其变化规律。时间序列——时域分析方法简单回归分析法:一种基于因果关系的分析方法,适合序列间的结构分析和较长期数列数据的预测。趋势外推法:对序列的长期趋势利用曲线进行拟合的分析方法,适用于精度要求不很高的中长期趋势预测。自回归(Autoregression)方法:引入了被解释就量某些阶数的滞后变量,适用于简单回归分析中残差项存在一阶自相关情况的序列。自回归移动平均(ARMA)模型,也称B-J方法:认为时间序列是若干白噪声序列的某种组合(MA模型),可以由其自身的某些滞后序列进行解释(AR模型)。常用于随机性波动较频繁序列的短期预测。时间序列的水平分析主要指标——发展水平、平均发展水平、增减量、平均增减量基期、报告期(末期)序时平均数:不同时间上的指标数值的平均数。时期数列:时点数列:增减量:报告期与基期水平之差。平均增减量4、时间序列的速度分析发展速度:报告期水平与基期水平之比\n增减速度:由增减量与基期水平对比求得平均发展速度------几何平均法:侧重于研究对象的最末期的发展水平,如生产能力、产值、人口增长等的统计。------累计法:侧重于研究对象各期发展水平的总和,如累计资产数、累计毕业生人数等的统计。5、时间序列的趋势变动分析1)长期趋势:现象在相当长的时间内所表现的某一方向持续的变化。增长趋势①线性趋势a、移动平均法是扩大原时间序列的时间间隔,选定一定的时距项数n,采用逐次递移的方法对原数列递移的n项计算一系列序时平均数。由于数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律。该方法适用来分析时间序列的长期趋势,不适合对现象未来的发展趋势进行预测。②滑动平均法由于地理数据在某一时间段内的出现很大的波动,为了滤去数据中一些短期的不规则的变化,找出较长时间的变化规律,常用滑动平均法处理。常用三年、五年、十年滑动平均数③直线趋势方程拟合3)线性拟合趋势分析4)非线性趋势方程拟合抛物线型指数曲线型\n指数平滑法:又叫指数加权移动平均法,通过对时间数列中各个数据进行加权处理,愈近的数据其权数应愈大。可以消除时间数列的偶然因素所引起的变动,进而找出预测对象的数据变化特征和趋势。一次指数平滑法6、时间序列——模型评价预测精度:误差平方和SSE、平均绝对百分误差MAPE、预测值的方差、拟合优度R2等变量的相关性:F统计量、变量系数的t统计量等;变量因果数量关系:显著性检验Y=0.156*X-298.4920.156为B1,然后为常数。SPSS时间序列的预处理——数据变换主要包括序列的平稳化处理和序列的平滑处理等。平稳化处理的目的是使处理后的序列成为平稳序列。一般而言,均值平稳化采用差分(Difference)处理,方差平稳化运用Box-Cox变换处理。第三章假设检验与均数比较数据的统计推断与假设检验1、空间类型的抽样设计总体:又称母体,即在数据统计中,把准备加以观测的一个满足指定条件的地理要素的集合。是研究对象的某特征值的全体。样本:从总体中抽出的一部分个体。从总体中取出部分个体的过程,称为“抽样”。抽样过程必须力求样本对总体具有很好的代表性。这种代表性不仅与样本容量有关,即样本越大,抽样误差越小,反之,误差越大,还受抽样方法的制约。抽样方法随机抽样法、系统点抽样法、分层区域抽样法、阶梯抽样法、横截面(线)法3、假设检验§假设检验的思想:首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。§假设检验的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。参数:描述总体的数字特征,如总体均数。统计量:描述样本的数字特征,如样本均数。置信度:样本统计量推断总体特征的可靠性程度置信区间:概率保证下的总体参数的可能取值范围,如本地男性平均初婚年龄有95%的可能性为25±2周岁。推断统计推断统计:由样本数据推断总体特征的方法。在对样本数据描述的基础上,以概率形式对总体的数量特征进行表述。1.总体数据无法获得\n2.搜集总体数据投入较大推断统计包括参数估计和假设检验两种形式,二者原理一致,仅表现形式不同。均数比较过程是典型的参数检验,参数检验是推断统计的重要组成部分。假设检验的思想:首先提出假设,然后利用样本数据来检验假设,支持,则接受假设;不支持,则推翻假设。假设检验的基本信条:小概率原理,即发生概率很小的随机事件,在一次实验中几乎不可能发生。假设检验分为两类:参数检验:总体分布已知时(如正态分布),根据样本数据对某些总体参数(如均值)进行推断。非参数检验:总体分布未知或不符合参数检验的假定分布时。其中,卡方检验是非参数检验假设检验的基本步骤提出无效(零)假设(H0)。选择检验统计量,给定显著性水平α。计算检验统计量的发生概率。依据显著性水平,作出统计结论。假设检验无效假设H0:关于总体参数的假设,必定包含等号H0:μ=某值;H0:μ≥某值;H0:μ≤某值;对立假设H1:H1:μ≠某值;H1:μ<某值;H1:μ>某值;检验水平α:即显著性水平,一般取0.01、0.05或0.10。假设检验基于小概率原理:给定检验水平α,如果零假设成立条件下出现现有统计量的概率等于或小于α,则认为此事件可能性很小,因此就拒绝零假设。均数比较★正态分布:概率分布密度曲线呈钟型,两头低中间高,左右对称,近似于数学上的正态曲线。其性质和特点:☆决定于均数m和方差s2、☆钟形曲线、☆位置特征量均数、中位数、众数相等☆偏度和峰度均为零均数比较的假设检验数据类型:服从正态分布的定距型变量拟解决:某样本均值是否来自某个已知的正态总体?两个样本所代表的总体均值是否相同?某样本所代表的总体均值是否发生了数量上的变化?如果两个样本均数不同,可能存在以下两种情况1、两个样本所来自的总体均数相同,差别来自抽样误差。2、总体均数确实不同。均数比较的类型单个样本均数与总体均数比较、配对样本的均数比较、两个样本均数的比较两样本方差齐:原始资料呈正态分布时:t检验原始资料不呈正态分布,但样本量较大时:t检验原始资料不呈正态分布,且样本量较小时:非参数检验两样本方差不齐:\n数据变换后方差齐:t检验数据变换后方差不齐:t’检验检验步骤与统计量§事先确定是否双侧检验,建立无效假设H0:μ=μ0(双);对立假设?单侧检验?§确定检验水准α=0.05§选择检验统计量进行检验(υ=n-1)结果判断与解释§P>0.05,不能拒绝H0,p<=0.05,拒绝H0。第四章:方差分析方差分析§是一种从数据差异入手的分析方法,有助于人们从另一个角度发现事物的内在规律性。§它能解决多个均值是否相等的检验问题。§是一种实用、有效的分析方法。方差分析基本概念§方差分析:从分解数据差异来源入手,检验两个以上总体均数是否相等或是否具有差异的方法。§作用:可用于寻找关键性的影响因素,分析影响因素的不同水平及其组合是如何影响观测变量的。§观测变量:方差分析的因变量,即进行差异分析的数值型变量。如农作物产量、广告效果等。§控制变量:方差分析中的影响因素,分组变量、自变量。如品种、施肥量、广告形式等。Ø其不同类别,称为控制变量的不同水平。如广告形式中的电视广告、广播广告等。方差分析认为导致观测变量值变化的因素有两类:第一类是控制因素不同水平所产生的影响;第二类是随机因素所产生的影响。如果控制变量的不同水平对观测变量产生了显著影响,那么,它和随机变量共同作用必然使得观测变量值有显著波动。如果观测变量值在某控制变量的各个水平中没有出现明显波动,那么可以认为该控制变量没有对观测变量产生重要影响,其数据的波动是抽样误差造成的。方差分析常用于均数比较,研究控制因素(定性)与观测变量(定量)间的关系。与t检验:方差分析是检验多个总体的均值间差异是否具有统计意义的一种方法,比t检验更能节省时间。与回归分析:方差分析是回归分析的一种特例,可以用回归模型来表示方差分析单因素方差分析§拟分析一个控制因素是否对一个观测变量有影响。即控制因素不同水平下观测变量均值是否有差异;多个总体间的均值比较问题。§如:分析不同施肥量是否给农作物产量带来显著影响;考察地区差异是否会影响妇女的生育率;研究学历对工资收入的影响……§前提条件:§各样本彼此独立§各总体的方差相等\n§观测变量各总体应服从正态分布§统计思路:观测变量的总方差可分解为组间方差和组内方差,前者反映控制因素的影响,后者体现随机误差,如果前者显著大于后者,则可认为控制因素对观测值有影响。分析步骤:Ø明确控制因素(如:施肥量、地区、学历)和观测变量(如:农作物产量、妇女生育率、工资收入)Ø剖析观测变量的离均差平方和:SST=SSA+SSEØ分解自由度Ø比较组间和组内的方差大小,根据F分布界值做出统计结论。假设检验基本步骤§提出假设H0:a1=a2=…=ak=0§确定显著性水平α§构造F检验统计量并计算§§(F统计量服务(k-1,n-k)个自由度的F分布。)§统计结论与结果解释如果控制变量对观测变量造成了显著影响,观察变量总的变差中控制变量影响所占的比例相对于随机变量必然较大,F值明显大于1;反之,如果控制变量没有对观测变量造成显著影响,观测变量的变差应归结为随机变量造成的,F值接近于1。方差齐性检验:对控制变量不同水平下各观测变量总体方差是否相等进行分析。采用方差同质性(HomogeneityofVariance)的检验方法。多重比较检验:判断控制因素确有作用后,进一步确定控制因素不同水平对观测变量的影响程度,即各水平下观测变量的均值两两比较。Ø为何不用t检验:弃真错误α的概率增大多因素方差分析§协方差分析在协方差分析中,作为协变量的变量一般是定距变量。§协方差分析涉及到两种类型的控制变量(品质型和定距型)和定距型观测变量,如果将控制变量看做解释变量,观测变量看作被解释变量,那么协方差分析便是一种介于方差分析和线性回归分析之间的分析方法。§通过线性回归求出假定协变量相等时的控制因素各水平下的观测变量修正均数;§通过方差分析比较修正均数的差别。第五章:相关与回归分析相关分析和回归分析是研究客观现象之间数量联系的重要统计方法;作为推断统计的相关分析与回归分析具有广泛的应用价值;客观现象总是普遍联系和相互依存的;客观现象之间的数量联系,有两种不同的形态:函数关系和相关关系。相关关系\n:当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。如:劳动生产率与工资水平、投资额与GDP、商品流通规模与商务成本之间的关系等均属于相关关系。2、相关关系类型划分:完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这种现象间的关系为完全相关。如:在价格不变的情况下,商品的销售总额与其销售量总是成正比例关系。相关系数R=1或-1不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。如:股票的价格高低与气温高低是不相关的。相关系数R=0不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。相关系数0查看更多