- 2022-08-13 发布 |
- 37.5 KB |
- 20页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学方法概述x
第二章统计学方法概述冯益明\n1.单变量基本统计1.1频率和直方图图2.1在10cm×10cm网格中的变量Z1的100个测量值(单位:ppm)最常用的表达数据的统计方式就是使用频率表和与之相关的直方图,频率表记录落于某些区段的频率。一般来说,设随机事件A在n次试验中出现nA次,那么比值叫做事件A在这n次试验中出现的频率。\n1.单变量基本统计1.1频率和直方图表总结了上图中100个Z1值的在各取值区间的频率分布,表中结果也可以用直方图来。\n1.单变量基本统计1.2累积频率和直方图表里不是记录在某些区间数值个数,而是记录了低于某些截断值的总的数值个数,及其与总的数据个数的比值,相应的积累频率是在0和100%之间的不减函数。积累频率分布可以用直方图表示。\n1.单变量基本统计1.2累积频率和直方图如果随机变量X是连续变化的,由频率和累积频率分布分别引入概率密度和概率分布函数的概念,有以下关系:\n1.单变量基本统计1.3正态和对数正态分布如果某一变量服从正态分布,那么对这一变量的理论分析和估计方法的处理会带来很多便利。因此,对于收集到的数据,我们往往希望知道它们的分布与正态分布有多接近,正态分布图就是用来解决这一问题的。将累积频率点在正态分布图纸上,如数据是正态分布的,那么累积频率图就应是一条直线。\n1.单变量基本统计1.3正态和对数正态分布实际中,许多变量并不接近正态分布,通常情况下,它们的样本值有许多很小的值和一些很大的值.虽然正态分布不适合用来表征这种不对称分布,但与之相联系的另一种分布——对数正态分布有时却是一种较好的选择。如果将变量进行对数变换后的新变量是正态分布,这种变量就称为对数正态分布。即如变量Y=ln(X)是正态分布,X就是对数正态分布,概率密度函数为\n1.单变量基本统计1.4常用统计量样本数据的统计量可以归为三类:(1)量度样本数据分布位置;(2)量度样本数据分布分散情况;(3)量度样本数据分布形状。(1)给出变量分布的各部分所在的位置,比如均值、中值和众数给出了分布的中心所在,分布的其他位置由各种四分位数来表征;(2)包括方差和标准方差等,主要用来描述数据值的分散度,这些统计值越大,表示数据越分散;(3)对形状量度的统计量包括倾斜系数和变异系数等,倾斜系数用来描述分布的对称性,而变异系数则用来描述一些分布的尾部长度。\n1.单变量基本统计1.4常用统计量-位置的量度均值:均值m就是样本数据的算术平均中值:将观测值按递增顺序排列,中值M就是这些数据的中心点,一半的观测值在中值之下,一半在中值之上。\n1.单变量基本统计1.4常用统计量-位置的量度众数:众数是最常出现的观测值。直方图中频率最高所对应的数据区间就包含了众数值第1和第3四分位数:与中值将数据系列分成两部分相似,四分位数将数据系列分为四个部分,如果数据以递增顺序排列,那么四分之一的数据低于第l四分位数(Q1),四分之一的数据高于第3四分位数(Q3)。\n1.单变量基本统计1.4常用统计量-量度变量的分散性方差:方差用以下公式计算:式中m是均值,因方差涉及到观测值与均值差的平方和,所以对特别高的值很敏感。标准方差:标准方差为方差的平方根值。四分位数全距:四分位数全距也可用来量度测量值的分散情况,四分位数全距是上、下两个四分位数之差:IQR=Q3-Q1\n1.4常用统计量-形状的量度倾斜系数:倾斜系数常用来表征分布对称性1.单变量基本统计\n1.单变量基本统计1.4常用统计量-形状的量度\n2.双变量图显示了在同一位置上两个变量(Z1和Z2)的数据值\n2.双变量2.1两变量分布的比较显示双变量数据的最常用的方式就是画出数据点的散布图,这是一种x-y图。图(a)显示Z1和Z2的数据点散布图,虽然数据有一些离散,但总的趋势是Z1高的值与Z2高的值相对应,低的Z1值与低的Z2值相对应。\n2.双变量2.1两变量分布的比较散布图使我们对一些异常的数据点引起注意。在进行空间连续变量分析的早期阶段,有必要检查和清整数据,因为成功的估计方法取决于可信的原始数据,即使清理了数据,一些异常的数值也可能对变量的估计产生重要影响,散布图既可用来检查原始数据又可用来解释以后的结果。箭头点表示将Z1=143ppm误记14ppm\n2.双变量2.2相关性一般说,从散布图上可以观察两个变量的以下三种关系之一:两变量正相关、负相关、不相关。相关系数最常用来总结两个变量的关系,计算式如下:\n2.双变量2.2相关性相关系数实际上是对每对观测值落在一条直线上有多接近的一种量度,如果þ=l,那么所有的观测值都落在一条斜率为正数的直线上;如果þ=-1,那么所有的观测值都落在一条斜率为负数的直线上;如果|þ|<1,则数据点在散布图中形成云状图,当|þ|从l下降至0,云状图形状就变得越来越宽大、散乱。\n2.双变量2.3线性回归如果两变量间有较强的相关关系,那么从一个已知的变量就能预测另一个变量,这种预测的最简单形式就是线性回归,这里假定两个变量的依赖关系可用一条直线来表示:\n2.双变量2.4双变量正态分布查看更多