- 2022-08-13 发布 |
- 37.5 KB |
- 2页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学名词解析
l.获得数据的概率抽样方法有哪些?(1)简单随机抽样简单随机抽样又称纯随机抽样,是指在特定总体的所有单位中直接抽取n个组成样本。它最直观地体现了抽样的基本原理,是最基本的概率抽样。<2)系统抽样系统抽样也称等距抽样或机械抽样,是按一定的间隔距离抽取样本的方法。(3)分层抽样分层抽样也叫分类抽样,就是先将总体的所有单位依照一种或几种特征分为若干个子总体,每一个子总体即为一类,然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本,称为分类样本,它们的集合即为总体样本。(4)整群抽样整群抽样又称聚类抽样或集体抽样,是将总体按照某种标准划分为一些群体,每一个群体为一个抽样单位,再用随机的方法从这些群体中抽取若干群体,并将所抽出群体中的所有个体集合为总体的样本。(5)多阶段抽样多阶段抽样又称多级抽样或分段抽样,就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。2.茎叶图与直方图相比有什么优点?它们的应用场合是什么?茎叶图与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。3鉴别图标优劣的准则1精心设计,有助于洞察问题的实质。2使复杂的观点得到简明、确切、高效的阐述。3能在最短的时间内以最少的笔墨给读者提供最大量的信息。4是多维的。5表述数据的真实情况。4.一组数据的分布特征可以从哪几个方面进行测量?答:数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。这三个方面分别反映了数据分布特征的不同侧面。5.标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。6.为什么要计算离散系数?答:离散系数是一组数据的标准差与其相应的平均数之比。是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,主要用于对不同组别数据离散程度的比较。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。7.简述众数、中位数和平均数的特点和应用场合。简答题答:众数是一组数据中出现次数最多的变量值,用M0表示。它不受极端值影响,具有不唯一性。众数主要用于分类数据的集中趋势,当然也适用顺序数据和数值型数据。数据分布偏斜程度较大时应用。中位数是一组数据排序后处于中间位置上的变量值,用Me表示,也不受极端值影响。它将全部数据等分成两部分,一部分数据比中位数大,一部分比中位数小。主要用于测度顺序数据的集中趋势,当然也适用于数值型数据,但不适用于分类数据。数据分布偏斜程度较大时应用。平均数是一组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值。它易受极端值影响,数学性质优良。主要适用于数值型数据,而不适用于分类数据和顺序数据。数据对称分布或接近对称分布时应用。8.说明区间估计的基本原理。答:区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。9.解释置信水平的含义。答:一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信参数。统计上,常用的置信水平有90%,95%和99%。10.怎样理解置信区间?\n答:1.如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。2.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数。3.使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确的区间。11.小样本估计时对总体有什么假定在小样本(n<30=情况下,对总体均值的估计都是建立在总体服从正态分布的假定前提下12.简述样本量与置信水平、总体方差、估计误差的关系。答:样本量与置信水平成正比,在其他条件不便的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即允许的估计误差的平方越大,所需的样本量就越小。12.怎样理解显著性水平?通常以α表示,是一个临界概率值。它表示在“统计假设检验”中,用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。α越小,犯拒绝“假设”的错误可能性越小。13.什么是P值?利用P值进行检验和利用统计量进行检验有什么不同犯第I类错误的真实概率就是P值。用统计术语来说,如果原假设Ho是正确的,所得到的样本结果会像实际观测结果那么极端或更极端的概率成为P值,也称为观察到的显著性水平。1.P值决策优先于统计量决策。与传统的统计量相比,P值决策提供了更多的信息。2.根据统计量决策,如果拒绝原假设,也仅仅是知道犯错误的可能性是a那么大,但究竟是多少却不知道。而P值则是算出的犯第I类错误的实际概率。14.说明X拟合优度检验和独立性检验的用途X拟合优度检验,是利用X统计量来判断某个分类变量各类别的观察频数分布与某一理论频数或期望分布是否一致,他也可以用与判断个类别的观察频数分布是否符合某一理论分布,如泊松分布或正态分布等。独立性检验是对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立。15.什么是方差分析?它研究的是什么?方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧重于方差分析的过程和形式。本质上,方差分析研究的是分类自变量对数值因变量的影响。16方差分析中有哪些基本假定?(1)正态性对于每个总体都应服从正态分布,即对于因子的每一个水平,其观察值来自服从正态分布总体的简单随机样本;(2)方差齐性各个总体的方差σ必须相同(3)独立性每个样本数据是来自因子各水平的独立样本17. 简述相关系数的性质间的线性关系强度的统计量。(1)r的取值范围在-1到1之间,即-1《r《1(2)r具有对称性;(3)r数值大小与x和y的原点及尺度无关(4)r仅仅是x和y之间线性关系的一个度量,它不能用于描述非线性关系;(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。18.一元线性回归模型中有哪些基本的假定?正态性。e是一个服从正态分布的随机变量,且期望值为0,即e~N(0,s2)。对于一个给定的x值,y的期望值为E(y)=b0+b1x方差齐性。对于所有的x值,e的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于s2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关19.简述参数最小二乘估计的基本原理。使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。20.解释多重共线性的含义当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。21.多重共线性对回归模型有哪些影响?首先,变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途其次,多重共线性可能对参数估计值的正负号产生影响,特别是β的正负号有可能同预期的正负号相反查看更多