- 2022-09-01 发布 |
- 37.5 KB |
- 4页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学简答题58694
简答题l.获得数据的概率抽样方法有哪些?(1)简单随机抽样简单随机抽样又称纯随机抽样,是指在特定总体的所有单位中直接抽取n个组成样本。它最直观地体现了抽样的基本原理,是最基本的概率抽样。(2)系统抽样系统抽样也称等距抽样或机械抽样,是按一定的间隔距离抽取样本的方法。(3)分层抽样分层抽样也叫分类抽样,就是先将总体的所有单位依照一种或几种特征分为若干个子总体,每一个子总体即为一类,然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本,称为分类样本,它们的集合即为总体样本。(4)整群抽样整群抽样又称聚类抽样或集体抽样,是将总体按照某种标准划分为一些群体,每一个群体为一个抽样单位,再用随机的方法从这些群体中抽取若干群体,并将所抽出群体中的所有个体集合为总体的样本。(5)多阶段抽样多阶段抽样又称多级抽样或分段抽样,就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。2.什么是统计学?统计学数据分为哪几类数据?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 3.简述众数、中位数和平均数的特点和应用场合。答:众数是一组数据中出现次数最多的变量值,用M0表示。它不受极端值影响,具有不唯一性。众数主要用于分类数据的集中趋势,当然也适用顺序数据和数值型数据。数据分布偏斜程度较大时应用。中位数是一组数据排序后处于中间位置上的变量值,用Me表示,也不受极端值影响。它将全部数据等分成两部分,一部分数据比中位数大,一部分比中位数小。主要用于测度顺序数据的集中趋势,当然也适用于数值型数据,但不适用于分类数据。数据分布偏斜程度较大时应用。平均数是一组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值。它易受极端值影响,数学性质优良。主要适用于数值型数据,而不适用于分类数据和顺序数据。数据对称分布或接近对称分布时应用。4.收集数据的基本方法有哪些?1.自填式2.面访式3.电话式此外收集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息。\n5.叙述正态分布曲线的特点。⑴正态曲线的图形是关于x=u对称的钟形曲线,且峰值在x=u处。 ⑵正态分布的两个参数u和σ一旦确定,正态分布的具体形式也惟一确定,不同参数取值的正态分布构成一个完整的“正态分布族”。 ⑶当X的取值向横轴左右两个方向无限延伸时,正态曲线的左右两个尾端也无限渐近横轴,但理论上永远不会与之相交。 ⑷正态随机变量在特定区间上取值的概率由正态曲线下的面积给出,而且其曲线下的总面积等于1. 6.数据的预处理包含哪些内容,并对内容简要解析?数据的预处理:1.数据的审核:检查数据中的错误。2.数据的筛选:找出符合条件的数据。3.数据排序:升序和降序,寻找数据的基本特征。7.什么是统计量?为什么要引进统计量?统计量中为什么不包含任何未知参数?统计量:是用来描述样本特征的概括性数字度量。引进统计量的目的是为了将杂乱无序的样本值归结为一个便于进行统计推断和研究分析的形式,集中样本所含信息,使之更易揭示问题实质,从而解决问题。 如果统计量中仍含有未知参数,就无法依靠样本观测值求出未知参数的估计值,因而失去利用统计量估计未知参数的意义,这是违背我们引进统计量的初衷的。8.怎样理解置信区间?答:1.如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。2.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数。3.使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确的区间。9简述评价估计量的标准。答:评价估计量的标准有:无偏性。无偏性是指估计量抽样分布的期望值等于被估计的总体参数。有效性。有效性是指估计量的方差尽可能小。一致性。一致性是指随着样本量的增大,点估计量的值越来越接近被估计总体的参数。10.怎样理解显著性水平?通常以α表示,是一个临界概率值。它表示在“统计假设检验”中,用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。α越小,犯拒绝“假设”的错误可能性越小。11.抽样估计中在不同样本状况下使用什么统计量、分布及其假设条件是什么?\n12.什么是假设检验中的第一类和第二类错误?是否有可能同时降低两类错误的可能性?答:在统计检验中:原假设是真实的,却拒绝原假设称作假设检验的“第一类错误”(1.5分)。原假设是不真实的,判断结论却接受原假设,这是“第二类错误”(1.5分)。 在样本一定条件下,犯第二类错误的概率β与犯第一类错误的概率α相互之间呈反向变动关系。但是通过增大样本容量,减小抽样分布的离散性,有可能同时降低两种错误的概率(2分)。13.什么是P值?利用P值进行检验和利用统计量进行检验有什么不同犯第I类错误的真实概率就是P值。用统计术语来说,如果原假设Ho是正确的,所得到的样本结果会像实际观测结果那么极端或更极端的概率成为P值,也称为观察到的显著性水平。1.P值决策优先于统计量决策。与传统的统计量相比,P值决策提供了更多的信息。2.根据统计量决策,如果拒绝原假设,也仅仅是知道犯错误的可能性是a那么大,但究竟是多少却不知道。而P值则是算出的犯第I类错误的实际概率。14.方差分析中有哪些基本假定?方差分析中有三个基本的假定。①正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;②方差齐性:各个总体的方差 必须相同;③独立性:每个样本数据是来自因子各水平的独立样本。15.什么是方差分析?它研究的是什么?方差分析被解释为检验多个总体均值是否相等的统计方法,这种解释侧重于方差分析的过程和形式。本质上,方差分析研究的是分类自变量对数值因变量的影响。16.简述方差分析的基本原理。方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。17.一元线性回归模型中有哪些基本的假定?正态性。e是一个服从正态分布的随机变量,且期望值为0,即e~N(0,s2)。对于一个给定的x值,y的期望值为E(y)=b0+b1x方差齐性。对于所有的x值,e的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于s2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关。18.判定系数R^2及其含义多重判定系数(R^2)是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。 \n19. 简述相关系数的性质(1)r的取值范围在-1到1之间,即-1《r《1(2)r具有对称性;(3)r数值大小与x和y的原点及尺度无关(4)r仅仅是x和y之间线性关系的一个度量,它不能用于描述非线性关系;(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。20. 什么是回归分析中的随机误差项和残差?它们之间的区别是什么? 答:随机误差项e反映除自变量外其他各种微小因素对因变量的影响。它是Yt与未知的总体回归线之间的纵向距离,是不可直接观测的。(2.5 分)。 残差et 是Yt与按照回归方程计算的Yˆt的差额,它是Yt 与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。利用残差可以对随机误差项的方差进行估计。(2.5分)21.简述时间序列模型的四种成分。按时间序列中各种可能发生作用的因素进行分类,时间序列包含长期趋势、季节变动、循环变动和不规则变动四种成分。长期趋势是指时间序列在较长时期内持续发展变化的趋势,即在长时期内呈现不变、逐渐地增长或逐渐地下降的变动趋势;季节变动是指某些现象由于受自然和人为等多方面因素的影响,在一年内随着季节的更换而引起的规则变动;循环变动是指以若干年为周期、不具严格规则的周期性连续变动;不规则变动是指由于气候变化、自然灾害、战争、政治事件、国际形势、消费心理、社会舆论、经济政策调整等原因影响经济的变动。22.简述指数平滑法的基本含义。指数平滑法是指对过去的观察值加权平均进行预测的一种方法。该方法使得第t+1期的预测值等于t期的实际观察值与第t期预测值的加权平均值。指数平滑法是加权平均的一种特殊形式,观察值时间越远,其权数也跟着呈指数的下降,因而称为指数平滑。指数平滑法有一次指数平滑法、二次指数平滑法、三次指数平滑法。一次指数平滑法也可用于对时间序列进行修匀,以消除随机波动,找出序列的变化趋势。查看更多