- 2022-08-13 发布 |
- 37.5 KB |
- 50页



申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学基本概念
日志吕品吕品的日志当前日志返回日志首页»较新一篇/较旧一篇分享1.统计学:收集处理分析解释数据并从数据中得出结论的科学。2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。4.分类数据:只能归于某一类别的非数字型数据。5.顺序数...如果你也考统计学~~~~~网上搜索到的统计学基本概念~~~~~2011-05-2812:06|(分类:默认分类)1.统计学:收集处理分析解释数据并从数据中得出结论的科学。2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。4.分类数据:只能归于某一类别的非数字型数据。\n5.顺序数据:只能归于某一有序类别的非数字型数据。6.数值型数据:按数字尺度测量的观察值。7.观测数据:通过调查或观测而收集到的数据。8.实验数据:在实验中控制实验对象而收集到的数据。9.截面数据:在相同或近似相同的时间点上收集的数据。10.时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的数据收集方法。\n12.普查:为特定目的而专门组织的全面调查。13.总体:包含所研究的全部个体(数据)的集合。14.样本:从总体中抽取的一部分元素的集合。15.样本容量:也称样本量,是构成样本的元素数目。16.参数:用来描述总体特征的概括性数字度量。17.统计量:用来描述样本特征的概括性数字度量。18.变量:说明现象某种特征的概念。19.分类变量:说明事物类别的一个名称。20.顺序变量:说明事物有序类别的一个名称。21.数值型变量:说明事物数字特征的一个名称。\n22.离散型变量:只能取可数值的变量。23.连续型变量:可以在一个或多个区间中取任何值的变量。24.调查数据:通过调查方法获得的数据25.实验数据:通过实验方法获得的数据26.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。27.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。28.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。29.抽样框:用于抽选样本的总体单位信息,\n是概率抽样中所不可缺30.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。31.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。32.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。33.多阶段抽样:首先抽取群,再进一步抽样,从选中的群中抽取出若干个单位进行计查,二阶段抽样。34.方便抽样:依据方便原则,自行确定入抽样本的单位。35.判段抽样:研究人员根据经验,判断研究对\n象的了解,有目的选择一些单位作为样本。36.自愿样本:被调查者自愿参加,成为样本中一分子,向调查人员提供有关信息37.滚雪球抽样:对稀少群体调查中,首选选择一组调查单位,调查后,请他们提供另外属于研究总体的调查对象,调查人员根据所提供的线索,进行此后调查。38.配额抽样:将总体中所有单位按一定的标志分若干类,然后每类采用方便抽样或判断抽样的方案选取样本单位。39.自填式:没有调查员协助,被调查者自已填写,完成调查问卷。40.面访式:面对面,调查员提问,被调查者回答。41.电话式:打电话方式调查。\n42.抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差。43.非抽样误差:相对抽样误差而言,除抽样误差之外的,由于其它原因引起的样本观察结果与总体真值之间的差异。44.抽样框误差:统计推论的错误是由于抽样框不完善造成的45.频数:落在某一特定类别或组中的数据个数。46.频数分布:各个类别及其相应的频数形成的分布。47.比例:一个样本(或总体)中各个部分的数据占全部数据比值。48.比率:一个样本(或总体)中各不同类别数据之间的比值。49.累积频数:将各有序类别或组的频数逐级累\n加起来得到的频数。50.累积频率或累积百分比:将有序类别或组百分比逐级累加起来。51.数据分组:根据统计研究需要,将原始数据按某种标准化分成不同的组别,。52.组距是一个组的上限与下限的差53.组距分组是将全部变量依次划分为若干个区间,将这一区间的变量值作为一组。54.等距分组,在组距分组时,如果各组的组距相等。55.组中值=下限值+上限值/2上下限的中间值56.直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。57.\n茎叶图:由茎和叶两部分组成的、反应原始数据分布的图形。58.箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布图形。59.集中趋势:指一组数据向某一中心值靠拢的程度,反映一组数据中心点的位置所在。60.众数:一组数据中出现频数最多的数值61.中位数:一组数据排序后处于中间位置上的数值。62.四分位数:一组数据排序后处在25%和75%位置上的数值。63.平均数:又称均值,是全部数据的算术平均值64.简单平均数:未经分组数据计算的平均数称为简单平均数。根据分组。。。加权平均数。\n65.几何平均数:是n个变量值乘积的n次方根。常用于比例数据的平均。66.异众比率:指非众数组的频数占总频数的比例.67.四分位差:75%位置上的四分位数与25%位置上的四分位数之差。顺序数据。68.极差:也称全距,一组数据的最大值与最小值之差。69.平均差:也称平均绝对离差,它是各变量值与其平均数离差的绝对值的平均数。70.方差:各数据与其平均数离差平方的平均数。71.标准差:方差的平方根。72.标准分数:也称标准化值或z分数,某个数据与其平均数的离差除以标准差后的值。\n73.离散系数:一组数据的标准差与其相应的平均数之比。74.偏态:对数据分布对称性的测度。测度偏态的统计量偏态系数。75.偏态系数:对数据分布不对称性的度量值。76.峰态:对数据分布平峰或尖峰程度的测度,测度峰态的统计量则是峰态系数。77.峰态系数:对数据分布峰态的度量值。78.随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件79.必然事件:在同一组条件下,每次试验一定出现的事件。80.不可能事件:在同一组条件下,每次试验一定不出现的事件。\n81.基本事件:如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件。82.概率:对事件发生的可能性大小的度量值。83.主观概率:对一些无法重复的试验,确定其结果的概率只能根据经验,人为确定这个事件的概率。84.条件概率:当某事件B已发生,求事件A发生的概率,称为事件B发生条件下事件A发生的条件概率。85.独立事件:两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率。86.随机变量:事先不能确定其取值的变量。87.离散型随机变量:只能取有限个值的随机变量。88.连续型随机变量:可以取一个或多个区间中任何值的随机变量。\n89.期望值、数学期望:随机变量的平均取值,各可能值与对应概率乘积之和。90.方差:随机变量的每一取值与期望值的离差平方的期望值。91.泊松分布:用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的个数的分布。92.概率密度函数:对连续型随机变量用函数f(x)来表示。大于等于0,全积分为193.统计量:对样本特征的某个概括性度量,是样本的函数。94.充分统计量:统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。95.抽样分布:样本统计量的概率分布,是由样本统计量的所有可能取值形成相对频数分布。\n96.渐近分布:当n比较大时,用极限分布作为抽样分布的一种近似,这种极限分布常称为97.自由度:独立变量的个数。98.估计量:用来估计总体参数的统计量的名称99.估计值:估计总体参数时计算出来的估计量的具体数值100.点估计:用样本估计量的取值直接作为总体参数θ的估计值101.区间估计:在点估计的基础上,给出总体参数估计的一个估计区间,该区间通常由样本统计量加减估计误差组成102.置信区间:由样本统计量构造出的总体参数在一定置信水平下的估计区间。103.\n置信水平:也称为置信度或置信系数,在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例。104.无偏性:估计量抽样分布的期望值等于被估计的总体参数105.有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。106.一致性:随着样本量的增大,估计量的值越来越接近总体参数。107.独立样本:一个样本中的元素与另一个样本中的元素相互独立。108.匹配样本:又称配对数据,一个样本中的数据与另一个样本中的数据相对应。109.假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。\n110.原假设:也称零假设,是研究者想收集证据予以反对的假设,用表示。111.备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用或表示。112.第Ⅰ类错误:原假设正确时拒绝原假设,犯第Ⅰ类错误概率记。113.第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为。114.显著性水平:假设检验中发生第Ⅰ类错误的概率,记为。115.小概率原理:进行假设检验利用,指发生概率很小的随机事件在一次试验中是几乎不可能发生的。116.检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量\n117.拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。118.临界值:根据给定的显著性水平确定的拒绝域的边界值。119.值:也称观察到的显著性水平,如果原假设是正确的,那么所得的样本结果出现实际观测结果或更极端结果出现的概率。P值很小说明发生概率很小,拒绝原假设,P越小,拒绝原假设的理由就越充分。双侧P<0.025单侧p<0.05拒绝原假设。120.单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验。121.双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“1”的假设检验。122.\n列联表:由两个以上的变量进行交叉分类的频数分布表。123.条件分布、频数:列联表中的观察值分布称为条件分布,每个具体观察值就是条件频数。124.拟合优度检验:如果样本是从总体的不同类别中分别抽取,研究目的是对不同类别的目标量之间是否存在显著性差异进行检验,我们就把它称为拟合优度检验或一致性检验。125.独立性检验:判断两个分类变量之间是否存在联系的问题,两组或多组的资料是否相互关联,如果不关联,就称为独立。这类问题的处理称为独立性检验。126.方差分析:通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。127.因素:也称因子,是方差分析中所要检验的对象。\n128.处理:因素的不同表现称为水平或处理129.组内误差:来自水平内部的数据误差。130.组间误差:来自不同水平之间的数据误差。131.总平方和:反映全部数据误差大小的平方和,记为SST。自变量效应加残差效应。n-1132.组内平方和:反映组内误差大小的平方和,记为SSE。残差变量,残差效应;n-k133.组间平方和:反映组间误差大小的平方和,记为SSA。自变量效应或因子效应;k-1134.单因素方差分析:只涉及一个分类型自变量的方差分析。135.组内方差:组内平方和除以相应的自由度。136.组间方差:组间平方和除以相应的自由度。\n137.双因素方差分析:方差分析中涉及两个分类型自变量时,称为~138.试验:收集样本数据的过程139.试验设计:收集样本数据的计划140.完全随机化设计:将k种处理随机地指派给试验单元的设计。141.处理指可控制的因素的各个水平142.试验单元:接受处理的对象或实体称为试验单元或抽样单元。143.随机化区组设计:先按一定规则将试验单元划分为若干同质组,区组,然后再将各种处理随机地指派给各个区组。144.\n因子设计:考虑两个因素搭配的试验设计称为因子设计。145.函数关系:设两变量x,y,变量y随x一起变化,并完全依赖于x,当变量x取某数值时,y依确定关系取相应的值,则称y是x的函数,记为y=f(x).146.相关关系:变量之间存在的不确定的数量关系。147.相关分析:分析变量之间是否存在相关关系,明确其相关关系的类型,计算其相关关系的密切程度的统计分析方法148.相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。149.回归模型:描述因变量y如何依赖于自变量x和误差项的方程。150.回归方程:描述因变量y的期望值如何依赖于自变量x的方程。\n151.估计的回归方程:用样本统计量代替回归方程中的未知参数,根据样本数据求出的回归方程的估计。152.因变量、自变量:被预测或被解释的变量称为因变量,用来预测或用来解释因变量的一个或多个变量称为自变量。153.最小二乘法:也称最小平方法,使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。154.回归平方和:y的总变差中由于x与y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的yi变差部分。155.残差平方和:除了x对y的线性影响之外的其它因素对y变差的作用,是不能由回归直线解释的yi的变差部分。156.判定系数:回归平方和占总平方和的比例,记为\n157.估计量的标准误差:均方残差(MSE)的平方根,用来表示。实际意义反映了用估计的回归方程预测因变量y时的预测误差的大小。越小,各观测点的代表性就越好,预测越准确,从另一个角度说明了回归直线的拟合优度。158.平均值的点估计:利用估计的回归方程,对于的一个特定值,求出的平均值的一个估计值。159.个别值的估计值:利用估计的回归方程,对于的一个特定值,求出的一个个别值的估计值。160.平均值的置信区间估计:对的一个给定值,求出的平均值的区间估计。161.个别值的预测区间估计:对的一个给定值,求出的一个个别值的区间估计。162.残差:因变量的观测值yi与根据估计的回归方程求出的预测值yi^之差,用e表示。\n163.标准化残差:残差除以它的标准差后得到的数值用Ze表示。164.异常值:在散点图中,如果某一个点与其它点所呈现的趋势不相吻合165.有影响的观测值:如果某一个点或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是~166.多元线性回归模型:描述因变量如何依赖于自变量和误差项的方程。167.多元线性回归方程:描述的期望值如何依赖于的方程。168.估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。169.多重判定系数:在多元回归中,回归平方和占总平方和的比例。\n170.修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为。171.多重共线性:当回归模型中两个或两个以上的变量彼此相关时,则称回归模型中存在~172.虚拟变量:变量的取值本身用文字来描述,要把它们放进回归模型,必须先将其文字型数据用数字代码来表示,这种代码化的定性自变量称为虚拟变量。173.时间序列:同一现象在不同时间上的相继观察值排列而成的序列。174.平稳序列:基本上不存在趋势的序列。175.非平稳序列:包含趋势性、季节性或周期性的序列。176.\n趋势:也称长期趋势,指时间序列在长时期内呈现出某种持续向上或持续下降的变动。177.季节性:季节变动,是指时间序列在一年内重复出现的周期性波动。178.周期性:循环波动,是指时间序列中呈现出的围绕长期趋势的一种波浪形或振荡式变动。179.随机性:不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波动。180.增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。181.环比增长率:报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度。182.定基增长率:报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。183.\n平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)的几何平均数减1后结果。184.增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。185.简单平均法预测:根据过去已有的期观察值通过简单平均来预测下一期的数值。186.移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。187.指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第+1期的预测值等于期的实际观察值与第期指数预测值的加权平均值。188.线性趋势:指现象随着时间的推移而呈现稳定增长或下降的线性变化规律。189.指数曲线:描述以几何级数递增或递减的现象\n即时间序列的观察值按指数规律变化或说时间序列逐期观察值按一定增长率增长衰减。190.在一般指数曲线的基础上增加一个常数K,初期增长迅速,随后增长率逐渐降低,最终以K为增长极限。191.指数:测定多个项目在不同场合下综合变动的相对数。192.加权综合指数:通过加权来测定一组商品价格的综合变动状况的指数。193.拉氏价格指数:计算综合指数时,把作为权数的销售量固定在基期。单纯反映价格的变动水平,不能反映出消费结构的变化。194.帕氏价格指数:把作为权数的销售量固定在报告期,不同时期的指数缺乏可比性,可以同时反映出价格和消费结构的变化。\n195.加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。196.零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。197.消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度一种相对数。198.股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。199.间接来源:统计数据的间接来源:如果与研究内容有关的原信息已存在,我们只是对这些原信息重新加工整理,使之成为我们进行统计分析可以使用的数据,则我们把它们称为间接来源的数据。二手数据的特点:搜集比较容易,采集数据成本低,能很快得到。局限性不是为特定研究问题产生有欠缺,需要评估。、\n二手数据的评估:谁收集,目的,怎么搜集,什么时侯收集?概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。操作简便,时效快,成本低,专业要求不很高。概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。提出精度要求。数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求实验中的若干问题:人的意愿,心理问题,道德问题回答误差:理解误差,记忆误差,有意识误差误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。\n抽样误差因素:样本量大小,总体变异性大大抽样方式选组织形式数据审核的目的:检查数据是否有错误,原始数据完整性准确性,二手适用性时效性。数据筛选的目的:根据需要找出符合特定条件的某类数据。数据排序是按一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏\n直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后条形图主要用于展示分类数据,直方图主要用于展示数值型数据。茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。直方图通常适用于批量数据,茎叶图小批量数据。饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例,环形图可以同时绘制多个,有利比较研究。好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。图形优劣准则:好图应当\n使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。数据分布的特征三方面:数据分布的集中趋势,离散程度,形状众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。左偏X查看更多