统计学---知识要点
第一章知识结构1.掌握统计学的几个基本概念(1)总体:所谓总体,是指研究所关注的全部单元组成的集合。(2)总体单位:即构成总体的每一个单元。(3)标志:总体单位的特征,分为品质标志和数量标志。品质标志只能用文字表示,数量标志只能用数字表示。(4)指标:数量标志汇总之后就成为指标。指标只能用数字表示,可相加。(如,我国2009年国民生产总值为3335353亿元)指标分为数量指标和质量指标,数量指标一般用绝对数表示;质量指标一般用相对数或者平均数表示。质量指标一般以倍数、系数、%结尾且不带单位。(5)变量:一般可以分为连续变量和离散变量两种。连续变量可分割,可用小数表示,如身高、体重、降雨量、土地面积、金额等;离散变量不可分割,不能用小数表示,如职工人数、设备台数等。2.数据类型P7(1)数据可以分为定性数据和定量数据。定性数据用文字表示,定量数据用数字表示。(2)定性数据又可分为定类数据(不能排序)和定序数据(可排序,如满意度数据)(3)实验数据、观察数据;截面数据、历时数据(略)3.抽样方法P9(1)简单随机抽样(2)分层抽样:分层抽样后的数据可以排列大小,如:优秀、一般、差;老年、中年、青年;100-200元、200-300元、300-400元等。(3)整群抽样:整群抽样一般以当下划分的标准进行,如地域:广东、广西、河南、山东等;如企业性质:国有企业、中外合资、私人企业等(4)等距抽样(也叫系统抽样)4.统计学的研究对象为数据。\n第二章知识要点一、构建频数分布表(1)定性频数分布表P15-16(2)定量频数分布表,理解等距分组与不等距分组P18-20(3)若某组上限与邻组的下限重合,采用“上限不在本组”原则。二、组中值(1)组中值=(上限+下限)/2(2)缺上限开口组的组中值=下限+(相邻组的组距/2)缺下限开口组的组中值=上限—(相邻组的组距/2)例题1. 在进行组距式分组时,凡遇到某单位的标志值正好等于相邻两组上下限的数值时,一般是( )A.将此值归入上限所在组 B.将此值归入下限所在组C.将此值归入上限或下限所在组均可 D.另行分组选【B】例题2. 某连续变量,其末组为“500”以上,又知其邻组的下限为400,则末组的组中值为( )A.600 B.450 C.500 D.550选【D】三、集中趋势和离散程度P271.平均数可以用来表示一组数列的集中趋势,包括众数、中位数和均值(算数平均数、调和平均数、几何平均数),其中,众数和中位数是位置平均数。(1)所谓众数,是一批数据中出现频数(次数)最多的数,用MO来表示。(2)所谓中位数,是对一批数据进行排序之后,处于中间位置的数值,用Me来表示。(3)数值平均数有算数平均数、调和平均数、几何平均数等,每个数据都参与计算。2.离散程度可以用来表示一组数列偏离平均值的程度。异众比率、四分位差四分位差注意:当样本数大于36时,总体标准差σ可以替代样本标准差S全距=最大值—最小值平均差:AD=【Σ|x-----X|】/n注意:全距、平均差、标准差、方差和离散系数统称为标志变异指标。标志变异指标小则数列当中的平均数代表性大;标志变异指标大则数列当中的平均数代表性小。3.当某一分布左偏的时候,Mo
3.841,落入拒绝域,拒绝原假设,因此参加志愿者活动与学历有关联。(注意:设立假设时,原假设为否定式,备择假设为肯定式)\n第六章课后练习一、1、对该列联表进行百分比化的结果为:软件难易程度软件1软件2软件3软件4合计低5/32=15.6%10/32=31.3%14/32=43.8%3/32=9.3%100%(32)中8/61=13.1%28/61=45.9%18/61=29.5%7/61=11.5%100%(61)高22/57=38.6%7/57=12.3%8/57=14.0%20/57=35.1%100%(57)合计35/150=23.3%45/150=30.0%40/150=26.7%30/150=20.0%100%(150)2、解:设立统计假设如下:H0:软件的难易程度与软件的类别无关Ha:软件的难易程度与软件的类别有关检验统计量为卡方值的求解过程如下表所示:软件难易程度实际频数fij期望频数eij(eij-fij)2/eij1低5(35*32)/150=7.470.811中8(35*61)/150=14.232.731高22(35*57)/150=13.35.692低10(45*32)/150=9.60.022中28(45*61)/150=18.35.142高7(45*57)/150=17.15.973低14(40*32)/150=8.533.503中18(40*61)/150=16.270.183高8(40*57)/150=15.23.414低3(30*32)/150=6.41.814中7(30*61)/150=12.22.224高20(30*57)/150=11.46.49合计15015037.97由上表可以看出,所以单元格的期望频数均不低于5,因此可以进行卡方检验。由上表可知,卡方的值为37.97,在0.05的显著性水平下,临界值为12.59。由于37.97>12.59\n,因此在0.05的显著性水平下拒绝原假设,即认为软件的难易程度与软件的类别有关。第七章回归分析知识要点主要概念解释1.回归许多变量向某一点、某一线或者某一个区域集中或者趋近,这个过程我们称为“回归”。2.(1)线性回归2.(2)非线性回归若变量向某一条直线趋近或者集中,则称为“线性回归”;若变量趋近或集中后无法形成一条直线,则称为“非线性回归”。3.(1)一元线性回归分析3.(2)一元线性回归方程3.(3)多元线性回归分析(1)回归分析中若只涉及一个自变量和一个因变量的称为“一元回归分析”,而涉及几个自变量和一个因变量的称为“多元回归分析”。(2)用方程来表示一元线性回归分析的结果,我们称该方程为“一元线性回归方程”。考试题型1.构建一元回归线性方程2.求估计标准误差\n注:估计标准误差越小,观测值就越接近回归方程,如果估计标准误差越大,则观测值离回归方程越远。【例】假设有8个企业的产量和生产费用的关系见下图问:(1)用最小二乘法构建一个回归方程;(2)计算估计标准误差;解:第七章课后练习\n1.下面是两个变量X和Y的数据:X1609913291125108142133138128Y55363925473356464250根据上述数据解决以下问题。(1)用最小二乘估计法估计Y关于X的回归方程。(2)计算估计标准误差。(注意,求出的a、b的值不要代错位置)模拟自测题一、单项选择题(本大题共10小题,每小题2分,共20分)1.某连续变量,其末组为“500以上”,又知其邻组的下限为400,则末组的组中值为(D)。A.600B.450C.500D.5502.甲、乙两数列的平均数分别为80和70,它们的标准差为8.8和8.4,则(A)。A.甲数列平均数的代表性高于乙数列B.乙数列平均数的代表性高于甲数列C.两数列平均数的代表性相同D.两数列平均数的代表性无法比较3.在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/3时,则样本单位数为原来的(C)\nA.2倍B.3倍C.9倍D.无法判断4.对学生学习情况进行抽查,将学号按顺序排列,每隔五个学号抽取一个学生访问,这种抽查方式是(C)。A.简单随机抽样B.类型抽样C.等距抽样D.整群抽样5.在假设检验中,原假设和备择假设(C)A.都有可能成立B.都有可能不成立C.只有一个成立而且必有一个成立D.原假设一定成立,备择假设一定不成立6.在其他条件不变的情况下,提高估计的概率保证程度,其估计的精确程度(B)A、随之扩大B、随之缩小C、保持不变D、无法确定7.根据间隔相等的间断时点数列计算平均发展水平的方法是(D)。A、简单算数平均法B、加权算术平均法C、简单几何平均法D、首尾斩半法8.变异指标反映了总体各单位变量值分布的(B)。A.集中趋势B.离散趋势C.变动区属D.长期趋势9.在假设检验中,通常犯一类错误的概率称为(B)。A.置信水平B.显著性水平C.取伪概率D.取真概率10.以下哪种情况适用t检验统计量(C)A.样本为大样本,且总体方差已知B.样本为小样本,且总体方差已知C.样本为小样本,且总体方差未知D.样本为大样本,且总体方差未知二、多项选择题(本大题共10小题,每小题2分,共20分)1.构成分配数列的两个基本要素是(AB)A.组数的多少B.各组组距大小C.统计分组D.各组标志值的大小E.各组次数大小F.分配在各组的单位数2.平均数的计算方法有(ABC)。A.算术平均数B.调和平均数C.几何平均数D.众数E.中位数3.影响抽样平均误差的因素有(CDE)A.是有限总体还是无限总体B.是变量总体还是属性总体C.是重复抽样还是不重复抽样D.抽样单位数的多少E.全及总体标志的变动程度4.标准差(CE)A.表明总体单位标志值的一般水平B.反映总体单位的一般水平C.反映总体单位标志值的离散程度D.反映总体分布的集中趋势\nE.反映总体分布的离中趋势5.在各种平均指标中,不受极端值影响的平均指标是(DE)A.算数平均数B.调和平均数C.几何平均数D.中位数E.众数6.下列属于品质标志的是(BCD)A.职工人数B.性别C.企业经济类型D.文化程度E.先进工作者人数7.用样本指标估计总体指标时,判断估计的优良标准是(ABC)A、无偏性B、一致性C、有效性D、灵活性E、随机性8.当我们根据样本资料对原假设做出接受或拒绝的决定时,可能出现的情况有(ACDE)A、当原假设为真时接受它B、当原假设为假时接受它,我们犯了第一类错误C、当原假设为真时拒绝它,我们犯了第一类错误D、当原假设为假时拒绝它E、当原假设为假时接受它,我们犯了第二类错误9.编制时期数列,各个指标所属的时间要求(AD)A、相等B、不相等C、一般应不相等,但有时也可以相等D、一般应相等,但有时也可以不想等10.测定长期趋势的方法有(ABC)A.时距扩大法B.最小二乘法C.移动平均法D.几何平均法三、判断题(本大题共10小题,每小题1分,共10分)1.数据预处理是在统计数据分组或分类之后所做的必要处理。(错)2.如果α=0.05,当我们拒绝H0时,我们就有5%的可能犯错误。(对)3.标志变异指标数值越大,说明总体中各单位标值的变异程度越大,则平均指标的代表性越小。(对)4.将某班学生按考试成绩分组形成的数列是时点数列。(错)5.样本单位数的多少与总体单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。(错)6.品质标志说明总体单位的属性特征,其标志表现只能用文字表现,所以品质标志不能直接转化为统计指标。(对)7.很多统计方法的假设前提是随机变量服从正态分布。(对)8.在抽样推断中,总体指标值是确定的、唯一的,而样本指标值是一个随机变量。(对)9.某企业的公司人数、广告费用投入这两个变量,前者是连续变量,后者是离散变量(错)\n10.定基发展速度等于相应各个环比发展速度的连乘积,所以定基增长速度也等于相应各个环比增长速度积。(错)四、计算题(本大题共5题,共50分)1.某条高速公路上极少发生汽车碰撞的事故。假定碰撞次数为1.5次每6个月,服从泊松分布。计算6个月内恰好发生2次碰撞的概率。(5分)【参见相应课后习题】2.保险公司从投保人中随机抽取36人,计算得36人的平均年龄为39.5岁,已知投保人平均年龄近似正态分布,标准差为7.2岁,试求全体投保人的平均年龄的置信水平为95%的置信区间。如果其他条件不变,将允许误差缩小一半,应抽取多少名投保人?(10分)(参数估计)(1)求单个总体关于均值μ的区间估计,且方差σ2已知,利用公式(4-12)3.某教师希望了解两个专业的学生在学习运筹学这门课程方面的差异,他对两个专业的学生在运筹学考试成绩中的方差是否相等感兴趣。该教师从两个专业学生历年运筹学期末考试成绩中分别随机抽取了30个,计算出两个专业的样本标准差分别为15分和22分。根据这些数据,该教师能够得到什么结论?(α=0.05)(10分)(假设检验)\n3.某学校进行一次英语测验,为了了解学生的考试情况,随机抽选部分学生进行调查,结果如下:(10分)考试成绩(分)60以下60-7070-8080-9090以上学生人数(人)102022408要求:(1)试以95%的可靠性估计该校学生英语考试的平均成绩的范围。(2)以同样的可靠性估计该校学生成绩在80分以上的学生所占的比重范围。5.某企业广告费和销售收入历史统计资料如下:(15分)广告费12345678销售收入1014182025283040要求:(1)用最小二乘法求出回归方程;(2)求估计标准误差【参照第五章“知识要点”案例】\n