- 2022-09-01 发布 |
- 37.5 KB |
- 7页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
数理统计学new
数理统计学数量统计学是根据从总体中随机抽出的样本里所获得的信息来推断关于总体性质的一门学科.或者说是为了得到科学的和实用的结论,而系统整理并利用统计数据的数学方法.它的任务就是研究怎样获得数据和如何分析带有随机性数据,在此基础上对各知识领域中的问题进行推断、预测、直至确定应采取的行动和决策方案.“统计学”(statistics)一词是德国学者阿享瓦尔针对17世纪在德国兴起的“政治学”(德文,staatenkunde)而使用的术语.这门学问最初是用统计方法描述一些先进国家的经济和税收状况.而作为以概率论为基础的数理统计学的产生却是相对比较晚近的事.几百年来,数理统计学已经发展成为一门既有坚实的理论基础,又有广泛实用价值的数学学科.数理统计学的发展史大致可以分为三个时期.数理统计学的萌芽时期历史上最早出现的统计推断可以看作是英国统计学家格兰特在1662年组织调查伦敦市死亡人数,从数量上去掌握集团的统计推断,并发表专著《从自然和政治方面观察死亡统计表》.因此,数理统计学可以认为是格兰特于17世纪60年代开创的.格兰特对生命统计、保险统计及经济统计,进行数学的研究.这一学问曾被称为“政治算术”.他由统计的结果发现人口出生率与死亡率相对稳定,于是提出“大数恒静定律”,成为统计学的基本原理.英国学者佩蒂沿袭了格兰特的方法,统计不同职业人口及伦敦等地的居民数目,著有《政治算术》一书.由于需要对各地人口、农业生产品及国际贸易数量的估计,亟待若干形式的测定数作为处理问题的根据,并需要科学的方法,对测定数进行分析,于是统计学的数学性质逐渐加深,奠定了现代数理统计学的基础.另一方面,概率论的发展不可避免地要影响到数理统计学的发展.现在人们所理解的统计推断程序,最早的就是贝叶斯方法.贝叶斯长期担任英国一个地方教堂的牧师.他自学数学成才,对概率论作出了重要贡献.在他的论文《机会学说问题试解》中建立了条件概率的贝叶斯定理或贝叶斯公式,以后成为统计推断的基础.用概率模型作为手段的数据分析始于19世纪初.被某些人称为近代统计分析中的“汽车”指最小二乘法在近代统计中的作用,有如汽车在现代社会中的作用.的最小二乘法原理是由两位著名数学家高斯和勒让德发展起来的高斯和勒让德到底是谁先发明最小二乘法,是统计学史上最著名的有关优先权的争论.勒让德一直声称他是最早的发明者,他在1805年发表了有关结果.,首先用于分析天文观测中的误差.高斯把钟形曲线作为观测误差的分布曲线.20世纪以来,最小乘二法原理经过俄国数学家马尔可夫和其他学者的工作发展成为数理统计学中的一个重要方法.高斯的工作揭示了正态分布的重要性,因此,人们通常称正态分布为高斯分布.曾经有一段时间,学者们普遍认为在实际问题中遇到的几乎所有连续随机变量,都可以用正态分布来刻划.到19世纪后期,一些学者(特别是皮尔逊)开始认识到这种看法的局限性.7\n19世纪中叶,许多数理统计学理论的新发展,几乎直接或间接地由两个人所推动.一个是比利时统计学家凯特勒,一个是英国生物学家高尔顿凯特勒的主要功绩在于使统计方法获得普遍应用.凯特勒对各种学科均有研究,如天文学、数学、物理学、生物学、社会统计学及气象学等.他将统计方法应用到上述研究范围上去,并强调了正态分布的用途,主张这一分布状态可以适用于许多学科范畴.凯特勒曾致力于比利时国势调查以及组织国际统计活动.他引进所谓“平均人”(averageman)的概念,起了总体概念的先驱作用.高尔顿是生物学家达尔文的表弟,他对遗传定律颇感兴趣,并最早把统计方法用于生物学.高尔顿曾到非洲考察和探险,搜集了大量资料,并投入很大精力钻研资料中所隐藏的模型与关系.在1889年出版了《自然的遗传》一书,引进了回归直线、相关系数的概念,创立了回归分析.这在遗传的研究中,是以弄清儿辈特征值与父辈特征值的相关关系为目的的.但在那个时代,样本特征值与总体特征值的区别还是很不清楚的.此外,高尔顿还提出了中位数、四分位数、百分位数及四分位偏差等概念.爱尔兰经济学家兼统计学家埃奇沃思关于方差和或然误差的一系列文章也是这一时期的工作.日渐成熟的数理统计学从19世纪末到第二次世界大战结束,可认为是数理统计学发展的第二个时期.这个时期,数理统计学蓬勃发展,名家辈出,提出了一些带根本性的重要概念和方法,完成了许多重要的工作,形成了一系列的基本分支,为数理统计成为一门数学学科打下了坚实的基础.这一时期开始于英国数学家皮尔逊的工作.皮尔逊1884年任伦敦大学学院应用数学和力学教授,担任过格雷沙姆几何学教授、应用数学系主任和高尔顿优生学教授.1899年,他和剑桥大学的动物学家讨论达尔文的自然选择理论.他将数理统计应用于生物遗传和进化诸问题,得到生物统计学和社会统计学的一些基本法则.进一步发展了回归和相关的理论.术语“总体”、“众数”、“标准差”,“变差系数”都是他引进的.皮尔逊认为,统计的基本问题在于“由过去的数据来推断未来会发生什么事”.做到这一点的途径是“把观测数据转化为一个可供预测用的模型”.他对统计的理解已经接近现代的理解.他为此发展了一系列方法──皮尔逊分布族、矩法、拟合优度检验等.为了描述自然现象的非对称分布特性,皮尔逊研究出所谓反频率曲线.他和高尔顿等人主持创办了著名的《生物计量》杂志,皮尔逊于1901—1936年担任主编.这一杂志,至今在国际上仍享有盛名;他还担任过《优生学纪事》的编辑.他的著作有:《对进化论的数学贡献》、《统计学家和生物统计学家用表》、《死的可能性和进行论的其它研究》等.19世纪末年,由于概率论的发展,使数理统计学进一步与应用相结合.于是,统计理论与方法开始演进到现代的形态.1908年对现代数理统计学来说,是极重要的一年.英国学者戈塞特以“学生”,为笔名在《生物计量》上发表一篇划时代的文章,得到了t7\n-统计量的精确分布的形式.它不仅成为数理统计学常用的工具,而且也是统计量精确分布理论中一系列重要结果的开端;特别在多元正态总体抽样分布方面有重要意义.因此,可以说戈塞特的工作为样本资料的统计分析与解释开辟了一个新纪元.戈塞特自1899年到他逝世的1937年,都在世界上最大酿酒商之一吉尼斯的啤酒厂担任统计工作.他常与农业实验接触.为了使实验尽可能少消耗原料,他注意到应用小样本及从小样本得到可靠知识的重要性,从而创立了t分布方法.但当时,他所推导的t分布方法是不完整的.对现代数理统计学的发展作出决定性贡献的:是英国学者费希尔.他早年在剑桥大学攻读数学和理论物理,后来致力于生物统计学的研究.费希尔利用n维几何方法(多重积分法)给出了t分布方法的完整证明.他引进了解消假设和显著性检验的概念,成为假设检验理论的先驱,并列举了一致性、有效性和充分性,作为参数的估计量应具备的性质.他还对估计的精度与样本所具有的信息之间的关系进行了考虑,得到了信息量的概念.极大似然法是由费希尔提出的.试验设计法也是由费希尔开创和发展的统计方法之一.他凭借随机化的手段,成功地把概率模型带进了实验领域,并作为分析这种模型的一个方法,建立了方差分析法,他强调了统计方法在试验设计中的重要性.1925年他发表《研究人员用统计方法》一书,50余年内已再版多次.1956年总结其数理统计学研究,著《统计方法及科学推理》一书.除了费希尔以外,这一时期数理统计学发展的重大事件要推内曼和皮乐逊之子皮尔逊在1928—1938年期间建立了假设检验理论和内曼在1934年建立了置信区间理论.内曼生于俄国,后移居美国,在伯克利的加里福尼亚大学任教.他在该校建立了一个研究机构,后来发展成为世界著名的数理统计中心.内曼在假设检验理论中,引进检验功效函数概念,以此作为判断检验方面,取得了许多成果.中国著名数理统计学家许宝騄,在20世纪数理统计史上享有盛名.早年留学英国,就读于费希尔门下,当时英国统计学派的研究在数学论证方面有不少欠缺,许宝騄以其扎实的数学基本功夫,给出许多统计规律的极其漂亮和严密的证明.他在多元分析、统计推断和线性模型方面做出国际水平的工作,尤其在多元分析方面的贡献,起了奠基性的作用.1979年,美国《数理统计年鉴》曾邀请一些著名学者撰文介绍他的生平和工作,高度评价他的贡献.二次大战前数理统计学的另一项重要进展是时间序列分析.1925—1930年间,英国数学家尤尔研究了振荡的时间序列,引进了自回归过程和序列相关等重要概念,奠定了这个统计分支现代发展的基础.1946年,瑞典统计学家克拉默尔发表了《统计学的数学方法》一书,总结了二次大战前数理统计学发展的大部分工作.某些专家认为,这部著作标志着现代数理统计作为一门数学分支的确立.数理统计学的深入发展二次大战以后是数理统计学发展的第三个时期.其特点一方面是使用的数学工具愈广愈深,除了数学分析、测度论、矩阵代数以外,往往还需要泛函分析、拓扑学、近世代数等现代数学工具;另一方面是数理统计学的应用愈加广泛.战后,由于工业和军事技术的飞速发展,使数理统计方法的应用达到前所未有的规模.如在工业上广泛应用统计质量管理,并由此产生了抽样检验、管理图等方法.其它如试验设计、多元分析、时间序列分析等也找到了不少新的应用领域.由于电子计算机的发展,使得在战前发展起来的一些统计方法发挥了更大作用.7\n这一时期数理统计学的发展,主要有以下几个方面.1统计判决函数理论犹太血统的美国学者瓦尔德创立了统计判决函数理论,它是统计学的统一数学理论.一般把瓦尔德的专著《统计决策函数》的发表作为这一理论诞生的年代.在这个理论中,把推断程序的全体命名为判决函数空间,第一次明确地定义它为一个集合.这样一来,检验和估计等数理统计问题可用统一方法处理.瓦尔德理论的出现,开拓了统计学一些新的研究领域,特别是参数估计这个分支在这个理论的影响下,面貌有了很大变化.瓦尔德定义了统计推断程序的风险函数,用来作为推断程序好坏的准则.他还使统计理论与对策论结合起来,并在统计学中引进了极小极大原理.2发展大样本理论大样本理论的深入发展,遍及数理统计学各主要分支.例如,非参数统计,在战前还谈不上系统化,在战后发展很快.由于这个分支的特点决定,只有发展大样本理论,它才得以发展.目前构成这个分支主要内容的U统计量理论、线性置换统计量理论及秩统计量的大样本理论都是战后发展起来的.再如,在参数估计中,象极大似然估计、稳健估计、自适应估计的大样本理论在战后也得到很大发展.3贝叶斯统计学派的影响增长贝叶斯统计学派影响的增长是战后数理统计学发展的另一特征.因为贝叶斯方法是在作统计推断前考虑和运用了事前经验(先验知识),并提供了一种易于实用者掌握的解决问题的方法,在应用上取得相当的地位.在一些数理统计学的专著中,贝叶斯方法仍占很大篇幅.并且以贝叶斯方法为工具研究的统计问题也日渐增多.然而贝叶斯方法的缺点在于未能提供直接由样本观察值来确定参数分布的方法.因此,贝叶斯统计始终是统计界争论的问题.除了以上几个方面以外,还有序贯分析、多元分析、试验设计、过程统计等方面都有不少进展,出现了一些新的工作,但有些理论尚待建立.至此,数理统计学的理论与应用,获得辉煌进展,而概率论的作用也更加重要,它不但成为数理统计学的理论基础,而且作为统计归纳与统计推理的依据.这些研究成果,导致今日更进步更复杂的数理统计学的产生,并使之迅速地应用于极广泛的领域.然而,科学的进展是无止境的,现代数理统计学,仍有许多问题,尚须有更佳的处理,有待学者们不断地探求.统计量样本的已知函数,其作用是把样本中有关总体的信息汇集起来,是数理统计学中一个重要的基本概念.常用统计量有样本矩、次序统计量、U统计量和秩统计量等.其中U统计量是霍夫丁于1948年引进的.统计量的充分性和完全性是两个重要概念.充分性是费希尔在1925年引进的,内曼和哈尔莫斯在1949年严格证明了一个判定统计量充分性的方法,叫做因子分解定理.统计量的分布叫做抽样分布,它的研究是数理统计中的重要课题.对一维正态总体,有三个重要的抽样分布,即分布、t分布和F分布.其中分布是赫尔梅特于1875年在研究正态总体的样本方差时得到的;t7\n分布是英国统计学家戈塞特(笔名“学生”)于1908年提出的;F分布是费希尔在20世纪20年代提出的.实验设计法又称之为试验设计法.数理统计学的一个分支,研究如何制定实验方案,以提高实验效率,缩小随机误差的影响,并使实验结果能有效地进行统计分析的理论与方法.英国统计学家费希尔于1923年与梅克齐合作发表了第一个实验设计的实例,1926年提出了实验设计的基本思想.1935年费希尔出版了他的名著《实验设计法》,其中提出了实验设计应遵循的三个原则:随机化、局部控制和重复.费希尔最早提出的设计是随机区组和拉丁方方法,两者都体现了上述原则.1946年,英国统计学家芬尼在保证能估计全部主效应和少数一部分低阶交互作用的前提下,提出了部分实验法.正交表是进行部分实验法最方便的一种工具,日本统计学家田口玄一为正交表的形式和广泛应用做出了在国际上很有影响的工作.点估计总体未知参数估计的一种形式.目的是依据样本估计总体分布所含未知参数或未知参数的函数.构造点估计的方法常用的有矩估计法、最大似然估计法、最小二乘法和贝叶斯估计法.1894年英国统计学家皮尔逊提出的矩估计法,要旨是用样本矩的函数估计总体矩的同一函数.最大似然估计法是一种重要而普遍的点估计法,由英国统计学家费希尔在1912年提出,后来在他的1921年和1925年的工作中又加以发展.最小二乘估计法是由德国数学家高斯在1799—1809年和法国数学家勒让德在1806年提出的,并由俄国数学家马尔可夫在1900年加以发展.它主要用于线性统计模型中的参数估计问题.贝叶斯估计法是基于“贝叶斯学派”的观点而提出的估计法.英国学者贝叶斯1763年在《机会学说问题试解》中,提出了一种归纳推理的理论,以后被一些统计学者发展成为一种系统的统计推断方法,被称为贝叶斯方法.认为贝叶斯方法是唯一合理的统计推断方法的统计学者组成“贝叶斯学派”,它形成于20世纪30年代,到50—60年代已发展成为一个很有影响的学派.区间估计总体参数估计的一种形式.通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计.1934年,由美国统计学家内曼创立了一种严格的区间估计理论,给出了置信系数和置信区间的概念.20世纪30年代初期英国统计学家费希尔提出了一种构造区间估计的方法,称之为信任推断法.另外,贝叶斯方法也是一种构造区间估计的方法.假设检验又被称为统计假设检验,是一种基本的统计推断形式,也是数理统计学的一个重要分支.在假设检验中,有一种检验方法被称为显著性检验.它是依据实际数据与理论假设H0之间的偏离程度来推断是否拒绝H0的检验方法.拟合优度检验是一类重要的显著性检验.英国统计学家皮尔逊在1900年提出的7\n检验是一个拟合优度检验.原苏联数学家柯尔莫哥洛夫和斯米尔诺夫在20世纪30年代的工作开辟了非参数假设检验的方向,分别得到柯尔莫哥洛夫检验和斯米尔诺夫检验,它们都是重要的拟合优度检验方法.美国学者内曼和皮尔逊之子皮尔逊在前人工作的基础上,于1928—1938年间对假设检验进行了系统而深入的研究,发表了一系列文章,建立了假设检验的严格数学理论.内曼引进了检验功效函数的概念,以此作为判断检验程序好坏的标准.内曼与皮尔逊在1933年提出了著名的内曼─皮尔逊引理,是对简单假设寻求最大功效检验的一个构造性的结果.运用与最大似然估计类似的原理,可得到似然比检验法.在一般情况下,寻求似然比的精确分布并不容易.1938年,美国统计学家威尔克斯建立了有关似然比的一个统计量,并证明了它渐近分布,这就为大样本的似然比检验提供了实行的可能.用似然比法导出的U检验、t检验和F检验,都是假设检验中的重要检验法.统计决策理论一种数理统计学的理论.这种理论把数理统计问题看成是统计学家与大自然之间的博弈,用这种观点把各种各样的统计问题统一起来,以对策论的观点来研究.这一理论的创立是数理统计学上的一次革新,拓广了统计学的内容范围,有较大的实际意义.美国统计学家瓦尔德1939年开始探讨这一理论,提出一般的判决问题,引进了损失函数、风险函数、极小极大原则和最不利先验分布等重要概念.他于1950年出版了专著《统计决策函数》(中译本,上海科技出版社,1960),系统地总结了他在这一理论研究中的成果,同时也宣布了统计决策理论的正式创立.瓦尔德的理论受到统计学界的重视,成为第二次世界大战后统计学史上一个重大事件.1950年以后的几十年在这方面出现了不少工作,同时,这种理论对数理统计各分支的发展产生了程度不同的影响,特别是参数估计这个分支在其影响下,面貌有了很大变化.序贯分析数理统计学的一个分支.其名称源出于美国统计学家瓦尔德在1947年发表的—本同名著作.它研究的对象是所谓“序贯抽样方案”,及如何用这种抽样方案得到的样本去作统计推断.美国统计学家道奇和罗米格的二次抽样方案是较早的一个序贯抽样方案.1945年,施坦针对方差未知时估计和检验正态分布的均值的问题,也提出了一个二次抽样方案,据此序贯抽样方案既可节省抽样量,又可达到预定的推断可靠程度及精确程度.第二次世界大战时,为军需验收工作的需要,瓦尔德发展了一种一般性的序贯检验方法,叫做序贯概率比检验,此法在他的1947年的著作中有系统的介绍.瓦尔德的这种方法提供了根据各次观测得到的样本值接受原假设H0或接受备择假设H1的临界值的近似公式,也给出了这种检验法的平均抽样次数和功效函数,并在1948年与美国统计学家沃尔福威兹一起,证明了在一切两种错误概率分别不超过和7\n的检验类中,上述序贯概率比检验所需平均抽样次数最少.瓦尔德在其著作中也考虑了复合检验的问题,有许多统计学者研究了这种检验,瓦尔德的上述开创性工作引起了许多统计学者对序贯方法的注意,并继续进行工作,从而使序贯分析形成为数理统计学的一个分支.除了检验问题以外,序贯方法在其他方面也有不少应用,如在一般的统计决策、点估计、区间估计等方面都有不少工作.7查看更多