- 2022-08-13 发布 |
- 37.5 KB |
- 3页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
走进统计学的世界
走进统计学的世界——《女士品茶》读书笔记在接近考试的这段时间里,我比较匆忙地读了统计学老师推荐的《女士品茶》这本书。这不是一本女性书籍,更不是讲解有关茶的知识,而是在英国剑桥一个夏日的午后,一群人坐在一起品茶,而其中一位女士提出把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。这样的“胡言乱语”让一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生即休·史密斯(HughSmith)起了兴趣,并设计了一系列的实验来验证这一说法。而实验的结果是那位女士竟然正确地分辨出了每一杯茶!就是这样的一个小故事,带领我们一起走进了统计学的世界。作者认为,统计革命的发生定位于19世纪90年代K·皮尔逊(KarlPearson)的工作,而他这个达尔文的英国伙伴首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。19世纪80年代,他发表了《科学的法则》(TheGrammarofScience),在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重要著作。在人生的这个时段,K·皮尔逊感受到了英国科学家弗朗西斯·高尔顿(FrancisGalton)爵士的影响。他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。高尔顿用这种方法,发现了他称之为“向平均回归”(regressiontothemean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficientofcorrelation)。实验结果是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们能够描述这种随机的数学性质。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skewdistribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由平均数、标准差、对称性和峰度四个参数所确定。这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。之后,在出版期刊《生物统计》时,K·皮尔逊发展了一种被称为“拟合优度检验“(goodnessoffittest)的基本统计工具,这是现代科学所不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。而可爱的威廉·西利·戈塞特(WilliamSealyGosset)先生,进入吉尼斯酿造公司,利用所学的数学知识中的泊松分布(Poissondistribution就像S·施蒂格勒所说的误称定律,泊松分布是以18-19世纪的数学家S·D·泊松命名的,但是这个分布却在更早些时候由贝努里家族的一个人描述过。)来确定确定酵母细胞的数量。但他最大的成就应该在于他以“学生”的名义在《生物统计》上发表的《平均数的可能误差》(TheProbableErroroftheMean),他提前采用了现代计算机基础上才出现的蒙特卡罗技术(MonteCarlotechniques),这是一种一再模拟的数学模型,以确定相关数据的概率分布。戈塞特所专注的特定问题是小样本(smallsample)问题,从而引出了t检验。随着\n“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesistests)或“显著性检验”(significancetests)的使用。关于在“垃圾堆”中寻觅的费歇尔,他的很多论断与发现不被人们所理解。虽然费歇尔在这段时间被数学界忽视了,但他所发表的论文和著作极大地影响了农学和生物学界科学家的工作。在英国棉花工业研究协会任统计师的伦纳德·亨利·凯莱布·蒂皮特(LeonardHenryCalebTippett)在改进棉线与棉布的生产工艺的过程中,发现,棉线的断裂取决于棉线中最脆弱的纤维的强度。在这个实验中,他引出了“蒂皮特的三条极值渐近线”(Tippett’sthreeasymptotesoftheextreme)的理论。而埃米尔·J·冈贝尔的《极值统计学》一书,提供了大量有关该学科发展的参考,是对一个高难学科的最为明晰的解释。该书的第1章“目录与手段”介绍了该书的主题以及在其他章节中必须理解的数学的发展。这一章本身就是对统计分布理论的数学知识的最卓越的介绍。它是由20世纪一位大师级的教师矗立的一座丰碑。以上就是一些统计学大师为了解决一些生活中的问题,从而发掘了统计学的有关理论,并为其他领域做出了相应的贡献。《女士品茶》作为一本讲统计学的书,平均数、标准差、估计值、概率、随机、钟型曲线、置信、大数定律、中心极限定理、正态概率分布随机变量等等一系列的概念和术语,自是绵亘不绝,但是不同于其他书的是,这些概念和术语的背后,是一个个统计大师鲜活的形象、是一段段他们探索创新,历尽坎坷的人生故事。故事中穿插着大师们睿智的珍言、友谊的情怀、幽默的细节、个性的遭际,还有纳粹种族政策的迫害、斯大林大清洗的阴影……。从《女士品茶》看统计科学发展的历史,是一个个科学家不断出现、不断崛起、不断失败、不断成功的历史,作者把他们如颗颗珍珠连缀成美丽的项链,让统计科学的桂冠闪烁着他们生命和灵感的光芒。大师费歇尔对自诩权威者的描绘太深刻了:“他们必然做得像知更鸟和苍头燕雀那那样残忍,在春天里我们可以看到,当自己的小巢被冒犯时,它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学中所固有的特性。但年轻的科学家应该得到提醒和指导,当他们奉献出珍宝去丰富人类的宝库时,必然会有人会拒绝他和排挤他。”而数学界的莫扎特――俄国数学家柯尔莫哥洛夫的成就与遗憾则颇发人深思。他在数理统计与概率论理论方面留下了很多不朽的成就,但前苏联从这场统计革命中却获益很少。为什么?问题本身是一个很好的案例,揭示出一个政府对所有问题都知道其“正确”答案时,会发生什么后果。还有发明“概率单位分析”方法的美国统计学家布利斯,逃亡前苏联的科研之旅,传奇色彩浓郁。这个单纯而天真的科学家,被当局认为是美国间谍实施审查,但结果断定:“他不是间谍,因为他太率真了,透明得一眼可以看穿。”这样的故事书中俯拾皆是,妙趣横生。著名统计学家陈希孺院士说“统计学不仅是一种方法或技术,还含有世界观的成分”。统计大师们的事业和人生,透视出统计科学在人类文明进程中的跋涉和艰辛,也使的那些艰涩的概念和术语有血有肉、生动起来、灵动起来。 解读统计大师们的故事,他们的涉猎丰富、知识渊博,不无启示意义。他们的研究领域广被医学、生物学、植物学、气象学、毒物学、动物学、社会学、冶金术等等等等,可以说无所不包,难怪书的副题敢问:“20世纪统计怎样变革了科学”\n。那么其中启示是什么?是否应有:在广袤的科学沃土上,统计才能接出硕果;在广泛的实践应用中,统计才能体现价值;而作为统计人,决胜之道在“多才多艺”呀! 正如书中结尾处所说:“当我们进入21世纪的时候,统计革命在科学领域取得了胜利,除了极少数的角落,它已经征服了科学界几乎所有领域的决定论观点。统计观点的应用如此广泛,以至于其基本假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意,而在未来的某个隐蔽的角落,另一场科学革命正在孕育,而那些即将发起这场革命的男男女女,可能正生活在我们中间。”《女士品茶》为我们开启了一道统计学的大门,引领我们更深入地去了解,去探索,去把统计学的知识运用到科学界的各个领域。查看更多