- 2022-08-13 发布 |
- 37.5 KB |
- 7页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
统计学之浅谈
统计学之浅谈摘要:统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。本文介绍统计学中的儿种统计思想和方法,统计软件,数据分析认识。统计学在生活中有重要用处,我们要继续探讨统计学的知识,让它做出更大的贡献。关键字:统计学思想方法统计软件统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。一、统计学中的几种统计思想和方法统计思想的形成统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。比较常用的儿种统计思想所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变界思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:均值思想均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基木思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。变异思想统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差界。统计方法就是要认识事物数量方面的Wo统计学反映变界情况较基木的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽彖和宏观度量。估计思想估计以样木推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有和同的性质。样木才能代表总体。但样木的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。\n相关思想事物是普遍联系的,在变化中,经常出现一些事物相随共变或和随共现的情况,总休又是出许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体Z间总是和互关联的。拟合思想拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。检验思想统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出來的判断不可能完全可信,检验过程就是利用样本的实际资料來检验事先对总体某些数量特征的假设是否可信。多元统计分析是统计学中一个非常重要的分支。在国外,从20世纪30年代起,已开始在自然科学、管理科学、和经济等领域拉开了多元统计分析应用的帷幕,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩。在商业企业经营过程中,往往需要对诸如产品销售收入、产品销售、产品销售费用、产品销售税金及附加、产品销售利润、管理费用、利润总额、利税总额等变量进行分析和研究,如何同时对多个变量的观测数据进行有效的分析和研究,这就需要利用多元统计分析方法来解决,通过对多个变量观察数据分析,来研究变量之间的和互关系以及揭示这些变量之间内在的变化规律。实践证明:多元统计分析是实现定量分析的有效工具。多元统计分析研究的主要内容在当前科技和经济迅速发展的今天,在国民经济许多领域屮,特别是对社会现象的分析,只停留在定性分析的基础上是不够的,为提高科学性、可靠性,通常需要定性和定量的分析。如果说一元统计方法是研究一个随机变量统计科学的规律,那么多元统计分析方法是研究多个随机变量Z间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元统计分析屮不同的方法可以对研究对象进行分类和简化。多元统计分析包括的主耍内容有:聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。多元统计分析方法在商业企业中的应用在这里,重点研究聚类分析、判别分析、主成分分析、因子分析方法及其在\n商业企业屮的应用。聚类分析随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越來越高,光凭经验和专业知识是不能确切分类的,往往需要定量和定性的分析结合起來去分类,于是工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析逐渐从数值分类学屮脱离出来形成一•个相对独立的分支。聚类分析又称群分析,它是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间距离,再选择近似考并类,每合并一次减少一类,继续这一过程,直到所有样本都合并成为一类为止。所以,聚类分析依赖于对观测间的接近程度或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果,聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。在企业销售领域,销售商需要考虑对不同生产企业生产的同名称商品的分类问题。例如:某商场对销售的20种啤酒进行分类,以便对不同的类别的啤酒采用不同的销售策略,变量包括啤酒名称、热量卡路里、钠含量、酒精含量、价格。根据以上指标,利用聚类分析可以实现把同一类型的啤酒企业归到同一类别。再如商业企业制眾商品销售价格时,需要对某个大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项1=1物价指数、食品消费物价指数、零售价格指数等,因而要先对这些价格指数利用聚类分析方法进行分类。判别分析在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。判别分析是判断样品所属类型的一种多元分析方法,其忖的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样木屮去分类。判别分析与聚类分析不同,判别分析是已知研究对象分成若干类型并取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。判别分析按判别的组数来区分,有两组判别分析和多纽•判别分析;按区分不同总体所用的模型来分,有线性判别和非线性判别;按判别式所处理的变量方法不同,分逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等。商业企业在预测中,往往根据以往所的种种指标,用判别分析方法判断下季度是畅销、平销或滞销。当然,判别分析经常与聚类分析联合起来使用。在聚类\n分析屮,某瀚场对销售的20种啤酒进行分类,假定分类结果为一级品、二级品和三级晶,现在判断新商标的啤酒属于哪个级别的产品就需要用判别分析。主成分分析在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数悄况下,不同指标之间有一定相关性,由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的儿个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标,尽可能多反映原來指标的信息,这种将多个指标化为少数相互无关的综合指标的统计方法,叫做主成分分析或主分量分析。在商业中用主成分分析可以将一些复杂的数据指标综合成几个商业指数形式,如物价指数、生活费用指数、谢业活动指数等。在市场研究屮,常常需耍分析顾客的偏好和当前山场的产品与顾客之间的差别,从而提供给生产企业新产品开发方向的信息。顾客偏好分析时常常用到主成分分析。例如:某汽车销售商在商业竞争对手中选择了销售的17种车型,访问了25位顾客,要求他们根据自己的偏好对17种车型打分,打分范围0〜9.9,9.9分表示最高程度的偏好,因了分析因了分析的形成和发展有相当长的,最早用以研究解决学和学方面的问题,由于计算量大,乂缺少高速计算的设备,使因子分析的应用和发展受到了很大的限制,甚至停滞了很长时间。后来,由于技术的发展,才使因子分析的理论研究和计算问题有了很大的进展。H前这一方法的应用范围十分广泛,在、学、等各个学科都取得了显著的成绩。因了分析是主成分分析的推广和应用,它是将错综复杂的随机变量综合为数量较少的随机变量去描述多个变量之间的相关关系,以再现原始指标与因子之间的相互关系。也可以认为因子分析是将指标按原始数据的内在结构分类,使类似指标和关程度高,不同类的和关程度低。因了分析分R型因了分析(从相关系数矩阵出发)和Q型因了分析(从相似系数矩阵出发)。例如:某销售企业对100名招聘人员的销售策略知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来说,通过应用因子分析方法可以归纳为六个方面:表达能力、思维能力、判断事物的敏锐和果断程度、思想品德、兴趣爱好、生活常识等,我们将每一个方面称为因了。显然,这里所说的因子不同于回归分析屮的因素,因为前者是比较抽象的一种概念,而后者有极为明确的实际意义。因子分析在市场调查分析中也有广泛的应用。例如:对30个调查区的商业网点数、数、机构服务数、收入情况等20个指标进行因子分析,如果按照一般的分析方法,我们就需要处理20个指标,并给它们以不同的权重,这样不仅工作量变大,而且由于指标Z间存在比较高的相关性,会给分析结果带来偏差。另外,给具有较高相关性的众多指标设置权重系数也是一件非常复杂的\n事情。于是可以考虑采用因子分析的方法,从而减少分析变量的个数,然后再给它们以不同的权数,从而计算出各个调查区平均综合实力得分,以便决定在某个调查区拟建何种类型的销售点。非参数统计也是统计学的一个重要分支,它在实践屮有着广泛的应用。所谓统计推断就是由样本观察值去了解总体,它是统计学的基本任务Z-O若根据经验或某种理论我们能在推断之前就对总体作一些假设,则这些假设无疑有助于提高统计推断的效率。这种情况下的统计方法称为参数统计。如果我们所知很少,以致于在推断之前不能对总体作任何假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时如果仍然使用参数统计方法,其统计推断的结果显然是不可信的,甚至有可能是错的。在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法称为非参数统计。由于非参数统计方法与总体究竟是什么分布几乎没有什么关系,所以它的应用范围很广,它在社会学、医学、生物学、心理学、教育学等领域都有着广泛的应用。由于有关于总体的假设,所以参数统计的推断方法是针对这个假设的。相对而言,非参数统计的推断方法是很一般的,它仅应用样本观察值中一些非常直观(例如次序)的信息。所以非参数统计分析含有丰富的统计思想。学习非参数统计对培养学生对数据的直观分析判断能力,了解统计思想是很有用的。还有时间序列分析、应用凹归分析、统计计算等多种统计方法,都是十分有用的。二、统计软件统计方法的应用均需借助统计分析软件,目前较多使用的有SAS、SPSS、R等统计分析软件,这些软件均提供了统计分析功能,为统计做出了重人贡献。SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳人学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.0版,人小约为lGo经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三白万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96〜97年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。由于SAS系统是从大型机上的系统发展血來,在设计上也是完全针对专业用户进行设计,因此其操作至今仍以编程为主,人机对话界而不太友好,并且在编程操作时需要用户最好对所使用的统计方法有较清楚的了解,非统计专业人员掌握起來较为怵I难。而且,SAS极为高昂的价格\n和只租不卖的销售策略使得实力不足的个人和机构只能对他望而却步。SPSS现在的最新版本为18.0,他是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范I韦I,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,ttt界上许多有影响的报刊杂志纷纷就SPSS的口动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有30余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之人和信誉之高。SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮(从国外的角度看),他使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方而功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可口定义功能。与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。三、数据分析的认识任何统计研究都离不开数据分析,因为这是得到统计研究结论的必耍环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则乂是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法\n技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越來越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据屮获取一切有效信息”这一口的,不断拓展研究思路,继续开展数据分析方法技术的研究。总而言Z,统计学在生活屮有重要用处,有很大的发展趋势,我们要继续探讨统计学的发展,让统计发挥它的更大的用处。参考文献:1贺铿.关于统计学的性质与发展问题.中国统计,2001,92.吴喜之.非参数统计.北京:中国统计出版社,19993.吴明隆.SPSS统计应用实务.北京:中国铁道出版社,20004.于秀林,任雪松.多元统计分析.北京:中国统计出版社,19995•薛毅,陈立萍.R统计建模与R软件.清华人学出版社,20076..SAS软件应用教程.科学出版,2009查看更多