统计学原理 全套课件

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

统计学原理 全套课件

第一章绪论新世纪财经系列教科书\n本章概述124第一节社会经济统计学的性质第二节统计学中的基本概念\n统计学产生于统计工作。统计工作的历史悠久,迄今已有几千年,而统计学的产生,只有三百年左右。在统计学发展的不同阶段,形成三种主要学派。1.国势学派2.政治算术学派3.数理统计学派\n第一节社会经济统计学的性质一、统计的涵义统计一词通常具有三种涵义:统计工作、统计资料和统计学。统计工作是指利用各种统计方法,对各种社会、经济及自然现象的总体数量进行搜集、整理、分析等工作的总称。\n统计资料是指在统计工作过程中所取得的各项数字资料以及与之相联系的其他资料的总称。统计学是一门认识社会和自然的方法论科学,包括社会经济统计学和数理统计学。统计一词三种涵义关系密切。统计工作的好坏直接影响统计资料的数量和质量,统计学与统计工作又存在一种理论与实践的双向作用的关系。\n二、统计学的性质关于统计学的研究对象及性质问题,理论界一直有两种不同的观点,即统计学是实质性科学还是方法论科学的争论。从统计学的发展史来看,统计学是随着统计方法的不断完善而得以发展的,所以,统计学的性质可以表述为:统计学是一门研究现象总体数量方面的方法论科学。现象包括社会现象和自然现象。\n作为一门方法论科学,统计学在其研究对象及内容上具有以下特点:(一)适用的对象极为广泛(二)研究的重心集中突出我们又可以对统计学的研究对象定义如下:统计学的研究对象是社会经济现象及自然现象的数量方面,即现象的数量表现、数量关系和数量界限的择定。\n三、统计学的研究方法统计学研究对象的性质和特点,决定着统计学的研究方法。统计学研究的基本方法为:大量观察法、统计分组法、综合指标法。(一)大量观察法所谓大量观察法就是指对所要研究的事物的全部或足够数量进行观察的方法。\n(二)统计分组法统计分组法是根据统计研究的目的和任务,将调查得到的大量统计资料,按照一定的标志划分为若干个不同性质的类型或不同类型的组,使组内的单位具有相对的同质性,组间的单位具有明显的差异性,以揭示现象内部各部分之间的差异,从而达到正确运用统计指标来表明事物本质与规律性的目的。\n(三)综合指标法综合指标法是指统计是一种通过统计指标来研究和说明现象总体的综合数量特征的方法。统计资料的搜集、整理、分析是通过统计指标这一特有形式来完成的。任何一项具体的社会经济现象,最终都可以归入某项指标范畴。\n第二节统计学中的基本概念一、统计总体和总体单位(一)统计总体统计总体即统计研究的具体对象,它是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,简称总体。统计总体的一个重要特征是同质性,它是构成总体的必要条件。\n1.统计总体的特点统计总体具有以下特点:(1)大量性(2)同质性(3)差异性\n2.统计总体的类型统计总体按总体包含的单位数是否有限分为有限总体和无限总体。所谓有限总体,指的是一个总体所包含的单位数是能够用计数的方法获得的,是有限的。所谓无限总体,指的是一个统计总体中所包含的单位数是无法用计数的方法取得的,是无限的。\n(二)总体单位构成统计总体的每个单位叫总体单位,它是各项统计资料最原始的承担者。统计总体与总体单位会随着研究目的的不同而发生变化。例如,在研究某地上市公司的情况下,该地的所有上市公司所构成的整体是统计总体,每家上市公司就成为总体单位,但是,我们一旦改变研究目的,把该地某家上市公司作为研究目标时,这家上市公司就成为新问题中的统计总体了。\n二、标志和指标(一)标志标志是总体单位所具有的属性和特征的名称。每个总体单位从不同的角度和要求进行观察,可以有多个属性和特征。按说明现象的性质不同,标志可以分为品质标志和数量标志。标志若以属性上的差异来表示,称为品质标志。品质标志反映了总体单位的品质属性。若以数量上的多少来表示,称为数量标志。\n(二)统计指标统计指标是反映同类社会经济现象某种综合数量特征的范畴,它表明现象总体在具体的时间、地点和条件下的综合数量表现,即说明总体的特征。统计指标一般由指标名称和指标数值两部分组成。指标名称反映现象所属的一定的社会或经济范畴,指标数值反映现象在具体环境下达到的规模、水平及比例关系。\n1.统计指标的特点统计指标一般具有三个特点:(1)数量性。统计指标都是用数量表示的。(2)综合性。统计指标是总体单位同质数量综合的结果。(3)具体性。统计指标是现象在不同时间、地点、条件下的具体反映。\n2.统计指标的分类统计指标可以按其研究目的从不同角度进行分类。(1)统计指标按其作用和计算方法不同分为总量指标、相对指标和平均指标。总量指标是反映社会经济现象总体总规模和总水平的统计指标,它是各总体单位标志值直接汇总或直接计量的结果,用绝对数表示,所以也称绝对指标。其指标数值大小受总体规模大小影响。\n相对指标是反映社会经济现象总体相对水平的统计指标,它是由两个有联系的统计指标对比计算的相对数,其表现形式为无名数和复合单位。相对指标的基本形式为:相对指标=比数/基数常用的相对指标有计划完成程度相对指标、结构相对指标、比例相对指标、比较相对指标、动态相对指标和强度相对指标共六种。\n它们的基本公式为:计划完成程度相对数=实际完成数/同期计划数×100%结构相对数=总体中某部分数值/总体全部数值×100%比例相对数=总体中某一部分数值/总体中另一部分数值比较相对数=某一空间的指标数值/另一空间的同一指标数值动态相对数=报告期数值/基期数值×100%\n强度相对数=某一指标数值/另一有联系的不同指标数值平均指标是反映社会经济现象某一方面一般水平的统计指标,它是总体单位总量与总体标志总量对比计算的平均数,其基本公式为:平均指标=总体标志总量/总体单位总量\n(2)统计指标按其反映的时间特点不同,可分为时点指标和时期指标。(3)统计指标按其计量单位的特点,可分为实物指标和价值指标。(4)统计指标按其反映总体特征的不同,可分为数量指标和质量指标。\n(三)指标与标志的关系1.指标与标志的区别(1)指标是说明总体特征的,而标志是说明总体单位特征的。(2)标志有不能用数值表示的品质标志,而指标都是用数值表示的。数量指标用绝对数表示,质量指标用相对数或平均数表示。\n2.指标与标志的联系(1)指标数值均是由总体单位的数量标志值汇总而来的。(2)指标与数量标志存在一定的变换关系。随着研究目的的变化,总体和总体单位发生相互转化,由此,指标和标志也会发生相应的相互转化。\n三、指标体系(一)指标体系的概念指标体系是指一系列相互联系、相互制约、相互补充的指标组合成的整体。它可以全方位、多侧面地反映现象总体的数量特征。\n(二)指标体系的表示形式指标体系反映的是被研究现象之间的一种依存关系。被研究现象的联系是多种多样的,指标体系的表现形式也应多元化。但从指标数值、数量依存关系的角度出发,指标体系一般可用以下两种数学形式表示:(1)指标体系数值=各个相关指标数值之和(2)指标体系数值=各个相关指标数值之积\n(三)指标体系的分类1.宏观指标体系和微观指标体系2.国民经济指标体系、社会指标体系和科学技术指标体系3.基本指标体系和专题指标体系\n(四)建立指标体系的基本要求建立一套完整、科学的指标体系,要符合以下几个基本要求:1.指标体系的目的要明确,中心要突出2.指标体系的内容要全面,层次要清楚3.指标体系的方法要可行,具有可操作性\n第二章统计资料的搜集和整理新世纪财经系列教科书\n本章概述124第一节统计资料的搜集第二节统计整理\n第一节统计资料的搜集一、统计资料搜集方案统计资料的搜集也称统计调查,它是根据统计研究的目的,采用科学的方法,有组织有计划地搜集统计资料的过程。统计资料可分为两种类型:一是初级资料(又称原始资料),是反映各调查单位特征的个体资料;另一是次级资料,是经过加工整理并已公布的统计资料。\n一个完整的统计资料搜集方案包括以下几个方面:(一)确定调查目的(二)确定调查对象和调查单位(三)确定调查项目和调查表调查项目就是统计调查的内容。在确定了统计调查项目的基础上必须设计调查表。调查表是将调查项目按一定顺序排列所形成的一种表式,它是统计调查的重要工具。\n调查表一般有两种格式。1.单一表单一表也称卡片。一份单一表只登记一个调查单位。其特点是可容纳较多的调查项目。2.一览表一览表是一份表格要登记若干个调查单位的调查表。其特点是简明扼要。\n(四)确定调查时间确定调查时间有两种含义:第一,确定资料所属的时点和时期。第二,规定调查工作期限。(五)调查的组织实施为确保统计资料搜集工作的顺利进行,在统计资料搜集方案中必须包括调查的组织实施计划。\n二、统计资料的搜集方法统计资料的搜集方法主要有以下几种:(一)直接观察法(二)访问法(三)报告法(四)问卷法\n三、统计资料搜集的组织方式统计资料搜集的组织方式有两类:一类是统计报表;另一类是专门调查。统计报表是我国定期取得国民经济基本统计资料的基本组织方式。专门调查分为(一)普查(二)重点调查(三)抽样调查\n四、统计资料的审核为了保证统计资料的准确、及时、全面、系统,在整理统计资料以前,必须对搜集到的资料进行审核。审核主要包括完整性审核和逻辑性审核。完整性审核包括调查对象中每一个调查单位是否齐全;所有被调查单位的资料是否完整;报送单位、日期等是否全部正确无误。\n第二节统计整理通过统计调查能搜集到大量的原始资料和次级资料。其中原始资料是个别的、分散的,只能反映总体中各单位的具体情况,而不能反映总体的综合数量特征,达不到认识总体的目的。因此,在统计分析之前,需要对原始资料进行整理。\n一、统计分组的概念统计分组是根据统计研究目的,将总体按一定标志区分为不同类型或不同性质的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。\n统计分组的作用是:(1)划分现象的类型,并反映各类型组的数量特征。(2)说明现象的内部结构。即经过分组以后,就可以计算各组在总体中所占的比重,以反映总体内部结构的变化及其规律性。(3)揭示现象之间的相互依存关系,也就是说按照研究现象的有关标志来分组可以分析某个因素对另一因素的影响程度和因果关系。\n二、统计分组标志的选择统计分组的关键是分组标志和划分各组的界限。所谓分组标志,就是进行统计分组时所依据的标准。分组标志的选择在统计分组中占有很重要的地位。统计分组标志有品质标志和数量标志两种。(一)按品质标志分组(二)按数量标志分组\n三、统计分组体系分组标志可以是一个也可以是几个。用一个分组标志来划分总体的特征往往是不够的,有时更需要用一系列的分组标志来说明。所谓分组体系就是采用一系列相互联系、相互补充的标志进行多种分组,构成体系。(一)平行分组体系(二)复合分组体系\n四、分布数列(一)分布数列的概念分布数列是指在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列,形成总体单位在各组的分布的数列。分布数列有两个基本要素构成:一是标志的具体表现所形成的组;二是分布在各组的单位数,即次数或频数。各组次数与总次数之比称频率,又称比重。\n根据分组标志的特征的不同,分布数列可分为品质数列和变量数列两种。1.品质数列品质数列是指按品质标志分组形成的、用以反映现象总体的属性分布状况的数列。2.变量数列变量数列是指按数量标志分组形成的,用以反映现象总体的某一数量分布状况的数列。\n变量数列按照用以分组的变量的表现形式,可以分为单项式变量数列和组距式变量数列两种。1.单项式变量数列它是指变量数列中的每个组只用一个变量值表示。2.组距式变量数列它是指变量数列的每个组用一定范围或距离的两个变量值表示。\n(二)分布数列的编制1.确定变量数列的形式2.组距式变量数列编制方法(1)计算全距。(2)确定组数。(3)确定组距。(4)确定组限。(5)计算组中值。\n五、统计表统计表是统计资料最常用的表达形式。将统计工作过程中所取得的各种数字资料,经过汇总整理后,按一定的项目和顺序填列在一定表格内,这种表格就称为统计表。\n统计表的结构可以从表的形式和内容两方面表述。(一)统计表的形式1.总标题2.横行标题3.纵栏标题4.数字资料\n(二)统计表的内容1.主词主词是统计表所要说明的对象,包括总体单位的名称或总体的分组等。主词一般安排在统计表的左端。2.宾词宾词是用来说明主词的各种统计指标的。宾词一般安排在统计表的右端。主词和宾词有时为了合理编排,也可以互换位置。\n(三)统计表的种类1.简单表简单表是指主词不经过任何统计分组,将总体单位依次序或将现象按时间顺序排列的统计表。2.分组表分组表是指主词按某一标志分组并按一定顺序排列所形成的统计表。3.复合表复合表是指主词同时按两个或两个以上标志分组并按一定顺序排列所形成的统计表。\n(四)统计表的设计统计表上下两端以粗线或双线绘制,称为上基线和下基线,其他线一般用细直线。统计表左右两端不封口。统计表中各主词项目之间、各宾词项目之间的顺序应该根据时间的先后、数量的大小、空间的位置、指标之间的逻辑顺序等合理编排。各横行需要合计时,一般将“合计”列在最后一行;各纵栏需要合计时,一般将“合计”列在第一栏。\n六、频数图统计图是统计资料的另一种常用的表达方式,它比统计表更直观、更鲜明、更生动。它是用几何图形、物体形象或地图来表示统计资料以说明现象的数量关系的图形。(一)直方图(二)折线图\n(三)曲线图曲线图是在变量值增多及变量数列的组数增多时,对折线图的极限描绘,是一种理论曲线,也是连续变量的频数或频率分布的函数关系图。1.单峰不对称分布图2.单峰对称分布图3.J型分布图\n第三章集中趋势和离散趋势新世纪财经系列教科书\n本章概述124第一节集中趋势第二节离散趋势3第三节偏态\n第一节集中趋势统计调查取得的统计数据,经过排序和分组整理后,数据的类型和分布特点已得到初步的反映。为了进一步掌握数据分布特征的变化规律,有必要对其进行进一步的讨论及研究。在统计学中,对数据的研究方法有统计描述和统计推断两种。本章将进一步讨论统计描述内容中的集中趋势和离散趋势。\n一、平均数的概念及计算方法平均数,亦称集中趋势,是指用特定的方法所计算的一组数据的代表值。它是所有数据的中心点,反映了一组数据向某一中心值靠拢的倾向。第一,在一个总体内计算的平均数,将总体各单位某一数量标志值之间的差异抽象化了。第二,平均数用一个代表数值来说明被研究对象某个方面的一般水平。\n(一)算术平均数算术平均数,亦称均值。它是全部数据的算术平均,是集中趋势的最主要测度值。算术平均数在统计学中具有重要地位。根据掌握的资料条件不同,算术平均数又可以分为以下几种。\n1.简单算术平均数将未分组的各变量值(标志值)相加,除以项数(标志值个数),就得到简单算术平均数。设总体数据为x1,x2,…,xn,则总体均值x的计算公式为:式中表示总体均值;x表示总体各变量值;n表示总体变量值个数;∑表示求和符号。\n2.加权算术平均数统计资料经过分组就形成了变量数列,对已分组的变量数列求平均数,就应采用加权平均方法。设原始数据被分成K组,各组的变量值为x1,x2,…,xk,各组变量值出现的频数(权数)为f1,f2,…,fk。\n则总体的加权算术平均数的计算公式为:式中表示总体加权算术平均数;x表示总体各变量值;f表示总体中各组变量值出现的次数。\n(1)根据单项数列计算加权算术平均数。这可以直接利用上式计算。(2)根据组距数列计算加权算术平均数。其方法基本同上,所不同的是,在组距数列中要用组中值代表各组的变量值参加计算。\n(3)根据相对权数计算加权算术平均数。加权算术平均数的权数可以有两种表现形式:绝对权数和相对权数(即频数和频率)。两种权数虽表现形式不同,但其本质无异,在同样资料条件下,计算结果应该一致。设以f/∑f即频率为权数,其计算公式为:(详见P36)\n3.加权算术平均数与简单算术平均数的关系简单算术平均数的大小只与变量值的大小有关,加权算术平均数的大小不仅与各组变量值大小有关,而且受各组变量值出现的次数(权数)大小的影响。权数愈大,其对应的变量值对算术平均数的影响愈大;反之,则愈小,权数的大小对算术平均数的大小起着权衡轻重的作用。只有当各组的权数完全相等时,加权算术平均数才等于简单算术平均数。\n4.算术平均数的数学性质(1)各变量值与其算术平均数的离差之和等于零,即∑(x-X)=0(2)各变量值与其算术平均数的离差平方之和为最小,即∑(x-X)^2为最小值\n(二)调和平均数调和平均数是根据变量值倒数计算的一种算术平均数,也称倒数平均数。调和平均数根据资料的不同,分为简单调和平均数和加权调和平均数。\n1.简单调和平均数简单调和平均数往往是根据未分组资料计算的。其公式为:式中Xh表示简单调和平均数;x表示各变量值;n表示变量值个数。\n2.加权调和平均数加权调和平均数是根据分组资料计算的。其公式为:式中Xh表示加权调和平均数;x表示各组变量值;f表示各组变量值所出现的次数;n表示各组变量值次数之和。\n(三)几何平均数几何平均数是n个变量值连乘积的n次方根,根据所依据的资料不同,也可分为简单几何平均数和加权几何平均数。计算公式为:1.简单几何平均数式中表示几何平均数;x表示各变量值;n表示变量值个数;π表示连乘符号。\n(四)中位数将总体各单位的某一变量值按大小顺序排列,位于中间位置上的变量值即为中位数。显然,中位数将全部数据等分成两部分:一部分数据比中位数大,一部分数据比中位数小。从这个意义上说,中位数以其居中的位置,代表了经济现象某一方面的一般水平。依据资料的不同,中位数的计算,可以有两种不同的方法。\n1.未分组资料在未分组资料条件下,中位数的计算,关键在于确定中位数的位置,其公式为:中位数位置=(n+1)/2(n为数据的项数)。找到中位数位置后,就能方便地确定中位数的具体数值。\n设一组数据x1,x2,…,xn,从小到大排序后为x(1),x(2),…,x(n)若n为奇数,则中位数为若n为偶数,则中位数为\n2.分组资料分组资料条下,中位数的计算,仍要先确定中位数的位置,即确定中位数所在的组,然后,用下限公式求出中位数的近似值。式中Me为中位数;n为数据个数;L为中位数所在组的下限;Sm-1为中位数所在组以前各组的累积频数;f为中位数所在组的频数;i为中位数所在组的组距。\n(五)众数众数是指总体中出现次数最多的变量值,它能够鲜明地反映数据分布的集中趋势。一组数据分布的最高峰点所对应的变量值即为众数。在商业活动中,众数应用较为普遍。依据资料的不同,众数的计算可以有两种不同的方法。1.未分组资料在未分组资料条件下,只要用目测法找出次数最多的变量值即找到众数。\n2.分组资料在分组资料条件下,也要先确定众数所在的组,然后用下限公式计算众数的估计值。式中M0为众数;L为众数组下限;d1为众数组次数与上一组次数之差;d2为众数组次数与下一组次数之差;i为众数组的组距。\n3.众数、中位数与算术平均数的关系众数、中位数和算术平均数作为反映被研究现象集中趋势的三个主要测度值,既可以从它们的内在联系上进行相互推算,也可利用三者的关系,说明现象的分布特征。(1)运用众数、中位数、算术平均数三者关系判断现象的数量分布特征。众数是一组数据分布的峰值,中位数是一组数据中间位置的代表值,算术平均数是全部数据的平均数。\n因此,不难看出:当数据呈对称分布时,算术平均数、中位数、众数必定相等,即有X=Me=M0;当数据呈左偏分布时,算术平均数小于中位数且小于众数,即有X<Me<M0;当数据呈右偏分布时,算术平均数大于中位数且大于众数,即有X>Me>M0。\n(2)利用上述三者关系进行推断。从经验看,在数据分布偏斜程度不大的情况下,不论左偏或右偏、算术平均数、中位数、众数存在一定的比例关系:若把众数与算术平均数之间的距离作为1,则中位数与算术平均数的距离为1/3,中位数与众数之间的距离为2/3。由此,可以得到推算公式如下:M0=X-3(X-Me)=3Me-2X\n第二节离散趋势现象的离散趋势是指总体中某一数量标志的变动范围和分散程度。反映现象离散趋势的统计指标为标志变异指标。\n一、标志变异指标的概念及作用平均数将总体各单位变量值的差异抽象化,通过一个代表数值,反映了总体的一般水平及分布的集中趋势。但集中趋势只从一个侧面说明了数据的分布特征,各变量值之间的差异程度如何,各变量值远离其平均数的程度如何,需要我们从另一个侧面,即数据的离散程度方面来进一步讨论数据的分布特征。\n测定离散趋势的指标就叫做标志变异指标,也称标志变动度。标志变异指标在统计分析中的作用有:(1)可以衡量平均数的代表性。(2)可以考察现象发展的均衡性和节奏性。\n二、标志变异指标的计算常用的标志变异指标有极差、平均差、方差和标准差及标准差系数等。(一)极差极差也称全距,它是一组数据的最大值与最小值之差。在组距式数列中,级差是最高组上限与最低组下限之差。极差是最简单的标志变异指标。用公式表示为:R=xmax-xmin式中R表示极差;xmax与xmin分别表示数据的最大值和最小值。\n(二)平均差平均差(A.D.)是各标志值与其算术平均数离差的平均数。由于各标志值与其算术平均数离差总和等于零,因此,要用离差的绝对值来计算平均差。用公式表示为:1.在未分组资料情况下\n2.在分组资料情况下式中A.D.表示平均差;表示算术平均数;n表示总体单位数;f表示各组比变量值出现的次数。\n(三)方差和标准差方差是各变量值与其算术平均数离差平方的平均数。标准差是总体各单位变量值与其算术平均数离差平方平均数的平方根,也称均方差,它是方差的平方根。设总体方差为σ^2,对未分组数据,总体方差的计算公式为:\n对分组数据,总体方差的计算公式为:设总体的标准差为σ,对未分组数据,总体标准差的计算公式为:对分组数据,总体标准差的计算公式为:\n(四)离散系数极差、平均差、标准差都是反映标志变异程度有计量单位的绝对数指标,总体和样本的标志变异程度除了受变量值之间的离散程度影响外,还受变量值本身水平高低的影响,因此,在比较不同总体和样本的标志变异程度时,应消除由于变量值水平不同或计量单位不同带来的影响。在统计工作中,用离散系数来比较不同总体的平均数和不同样本的平均数的代表性。\n常用的离散系数主要有标准差系数,也称均方差系数。它是一组数据的标准差与其相应的算术平均数之比,其计算公式为:离散系数主要是用于不同总体数据的离散程度的比较。离散系数大,说明该组数据的离散程度大;离散系数小,说明该组数据的离散程度也就小。\n第三节偏态我们已讨论了数据的对称分布及偏态分布的判别标准,即当一组数据中,X=Me=M0我们称数据为对称分布;当一组数据中,X>Me>M0我们称数据为右偏分布;当一组数据中,X<Me>M0我们称数据为左偏分布。\n有时,同为右偏分布或左偏分布的两组数据,需比较偏态程度的大小,可运用皮尔逊偏度系数来测定偏态程度的大小。式中Sk为皮尔逊偏态系数;x为总体平均数或样本平均数;Me为总体中位数或样本中位数;s为样本标准差。\n偏态系数的取值范围一般介于+3与-3之间当Sk=0时,表明数据为对称分布;当Sk>0时,表明数据为右偏分布;当Sk<0时,表明数据为左偏分布。\n第四章概率与概率分布新世纪财经系列教科书\n本章概述124第一节概率的基本涵义第二节离散型随机变量的概率分布3第三节连续型随机变量的概率分布\n第一节概率的基本涵义一、随机事件为了认识人类社会和自然界的各种运动规律,人们必须进行各种各样的科学实验。在这些科学实验中往往会出现两种现象:一类是确定性现象;另一类是随机现象。对同一个研究对象,经过多次观察和试验,其结果是确定的,我们称这类现象为确定性现象。\n与上述相反,在众多的观察和实验中,我们常常会遇到这样的情况:在相同的试验条件下,对同一个研究对象反复地进行多次观察和试验,所得到的结果竟是不确定的,我们称这类现象为随机现象。\n二、概率的涵义和性质概率一词是与“随机事件”相联系的。如前所述,在一定的条件下进行某项试验,某事件A可能发生,也可能不发生,则事件A就称作随机事件。从理论上说,概率就是用来衡量随机事件在某一次试验中发生的可能性的大小的。为了完整地理解概率的涵义,先解释一个概念——频率。\n对随机现象进行了n次试验,其中,事件A出现了m次,则比值m/n称为n次试验中事件A出现的频率,记作W(A),即W(A)=m/n。那么,频率和概率有什么关系呢?我们知道,随机事件在某次试验中可以发生或不发生,但经过大量的无数次的试验后,它会呈现明显的规律性,即其频率趋于稳定。\n这个频率的稳定值就可以看成是近似的概率。由此,可以给出概率的定义:随着随机试验次数n的增加,事件A出现的频率m/n稳定在某个常数P,则事件A的概率记作:P(A)=P\n对任一随机事件A,其概率总是介于0~1之间的数,即有:0≤P(A)≤1当P(A)=0时,表示出现事件A的可能性等于零,也就是说,事件A是不可能事件;当P(A)=1时,表示有100%的可能性出现事件A,即事件A是必然事件。\n三、概率的基本运算(一)概率的加法公式当我们有两个事件A和B,并且希望知道事件A或事件B或者两者都发生的概率时,必须使用加法公式。在讲述加法公式之前,我们先要了解事件的并和事件的交两个概念。事件A和事件B的并是指所有属于A或B同时属于二者的基本事件中至少有一件发生。记作A∪B。\n事件A和事件B的交是指由事件A和事件B共同组成的基本事件。记作A∩B。则概率的加法公式可以表示为:P(A∪B)=P(A)+P(B)-P(A∩B)若事件A和事件B没有公共的基本事件,则称事件A与事件B互斥。互斥事件的加法公式为:P(A∪B)=P(A)+P(B)\n(二)条件概率当我们知道事件B已经发生的概率的条件下,再要求得事件A发生的概率时,这种概率我们称为条件概率,记作P(A|B)。其计算公式为:P(A|B)=P(A∩B)/P(B)(三)贝叶斯定理P(A1|B)=P(A1)P(B|A1)/[P(A1)P(B|A1)+P(A2)P(B|A2)]P(A2|B)=P(A2)P(B|A2)/[P(A1)P(B|A1)+P(A2)P(B|A2)]\n第二节离散型随机变量的概率分布一、随机变量在我们所进行的各种各样的随机试验中,其试验结果都是不确定的,可能是数值,也可能是用定性表示的。我们用X表示在随机试验中所发生的每一种试验结果。由于试验结果的不确定性,所以称X为随机变量。\n随机变量在试验中可取得的值分为两类:一类是在试验中可以取得有限个或可列举的数值,称为离散型随机变量;另一类是在试验中其结果可以取得某一区间内的任何数值,称为连续型随机变量。\n二、离散型随机变量的概率分布经过以上论述,可以知道随机变量X的可能取值以及可能的取值范围。但是,如果要掌握X的统计分布规律,仅仅知道随机变量可能取哪些值是不够的,而更应该知道取这些值的概率是多少。每一个随机变量都有一个概率分布。所谓概率分布,就是用图形或公式来描述随机变量的可能取值及其所对应的概率。\n若变量是离散型变量,假设随机变量X的可能取值为x1,x2,…,xn,而取这些值的概率分别为P(x1),P(x2),…,P(xn),则可以列出如表4-2所示的概率分布表其中所有的概率应满足等式:∑P(xi)=1(i=1,2,…,n)Xx1x2…xnPP(x1)P(x2)…P(xn)\n离散型随机变量的分布函数是:F(x)也称为随机变量X的累积概率分布。\n三、二项分布在实际问题中,许多随机实验只有两种结果:成功或者失败。进行这种随机实验称为贝努里试验。如果在相同条件下进行n次贝努里试验,则称为二项试验。\n一个二项试验具有以下四个性质:(1)试验由一个包括n次相同的试验序列组成。(2)每次试验有两种可能结果,一个成功,一个失败。(3)成功的概率用P表示,失败的概率用(1-P)表示。成功和失败的概率在每次试验中都相同。(4)每次试验都是独立的。\n二项分布的概率函数是:其中:P是参数(即成功的概率),00;x是成功的次数,x=1,2,…,n。\n四、泊松分布泊松分布是离散型分布中另一种重要分布,它主要研究在特定时间或特定空间某一随机事件出现的次数。泊松分布的概率函数是:其中λ是参数(λ=np),0<λ<∞,x=1,2,…,n。\n第三节连续型随机变量的概率分布连续型随机变量表明其结果可以在某一区间取任何数值。我们不可能将所取的数值一一列举,也无法像离散型随机变量那样一一指明变量X取一切可能取的值xi时的概率值,而只能用连续的函数来进行描述。连续型随机变量的概率分布图将是一条连续曲线,其函数式记作:y=f(x)(a≤x≤b)\n这里[a,b]是随机变量X的取值范围,而f(x)称为X的概率密度函数。可以看到,X取值在某区间[c,d]之间的概率等于f(x)下从c到d的曲边梯形面积,如图4-8中的阴影部分。根据微积分的理论,这部分面积等于f(x)在[c,d]区间上的定积分,即\n特别要说明的是,如果[a,b]是x所有可能的取值范围,则X落入[a,b]是必然事件,那么常用的连续型随机变量的概率分布有均匀分布、正态分布和指数分布等。其中,正态分布是统计学中十分普遍和非常重要的分布。\n在客观世界中有许多随机现象是服从正态分布的,如学生考试成绩的分布,家庭收入的分布等。正态分布的概率密度函数为:其中,μ和σ是参数,μ是X的平均值,σ是X的标准差。一般将随机变量X服从上式的分布称为正态分布,并简记为x~N(μ,σ)\n从正态分布的概率密度函数和图形可以看出正态分布具有以下性质:(1)f(x)是单峰的左右对称的钟形曲线,对称轴是x=μ。(2)f(x)>0,且以X为渐近线。(3)X的取值范围是整个X,-∞
查看更多

相关文章