《商务统计学教学》PPT课件
商务统计学\n前言一、商务统计课程的性质二、商务统计学习的方法\n一、商务统计课程的性质1、商务统计是全面系统论述商务与经济统计活动全过程中所用统计理论与方法的综合性课程,在调查分析师证书系列课程中是具有提纲挈领作用的一门课程。2、商务统计课程的内容都是硕士研究生入学考试必考的内容,是任何一个统计人员和调查分析人员都必须掌握的统计学的核心知识。\n二、商务统计学习的方法1、商务统计是一门应用性统计学课程,在学习过程中应注重各种基本概念的含义和各种方法的基本原理与应用,要掌握每种方法的使用条件、计算步骤、以及结果的意义与解释。2、要在理解和领会中记忆和掌握课程的内容。如对于各种统计分布的复杂的密度函数公式就不需记忆,但却需要熟练掌握其概念定义以及分布函数表的使用方法。\n第一章绪论一、统计学的性质二、统计学的作用三、统计学的基本概念四、统计指标体系的设计\n一、统计学的性质(一)统计活动的内容与阶段对各种数据资料的搜集、整理、分析和推断的活动过程称为统计活动,一项完整的统计活动过程可分为统计资料的搜集整理和统计资料的分析推断两大阶段。(二)统计学的定义与分科统计学就是关于数据资料的搜集、整理、分析和推断的科学。关于统计资料的搜集整理和分析推断的理论与方法构成了统计学的全部内容。(1)理论统计学与应用统计学(2)描述统计学与推断统计学\n二、统计学的作用(一)统计学在科学研究中的作用——提出假说并判定假说的正确与否(二)统计学在生产中的作用——通过试验分析找出最佳工艺,并对生产过程进行统计质量控制。(三)统计学在管理中的作用——抽样调查了解社会与市场,为决策提供依据;并可建立各种社会与经济发展模型,定量地模拟社会与经济的运行,既可分析社会与经济的发展及其结构变化,又可进行政策效果的评价。\n三、统计学的基本概念(一)总体和个体组成统计活动研究对象的全部事物的全体集合,就称为统计总体,简称总体或母体;而总体中的各个事物则称为个体,总体中个体的数量称为总体容量。1、自然物体总体与人为划定个体的总体;2、有限总体与无限总体;3、具体总体与设想总体(抽象总体)。\n三、统计学的基本概念(二)统计指标及其测度用来测度统计活动研究对象某种特征数量的概念称为统计指标,简称指标。其中,测度总体特征数量的概念称为总体指标,而测度个体特征数量的概念则称为个体指标。指标的测度计量尺度有(1)定类尺度,(2)定序尺度,(3)定距尺度,(4)定比尺度。\n三、统计学的基本概念(三)样本和统计推断1、样本——从总体中随机抽出的部分个体所组成的集合称为样本或子样,样本中所含个体的数目称为样本容量。2、统计推断——根据样本观测资料来对总体的分布状况和分布特征进行推断。3、样本数据的分类——(1)横截面数据,(2)时间序列数据。\n四、统计指标体系及其设计(一)统计指标体系的定义反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。(二)构建统计指标体系的意义\n(三)指标体系中指标的分类1、水平指标——(1)存量指标与流量指标,(2)实物指标与价值指标。2、比率指标——(1)比例相对指标,(2)比值相对指标,(3)动态相对指标,(4)弹性相对指标,(5)强度相对指标。\n(四)指标体系设计的内容1、确定统计指标体系的框架;2、确定每一个指标的内涵和外延;3、确定每个统计指标的计量单位;4、确定每个统计指标的计算方法。\n(五)指标体系设计的原则1、目的性原则2、科学性原则3、可行性原则4、联系性原则\n第二章数据采集与整理一、数据采集的方式与程序二、现场调查三、试验观测四、数据的整理显示\n一、数据采集的方式与程序(一)数据采集——根据统计指标体系的要求,对所研究总体中个体的相应指标进行观测记录取得数据的活动过程。(二)数据采集活动的基本要求——采集到的数据资料要具有代表性和真实性。所谓代表性,是要求所观测到的样本必须对所研究总体具有代表性;而所谓真实性,则是要求所采集到的数据必须是真实的实际数据。(三)数据采集方式的分类——现场调查和试验观测\n一、数据采集的方式与程序(四)数据采集的程序1、制定数据采集方案——包括(1)采集数据的目的,(2)采集总体和观测单位,(3)观测指标数值登记表,(4)采集方式和组织,(5)采集时间和期限。2、现场观测登记3、数据整理显示\n二、现场调查(一)调查的取样方式1、随机抽样调查(1)简单随机抽样,(2)系统抽样,(3)分层抽样,(4)整群抽样。2、非随机抽样调查(1)任意抽样,(2)立意抽样,(3)配额抽样。3、概率抽样和非概率抽样的特点比较\n二、现场调查(二)现场调查的观测方式1、访问法(1)口头访问——当面访问或电话访问(2)书面访问——邮局或互联网邮件传递,以及登门送收2、观察法\n二、现场调查(三)现场调查的问卷设计1、提问方式(1)封闭型提问(2)开放型提问2、提问次序\n三、试验观测(一)试验观测设计的原则1、均衡分散性原则2、整齐可比性原则(二)试验观测的方法1、完全随机试验观测2、随机区组试验观测3、拉丁方试验观测4、正交试验观测\n四、数据整理与显示(一)构建观测资料数据库的意义与方法(二)观测数据的分类显示1、观测个体的分类(1)分类的功能与原则(2)分类的方法2、统计表的编制(1)统计表的构成(2)统计表的编制规则——内容安排科学合理,形式设计简练美观。\n第三章次数分布一、次数分布的概念二、次数分布表及其编制三、次数分布图四、次数分布的理论模型及其表示方法五、离散变量概率分布模型六、连续变量概率分布模型\n一、次数分布的概念(一)次数分布:观测变量的各个不同取值及其出现次数的顺序排列,称为变量的次数分布。(二)总体次数分布和样本次数分布(三)次数分布的作用——观测变量的次数分布包含了观测变量取值的全部信息。根据观测变量的次数分布,可以对观测变量的各种分布特征进行描述和分析。\n二、次数分布表及其编制(一)次数分布表的种类1、单值分组次数分布表2、组距分组次数分布表(二)组距分组次数分布表的编制方法1、确定组数等距分组的斯特吉斯公式:m=1+3.322lgN2、确定组距等距分组的参考组距:3、确定组限4、计数各组的次数5、列出次数分布表\n三、次数分布图用线和面等形状来显示观测变量次数分布状况的几何图形,称为次数分布图。常用的次数分布图主要有柱状图、直方图和折线图等几种。\n四、次数分布的理论模型(一)理论分布模型的概念与意义随机变量取某个数值或在某个区间取值是一个随机事件,使用概率理论计算的随机变量在各个数值上或在各个区间内取值的概率分布,就是随机变量的理论分布,计算此理论分布的概率理论模型就是其理论分布模型。在现实生活中,各种观测变量的概率分布都可以用某个理论概论分布模型去近似描述。因此就可据此理论分布模型进行分析推断。\n四、次数分布的理论模型(二)理论分布模型的表示方法1、概率分布表2、概率分布图3、概率分布函数式\n五、离散变量概率分布模型记所考察的离散变量为x,假设该随机变量共可取m个不同的值,它取值为xi的概率为pi,并记随机事件x=xi的概率为P(x=xi),则离散随机变量的概率分布可表示为:P(x=xi)=pi;i=1,2…,m.在统计分析推断中,常用的离散变量概率分布模型主要有两点分布、二项分布、超几何分布和泊松分布等几种。\n(一)两点分布假设总体中有两类共N个个体,其中取值为“是”的有N1个,取值为“非”的有N0个,则有:\n(二)二项分布假设在0-1分布总体中,取“是”值的个体比例为p,取“非”值的比例为q,现从中有放回地随机抽取n个个体,记X为取“是”值的个体数目,则其中恰有n1个个体取“是”值、且有n0=n-n1个个体取“非”值的概率为:\n(三)超几何分布假设0-1总体中共有N个个体,其中取“是”值的个体有N1个,取“非”值的个体有N0个。现从不放回地随机抽取n个个体,记x为取“是”值的个体数目,则其中恰有n1个个体取“是”值、且有n0=n-n1个个体取“非”值的概率为:\n(四)泊松分布泊松分布是稀有事件出现次数的理论分布模型,如自然灾害、意外事故、机器故障等事件出现的次数都近似地服从泊松分布。泊松分布概率模型为:\n六、连续变量概率分布模型连续型随机变量的取值范围可以是数轴上的某个区间,也可以是整个数轴。由于它可以取无穷多个不同的数值,所以描述其概率分布的最完善方法是概率函数式。在理论分析中,描述连续变量概率分布的最常用的概率函数式是概率分布密度函数。在统计分析推断中,常用的连续随机变量概率分布模型主要有均匀分布、正态分布、χ2分布、t分布和F分布等几种。\n(一)均匀分布若随机变量x在区间[a,b]上服从均匀分布,则该随机变量的概率密度函数为:\n(二)正态分布若随机变量x服从正态分布,则其概率密度函数就为:\n(三)χ2分布若随机变量z1、z2、…、zn都服从标准正态分布N(0,1),且两两之间相互独立,则这些标准正态变量的平方和x就服从χ2分布,其概率密度函数为:\n(四)t分布若随机变量z~N(0,1),x~χ2(n),且二者相互独立,则:服从学生氏t分布,概率密度函数为:\n(五)F分布若随机变量xm~χ2(m),xn~χ2(n),旦二者相互独立,则:服从F分布,其概率密度函数为:\n第四章分布特征测度一、分布中心二、离散程度三、偏度与峰度四、相关程度\n一、分布中心测度的意义(一)分布中心的概念——所谓分布中心,就是指随机变量的一切取值的散布中心。(二)测度分布中心的意义1、随机变量的分布中心是随机变量一切取值的一个代表,可以用来反映其数值的一般水平。2、随机变量的分布中心可以揭示随机变量一切取值的次数分布在直角坐标系内的集中位置,可以用来反映随机变量分布密度曲线的中心位置,即对称中心或尖峰位置。\n二、分布中心测度指标用来测度随机变量次数分布中心的指标可以有多种,其中在统计分析推断中常用的主要有算术平均数、中位数和众数等几种。\n(一)算术平均数1、定义——算术平均数又称算术均值,是随机变量的所有观测值总和与观测值个数的比值。2、计算方法(1)简单算术平均数——适用于未分组整理的各个单个观测数值,其计算公式为:\n(一)算术平均数(2)加权算术平均数——适用于已分组整理的次数分布数据,其计算公式为:\n(一)算术平均数(3)算术平均数的变形——调和平均数。对于由观测变量的各个分组和各组变量总值顺序排列所形成的分组数据。算术平均数的公式需变换成调和平均数的形式:当各组的变量总值mi相等时,就可简化为:\n(一)算术平均数3、理论分布的算术平均数——数学期望(1)定义对于离散型随机变量,假设有n个不同的取值,其中取某个数值xi的概率为pi,则该随机变量的数学期望可用算术平均数公式定义为:对于连续型随机变量,仍可用算术平均数定义其数学期望,不过因为连续变量求和要用定积分,所以定义中需要用定积分符号代替总和符号,即:\n(一)算术平均数3、理论分布的算术平均数——数学期望(2)例子例如,对于服从两点分布的随机变量x,其不同的取值只有1和0,其中取1的概率为p,取0的概率为q=1-p,则其数学期望为:又如,对于服从位置参数为μ且尺度参数为σ2的正态分布的随机变量x,由其概率密度函数可计算出其数学期望就是其位置参数μ。标准正态分布随机变量的数学期望为0。\n(一)算术平均数(3)数学期望的性质①若c为常数,则必有:E(c)=c②若c为任意常数,x为随机变量,则必有:E(cx)=cE(x)③若x1、x2、…、xm均为随机变量,则必有:E(x1+x2+…+xm)=E(x1)+E(x2)+…+E(xm)④若x1、x2、…、xm均为随机变量,且相互独立,则:E(x1x2…xm)=E(x1)E(x2)…E(xm)⑤若x是随机变量,则必有:E(∣x∣)≥∣E(x)∣\n(二)中位数1、定义中位数是在按观测变量值的大小顺序排列所形成的变量值数列中点位置上的变量值。对于观测变量x,假设共取得n个观测值,各个观测值按大小顺序排列为x(1)、x(2)、…、x(n),则其中位数可定义为:\n(二)中位数2、组距分组次数分布数据的中位数计算\n(三)众数1、定义:众数是随机变量的观测值中出现次数或密度最大的变量观测值。2、组距分组次数分布数据计算众数\n三、均值、中位数和众数三者之间的关系对于对称分布,有:对于右偏分布,有:对于左偏分布,有:经验关系式:\n四、离散程度测度的意义(一)离散程度的概念——所谓离散程度,即观测变量各个取值之间的差异程度。(二)离散程度测度的意义1、通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而也就可以反映分布中心指标对各个观测变量值代表性的高低。2、通过对随机变量取值之间离散程度的测定,可以反映随机变量次数分布密度曲线的瘦俏或矮胖程度。\n五、离散程度测度指标可用来测度观测变量值之间差异程度的指标有很多,在统计分析推断中最常用的主要有极差、平均差和标准差等几种。\n(一)极差极差又称全距,是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度。极差的计算公式为:R=Max(xi)-Min(xi)\n(二)平均差平均差是随机变量各个取值偏差绝对值的算术平均数。由于所掌握数据形式的不同,平均差的计算有简单平均差和加权平均差两种不同的方式。\n(三)标准差标准差是随机变量各个取值偏差平方的平均数的算术平方根,是最常用的反映随机变量分布离散程度的指标。标准差既可以根据样本数据计算,也可以根据观测变量的理论分布计算,分别称为样本标准差和总体标准差。\n1、样本标准差的计算(1)对于未分组整理的各个观测变量值数据,计算标准差应采用简单平均的方法。(2)对于已分组整理的分组次数分布数据,计算标准差应采用加权平均的方法。\n2、理论分布的标准差与方差(1)定义标准差是最常用的理论分布模型正态分布的参数之一,在理论分析中最常用来描述随机变量分布的离散程度。标准差的平方称为方差,与标准差有着同样的作用。随机变量x的理论分布的方差常记为Var(x)或σ2,其定义为:σ2=Var(x)=E[x-E(x)]2\n2、理论分布的标准差与方差(2)离散随机变量的方差对于离散随机变量x,假设共有n个不同取值,取值xi的概率为pi,i=1、2、…、n,则方差为:例如,对于服从两点分布的随机变量x,其取值为1的概率为p,取值为0的概率为q=1-p,数学期望为E(x)=p,则其方差为:Var(x)=(1-p)2p+(0-p)2q=pq\n2、理论分布的标准差与方差(3)连续随机变量的方差对于连续型随机变量x,假设其分布密度函数f(x),则其方差的计算公式为:例如,对于服从位置参数为μ且尺度参数为σ2的正态分布的随机变量x,其数学期望等于其位置参数μ,其方差就是其尺度参数σ2,标准正态分布的方差为1。\n2、理论分布的标准差与方差(4)方差的性质①任何随机变量的方差均非负。Var(x)≥0②若c为常数,x为随机变量,则有:Var(cx)=c2Var(x)③若随机变量x1、x2、…、xm均相互独立,则有:Var(x1+x2+…+xm)=Var(x1)+Var(x2)+…+Var(xm)④若x为随机变量,c为任一常数,则有:E(x-c)2=E[x-E(x)]2+[c-E(x)]2⑤对于任意随机变量x,均有:Var(x)=E(x2)-[E(x)]2\n(四)离散系数1、离散系数的概念——各个衡量随机变量取值之间绝对差异的指标与算术平均数的比率,通称为离散系数。2、计算离散系数的意义——消除量纲和数量级的差异,便于不同观测变量之间的比较。3、计算公式\n六、测度偏度和峰度的意义(一)概念——所谓偏度,就是观测变量取值分布的非对称程度;所谓峰度,就是观测变量取值分布密度曲线顶部的平坦程度或尖峭程度。(二)意义1、加深人们对观测变量取值的散布状况的认识;2、将观测变量的偏度和峰度指标值与某种理论分布的偏度和峰度指标值进行比较,以判断观测变量的分布与某种理论分布的近似程度。\n七、偏度的测度(一)直观偏度系数1、皮尔逊偏度系数2、鲍莱偏度系数\n七、偏度的测度(二)矩偏度系数1、矩的定义——原点矩和中心矩2、矩偏度系数\n八、峰度的测度矩峰度系数——随机变量的四阶中心矩与其标准差的四次方相除,所得比率就称为峰度系数,其计算公式为:\n九、相关程度测度的意义(一)相关关系的概念对于两个观测变量,若一个变量的取值除了受另一个变量取值的影响外,还受各种随机因素的影响,则变量间的这种非确定性关系就称为相关关系。(二)相关关系测度的意义1、了解两个观测变量之间相关关系的方向;2、了解两个观测变量之间相互依赖关系的程度,为构建观测变量之间相互关系模型奠定基础。\n十、相关程度测度的指标对两随机变量之间的相关关系及其密切程度进行测度,需要根据两变量观测值的复合分组次数分布进行,或在理论上根据两变量的联合概率分布模型进行。测度观测变量之间相关关系的指标主要有协方差和相关系数两个。\n(一)协方差1、定义——协方差是两个随机变量成对观测值偏差乘积的算术平均数。2、样本协方差\n(一)协方差3、总体协方差——对于两随机变量的理论分布,也可类似地定义其协方差。两随机变量x和y的理论分布的协方差常记作Cov(x,y)或σxy,其定义公式为:σxy=Cov(x,y)=E[x-E(x)][y-E(y)]例如,对于联合分布为二元正态分布的随机变量x和y,可得二变量的协方差为:\n(一)协方差4、协方差的性质①随机变量x与y的协方差和y与x的协方差相等。Cov(x,y)=Cov(y,x)②若随机变量x和y相互独立,则有:Cov(x,y)=0③若λ1和λ2为任意常数,则有:Cov(λ1x,λ2y)=λ1λ2Cov(x,y)④对于任意三个随机变量,均有:Cov(x1+x2,y)=Cov(x1,y)+Cov(x2,y)Cov(x,y1+y2)=Cov(x,y1)+Cov(x,y2)⑤对于任意两随机变量,均有:Cov(x,y)=E(xy)-[E(x)E(y)]\n(二)相关系数1、定义——相关系数是两个随机变量的协方差对其两标准差之积的比率。2、总体相关系数3、样本相关系数\n(二)相关系数4、相关系数的取值范围相关系数r的数值介于-1和+1之间,其绝对值介于0和1之间。即有:-1≤r≤+15、相关系数的作用(1)相关系数的符号可反映两随机变量相互依存关系的方向。相关系数为正,称为正相关;相关系数为负,称为负相关。(2)相关系数的绝对值的大小则可反映两随机变量线性相关关系的密切程度。\n第五章参数估计一、总体参数及其估计量二、构造估计量的方法——矩法估计三、判断估计量优劣的标准四、估计量的标准误五、抽样分布的概念六、基本的抽样分布七、区间估计的概念八、区间估计的方法九、样本容量的确定\n一、总体参数及其估计量总体指标又称为总体参数,根据样本数据来推断总体指标数值就称为参数估计。集中了样本中有关总体参数信息的样本指标称为统计量,该统计量就可用来估计所求的总体指标的数值。用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。总体参数值是确定的,但是未知的;样本估计量是随机变量,其估计值是某个给定样本的计算值。\n二、构造估计量的方法—矩法估计(一)矩法估计的概念——所谓矩法估计,概括来说就是用样本矩作为总体同一矩的估计量,用样本矩的函数作为总体相应矩同一函数的估计量。(二)常用的总体参数及其矩法估计量\n三、判断估计量优劣的标准为了保证用于估计总体指标的估计量准确可靠,就必须要求所使用的估计量具备一些优良的性质,这些性质就构成了判断一个估计量优劣的标准。常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。\n(一)一致性对于总体指标的一个估计量,若其取值随着样本容量的增大越来越接近于总体指标的真值,即估计误差越来越小的可能性越来越大直至100%,则该估计量就称为总体指标的一致估计量,或称为相合估计量。可以证明,由矩估计法所构造出的估计量都是所估计总体指标的一致估计量。如样本均值是总体均值的一致估计量,样本比例p是总体比例P的一致估计量,样本方差s2也是总体方差σ2的一致估计量。\n(二)无偏性对于总体指标的一个估计量,若其估计值的数学期望等于该总体指标的真值,即其估计误差的数学期望为0,则该估计量就称为是总体指标的无偏估计量。可以证明,样本均值是总体均值的无偏估计量,而常规样本方差却并不是总体方差σ2的无偏估计量,修正样本方差s2是总体方差σ2的无偏估计量。修正样本方差即无偏样本方差为:\n(三)有效性对于任一总体指标,若存在两个无偏估计量,其中一个估计量的估计误差平均来说小于另一个估计量的估计误差,则称前一个估计量比后一个估计量有效。无偏估计量的估计误差大小可用其方差衡量,所以两个无偏估计量比较,方差较小者较为有效。对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为是该总体指标的最佳无偏估计量。可以证明,样本均值是总体均值的最佳无偏估计量。对于有偏估计量,衡量其有效性可用均方误差代替方差。估计量的均方误差为:\n(四)充分性对于一个总体指标,若其估计量提取了样本中包含的有关该总体指标的全部信息,则此估计量就称为该总体指标的充分估计量。在多数情形下,矩法估计给出的总体指标的估计量均是充分的。如在正态分布总体之下,样本均值是总体均值的充分估计量,样本方差s2也是总体方差σ2的充分估计量。\n(五)稳健性如果用来估计总体指标的样本估计量对样本数据的污染不敏感,也就是说估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标的一个稳健估计量。实践中常用的一种估计总体均值的稳健估计量是切尾均值,切尾均值的计算公式为:\n四、估计量的标准误(一)标准误的概念样本估计量的标准差通常称为该估计量的标准误差,简称标准误。即:标准误是衡量一个估计量抽样估计误差大小的一个尺度。\n(二)标准误的计算1、样本均值的标准误(1)放回抽样(2)不放回抽样\n(二)标准误的计算2、样本比例的标准误(1)放回抽样(2)不放回抽样\n(三)影响标准误的因素1、总体中各个体之间的差异程度。总体中各个体取值之间的差异程度大即σ2也大,各总体指标估计量的标准误的数值也就大,抽样估计误差也就大。2、样本容量的大小。样本容量大,总体指标估计量的标准误则小,抽样估计误差也就越小;反之,样本容量越小,抽样估计误差及其标准误也就越大。3、抽取样本的方式方法。抽样方式方法不同,总体指标估计量的标准误就会不同,抽样估计误差的大小也就不同。\n五、抽样分布的概念对于给定的总体和抽样方式以及样本容量,样本指标取值的概率分布就称为抽样分布。确定样本容量下的抽样分布称为样本统计量的精确分布,而样本容量趋于无穷大时的抽样分布则称为样本统计量的极限分布。\n六、基本的抽样分布(一)样本均值的抽样分布1、任意总体大样本2、正态总体小样本\n六、基本的抽样分布(二)样本比例的抽样分布——大样本\n六、基本的抽样分布(三)样本方差的抽样分布——正态总体\n七、区间估计的概念记总体指标为θ,样本估计量为,事先给定概率为1-α,若根据样本估计量的概率分布可计算出一个区间,使得该区间包含总体参数θ的概率等于事先给定的概率1-α,即有:成立,则该区间就称为总体参数θ的置信区间,而概率1-α就称为是置信概率或置信度。\n八、区间估计的方法(一)均值的区间估计1、大样本下均值的区间估计由中心极限定理可知,对于大样本而言,样本均值的概率分布总可近似地看作是正态分布。若事先给定置信概率为1-α,则查标准正态分布概率数值表,可得标准正态分布的上侧分位数zα/2,就可得出总体均值μ的置信区间为:\n(一)均值的区间估计2、小样本下正态总体均值的区间估计对于来自正态总体的一个小样本,在给定的置信概率1-α之下,查自由度为(n-1)的t分布表,可得t分布的上侧分位数tα/2,可得总体均值μ的置信区间为:\n(二)比例的区间估计总体比例是两点分布总体的均值,其估计量样本比例则是来自该总体的随机样本的均值。因此,在大样本条件下,可根据中心极限定理用类似于大样本情形下总体均值区间估计的方法来对总体比例进行区间估计。有:\n(三)方差的区间估计由抽样分布理论可知,对于来自正态总体的一个简单随机样本,其修正样本方差s2与总体方差σ2比值的(n-1)倍服从自由度为(n-1)的χ2分布。若给定置信概率1-α,查自由度为(n-1)的χ2分布表可得两个分位数χ1-α/2和χα/2,则可得正态总体方差σ2的置信区间为:\n(四)单侧置信区间所谓单侧置信区间,是将待估总体指标的上置信限或下置信限指定在其上界或下界值上,并根据给定的置信概率求出另一置信限而得到的置信区间。记待估计总体指标为θ,其取值上界为,取值下界为,样本估计量为,对于给定的置信概率1-α,若有:或者,有:则称区间和为总体指标θ的单侧置信区间。\n九、样本容量的确定若在给定1-α的置信概率之下,要求用样本均值估计总体均值的抽样估计误差不超过δ,则由总体均值的抽样估计误差限的计算公式,可计算出必需最小样本容量。(一)放回抽样(二)不放回抽样\n第六章假设检验一、假设检验的原理二、总体指标假设检验三、分布假设检验四、假设检验的两类错误及功效\n一、假设检验的原理(一)统计假设和检验统计量所谓统计假设,就是关于总体分布特征的某种论断。关于总体参数假设的检验,是假设检验的核心内容。记总体参数为θ,若要判断θ是否等于某已知数值θ0,则该参数假设可表示为:H0:θ=θ0,H1:θ≠θ0其中,假设H0:θ=θ0就是所要检验的假设,称为原假设或零假设;而假设H1:θ≠θ0则称为对立假设或备择假设。要检验某个假设是否正确,需根据样本所提供的信息来进行。包含总体分布特征的全部样本信息的样本指标,是进行假设检验的依据,称为检验统计量。\n(二)显著性水平和拒绝域进行假设检验,概率论中关于小概率事件在一次试验中是不可能事件的原则是其所遵循的基本原则。通常取小概率事件的概率临界值为0.05或0.01,用α表示,称为假设检验的显著性水平。在原假设成立的条件下,由检验统计量的概率分布,对于给定的显著性水平,就可确定出由抽样误差引起的样本估计值对总体参数原假设值的可能的最大偏离值,作为判断原假设正确与否的临界值。样本估计量偏离总体参数原假设值过大的区域,就是否定原假设的区域,称为否定域或拒绝域,而否定域以外的区域则称为接受域。\n(二)显著性水平和拒绝域1、双侧检验若要检验的假设为:H0:θ=θ0,H1:θ≠θ0则否定域应建立在与原假设值的正负偏离超出给定临界值的两边,这种检验方法称为双侧检验。\n(二)显著性水平和拒绝域2、左侧检验若要检验的假设为:H0:θ≥θ0,H1:θ<θ0则否定域应建立在与原假设值的负偏离超出给定临界值的一边,这种检验方法称为左侧检验。\n(二)显著性水平和拒绝域3、右侧检验若要检验的假设为:H0:θ≤θ0,H1:θ>θ0则否定域应建立在与原假设值的正偏离超出给定临界值的一边,这种检验方法称为右侧检验。\n(三)假设检验的p值检验统计量的取值落在其实际样本值之外的概率,就称为假设检验的p值。\n(四)假设检验的程序(1)提出原假设H0和备择假设H1;(2)规定检验的显著性水平α;(3)构造用于检验的样本指标,即检验统计量;(4)在原假设为真的假定下,根据检验统计量的概率分布,确定出检验统计量的临界值,并由此临界值构造出检验的拒绝域和接受域;或者计算出假设检验的p值;(5)比较检验统计量的实际样本值与其临界值,或者比较检验的p值与显著性水平α,并根据比较的结果做出拒绝或不能拒绝原假设的决策。\n二、总体指标假设检验(一)均值的检验1、单一总体均值的检验H0:μ=μ0,H1:μ≠μ0或μ<μ0或μ>μ0(1)大样本情形——正态分布z检验(2)小样本情形(正态总体)——t检验\n(一)均值的检验2、两总体均值的比较H0:μ1=μ2,H1:μ1≠μ2或μ1>μ2或μ1<μ2(1)大样本情形——正态分布z检验(2)小样本情形(正态总体)——t检验其中s2为用自由度加权的两样本方差的平均数。\n(二)比例的检验1、单一总体比例的检验——大样本(1)假设H0:P=P0,H1:P≠P0或P>P0或P
P2或P1μ0,使用z检验法,可得:\n第七章方差分析一、方差分析的概念二、方差分析的意义三、单因子数据结构模型四、模型参数的估计五、单因子方差分析表六、各水平效应的多重比较七、随机区组试验与多因素方差分析的特点\n一、方差分析的概念在科学实验和生产经营活动中,人们常常需要对影响所观测变量的各种主要因素进行分析,以便找出各个因素在什么状态下可使所观测的变量取得最佳数值。为此,首先需要在各种主要影响因素的不同状态下对所研究变量的取值进行观测,然后再对观测所得数据进行比较分析。方差分析就是分析推断各种因素状态对所观测变量的影响效应的一种统计分析方法。\n二、方差分析的意义首先,需要确定的是一个因子的各个水平的作用是否相同。如果相同,说明这个因子不管取哪种水平对观测变量无不同影响,那么这个因子实际上无关紧要,可纳入平均效应中去,这时称这个因子是不显著的。自然,如果一个因子的各个水平的作用不同,那么这时就称此因子是显著的。其次,如果所考察的因子是显著的,那么就要找出该因子的最佳水平或者各个显著因子的各种水平的最佳配合,以指导生产经营的实践活动。\n三、单因子数据结构模型假设所考察的因子为A,有m个不同的水平A1,A2,…,Am。在各个水平下分别进行了n1,n2,…,nm次独立实验观测,得到变量观测值为yij,i=1,2,…,m,j=1,2,…,ni,则有数据结构模型为:yij=μ+αi+εij;i=1,2,…,m;j=1,2,…,ni.或者写为:yij=μi+εij;i=1,2,…,m;j=1,2,…,ni.其中μ为平均效应,αi为因子A的第i个水平Ai对观测变量的作用,称为水平Ai的效应,μi=μ+αi为在水平Ai下观测变量的总体平均值,εij仍表示实验观测的随机误差。\n四、模型参数的估计(一)总均值和组均值(二)模型参数的矩估计\n五、单因子方差分析表(一)检验的假设H0:α1=α2=…=αm=0H1:至少αi≠0或H0:μ1=μ2=…=μmH1:至少μi≠μk(二)总变动平方和的分解SST=SSA+SSE即:\n五、单因子方差分析表(三)方差分析表的构造(四)检验方法——F检验(单侧)\n六、各水平效应的多重比较(一)检验假设H0:αi=αkH1:αi≠αk或H0:μi=μkH1:μi≠μk(二)检验方法——t检验(双侧)\n七、多因子方差分析的特点一、随机区组试验的特点及其数据分析——试验单位之间存在较大的差异二、多因子方差分析的特点——不同因子的水平组合可能存在交互作用\n第八章回归分析一、回归的概念与回归模型的确定二、样本观测模型和样本回归函数三、一元线性回归分析四、多元线性回归分析五、回归诊断\n一、回归的概念与模型确定设随机变量y与变量x1、x2、…、xk之间存在相关关系,则y与x1、x2、…、xk的数学模型可表示为:y=f(x1,x2,…,xk)+u其中u为随机因素影响,若自变量x1、x2、…、xk的值给定时,随机影响u的期望为0,则因变量y的条件数学期望就是唯一确定的,即有:E(y/x)=f(x1、x2、…、xk)此条件期望就称为y的回归值,表示y的回归值与自变量关系的函数式就称为y的回归函数。若自变量只有一个,则称为一元回归函数;若自变量有两个或多个,则称为多元回归函数。\n一、回归的概念与模型确定回归模型的确定方法有二:(一)定性分析(二)线性近似——实践中,常用的回归函数为线性函数,相应的数学模型的形式为:y=β0+β1x1+β2x2+…+βkxk+u其中β0、β1、β2、…、βk统称为回归系数,因变量y对自变量x1、x2、…、xk的回归函数为:E(y/x)=β0+β1x1+β2x2+…+βkxk\n二、样本观测模型和样本回归函数设样本观测值为(yj,x1j,x2j,…,xkj),j=1,2,…,n,则对于线性模型来说,有:yj=β0+β1x1j+β2x2j+…+βkxkj+uj,j=1,…,n.这n个关系式称为因变量y的观测模型。由此观测模型可估计得出模型中各个参数的估计值,从而得出样本回归函数为:\n三、一元线性回归分析(一)散点图设样本观测值分别为(x1y1)、(x2,y2)、…、(xn,yn),在平面直角坐标系内将这n对观测值用n个点表示出来,所形成的图形称为散点图。通过观察散点图的形状,可辅助判断回归函数的具体形式。一元线性回归模型的形式为:y=β0+β1x+u\n(二)模型参数的最小二乘估计1、最小二乘估计的原理所谓最小二乘估计,就是寻找使样本观测模型的随机误差平方和最小的参数值作为回归模型参数的估计值。2、求一元线性回归模型系数的正规方程组\n(二)模型参数的最小二乘估计3、回归系数的最小二乘估计公式4、样本回归方程\n(二)模型参数的最小二乘估计5、残差与残差平方和的计算6、回归模型随机误差的方差的估计\n(三)回归的方差分析1、因变量总变动平方和的分解即:SST=SSR+SSE2、判定系数\n(三)回归的方差分析3、一元线性回归的方差分析表4、检验假设H0:ρ=0,H1:ρ≠05、检验方法——F检验方差来源平方和自由度均方F值p值回归残差SSRSSE1n-2SSRSSE/(n-2)Fp总和SSTn-1\n(四)回归系数的t检验1、检验的假设H0:β1=0,H1:β1≠0H0:β0=0,H1:β0≠02、检验的方法——t检验\n(五)利用回归直线进行预测所谓预测就是在给定自变量x的数值的条件下,估计因变量y的数值,有点预测和区间预测两种。1、点预测2、区间预测\n(六)一元线性回归模型的推广实践中,有时用线性模型来描述变量x和y之间的关系并不恰当,这时就需要考虑各种曲线模型。对于有些曲线模型来说,容易将它们化成下面的形式:g(y)=β0+β1h(x)+u若仍假定随机误差u服从正态分布即u~N(0,σ2),则y对x的曲线回归问题就可化为函数g(y)对函数h(x)的直线回归问题,从而就可用一元线性回归的方法来处理,这实际上是一元线性回归模型和方法的推广。\n四、多元线性回归分析(一)多元线性回归模型的设定(二)模型参数的最小二乘估计(三)多元线性回归模型的假设检验(四)偏相关系数和复相关系数(五)利用多元线性回归模型进行预测(六)多元线性回归模型的推广\n五、线性回归诊断(一)回归诊断的内容1、线性回归分析的基本假定——对于线性回归模型,通常假定随机误差uj满足下列假定:(1)数学期望为0,即E(uj)=0;(2)具有同一方差σ2,即Var(uj)=σ2;(3)相互独立,即Cov(ui,uj)=0;(4)服从正态分布,即uj~N(0,σ2)。2、回归诊断的内容——所谓回归诊断,主要就是诊断样本观测数据是否满足回归分析的基本假定,以及样本观测数据中是否存在不同于绝大部分数据的异常数据,等等。\n(二)回归诊断的方法1、残差图进行回归诊断,通常可用残差图进行。所谓残差图就是以因变量的观测值yj或自变量值x1j、x2j、…、xkj或因变量回归值等为横坐标,且以残差或其标准化数值为纵坐标所作出的散点图。\n(二)回归诊断的方法2、异方差与方差稳定性变换所谓异方差,就是指因变量的方差不是常数,而是随着自身取值的变化而变化,或者随着某个或某些自变量取值的变化而变化。对于具有这种异方差性的样本数据,其残差图通常表现为在因变量回归值较小的一端残差点的散布范围窄,而在因变量回归值较大的一端残差点的散布范围宽,因而就可以用残差图来诊断是否存在异方差性。如果样本数据具有异方差性,那么可通过对因变量或一些自变量作变换,来改善方差的非齐性。这些变换统称为方差稳定化变换,\n(三)异常数据的诊断1、异常数据的概念所谓异常数据是指相对于多数观测数据而言残差绝对值较大的个别观测数据,通常称为奇异值或奇异点。2、异常数据的检测异常数据在样本的散点图上表现为远离绝大多数观测点的孤立点,在残差图上则表现为残差值很大而远离大多数残差点的孤立点,因此也可以用残差图来进行诊断样本数据中是否有异常点,以及判断哪些观测数据点可能是异常点。\n第九章时间序列分析一、时间序列的采集与分类二、时间序列特征指标测度三、时间序列构成分析四、时间序列自回归分析\n一、时间序列的采集与分类所谓时间序列,就是按照时间顺序观测取得的某个统计指标的一系列观测值,也称为时间数列。时间序列是对某个事物的发展过程按照时间顺序观测所取得的一个样本,而人们所研究事物的发展过程就是所要研究的总体。样本作为总体的代表,可以反映出事物发展过程的一些特点和规律。因此,类似于截面数据,时间序列作为一种重要的统计数据在统计分析中也具有重要的作用。\n(一)时间序列的采集1、瞬间采样。若所考察的统计指标是事物的存量指标,则可以每隔一定的时间,观测登记一次其在当时的现存数量,称为瞬间采样。2、累积采样。若所考察的统计指标是事物的流量指标,则可以每隔一定的时间,计算登记一次其在以前某段时间内的累积发生数量,称为累积采样。3、特征采样。对于所考察的事物,也可每隔一定的时间,计算登记一次其在以前某段时间内的特征值,称为特征采样。\n(二)时间序列的分类1、按指标性质分类(1)时点序列。由瞬间采样方法得到的时间序列即存量指标的一系列顺序观测值序列,称为时点序列。(2)时期序列。由累积采样方法得到的时间序列即流量指标的一系列顺序观测值序列,称为时期序列。(3)特征序列。由特征采样方法得到的时间序列即特征指标的一系列顺序观测值序列,称为特征序列。\n(二)时间序列的分类2、按指标数值变化特征分类(1)平稳序列。如果一个时间序列中的指标数值不存在持续增长或下降的趋势,并且其波动的幅度在不同的时间也没有明显的差异,那么该时间序列就是一个平稳序列。(2)非平稳序列。如果一个时间序列中的指标数值存在着持续增长或下降的趋势,或者其波动的幅度在不同的时间有明显的差异,那么该时间序列就是一个非平稳序列。\n(三)时间序列分析的意义首先,揭示事物发展变化过程中的各种特征和特点,认识事物的运动方式,把握事物的发展方向,掌握其发展变化的趋势和规律。其次,运用已经掌握的事物发展变化的特点和规律,对事物未来的发展变化进行有效的推断和预测。再次,揭示各种事物变动之间的相互关系和相互作用方式,以便利用这些已经掌握的事物之间的作用方式,对某些事物的发展变化实施有效的控制。\n二、时间序列特征指标测度一、时间序列均值的测度二、时间序列的波动性与自相关性测度\n一、时间序列特征指标测度(一)时间序列均值的测度1、趋势平稳序列均值的计算对于不存在持续增长或下降趋势的时间序列即趋势平稳序列,其各个数值均围绕着一个固定的数值上下波动,其均值就代表了各个数值的波动中心,因此计算其均值是有意义的。设给定的均值平稳时间数列为x1、x2、…、xn,则其均值就为:\n(一)时间序列均值的测度2、趋势非平稳序列的平稳化变换(1)差分变换xt=Δyt=yt-yt-1(2)环比变换(3)对数差分变换xt=Δlog(yt)=log(yt)-log(yt-1)\n(一)时间序列均值的测度3、平均增长率的两种计算方法(1)几何平均法假设所给定的具有等比或近似等比增长趋势的时间序列为y0、y1、y2、…、yn,则通过环比变换,就可以得到一个环比发展速度序列为x1、x2、…、xn,则平均发展速度为:\n(一)时间序列均值的测度3、平均增长率的两种计算方法(2)代数平均法从最初水平出发,用平均发展速度等比增长推算,令各期推算水平之和等于各期实际水平之和,则有方程式为:\n(二)时间序列的波动性与自相关性测度1、自协方差记给定的时间序列为x1、x2、…、xn,则其自协方差可定义为:2、自相关系数\n三、时间序列构成分析(一)时间序列的构成因素与构成模型1、趋势变动T(t)2、季节变动S(t)3、循环变动C(t)4、随机变动I(t)加法模型:Y(t)=T(t)+S(t)+C(t)+I(t)乘法模型:Y(t)=T(t)·S(t)·C(t)·I(t)\n(二)长期趋势的测定1、常用的长期趋势模型(1)直线趋势模型:T(t)=a+bt(2)指数曲线趋势:T(t)=abt(3)二次曲线趋势:T(t)=a+bt+ct2(4)修正指数曲线:T(t)=k+abt(5)逻辑曲线模型:T(t)=k/(1+abt)(6)龚珀茨曲线模型:(7)双指数曲线模型:T(t)=k+ae-αt+be-βt\n(二)长期趋势的测定2、趋势模型参数的估计方法(1)最小二乘法例如,对于直线趋势模型:T(t)=a+bt使用最小二乘法可得参数a和b估计值为:\n(二)长期趋势的测定2、趋势模型参数的估计方法(2)分段总和法例如,对于修正指数曲线趋势模型:T(t)=k+abt将时间序列等分为三段,各段分别求和,则得方程组为:\n(三)季节变动的测定1、同期直接平均法(1)计算各季(月)平均数(2)计算总平均数(3)计算季节指数\n(三)季节变动的测定2、同期移动平均法(1)计算各期移动平均数(2)计算各期季节随机值(3)计算季节指数(4)分摊计算误差\n(四)循环变动的测定1、直接测定法(1)计算各期的年距环比发展速度(2)使用移动平均法计算循环指数\n(四)循环变动的测定2、剩余测定法(1)计算各期的循环随机值(2)使用移动平均法计算循环指数\n(五)随机变动的测定对于一个时间序列,若已分别测定得出其长期趋势,季节变动和循环变动,则将这三种变动逐一分离出去,所余即为随机变动。即:\n四、时间序列自回归分析(一)时间序列自回归模型的构建1、平稳时间序列自回归模型2、非平稳时间序列自回归模型(1)差分自回归模型(2)带趋势项的自回归模型\n(一)时间序列自回归模型的构建3、季度或月份时间序列自回归模型(1)季节差分自回归模型(2)带季节虚拟变量的自回归模型\n(二)时间序列自回归模型的估计与检验1、时间序列自回归模型阶数的选择——从最低阶开始进行比较2、时间序列自回归模型的估计——最小二乘法3、时间序列自回归模型的检验——回归系数t检验\n(三)应用时间序列自回归模型进行预测根据时间序列自回归模型进行预测,也就是将时间序列变量的现在和过去的实际值代入自回归模型得出未来的估计值,将现在和过去的实际值以及未来的估计值代入自回归模型,得出更远的未来的估计值。\n第十章统计决策分析一、统计决策的要素和程序二、非概率型决策三、先验概率型决策四、后验概率型决策\n一、统计决策的要素和程序(一)决策的概念——针对面临的问题和客观环境,做出某种行动决定的过程,就是决策。如果决策过程中所使用的分析推断方法主要是统计分析推断方法,那么这种决策就被称为统计决策。(二)决策的类型划分1、确定性决策2、非确定性决策——(1)概率型决策(2)非概率型决策\n一、统计决策的要素和程序(三)统计决策三要素——决策者面对的客观环境具有不确定性,需要使用统计分析推断方法对决策的行动结果进行分析,这是统计决策的主要特征。进行统计决策,必须具有以下三个基本要素。(1)客观环境的可能状态集——Θ={θi}(2)决策者的可行行动集——A={aj}(3)决策行动的收益函数或损失函数——收益函数Q(θi,aj)或损失函数L(θi,aj)\n一、统计决策的要素和程序(四)常用的损失函数1、线性损失函数2、平方误差损失函数\n一、统计决策的要素和程序(五)收益矩阵表和损失矩阵表当客观环境的状态集和决策者的行动集都只包含有限个元素时,决策行动的收益函数或损失函数也可用收益矩阵表和损失矩阵表来表示。\n一、统计决策的要素和程序一个完整的统计决策过程包括有下列四个步骤:(1)确定决策目标(2)拟定各种可行的行动方案(3)通过比较分析选出最佳的行动方案(4)决策的执行统计决策的这四个步骤,又分别称为统计决策的参谋活动阶段,设计活动阶段,抉择活动阶段和任务执行阶段。\n二、非概率型决策(一)非概率型决策的条件非概率型决策就是决策者在仅仅知道客观环境可能有哪几种状态、但却不知道每一种可能状态出现概率的条件下的决策。这也就是说,非概率决策也就是在仅仅具备决策的三个基本要素的条件下的决策。\n(二)非概率型决策的准则1、大中取大准则大中取大准则也称为乐观准则,决策者按照对客观环境状态的最乐观的设想,寻求取得最大的收益。按照这种准则进行决策,首先可找出每个行动方案下收益函数的最大值,然后再找出这些最大值中的最大值,并将此最大值所属的行动方案作为最终选择出的行动方案。如果记大中取大准则下的最佳行动方案为a*,则有:\n(二)非概率型决策的准则2、小中取大准则小中取大准则也称为悲观准则,决策者按照对客观环境状态的最悲观的设想,寻求取得最大的收益。按照这种准则进行决策,首先可找出每个行动方案下收益函数的最小值,然后再找出这些最小值中的最大值,并将此最大值所属的行动方案作为最终选择出的行动方案。如果记小中取大准则下的最佳行动方案为a*,则有:\n(二)非概率型决策的准则3、折中准则折中准则又称为赫维茨准则,决策者可以根据知识和经验选取一个系数值α,0<α<1,作为对客观环境的乐观判断与悲观判断的折中系数,然后用此折中系数计算每一个行动方案的最大收益和最小收益的折中值,最后选出折中值最大的行动方案作为最终选定的行动方案。记行动方案a的折中值为H(a),则其计算公式可表示为:\n(二)非概率型决策的准则4、大中取小准则大中取小准则就是从损失函数的角度出发给出的决策准则,也称为萨维奇(Savage)准则。按照这种准则进行决策,首先可找出每个行动方案下损失函数的最大值,然后再找出这些最大值中的最小值,并将此最小值所属的行动方案作为最终选择出的行动方案。如果记大中取小准则下的最佳行动方案为a*,则有:\n三、先验概率型决策(一)先验概率型决策的条件如果决策者除了掌握有客观环境的可能状态集、决策者的可行行动集和决策行动的收益函数或损失函数这三个进行决策分析的基本要素之外,还掌握有客观环境的各种可能状态出现的先验概率分布,那么就可以使用先验概率型决策分析方法进行分析。\n(二)先验概率型决策的准则1、期望损益准则所谓期望损益准则,就是以每个行动方案的期望收益或期望损失为标准,选出期望收益最大或者期望损失最小的行动方案,作为最终确定的行动方案。仍记决策者选中的行动方案为a*,则按照期望损益准则进行决策就必须有:或者有:\n(二)先验概率型决策的准则2、最大可能准则可以看出,期望损益准则无疑是进行重复性决策的一个不错的准则,但是在经济管理和商务活动中,也有许多决策问题并不能重复出现,而只是一种一次性决策问题。对于一次性决策问题来说,期望损益准则就不见得仍是一个不错的决策准则。实际上,对于一次性决策来说,平均意义的期望收益和期望损失根本就无从谈起,所以期望损益准则并不合适。在一次性决策中,一个可用的决策准则就是最大可能准则。所谓最大可能准则,就是选择在最可能出现的客观状态下收益最大或损失最小的行动方案作为最终选定的行动方案。\n(二)先验概率型决策的准则3、渴望水平准则所谓渴望水平准则,就是以决策者的渴望收益值为标准,选取最大可能取得此渴望收益值的行动方案作为所选择的行动方案。若记决策者的渴望收益值为Q*,决策者采取行动方案a可取得的收益大于决策者的渴望收益值的概率为P[Q(θ,a)≥Q*],则按照渴望水平准则,决策者的最佳行动方案a*就是满足下式的那个行动方案:\n(三)决策树技术统计决策还可以用图的形式进行,决策实践中常用的图形是决策树,其名称来源于图的形状像棵树。\n四、后验概率型决策(一)后验概率型决策的概念决策者事先对客观环境各种可能状态的概率分布的估计或判断,就是先验概率分布,而通过样本调查观测所取得的有关客观环境的信息,就是样本信息,根据样本信息对原有的先验概率分布加以修正,所得到的修正后的有关客观环境各种可能状态出现的概率分布,称为后验概率分布。后验概率分布既包含了先验概率分布中有关客观环境可能状态的信息,也综合了样本中这方面的信息。因此,利用客观环境可能状态的后验概率分布进行决策,必然会使决策的可靠性更高,效果更佳。利用后验概率分布进行的决策,也称为贝叶斯决策。\n(二)后验概率分布的计算假设客观环境共有N种可能的状态,第i种可能状态记为Ai,该状态出现的先验概率记为P(Ai),在该状态出现的条件之下事件B发生的概率记为P(B/Ai),则由概率论中的贝叶斯法则可知,在观察到事件B发生的条件下,客观状态Ai出现的概率即后验概率为:\n(三)后验概率型决策的准则类似于先验概率型决策,常用的后验概率型决策的准则也有期望损益准则、最大后验可能性准则和渴望水平准则等几种,决策分析的方法也完全类似。\n(四)信息的价值1、完全信息期望价值如果决策者获得的信息能够完全消除决策中的不确定性,那么这种信息就称为完全信息。拥有完全信息的最大期望收益就称为完全信息期望收益,它就是客观环境各种可能状态的最大收益的期望值。完全信息期望收益与决策者仅掌握客观环境可能状态的先验概率分布的期望收益之差,就称为完全信息期望价值,为:\n(四)信息的价值2、样本信息期望价值由于客观环境的随机性,实践中要获得完全信息是不可能的。然而,通过抽样观测获得样本信息则是可能的。将样本信息与先验信息结合就给出了客观环境可能状态的后验概率分布。因此,用后验概率条件下的最大期望收益与先验概率条件下的最大期望收益相减,就可以计算出样本信息的价值,称为样本信息期望价值,记作EVSI,其计算公式为:\n(四)信息的价值3、抽样期望净得益样本信息期望价值是决策者取得样本信息后期望收益的增加价值,决策者是否要进行抽样调查或实验观测以取得样本信息,取决于样本信息期望价值和取得样本信息的费用二者大小的比较,只有当取得样本信息的费用小于样本信息期望价值时,决策者才会去进行抽样调查或实验观测取得样本信息。样本信息期望价值与取得样本信息的费用之间的差额,称为抽样期望净得益。记取得样本信息的费用为CS,则抽样期望净得益的计算公式为:ENGS=EVSI-CS\n(五)敏感性分析对最优方案的稳定性即可靠性进行分析,称为敏感性分析,就是分析客观环境可能状态出现概率的变化对最优方案的影响。敏感性分析通常所用的方法是先根据客观环境各种可能状态的损益值计算出引起最优行动方案改选的转折概率,然后再将实际估定的概率与此转折概率比较,根据二者差距的大小来判断所选最优行动方案的稳定性。\n第十一章统计指数一、统计指数的概念与种类二、总指数的编制方法三、指数因素分析\n一、统计指数的概念与种类统计指数简称为指数,有广义和狭义两种概念。在统计总体中,若所考察的数量在各个个体上的计量单位相同,且其数值可以直接相加,则称该数量是同度量的;否则,就称该数量是不同度量的。广义的指数,就是指反映任意一种数量集合在不同时间或不同空间上相对比率的指标;狭义的指数,则仅指反映不同度量的数量集合在不同时间或不同空间上相对比率的指标。\n一、统计指数的概念与种类(一)按指数包括范围分类1、个体指数2、总指数(二)按指数反映内容分类1、价值类指数2、物量类指数3、物价类指数(三)按指数对比基准分类1、时间指数2、空间指数\n二、总指数的编制方法(一)综合指数综合指数就是将各个个体在不同时间或不同空间上的数量分别总和,然后相对比所得到的总和相对比率指标。综合指数是总指数的基本形式,其编制方法则是编制总指数的基本方法。\n(一)综合指数1、同度量总体的综合指数——直接加总对比若所考察的各个个体数量是同度量的,则可直接加总其数值,将两个不同时间或不同空间的总和数值相比所得比率即为所求的综合指数。如销售额指数:\n(一)综合指数2、不同度量总体的综合指数——编制规则:先同度量化,再加总对比。(1)寻找同度量因素的规则——同度量因素与指数化因素的乘积必须是一个同度量的指标。例如,销售量*价格=销售额,故销售量与价格可互为同度量因素。在物量总指数中,销售量是指数化因素,价格是同度量因素;而在物价总指数中,价格是指数化因素,销售量是同度量因素。(2)同度量因素的使用规则——在总指数中,分子与分母的同度量因素必须同一固定。\n(一)综合指数3、常用的不同度量总体综合指数公式(1)拉氏指数(2)派氏指数\n(一)综合指数3、常用的不同度量总体综合指数公式(3)杨格指数(4)马埃指数\n(一)综合指数3、常用的不同度量总体综合指数公式(5)费暄理想指数\n(二)平均指数所谓平均指数就是将各个个体指数进行综合平均而得出的综合比率指标,即平均比率指标。对各个个体指数进行综合平均,常用的平均方法有算术平均与调和平均两种。由于各种商品的重要程度不同,所以不论采用何种平均方法,都应进行加权平均。又由于综合指数是总指数的基本形式,所以平均指数的权数一般均按照综合指数的变形形式给出。\n(二)平均指数1、算术平均指数(1)基期价值额权数算术平均指数(2)基期价值额比重权数算术平均指数\n(二)平均指数2、调和平均指数——现期价值额权数\n(三)各种指数公式之间的关系1、拉氏指数与派氏指数的关系记vp为物价个体指数的标准差系数,vq为物量个体指数的标准差系数,rpq为物价个体指数和物量个体指数的相关系数,则就有:该关系式表明,当物量变动与物价变动呈正相关时,派氏指数计算结果大于拉氏指数;当物量变动与物价变动呈负相关时,派氏指数计算结果小于拉氏指数。\n(三)各种指数公式之间的关系2、费暄指数与拉氏及派氏指数的关系3、马埃指数与拉氏及派氏指数的关系\n(四)各种经济指数的编制1、市场物价指数——主要有工业品出厂价格指数、农产品生产价格指数,社会商品零售物价指数、居民消费价格指数、固定资产投资价格指数、房地产价格指数、等等。2、社会生产指数——主要有国内生产总值指数、农业总产值指数、工业总产值指数、建筑业总产值指数、等等。3、证券价格指数——如各种股票价格指数等。4、进出口贸易指数——有进出口总额指数、进出口单位价值指数和进出口数量指数三种。\n三、指数因素分析(一)两因素指数因素分析若某个指标可表示成两个因素乘积之和,就可对其变动进行两因素指数因素分析。如:销售额=∑商品销售量×价格总产值=∑产品产量×价格总成本=∑产品产量×单位成本\n(一)两因素指数因素分析1、价值额指标的两因素分析(1)指数关系体系(2)增长额关系体系\n(一)两因素指数因素分析2、平均指标的两因素分析(1)指数关系体系(2)增长量关系体系\n(二)多因素指数因素分析1、同度量总体多因素分析(1)指数关系体系变换得:(2)增长量关系体系\n(二)多因素指数因素分析2、不同度量总体多因素分析如:原材料费用总额=∑产品产量×原材料单耗量×原材料价格(1)指数关系体系(2)增长量关系体系\n第十二章综合评价一、综合评价的意义和程序二、综合评价的方法三、社会经济发展水平的综合评价\n一、综合评价的意义和程序(一)综合评价的概念所谓综合评价就是对总体或样本中各个个体多方面的特征的综合比较。其基本方法是将反映每个个体的各个方面特征的多个指标综合为一个可概括全面且便于比较的综合指标,以反映其综合水平,并将每个个体的综合指标值按大小顺序排队得到各个个体综合水平的顺序名次。(二)综合评价的作用综合评价方法在世界各国社会发展水平的比较中以及在各地区、各企业、各单位之间综合评比中,都有着十分广泛的应用。\n一、综合评价的意义和程序(三)综合评价的种类——单级综合评价和多级综合评价(四)综合评价的程序1、构建评价的指标体系2、各评价指标无量纲指数化处理3、构建综合评价指标的合成模型4、计算各个个体的综合评价指数值\n二、综合评价的方法(一)观测指标无量纲化方法对评价指标体系中各个观测指标的无量纲处理,就是通过某种变换将各个观测指标的计量单位消掉并使其数量级统一的变换过程。实践中常用的无量纲处理方法主要有标准化变换方法、规格化变换方法、功效系数方法、指数方法、秩次方法和分段打分方法,等等。\n(一)观测指标无量纲化方法1、标准化变换方法记观测变量xi在第j个个体上的观测值为xij,该变量在全部个体上的平均值为,标准差为si,则标准化变换公式为:标准化变换后的指标zi,其全部n个个体的均值为0,方差为1。\n(一)观测指标无量纲化方法2、规格化变换方法记观测变量xi在各个个体上的最小观测值为xmin,最大观测值为xmax,则规格化变换公式为:规格化变换后的指标值都在0和1之间。\n(一)观测指标无量纲化方法3、功效系数变换方法若根据所研究对象的特点能事先确定出评价指标的满意值x(h)和不允许值x(s),则可采用功效系数变换方法,其变换公式为:\n(一)观测指标无量纲化方法4、指数化变换方法若将所要评价的总体中的某个个体作为标准,其余各个个体的观测指标数值都与该个体的数值对比,计算出指数,则可实现无量纲化。记标准个体的观测指标值为xi0,则指数化变换公式为:\n(一)观测指标无量纲化方法5、秩次变换方法这种变换方法是先将评价变量的各个观测值按大小顺序排列,然后取各个个体观测值的位次即秩次来代替原观测值,从而消除各个评价变量的计量单位并统一数量级。经过秩次变换后,每个评价变量的取值都在1~n之间,其最大值为n,最小值为1。在秩次变换过程中,如有若干个体在某个评价变量上的取值都相同,则可将这些个体的秩次都取定为它们所占秩次的平均值。\n(一)观测指标无量纲化方法6、分段打分变换方法这种方法是先将评价变量在各个个体上的观测值按大小顺序排列,并将其划分成若干个互不重叠的区间,然后每个区间给定一个分值。例如,按照变量值从小到大的顺序,各个区间依次给定分值为1,2,3,……。\n(一)观测指标无量纲化方法7、逆指标和适度指标的处理方法所谓逆指标是指数值越小越好的指标,如单位产品的成本等;所谓适度指标是指数值太大或太小都不好而只有适度才好的指标。对于逆指标,各种变换可作反方向处理;对于适度指标,可先确定出指标的最佳值,然后从最佳值处将该指标分作两部分,数值小于最佳值的一部分按正指标进行变换处理,数值大于最佳值的一部分按逆指标进行变换处理。\n(一)观测指标无量纲化方法8、百分制与十分制的处理在实践中,人们习惯于按百分制或十分制对所评价总体中的各个个体进行评分综合排队。为了将无量纲变换后的指标换算成百分制或十分制分数,可将上述各变换公式乘以100或10。有时候综合评价的方法不允许各个评价指标出现0值和负值或者要求其值不低于某数,这时可在上述各变换公式中加上一个正值的常数项,使变换后的最小分值为正。\n(二)评价指标的合成方法对于各个评价指标进行合成,就是将无量纲化变换后的各个指标按照某种方法进行综合,得出一个可用于评价比较的综合指标。实践中最常用的合成方法主要有总和合成法、乘积合成法和混合合成法三种。\n(二)评价指标的合成方法1、总和合成法简单总和合成法加权总和合成法简单算术平均法加权算术平均法\n(二)评价指标的合成方法2、乘积合成法简单乘积合成法加权乘和合成法简单几何平均法加权几何平均法\n(二)评价指标的合成方法3、混合合成法——将总和合成法与乘积合成法结合起来构造出综合评价合成模型。可有各种不同的结合方法为:\n(三)权数的确定方法1、专家评定法为了提高各评价指标权数确定的准确程度,综合评价往往需要聘请评价对象所属领域若干专家对各个评价指标的重要程度进行评定,给出权数。一般程序先是由各个专家单独对各评价指标的重要程度进行评定,然后由综合评价的人员对各个专家的评定结果进行综合。这种方法也称为德尔菲(Delph)方法。\n(三)权数的确定方法2、层次分析法层次分析法是通过各种评价指标两两相互比较确定出各自的相对重要程度,然后通过一定的客观运算来确定各评价指标权数的方法。层次分析法的程序有三(1)两两指标比较,建立判断矩阵;(2)根据判断矩阵,计算权数向量;(3)对判断矩阵和计算结果进行一致性检验。\n(三)权数的确定方法2、层次分析法(1)两两指标比较,建立判断矩阵。将综合评价指标体系中的各个评价指标两两进行比较,建立起评价指标体系中各评价指标之间相对重要程度的判断矩阵,记该判断矩阵为A,则有:A=(aij)m×m其中元素aij为评价指标zi对评价指标zj相对重要程度的比例标度,一般采用评分的方法给出。\n(三)权数的确定方法2、层次分析法建立判断矩阵的评分规则:①若zi与zj同样重要,则取:aij=1,aji=1;②若zi比zj稍微重要,则取:aij=3,aji=1/3;③若zi比zj明显重要,则取:aij=5,aji=1/5;④若zi比zj强烈重要,则取:aij=7,aji=1/7;⑤若zi比zj极端重要,则取:aij=9,aji=1/9;⑥若zi与zj比较,二者的相对重要性介于上述各相邻判断之间,则取:aij=2,4,6,8;aji=1/2,1/4,1/6,1/8。\n(三)权数的确定方法2、层次分析法(2)根据判断矩阵,计算权数向量。记判断矩阵中各行元素的几何平均数为:则各个评价指标的重要性权数为:\n(三)权数的确定方法2、层次分析法(3)对判断矩阵进行一致性检验。①何为一致性?若A>B,B>C,且A>C,则为一致;若A>B,B>C,但A
查看更多