《基本统计学》ppt课件

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

《基本统计学》ppt课件

DOE培训\nContent基本统计学假设检验简介均值比较一般线性回归分析实验设计简介2k因子实验设计简介23全因子实验部分因子设计响应曲面法DOE案例\n课程安排第一天上午课程介绍数据的分类:离散数据和连续数据参数和统计量:位置的测量和变异的测量正态分布及检验方法假设检验:零假设和备选假设 (Ⅰ类和Ⅱ类错误)下午课程回顾检验单个总体均值是否等于目标值检验两个总体均值是否等于目标值检验两个以上总体均值是否等于目标值一般线性回归方法具有影响的数据点:界外点和杠杆点第二天上午课程回顾实验设计步骤和实验设计类型2k全因子设计:交互作用和因子主效果部分因子设计:筛选设计部分因子设计:别名关系和分辨率部分因子设计:折叠设计和饱和设计下午课程回顾RSM法简介DOE案例分析课程总结考试\n例1这里有27个球,其中有且只有一个球质量为9克,其它26个都为10克。给你一架天平,请找出重为9克的那个球。请问,你至少要称几次?\n例2这里有9框球(每框100个),其中有且只有一框里的球质量全为9克,其它8框里的球都为10克。给你一架天平,请找出里面的球重为9克的那个框。请问,你至少要称几次?\n实验设计DesignofExperiment为什么要进行试验设计?==>我们要进行试验设计!\n实验设计的意义:应用数理统计学的基本知识,讨论如何合理地安排试验、取得数据,然后进行综合科学分析,从而尽快获得最优组合方案。在工程学领域是改进制造过程性能的非常重要的手段。在开发新工序中亦有着广泛的应用。在工序开发的早期应用实验设计方法能得出以下成果:1.提高产量;2.减少变异性,与额定值或目标值更为一致;3.减少开发时间;4.减少总成本;实验设计的意义及其优点\n试验设计在生产/制造过程中的位置生产/制造过程可控制因素不可控制因素資產ProcessXYY=f(x)建模过程DOE被看作一个以总成本最低,获得卓越品质的方法。\n分析方法DOE有两大技术支柱试验规划均分设计等因子设计响应面设计极差分析等方差分析多元回归分析\n1.基本统计学\n目录数据分类计量型数据位置的测量/中心趋势变异(散布)的测量Minitab中描述正态分布及检验\n数据的分类数据是来自观察的,由一个过程搜集得来的数据可让我们描绘过程、了解过程、改善过程甚至控制过程。数据在过程改善中的重要性。数据分为计数型和计量型两类。\n类型数据测量数据名目型连续型顺序型计数型离散型数据变量数据\n计量型数据“连续数据”(又称计量数据):用连续坐标进行测量并得出的数据,或者说,用测量仪器或量具测量出的可以连续取值的数据类型,可以无限细分。离散数据:1)计数:只能统计出现,没有出现的统计不出2)离散的属性(均可统计出):(出现,未出现);(正面,反面),百分比计量型数据和计数型数据都有什么优缺点?数据分类定义\n小组讨论计量型和计数型数据的优缺点?数据类型计量型数据计数型数据优点1)能够为使用相对小范围抽样的过程提供详细的信息2)适用于低缺陷率3)能够预估计发展趋势和情况1)容易得到数据,并且计算方法简单2)数据容易理解3)数据随时可得缺点1)不易得到,依测量工具获得2)分析更为复杂1)无法显示缺陷怎样发生及过程如何变化(如身高直方图)2)不适合低缺陷(需大量抽样)3)不能预测发展趋势和情况属性1)连续数据2)通常为正态分布3)实际数值4)数据定义严格5)需少量抽样1)计数数据2)通常为二项式分布后泊松分布3)合格/不合格4)数据定义较差5)需大量抽样\n计数型数据的转化计数型数据可以转化成计量型数据计数型数据计量型数据\n数据分类例题题目数据类型(A-计数型,V-计量型)顾客平均消费,电话待机时间(V)ZIPdrive中发生S/W冲突(A)职员-张三,李四,老五(A)支出与预算相符(A)输入支出费用的时间(V)支付晚到(V)板材次品数(A)产品周期(V)要返工的报表百分数(A)报表中的错误(A)\n对数据的认识水平没有数据,也没有经验-只有观点没有数据,只有经验搜集了数据,但只看数据多少分组的数据-图表描述性统计数据-中数,标准差等推理性统计-预测过程绩效:能力分析,回归和实验计划法\n计量型数据学习目的1)利用数据的分布形状,中央趋势和变异大小进行特性化2)如果数据是正态分布的,计算Z值,利用Z值确定超出某一数值的比例\n统计学基本术语总体:想要测量对象的全体参数:用总体的数据计算出的数值(如均值,标准差),称为总体的参数样本:从总体中抽出的部分数据统计量:用样本的所有数据计算的数值(如均值,标准差),称为样本的统计量整体:1)以制造或将要制造对象的全体集合,用所关注的特性描述2)我们究竟能否知道真正的整体参数样本:1)统计研究中实际测量的目标组2)样本通常是整体的子集参数统计量均值µ方差σ2S2标准差σS比例πp\n描述计量型数据集一组计量型数据能显示以下三个特性:1)中央趋势(均值,中值,众数,四分值)2)变异(全距(range),标准差,方差,四分值极差)3)形状\n位置测量-中心趋势均值中值众数四分值\n均值样本均值总体均值注:所使用的符号!\n均值的特性1)均值的计算使用了每个观测值;每个观测值对均值都有影响2)所有观测值对均值的偏差的总和为零3)均值对极端值很敏感,极端值会导致均值向他偏移\n中值将一组观测值按大小顺序排列,位于中心点数值即为中值注:1)若观测值的个数为偶数,则中值为中间两个数值的平均值;2)若观测值的个数为基数,则位于中心点数值即为中值。优点:不受极端大或极端小的观测值的影响\n众数定义:样本中出现次数最多的观测值众数可以是唯一的,也可以是不止一个,有时并不存在众数。当观测值为分类式(如名义数据,序列数据)时,众数是描述数据位置的最好指标(例如一个公司员工收入的众数)众数的重要信息:当众数不止1个时,从中抽取样本通常来自于多个总体的混合。\n四分值定义:将一组按大小顺序排列的数据平分为四部分,分界点即四分值第一四分值,约25%的观测值小于它,用Q1表示第二四分值,约50%的观测值小于它,即中值,用Q2表示第三四分值,约75%的观测值小于它,用Q3表示注:四分位不一定是一个值,或不一定有数值,这时候需要求最邻近的两个数的平均值。例:214,216,245,252,454,624,720,816,942,1216,1296,1392,1448,1542,2856,3192,3528,3710,请确定三个四分值。\n散布的测量(变异)极差方差标准差四分值极差\n极差样本极差为样本中最大值和最小观测值之间的差别极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息\n极差考虑以下的2个样本:{10,20,50,60,70,90}{10,40,40,40,90}第二个样本的变异只是2个极端值的变异,而在第一个样本,中间的数值也有相当大的变异。当样本量较小(n≤10)时,极差丢失信息的问题不是很严重。\n方差与标准差若X,X,…,X是一个具有n个观察值得样本,则样本方差为:注:当样本数小于30时,采用该公式;当样本很大时(n>30),(n-1)取n样本标准差是样本方差的算术平方根,即:\n方差与标准差总体方差:类似于样本方差s2,用总体的所有数据计算出总体变异-总体方差σ2,总体标准差是总体方差的算术平方根\n方差特性方差计算使用了所有观察值,每个观测值对方差都有影响方差对极端值很敏感,因平方的缘故,极端大的观测值会严重地放大方差\n四分值极差四分值极差是测量散布的另一个指标IQR=Q3-Q1四分值极差不如极差对极端值敏感当分布不显著对称时,用它衡量散布会更好{10,20,50,60,90}{10,40,40,40,90}四分值极差分别是40和0\n参数和统计量计算方式1.EXCEL2.手动计算3.minitab(统计》基本统计量》显示描述性统计量)打开文件basicstat.mtw,第一列有30个产品品质特性的测量值,确定其统计量。\n正态分布正态分布是一种具有特定的、非常有用的特性的数据分布。这些特性对我们理解所研究之过程的特性十分有用\n特性1:只需要知道两项参数就可以完整描述正态分布(均值和标准差)特性2:曲线下的面积可用来估算某一特定事件发生的累积概率当一组数据不是最理想正态分布时,特性2累积概率规则仍可应用比较理论(理想)正态分布和经验(现实)分布标准差数目理论正态经验正态+/-1σ68%60-75%+/-2σ95%90-98%+/-3σ99.7%99-100%±6σ…………(3.4PPM)?0.002PPM\n正态分布特点-3σ-2σ-1σ01σ2σ3σ68%95%99.73%标准差σ均值\n鉴于许多过程输出都是呈正态分布,所以可以用正态曲线的特点预测过程对象总体即使非正态数据也能转化成正态数据,所以正态曲线的特点仍然可以用来做预测(常用的变换有y=lnx,y=x-1,y=x2,y=x1/2)\n正态分布变换-例题从一个总体抽取了50个样本,给定上公差限为100,求超过的概率?见数据:zhengtai.mtw\n正态检验三种正态检验的方法1)minitab法:统计》基本统计量》正态性检验2)minitab法:图形》概率图3)计算Z值数据文件:Normaltest.mtwP值理解:如果数据是正态的,p数值是得到特定抽样的概率如果数据确定来自正态对象总体,p数据<0.05代表得到特定抽样的几率(小于5%),因此如果数值p<0.05代表该数据为非正态。\n标准正态分布标准正态分布也叫Z分布,具有下列参数µ=0,σ=1Z代表距离均值的标准差的数量,即代表从均值到Z能达到(容纳)多少个标准差(物理意义:研究值是标准差的几倍)-3σ-2σ-1σµ1σ2σ3σ\nZ分布的理解Z分布是评价过程能力的指标,它与过程的不合格品率p或DPMO是一一对应的。它具有以下表达方式:仅有单侧上规范限时:仅有单侧下规范限时:双侧规范限时:Z是标准正态分布中对应分位点,如右图所示,通过查标准正态分布表,可以得到在此西格玛水平Z下的合格率或缺陷率。(利用Z值表可以得到相应的概率)pZ\n标准正态分布-例题120406080100120140关于实验员走调令的时间。(平均为80天,标准差为20天)利用Z值表计算:有多少是分布在40-120天之间?135天以上的概率?\n小结数据类型统计学基本术语位置测量(中心趋势)散布的测量(变异)正态分布及检验\nThanks!
查看更多

相关文章

您可能关注的文档