应用统计学.基础复习

2022-08-24 发布 |
37.5 KB |
53页

申明敬告： 本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

应用统计学.基础复习

统计学BASIC第一章绪论第一节研究对象1统计学1.1统计学分为数理统计与应用统计，1.2应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等…1.3心理统计分为描述统计、推论统计、研究设计。2.推论统计2.1推论统计常用于从局部数据估计总体情况。例：6岁儿童的男女身高差异问题的研究。从某地区随机抽取男生30人，平均身高为114cm；女生27名，平均身高为112.5cm。能否根据这一次测量的结果下结论：6岁男生的身高比女生高？2.2心理与教育类实证研究的结果，基本上都不能直接得出结论，而需要运用推论统计。第二节为什么要学习统计学一、发现随机现象的运动规律二、贯穿整个心理学研究过程的方法与技术三、心理学研究资料分析的技术四、“行话”——方便交流、阅读与撰写五、心理学专业的应用技术之一第三节基础概念一、总体、样本和个案例：关于汽车限行制度，想了解A城市民对此事件的态度调查对象：所有A城市民调查目的：赞成vs.反对，各自的比例可以去问所有的A城市民吗？è不可能，只能问其中一部分，并根据该部分的观点来了解永川市民的总体观点二、统计量（特征量）和参数（一）总体的特性称为参数,用希腊字母表示;样本的特性称为统计量,用英文字母表示（二）统计量（特征量）和参数统计指标统计量参数平均数标准差相关系数回归系数三、数据（变量）的类型（1）根据数据反映的测量水平，可分为：“称名”，特点：起名称作用，不同的数字没有大小之分（不可比较），不能加减乘除。“顺序”，特点：可比较，不能加减乘除。“等距”，特点：可比较、可加减，不能乘除。“比率”，特点：可比较、可加减乘除。u四种类型变量的数学关系比较数据类型数学关系=or≠>or<+or-×or÷-53-\n统计学BASIC称名√顺序√√等距√√√等比√√√√(2)离散数据(又称间断数据)和连续数据A.离散数据的特点：a.离散数据,变量的数值在变化上是有限的，数值与数值之间无法找到跟小单位的数值(如人数、性别、国籍等)b.离散数据的所有取值在数学上是不连续的，所有取值的数目是有限的，可以一一列举，相邻的两个取值之间不能再取中间值。c.离散数据往往只能取整数，不能无限细分。B.连续数据的特点：a..连续数据,如果技术允许，数值可以无限分割(如身高、体重等)b.连续数据是指在一定范围内连续变化、取值无限多的变量，不能一一列举。如人数是离散数据c.长度、温度、重量、时间等都是连续数据Q:心理测验或教育考试中五分制得分和百分制得分属于哪一种数据（离散or连续）？A:五分制是离散数据。一般将百分制近似地看作连续数据。Q:心理测验或教育考试中五分制得分和百分制得分分别属于哪一种数据（称名、顺序、等距、等比）？A:五分制是顺序数据。一般将百分制近似地看作等距数据。通常将量表分数也近似看作等距数据。u通常来说：称名数据和顺序数据是离散型数据（不可任何运算）等距数据和比率数据是连续型数据（可加、减）？练习：1.找出下列数据中与其他不同类的数据：A.60斤B.60升C.60米D.60辆2.通常的百分制考试分数属于（）数据3.通常将量表分数视为（）数据4.从变量水平的角度，找出下列数据中与其他不同类的变量取值A.10厘米B.10克C.10毫升D.10摄氏度²注意事项：i.数据类型：是本门课程的基础，是心理学量化研究的基础，务必烂熟于心！！ii.离散/连续：正确区分连续变量（等距与比率）与离散变量（称名与顺序），方能选用正确的统计方法。2统计图表n注意事项：统计表的标题位于上方统计图的图题位于下方n常用统计图（1）条形图è离散型data（2）圆形图è间断性data（3）线性图è连续性data-53-\n统计学BASIC（4）散点图è两列变量均为连续性data3集中量数l集中量,用来表现数据资料的典型水平或集中趋势（centraltendency）。l常用的集中量包括算术平均数、加权平均数、调和平均数、中（位）数和众数等等。3.1算术平均数l算术平均数（arithmeticaverage）一般简称为平均数（average）或均数、均值（mean）。l一般用Ｍ，或者用表示。l算术平均数是应用最普遍的一种集中量。3.1.1算术平均数的计算公式注：3.1.2平均数的性质（1）Ø即：观测值与平均数之差（称为离差）的总和为零。（2）每个观测值都加上一个常数C后，计算得到的平均数等于原平均数加上这个常数。（3）每个观测值都乘以一个常数C后，计算得到的平均数等于原平均数乘以这个常数。（4）一组数据中最小的是：Ø即：各观测值与算术平均数之差（离差）的平方和最小。3.1.3算术平均数的意义a)算术平均数是是“真值”（truescore）的最佳估计值。b)真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响，真值往往很难得到。c)在实际测量中，往往采用“多次测量，取平均数”的方法，用平均数去估计真值。3.1.4算术平均数的优缺点A.算术平均数具备一个良好的集中量所应具备的一些特点：反应灵敏;严密确定;简明易懂;适合进一步代数运算；与中位数、众数相比，受抽样变动影响较小等等。B.主要不足：容易受两极端数值的影响；如有模糊不清的数值时，无法计算。3.1.5计算和应用算术平均数的原则a)同质性原则：算术平均数只能用于表示同类数据的集中趋势。b)平均数与个体数值相结合的原则：在解释个体特征时，既要看平均数，也要结合个体的数据。c)平均数与标准差、方差相结合原则：描述一组数据时既要分析其集中趋势，也要分析离散程度。？练习：现有原始数据96、91、88、82、80、79、74①.计算它们的算术平均数；（84）-53-\n统计学BASIC①.对每个数加以5，再计算它们的算术平均数；②.对每个数乘以5，再计算它们的算术平均数；根据以上各小题的计算结果可以得出什么规律？3.2中位数l中位数（median）又称为中数，是按顺序排列的一组数据中位于中间位置的数。l中位数是常用集中量的一种。一般用Md或Mdn表示。3.2.1中位数的计算方法首先将一组数据按顺序排列:3.2.2中位数的优缺点n中位数的优点a)中位数是根据全部数据的个数来确定其位置的，意义简明；b)对按顺序排列的数据来讲，计算中位数也比较容易；c)中位数不受两端极端数据的影响n中位数的缺点A.反应不灵敏；B.不适合进一步代数运算的要求。3.2.3中位数的适用条件i.一组数据中有极端数据时；ii.一组数据中有个别数据不确切、不清楚时；iii.当需要快速估计一组数据的代表值时，也常用中数iv.资料属于等级性质时。3.3众数n众数（mode）用Mo表示，有两种定义：a)理论众数是指与频数分布曲线最高点相对应的横坐标上的一点；b)粗略众数是一组数据中出现次数最多的那个数。n众数也是一种集中量，也可用来表示一组数据的集中趋势。3.3.1众数的计算方法A.观察法寻找粗略众数:数据中出现次数最多的数即为众数。B.公式法计算理论众数的近似值:用公式计算的众数称为理论众数。一般在心理与教育统计中常用的公式有皮尔逊的经验公式和金氏插补法公式。n皮尔逊经验公式:a)皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用。b)当数据分布呈偏态时，一般用金氏插补法计算众数。？练习:对于下列数据，使用何种集中量数表示集中趋势，其代表性更好？并计算出来。4、5、6、7、29（中数6）3、4、5、5、7、5（众数5）2、3、5、6、7、8、9-53-\n统计学BASIC第三节差异量数1.变异性（variability）：反映数值与数值之间的不同。例如：第一组数据7，6，3，3，1第二组数据3，4，4，4，5具有与之相同的均值(4)，但变异性呢？第三组数据4，4，4，4，4根本没有变异性——数值之间无差异，但和前面两组具有相同的均值。2.变异性（离散程度、离散度、离中趋势）可被视为：对不同数值之间的差异性的测量。2.1更精确地说：把变异性看作一组数据中每个数值与特定值的差异程度。通常来说，这个“特定值”就是均值。因此，变异性可看作一组数据中每一个数值与均值的差异性的量数。3.1集中量数（典型性/代表性），一组数据的代表数值3.2差异量数（变异性/离散度），不同数值和一个数值的差异性3.3集中、差异量数可共同用于描述数据分布的特征，并说明数据分布的差异第二章数据的图表描述与特征量Ø引子某研究者得到以下两组成绩：①.两组分数是否一样？为什么？②.哪组均值的代表性更好？为什么？一、全距、平均差和四分位差（一）全距（range）：（二）平均差（averagedeviation），常用AD表示。？练习：1.条形图是以条形的长短表示各事物间数量的大小与数量之间的差异情况，主要用于表示（）数据资料2.用SCL-90调查某地区500名不同职业（工人、教师、公务员和商人）人员的心理健康状况，现得到他们的均值分别为110，112，122，145，问：①.该研究中的职业类型属于（）数据②.每个人心理健康的得分属于（）数据③.是否可直接得出结论：该地区心理健康测试得分：“商人>公务员>教师>工人”3.直方图，主要用于表示（）数据资料4.直条图，主要用于表示（）数据资料5.要表明各个部分在总体中所占的比重（百分比），通常用（）图?6.什么是离差？7.一组数据的离差和等于多少？-53-\n统计学BASIC²负偏态和正偏态均数<中位数<众数众数<中位数<均数？练习：一位教师计算了全班60个同学考试成绩的均值，中数和众数，发现大部分同学的考试成绩集中于高分段。下面说法不可能正确的是?A.全班65%的同学的考试成绩高于均值B.全班65%的同学的考试成绩高于中数C.全班同学的考试成绩是负偏态分布(三)四分（位）差i.又称四分位距，常用Q表示。ii.剔除掉整组观测值中最高的1/4和最低的1/4的数据，然后计算中间的一半数据的全距，再除以2而得到。lQ2正好是中位数lQ1,Q2和Q3分别被称为第一、第二和第三四分位数。练习：计算过程：二、方差与标准差（一）定义A.方差（又称为变异数、均方）。是表示一组数据离散程度的统计指标。一般样本的方差用表示，总体的方差用表示。-53-\n统计学BASICB.标准差（standarddeviation）是方差的算术平方根。一般样本的标准差用S表示，总体的标准差用表示。C.标准差和方差是描述数据离散程度的最常用的差异量。?练习：?练习：试估计49、50、51的均数和标准差。（三）标准差的性质Ø标准差的性质1：每个观测值都加一个相同的常数C后，计算得到的标准差等于原标准差Ø标准差的性质2：每个观测值都乘以一个相同的常数C后，计算得到的标准差等于原标准差乘以这个常数Ø标准差的性质3：每一个观测值都乘以一个相同的常数C（C≠0），再加上一个常数d所得的标准差等于原标准差乘以一个常数？练习：已知一组数据6，5，7，4，6，8的标准差是1.29，把这组数中的每一个数据都加上5，再乘以2，得到的新数据组的标准差是（）。A1.29B6.29C2.58D12.58（四）方差与标准差的意义标准差度量的是观测值与平均数间的平均距离。-53-\n统计学BASIC∴S=0代表观测值完全没有散布（全都在同一点），否则必然有S﹥0。当观测值离平均数散布得越远，S就越大。²比较：平均数与标准差的性质？练习1.由于记分错误，在一个心理课程的期末考试中每一个考试分数都被加上了10分。这个错误对于平均数和标准差分别有什么影响？2.计算下面数列的标准差：1）20，1，2，5，4，4，4，02）5，5，5，5，5，5，5，5，5，5(五)标准差的应用典例：一个班级男生身高的平均数是1.75米，标准差是0.10米；体重的平均数是60千克，体重的标准差是5千克,问身高和体重哪个差异大？答：单位不同，不能比较典例：同样是跳远，大学生的平均成绩是4米，标准差为0.3米；一年级学生的平均成绩是1米，标准差为0.3米，这两个差异是一样大小吗？答：显然也不是，因为大学生成绩的相对差异比较小，而小学生成绩的相对差异比较大。1.差异系数（1）当两组或几组数据资料单位不同时，不能直接用标准差来比较离散程度的大小；（2）当两组或几组数据资料单位相同时，但它们的平均数相差较大时，也不能直接根据标准差来比较它们的离散程度；Ø应用：（1）比较测量单位不同事物的差异程度；一个班级男生身高的平均数是1.75米，标准差是0.10米；体重的平均数是60千克，体重的标准差事千克问身高和体重哪个差异大？（2）比较单位相同，均数悬殊者例：初三甲乙两班的数学平均成绩分别为92和71，标准差分别为8.95和7.40。试问两班成绩谁的差异程度大一些？第四节地位量数l百分位数l百分等级数-53-\n统计学BASICQ2正好是中位数Q1,Q2和Q3分别被称为第一、第二和第三四分位数。如果将数据分为100段，Q1,Q2和Q3分别被称为第25、第50和第75百分位数。一、百分位(分)数定义：团体分数高低排序，计算某个百分位数位置所对应的数值（观测值）。表示在该次数分布中，有20％的个案低于6060就是该组数据的第20个百分位数表示在该次数分布中，有75％的个案低于25表示在该次数分布中，有30％的个案低于55？练习：李芳数学成绩班上排名15，你能对此成绩进行评价吗？为什么？李芳数学成绩45分，你能对此成绩进行评价吗？为什么？二、百分等级(分)数定义：是百分位数的逆运算。符号：例：小张某次考试成绩为85分，且PR=90含义是：此次考试有90%的人的成绩低于85分或此次考试中有10%的人成绩高于小张？练习：设某次考试人数为10000名，其中有6895人的成绩低于80分，请确定卷面80分这个成绩的百分等级。卷面80分是一个什么地位量数，怎么读？含义是什么？Ø引子：概率Probability例：①.你买彩票中500万的机会很小(接近0)，但有人中大奖的概率几乎为1②.你被流星击中的概率很小(接近0)，但每分钟有流星击中地球的概率为1③.今天你被汽车撞上的概率几乎是0，但在地球每天发生车祸的概率是1第三章随机事件与概率分布背景知识l心理学研究要分析的数据具有不确定性l只能在一定程度上用样本统计量去估计总体参数，并对这种估计的把握度进行分析说明l把握度：用概率指出做出某种推断，其正确或犯错误的百分比-53-\n统计学BASIC第一节随机事件一、随机现象和随机事件（一）随机现象1.什么是随机现象2.随机现象的特点：偶然性、规律性偶然性VS.规律性——死亡的概率l我们能预测特定的人明年会死亡吗？如果我们观察好几百万人呢？l据美国国家卫生统计中心，20-24岁的男性当中，在任一年中死亡的比例大约是0.0015。同年龄层的女性，死亡概率大约是0.0005。（正因为男性理赔的比例要高一些，所以保险费会收得多一点）(二)随机事件(Randomevents)例：请判断下列事件是属于事件之和or事件之积：共8个题目，6个选择，2个判断，随机从中抽出一个题①.从中抽出选择题或判断题是属于事件之（和）②.计算从中抽出选择题或判断题的概率是属于（互不相容）事件?练习：请判断下列事件是否属于独立事件①.抛一枚硬币然后再掷一个骰子（独立）②.起床太晚和准时上课（非独立）③.认真学习和拿奖学金（非独立）？练习：1.判断题：被闪电击中的概率大于在一次彩票中500万的概率。2.Person相关系数是用哪个人的名字命名的A.KarlMarxB.CarlFriedrichC.KarlPersonD.MarioTriola？练习：如果一个人随机猜测这两个答案同时猜对两题，是属于事件之（）计算同时猜对两题的概率，是属于（）事件例：-53-\n统计学BASIC假设从2223名登上泰坦尼克号的乘客中随机选出1人，思考下列问题：计算P(选出一个man或一个boy),是属于事件之（），是属于（）事件提示：计算P:（1692＋64）/2223＝1756/2223？练习：①.将一枚硬币抛三次，得到的全部是国徽的概率是多少？②.如果从一组包含10名男性和15名女性的组中没有放回地随机选出3个不同的人，则选出3名男性的概率是多少？（提示：10/25*9/24*8/23）二、随机事件的概率对随机事件的观测或试验可能有多种结果?不仅想知道有哪些可能的结果，还想知某些结果出现的可能性的大小。这一可能性用数字来表示就是概率（一）频率与概率a)频率是大量试验的结果，随试验次数变化的值b)概率是一个确定值c)试验次数越多，频率将无限接近于概率d)频率是事件发生的外在表现，概率体现事件发生的内在实质。²频率与概率间的关系：A.样本频率总是围绕概率上下波动B.样本含量n越大，波动幅度越小，频率越接近概率。？练习：下面这些值中，不是概率的有那些？0，1，-1，2，0.0123，3/5，5/3Ø说明：随机变量例：每次抛两个硬币，记录正、反面结果；结果可记录为：硬币1正面朝上，硬币2正面朝上；2个正面硬币1正面朝上，硬币2反面朝上；1个正面硬币1反面朝上，硬币2正面朝上；1个正面硬币1反面朝上，硬币2反面朝上；0个正面正面出现的次数就是一个随机变量，记为x，我们通常对x的每个取值的概率感兴趣。对于本例，x的取值为0、1、2。Ø说明：离散型随机变量与连续型随机变量①.离散型随机变量：数据间有缝隙，其取值可以列举。例如：抛硬币10次，正面的可能取值x为0、1、2、3、4、5、6、7、8、9、10②.连续型随机变量（continousrandomvariable）数据间无缝隙，其取值充满整个区间，无法一一列举每一可能值。例如：身高、体重、百分制考试成绩三、概率分布（probabilitydistribution）概率分布：描述随机变量值及这些值对应概率的表格、公式或图形。l离散型随机变量概率分布l连续型随机变量概率分布例：离散型随机变量的概率分布：-53-\n统计学BASIC例：离散型随机变量的概率分布：u连续型随机变量的概率分布u变量的取值充满整个数值区间，无法一一列出其每一个可能值。u一般将连续型随机变量整理成频数表，对频数作直方图，直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。u如果样本量很大，组段很多，矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下，可采用一个函数拟合这一光滑曲线。Ø引子：常用的概率分布离散型随机变量分布：二项分布、泊松分布连续型随机变量分布：正态分布第二节（一）二项分布毒性试验：白鼠死亡——生存临床试验：病人治愈——未愈回答题目：判断题答对——答错事件成功（A）——失败（非A）这类“成功─失败型”试验称为Bernoulli试验-53-\n统计学BASIC例：一位心理学家想了解儿童对于某种材料的再认能力。设计了10个记忆项目，先让儿童识记，然后进行再认测验。结果儿童能正确再认5个项目。请判断：该儿童对这种材料究竟有没有再认能力。答：10个项目认对了50％，完全可能是瞎猜的结果。可以认为该儿童对于这种材料完全没有什么再认能力。思考：认对多少个项目才算有再认能力呢？6个？7个？……u作为研究者，不能凭感觉说话。u要研究类似上述问题有没有数量规律性，以便找出一个数字标准：超过这个标准，就认为有再认能力，未达到这个标准，就认为没有再认能力。（二）二项试验必须满足以下条件：l这个过程包括一个固定次数的试验。l每次试验的所有结果都可以分为两类；l各次试验相互独立（即任何一次单独试验的结果都不影响其他试验中结果的概率）；l各次试验中概率必须是常数（即成功的概率恒定，失败的概率也恒定）。例：114查号台声称，当用户查询电话号码时，90％的情况下会得到正确的电话号码。假设回答的正确率为90％，假如我们想在5次查询中有3次回答正确的概率。（1）这个过程是一个二项分布吗？（2）如果这个过程的结果是一个二项分布，请说明n,x,p和q的值。解答：ü试验次数5是固定的；ü5次试验是独立的，使用的是不同的电话号码，接线员也不同；ü5次试验中的每个试验都有两类结果：要么对，要么错；ü5次试验中的每个试验，概率0.9（90％）是常数。例：假设每年9月份的降水概率为0.4。假设30天的降水次数为X，20年中9月份降水的分布即为一个二项分布。p=0.4,q=0.6,n=30;X取值[0,30]如果20年的X值分别为：15,18,11,12,11,16,14,12,10,12,13,14,13,14,12,8,9,10,12,13降水次数时间-53-\n统计学BASIC（三）二项分布函数用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数（X＝0，1…）的概率分布，叫做二项分布函数。1.二项式概率分布函数：2.二项展开式的要点：项数：二项展开式中共有n＋1项。方次：p的方次，从n→0为降幂；q的方次从0→n为升幂。每项p与q方次之和等于n。系数：各项系数是成功事件次数的组合数。²例：2道是非题的情况3道是非题的情况4道是非题的情况例：从男生占２/５的学校中随机抽取６个学生，问正好抽到４个男生的概率是多少？最多抽到２个男生的概率是多少？解：将n=6，p=2/5，q=3/5，X=4代入公式，则恰好抽到4个男生的概率为例：最多抽到２个男生的概率，等于１个也没有抽到、抽到１个和抽到两个男生的概率之和，即-53-\n统计学BASIC3.二项分布曲线u形成：以成功次数为X，组合数为Y绘制的多边图。u特点（二项分布的性质）：当时，不论n有多大，二项分布曲线都总是对称的；当时，且n相当小，图形呈偏态；当相当大（≥30）时，图形逐渐接近正态分布。4.二项分布的应用（1）求成功事件恰好出现X次的概率（2）在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。5.二项分布的平均数和标准差如果二项分布满足p＞q且nq≥5（或者p＜q且np≥5时），二项分布接近于正态分布。（应用前提）Ø可用下面的方法计算：注意——应用前提：应用——猜测性：某测验中有10道判断题，试分析学生的掌握情况或猜测的可能性。①条件分析：②求均数和标准差:③确定一定可信度时的掌握程度:-53-\n统计学BASIC④结果解释例：某测验有30个正误题，试问学生要做对多少题，才属掌握了所学的内容。例：一个教师对8个学生的作业成绩进行猜测，如果教师猜对的可能性为1／3，问：假如规定猜对95％，才算这个教师有一定的评判能力，那么这个教师至少要猜对几个学生？-53-\n统计学BASIC例：假设把一个质地均匀的硬币抛3次，这时你和朋友打赌：着地时出现“正面”会有2次，赌注为10元。如果这种结果出现了，你的朋友必须给你10元钱。谁更有可能赢呢？例：有20道四择一题，试问学生要做对多少题，才属掌握了所学的内容。思考：观察我们的生活，看看哪些现象是服从二项分布规律的？6.二项试验必须满足的条件有：a)这个过程包括一个固定次数的试验;b)每次试验的所有结果都可以分为两类；c)各次试验相互独立（即任何一次单独试验的结果都不影响其他试验中结果的概率）；d)各次试验中概率必须是常数（即成功的概率恒定，失败的概率也恒定）。7.二项(式概率)分布函数：例：从男生占２/５的学校中随机抽取６个学生，问正好抽到４个男生的概率是多少？最多抽到２个男生的概率是多少？解：将n=6，p=2/5，q=3/5，X=4代入公式，则恰好抽到4个男生的概率为最多抽到２个男生的概率：等于１个也没有抽到、抽到１个和抽到两个男生的概率之和-53-\n统计学BASIC例：一块均匀的硬币，A为正面朝上，B为反面朝上。假设n=2（抛两次），有多少可能的结果？①两次正面朝上的p？②抛不到正面朝上的p？③只有一次正面的p？④至少一次正面的p？ü什么条件下，二项分布可以近似为正态分布？n足够大的时候8.二项分布曲线u形成：以成功次数为X，组合数为Y绘制的多边图。u特点（二项分布的性质）：当时，不论n有多大，二项分布曲线都总是对称的；当时，且n相当小，图形呈偏态；当相当大（≥30）时，图形逐渐接近正态分布。9.二项分布的应用（1）求成功事件恰好出现X次的概率?（2）在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。第三节正态分布(NormalD.)一、正态分布的特征二、标准正态分布表利用积分公式可求出正态曲线下任何区间的面积，但需要计算，非常麻烦。统计学家已编制好了标准正态分布表，使其使用非常方便。（见教材后的附表）1.正态分布表的使用：-53-\n统计学BASICZ→P，P→Z，P→Y或Z→Y①Z→P求某个Z值以上或以下的面积-1.2~2.4p=0.876730.6~1.5p=0.20744求某个Z值以上或以下的面积Z=2.4以上Pp=0.0082Z=-1.2以下Pp=0.1151②P→Z查表法：近似结果P=0.80，Z=?p=.29955,Z=.84p=.30234,Z=.85③P→Y查表法：P=0.80，Y=?P=.29955,Y=.28034P=.30234,Y=.27798④PR与Z的关系例：在一正态分布中，若某人的标准分数为1，则他在该团体中的百分等级应当为a.34b.68c.84d.75三、标准分数u标准分数（standardscore）又称基分数或Ｚ分数（Z－score）是相对位置量数。u标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。u计算公式:（1）标准分数的实质:把单位不等距和缺乏明确参照点的分数转换成以标准差为单位，以均数为参照点的量表分数。（2）标准分数的优点：可比性：标准分数以团体的平均数为基准(参照点)，以标准差为单位，因而具有可比性。-53-\n统计学BASIC可加性：标准分数使不同的原始分数具有相同的参照点。明确性：标准分数较原始分数的意义更为明确。合理性：标准分数保证了不同性质的分数在总分数中的权重相同，使分数更合理地反映事实。（3）标准分数的应用：a)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。（比较测量单位不同的变量的位置）b)计算不同质的观测值的总和或平均值，以表示在团体中的相对位置。c)表示测验分数？练习：小学生A和B在毕业考试中，语文和数学两科的总分均为184。能否以此说明两人的学习水平相同？为什么？d)比较单位不同变量的位置例：例：已知该班的成绩情况如下表例：某高考中两生各科成绩如下表。ü异常值的取舍：在一个正态分布中，平均数上下一定的标准差处，包含有确定百分数的数据个数。ü在平均数上下各三个标准差的范围内，分布着全部数据的99.73%，反言之，在三个标准差之外的数据不足0.27%，因此常把“三个标准差”做为判断可疑值取舍的依据。四、正态分布表及其应用：①韦氏智商分数：②选拔性测验：在能力分组或等级评定时确定人数测验分数的正态化例：假设对100名报考大学的学生进行分班考试，要按能力将这些学生分为A、B、C、D、E五个小组（或等级），每组能力组距相等，若考试成绩所测得的分数是正态的，问A、B、C、D、E各组应当分布几名学生？-53-\n统计学BASIC分析步骤：例题：确定录取分数线（要求p/z/y中的哪一个？）某区要在2500名初三学生中选50名学生参加全市初中物理竞赛。已知该区初三上学期物理考试成绩近似正态分布，且平均数57分，标准差16分。若以这次考试为准来选拔参加竞赛的学生，分数线应定为多少？分数线是p、z还是y？分析：①求入选率：例：某次考试，学生成绩正态分布，n=200人,μ=66.78,σ=9.19,若表扬前20名，分数线应该是多少？①求入选率：例：已知某年级200名学生考试成绩呈正态分布，μ=85分，σ-53-\n统计学BASIC=10分，学生甲的成绩为70分，问全年级成绩比学生甲低的学生人数是多少？（学生人数是p、z还是y？）例：假设500名学生的数学成绩分布符合正态分布。且已知平均分70，标准差5分。试问60~80分学生的人数分布为多少？分析：已知：N=500，M=70，SD=5，（P←Z←M，SD，X）第四章抽样分布与参数估计第一节抽样分布总体分布(populationdistribution)：总体内个体观察值的次数分布或概率分布。样本分布(sampledistribution)：样本内个体观察值的次数分布或概率分布。抽样分布(samplingdistribution)：样本统计量的概率分布。一个统计量的抽样分布：从同一总体重复抽样时，统计量会有什么样的值，以及每个值出现的频率？一、抽样分布与抽样误差估计（一）抽样分布的定义（二）抽样误差：由抽样的随机性引起的样本统计量与总体参数之间的差异。-53-\n统计学BASIC².标准误定义：统计量在抽样分布上的标准差。符号：SE（StandardError）解释：SE越小，样本统计量与总体参数越接近，样本对总体的代表性越好，用样本统计量推断总体也越可靠。？练习：请问下列标准误的含义是什么？思考：试比较标准误与标准差的异同。同：都是离中趋势的指标。异：S：一般变量值（原始数据）离中趋势的指标。SE：样本统计量离中趋势的指标。二、样本平均数的抽样分布（一）抽样分布形态的影响因素：1.总体的分布形态2.样本容量的大小3.要计算的统计量（二）中心极限定律若总体正态，则从中抽取容量为n的一切可能样本的均数分布也呈正态；无论总体是否正态，只要n足够大，样本均数的分布接近正态分布。（三）自由度定义：推断统计中，变量值独立自由变动数值的数目。符号：df（degreeoffreedom）例如：现有一个n=5的样本，其样本均值为6若前4个数据可以随意确定为3，6，7，9则第五个数据必须为5，因为受到∑X=30的限制，即df=n-1其中的1表示只有一个限制因素∑X=30注意：统计方法不同，自由度算法不同-53-\n统计学BASIC（四）常用的抽样分布正态分布及渐近正态分布：t分布、F分布、1.正态及渐近正态分布总体正态，已知，样本均数分布为正态。？练习：审计师从1000份应收帐款的总体中抽取了一份容量n＝36的随机样本。该应收帐款的总体均值是，总体标准差是。（1）样本均值小于250￥的概率是多少？（2）样本均值在总体均值15￥范围内的概率是多少？2.t分布（1）定义：由小样本统计量形成的概率分布。（2）特点：对称分布曲线易变，不是一条而是一簇。n→∞时，t分布与标准正态分布完全吻合（3）t分布的使用总体正态，，n≤30时，样本平均数分布为t分布。总体非正态，，n＞30，样本均数的分布为t分布或渐近正态分布。？练习：t分布曲线与正态分布曲线的不同之处在于：A.对称性B.以横轴为渐近线C.随自由度变化而变化D.曲线下面积为1？练习：总体为正态，总体方差已知时，平均数的抽样分布为：A.t分布B.F分布C.正态分布？练习：某市随机抽取小学三年级学生60名，测得平均体重为28kg，标准差3.5kg。试问该市小学三年级学生的平均体重大约是多少？？练习：某教师用韦氏成人智力量表测100名高三学生，M=115。试估计该校高三学生智商平均数大约为多少？第二节参数估计的基本原理一、推论统计概述（一）推论统计的定义-53-\n统计学BASIC（二）推论统计的主要内容（三）统计推断的有关问题：统计推断的前提——随机抽样样本——一定的规模及代表性推断错误——一定限度二、参数估计的概念Ø引子：什么是估计？根据你拥有的信息对现实世界进行某种判断。由衣着、言谈和举止判断其……可由一个人的脸色，猜测其……统计中的估计也不例外，它是完全根据数据做出的。举例：如果我们想知道全国10岁儿童的平均身高，人们只有通过抽样调查以得到样本，并用样本数据来估计真实平均数。Ø从不同的样本得到的结论也不会完全一样。虽然真实的平均数在这种抽样过程中永远也不知道；但可以知道估计的均数和真实的均数大致差多少。三、良好点估计量的特征（1）无偏性：是指每个样本产生的估计量的取值不一定等于参数，但当抽取大量样本时，那些样本产生的估计量的均值会接近真正要估计的参数。（2）有效性：找方差最小的估计量∵方差小说明反复抽样产生的许多估计量差别不大，因此更加精确。……其他标准涉及大样本的极限性质四、区间估计的原理（置信度、可信度）（二）术语：置信区间、置信度、显著性水平、置信限-53-\n统计学BASIC1.置信区间u置信度，即置信概率，是指作出某种推断时正确的可能性（概率）。u置信区间，也称置信间距（confidenceinterval,CI）是指在某一置信度时，总体参数所在的区域距离或区域长度。（置信区间是带有置信概率的取值区间）u定义：特定可靠性下，估计总体参数所在的区间范围。u公式：2.置信度：定义：被估计参数落在置信区间内的概率。别名：置信水平、置信系数、置信概率、可信系数…3.显著性水平对总体平均数进行区间估计时，置信概率表示做出正确推断的可能性，但这种估计还是会有犯错误的可能。显著性水平(significancelevel)就是指估计总体参数落在某一区间时，可能犯错误的概率，用符号α表示。4.置信限定义：被估计总体参数所在区间的上、下界限。总结：（1.96为置信度或置信水平）²置信度是人为给定的，心理统计中常用95％和99％置信水平为95％时，置信水平为99％时，？练习：某大学大学生睡眠时间平均为6小时。有95％的把握说这个大学的学生平均睡眠时间在5到7个小时之间。(1)这里的[5,7]是什么？（置信区间）(2)95%是什么？（置信度或置信水平）-53-\n统计学BASIC影响置信区间大小的因素：、、（三）置信度与置信区间简而言之：点估计给出一个数字，用起来很方便；区间估计给出一个区间，说起来留有余地；不像点估计那么绝对。思考：置信区间与置信度的关系如何？如果选择99%而不是95%的水平。提高了置信水平，则增加了置信区间的宽度，降低了估计的精确性。要求：区间适度、置信度较高²推论统计的小概率原则：在一个已知假设下，如果一个特定观测事件的概率格外小，我们就认为，这个假设很可能是不对的。第五章平均数的差异性t检验在不同条件下测得不同的数据样本后，必须对样本数据的差异来源作出判断：该差异是否意味着他们各自所在的总体存在差异？平均数存在差异，则需要判断该差异是偶然因素引起的还是实验条件引起的第一节假设检验的原理一、（一）假设产生差异的情况：A.样本统计量与相应总体参数的差异；B.两个样本统计量之间的差异；差异性质：a)真实差异：实验条件（系统因素）引起的b)（抽样）误差：在统计上是忽略不计的，不被视为真正的差异，即偶然因素引起的u注意：A.假设检验并不是对假设的正确性做出正确的判断，而是对一个不确定问题的决策过程，其结果从概率上很有可能是正确的，但不排除错误的可能性。B.零假设和备选假设哪一个正确，这是确定性的，没有概率可言。而可能犯错误的是人。<1>虚无假设（无差/零假设）-53-\n统计学BASIC定义：根据检验结果予以拒绝或接受的假设内容：假设两个均数之间差异是误差。表示：<2>研究假设（备择假设）定义：研究者希望证实的假设。内容：假设两均数之间存在真实的差异。表示：²零假设(H0):“正在研究的两个变量无关”或“变量之间无差异”如：卡路里每天的摄入量与体重无关。反应时间与问题解决能力无关。1年级的CECT-4平均成绩与4年级无差异。男生与女生的平均数学成绩无差异。POPMusic与Classic组平均记忆成绩无差异。？思考：想了解参与入学准备项目的儿童与没有参与的儿童在学习成绩上是否存在差异。零假设：参与入学准备的儿童与没有参与的平均成绩无差异研究假设：参与入学准备的儿童与没参与的平均成绩有差异作为优秀的工作者，就应尽最大可能地去解释：两个群体之间的差异仅仅是由于入学准备项目（系统因素）引起的，而不是其他任何因素或者因素的组合（误差，如如父母受教育程度、家庭孩子的数量等等）。一旦消除了其他潜在的解释变量，唯一留下的对差异的解释就是入学准备的影响。²可以完全消除其他潜在的解释变量？不可以！为什么？不能确定样本的代表性——即所研究的样本是否很好地代表总体。即使样本能很好地代表总体，也始终存在影响结论的其他因素，而且在实验设计的过程中总会遗漏这些因素。因此，研究中始终存在错误的可能性。那么，如果推断考试成绩的不同是由于是否参与入学准备项目，就得承受一定的风险。实际上风险水平就是愿意执行的统计显著性水平。？思考：比较一组篮球队员和一组足球队员的跑步速度可能有一些我们不知道的偶然因素导致了差异。篮球队员更强壮？或足球队员进行了更多的跑步练习？或两组都进行了额外的训练？测定速度的方式就有很多偶然因素：秒表、测试当天的天气……作为好的研究者，应该——观察到差异时消除偶然性因素，并评价其他可能导致群体差异的因素。-53-\n统计学BASIC如有目的的训练或营养计划，并分析这些因素如何影响速度。²注意：研究报告与毕业论文。通常来说：只报告研究假设，不报告零假设。（二）假设检验假设检验是一种带有概率性质的反证法。其具体过程是：u显著性的含义两个（或多个）变量之间的差异是由系统因素影响的，而不是偶然性因素。换句话：两个（或多个）变量之间的差异是稳定存在的，而不是抽样误差引起的。注意：差异的显著性不是指差异的大小。Ø显著性：举例说明假定：母亲工作和不工作的大学生对就业的态存在显著差异。这里所说的显著性，是指两个群体态度之间的任何差异是由于系统因素的影响；而不是偶然因素。而本案例中的系统因素是母亲是否工作。需要表明：即使很确信两种大学生群体之间的差异是由于母亲的就业状态引起的，但始终不能100%、绝对地、肯定地、毫无疑问地或毫不含糊地确信这一点。这个结论是错误的可能性始终存在，不论这个可能性有多小，多么微不足道——但始终存在！u显著性水平含义：拒绝零假设的概率。常用水平值：解释：直观分析法；理论分析——小概率事件ü直观分析：ü直观分析：-53-\n统计学BASIC？思考：为什么显著性有.05.01还有.001？好比一个身高180厘米的男生，可能愿意被认为高于或等于180厘米，而不愿意说他高于或等于155厘米，虽然这第二种说法数学上没有丝毫错误。（三）小概率原理a)小概率事件：一次试验中发生可能性很小，大量重复试验终究发生的事件。b)≤0.05的随机事件为小概率事件。c)检验：随机样本统计量在抽样分布上出现的p≤0.05（或0.01），则以小概率事件拒绝Ho。²假设检验中，H0总是作为直接被检验的假设。二、误差分析，95%为真实差异，5%为误差（一）检验方法1、双侧（尾）检验定义：拒绝性概率置于理论分布两尾。使用：结果或方向不确定时。意义：只推断有无差异，不断言方向。2、单侧（尾）检验定义：拒绝性概率置于理论分布一尾。使用：结果或方向确定时。意义：即推断有无差异，又断言方向。类型：右尾检验、左尾检验-53-\n统计学BASICa.右尾检验定义：拒绝性概率置于理论分布的右尾。使用：能确定一个总体大于另一总体时。假设形式：b.左尾检验定义：拒绝性概率置于理论分布的左尾。使用：能确定一个总体小于另一总体时。假设形式：三、统计决策的两类错误u想降低Ⅰ型错误，我们能做的：A.降低显著性（α）水平，从α=0.05(5%)变为α=0.01(1%)B.若想不犯Ⅰ型错误，则α应尽可能接近零-53-\n统计学BASICa)即不做任何解释。b)如果我们想对一些问题进行解释，就不得不接受在一定程度上犯Ⅰ型错误的风险（可能性）。B.降低显著性水平是一种严谨或保守的做法，有时可能是有效的。而科学研究最重要的工作是尽力对因果关系进行推测。C.如果过于降低Ⅰ型错误，有失科学的严谨。²两类错误的关系：四、假设检验的一般过程a)提出（或建立）假设H0：H1：b)规定显著性水平a=0.05a=0.01c)计算统计检验值d)比较与决策第二节单总体均数的差异检验检验方法：总体正态、总体非正态（1）总体正态-53-\n统计学BASIC（2）总体非正态，n≥30（渐进正态法）（3）检验过程第三节双总体均数之差检验样本性质：独立样本：从两无关总体抽取的两个样本。相关样本：从相关总体抽取的两个样本。同组比较：同组前后比较。配对样本：同质被试两两配对形成样本的先后比较。一、检验方法与过程（一）方法：Z检验、t检验üZ检验：-53-\n统计学BASICüt检验-53-\n统计学BASIC？练习：饮食障碍因为其严重性得到了研究者的关注。他们分别对297个澳大利亚大学生和249个印度大学生进行这项比较研究。每个学生都参加了饮食态度测试和肥胖恐惧量表测试。然后比较群体得分，看在这两个方面，两个国家的大学生是否存在文化差异。问题1：采用何种方法进行计算问题2：若饮食态度测试的结果是第四节差异是真实的吗:理解效应量研究者检验了参与社区自助服务（例如扑克牌游戏、野外旅行等）是否提高了美国老年人的生活质量（从1到10分为10个等级）。研究者执行了为期6个月的服务项目，在项目结束后测量两个群体的生活。两个群体由50位80岁以上的老人构成，其中一个群体得到服务而另一个没有得到。-53-\n统计学BASIC差异是显著的，但差异有多大？一、计算和理解效应量（effectsize）与其他统计技术相同，计算效应量（effectsize）的方式有多种。下面介绍最简单最直接的方法。（一）计算效应量:效应量0.37意味着什么？ü通常采用如下标准进行判断：0.0~0.20小效应量0.20~0.50中等0.50及以上大效应量（二）理解效应量刚才的0.37到底意味着什么？效应量：即每个群体相对于另外一个群体的位置。例如：ES=0，意味着两个群体非常相似且几乎完全重叠——两个分布之间没有差异。ES=1，意味着两个群体大约有45%（通常能达到）重叠。ES越大，则两个群体重叠的部分越少。-53-\n统计学BASIC复习:a)单样本平均数的显著性检验b)相关/独立样本平均数差异的显著性检验c)Ⅰ型错误vs.Ⅱ型错误二者的关系例：研究一种治疗抑郁症的新型药物，研究者运用不同的剂量以找出效果最佳的剂量。假设这位研究者想要检验5种不同的剂量。如果他每次只对比两种剂量,这意味着要作10次单独的t检验……第五章方差分析（analysisofvariance）ØZ、t检验的局限性:第一节方差分析的基本原理一、变异的可加性二、方差分析的基本（适用）条件a)变异的可加性b)总体服从正态分布c)各处理内的方差一致（即方差齐性）-53-\n统计学BASIC？思考：组间变异与组内变异关系如何？例：从某小学一、三、五年级随机抽取各4人，向其呈现一组词汇，记录其识记结果，并绘成图形。学生可能的得分结果多种多样。²什么是方差分析（analysisofvariance）？方差分析又称变异数分析（简称ANOVA），由RonaldFisher发展而来，F检验就是用他的名字命名。是通过对多组平均数的差异进行显著性检验，分析实验数据中不同来源的变异对总变异影响的大小。-53-\n统计学BASICØ各变异的因素：-53-\n统计学BASIC复习：统计检验力、显著性、效应量-53-\n统计学BASIC-53-\n统计学BASIC回忆：计算式：-53-\n统计学BASIC例：-53-\n统计学BASIC例：从小学新生中随机抽取20人，并随机地分为四组进行识字教学法的实验，每组分别用一种方法。学期结束时对学习效果进行统一测试，结果如下。试问四种识字教学法的教学效果有无显著不同？-53-\n统计学BASICuANOVA中，比较组间变异和组内变异，之所以要用各自的均方比较，而不能直接比较各自的平方和，是因为在求平方和时，是若干项的平方和，其大小和项目数有关，应该将项数去掉，求其均方才能比较。因此要除以各自的自由度，求均方。-53-\n统计学BASIC第二节方差齐性检验²方差齐性并不是指方差绝对、完全相等，而仅仅是“相对的”相等——无统计学差异。即用通过方差齐性检验，各个方差无显著差异。第三节单因素完全随机设计的方差分析一、实验设计(2)单因素设计类型：①完全随机设计②随机区组设计③拉丁方设计²实验设计专有名词A.实验单位：产生实验结果的被试B.实验因素(因子)：实验者所操控的变量（自变量）C.水平：实验者在因素内所安排的各种不同状况D.处理：不同因子间各水平的组合E.单因素实验：水平与处理意义相同F.效应：实验者在实验单位上所测得的结果（因变量）-53-\n统计学BASIC？请举例说明：①.实验因素(因子)：实验者所操控的变量（自变量）②.水平：实验者在因素内所安排的各种不同状况③.处理：不同因子间各水平的组合④.单因素实验：水平与处理意义相同⑤.效应：实验者在实验单位上所测得的结果（因变量）二、单因素完全随机设计的方差分析Ø定义：每一随机组分别接受一种实验处理的设计。又名：独立组设计或被试间设计。例：随机抽取22名学生并随机为三组，分别做某一种光强（I、II、III）的反应时实验。结果如下。试问不同强度的光反应时有无显著不同？-53-\n统计学BASIC第三节单因素随机区组设计的方差分析-53-\n统计学BASIC第四节多因素完全随机设计的方差分析一、两因素完全随机实验设计的方差分析a)题目：主题熟悉性（A）与生字密（B）度对儿童阅读理解的影响。-53-\n统计学BASICa)实验变量：自变量A——文章类型，即熟悉的（a1）与不熟悉的（a2）；b)自变量B——生字密度，即5:1(b1)、10:1(b2)、15:1(b3)c)实验设计：两因素完全随机实验设计d)被试：24名五年级学生e)实验程序：共计2×3=6个实验处理；然后把选取的被试分成6组，每组4人，分别接受一种实验处理水平的结合。二、主效应与交互效应（一）主效应（maineffect）是指在多因素实验中，只考虑某一变量单独变化所引起观测变量的变化。（二）交互效应（interacteffect），也称交互作用，是指一个变量的效应在另一个（或多个）自变量的不同水平上是不同的。²交互作用：可能会觉得难于理解统计上的交互作用……但实际上，当开始设计心理学实验的时候，我们很自然的会意识到自变量间存在交互作用的可能性。也就是说，担心自己关注的变量的效应会由于其他变量的出现而被改变——加强、减弱或消失。这就是交互作用能告诉我们的——一个自变量的效应在另一个自变量的不同水平上是不同的——加强、减弱或消失。Ø主效应与交互效应的关联性在多因素的方差分析中：如果方差分析结果表明交互作用不显著，检验各个因素的主效应就很重要；如交互作用显著，则对每个因素主效应的检验，意义就不大了。因为交互作用显著，则意味着两个（或多个）因素对实验结果具有共同的重要性。例1：我们不仅关心听音乐是否对驾驶成绩有影响，还想知道它是否对饮酒者的影响更大。设计一个实验，同时操纵两个变量（自变量）：A（音乐）×B（酒精）完全随机设计-53-\n统计学BASIC-53-\n统计学BASIC-53-\n统计学BASIC-53-

应用统计学.基础复习

文档介绍

相关文章

您可能关注的文档