心理统计学复习材料题
+*第一章+*※1.心理与教育统计的定义与性质。(名词解释)心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据所传递的信息,进行科学推论找出心理与教育活动规律的一门学科。2.心理与教育统计学的内容(描述统计、推论统计的界定)。(名词解释)l描述统计:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。l推论统计:主要研究如何通过局部数据所提供的信息,推论总体的情形。※3.心理与教育科学研究数据的特点。(填空、选择、简答)n多用数字形式呈现n数据具有随机性和变异性¨随机因素,随机误差,随机现象n数据具有规律性n研究目标是通过部分数据推论总体+*※4.心理与教育统计的数据类型。(填空、选择)1.按照数据观测方法或来源划分2.按照测量水平3.数据是否连续A.计数数据A.称名数据A.离散数据B.测量数据B.顺序数据B.连续数据C.等距数据D.比率数据+*※5.变量、观测值与随机变量。(名词解释)v变量:是指一个可以取不同数值的物体的属性或事件。由于其数值具有不确定性,所以被称之为变量。v变量的具体取值即观测值。v随机变量:指在取值之前不能预料取到什么值的变量,一般用X,Y表示。※6.总体、个体与样本。(名词解释)u总体:又称母体、全域,是指具有某种特征的一类事物的全体。u个体:组成总体的每个基本单元。u样本:从总体中抽取的一部分个体,构成总体的一个样本。※7.参数与统计量。(名词解释)v参数又称为总体参数,是对总体情况进行描述的统计指标。v统计量又称特征值,是根据样本的观测值计算出来的一些量数,它是对样本的数据情况进行描述。+*第二章+*1.对数据资料进行初步整理的基本方式。(填空、选择)排序和统计分组2.统计分组应该注意的问题。(简答)要以被研究对象的本质特性为分组基础;分类标志(被研究对象的本质特性)要明确,能包括所有的数据。“不能既是这个又是那个”3.分组的标志形式。(填空、选择)性质类别(称名数据与顺序数据)与数量类别。4.组距与分组区间。(填空、选择)l组距:任意一组的起点与终点的距离。i=R/K,常取2、3、5、10、20。l分组区间(组限)即一个组的起点值和终点值。起点值为组下限,终点值为组上限。组限有表述组限和精确组限两种。+*5.不同图表形式所各自适用表示的资料类型。(选择、填空)表/图适用的数据类型简单次数分布表计数/测量,离散数据/连续数据分组次数分布表连续性测量数据相对次数分布表累加次数分布表直方图连续性随机变量\n+*累加次数分布图连续性随机变量条形图计数资料/离散型数据资料,称名型数据圆形图间断性资料线形图连续性资料散点图连续性资料第三章1.集中趋势与离中趋势。(名词解释)l集中趋势:数据分布中大量数据向某方向集中的程度,即在某点附近取值的频率较其它点大的趋势。l离中趋势:数据分布中数据彼此分散的程度。2.对一组数据集中趋势的进行度量的统计量有哪些?(填空、选择)算术平均数、中数、众数、加权平均数、几何平均数和调和平均数等。3.算数平均数的计算方法(未分组与分组数据两种情况)。(填空、选择、计算)(一)未分组数据计算平均数的方法公式:表示原始分数的总和,N表示分数的个数。(二)用估计平均数计算平均数数据值过大时,利用估计平均数(anestimatedmean)可以简化计算。具体方法,先设定一个估计平均数,用符号AM表示,从每一个数据中减去AM,使数据值变小,最后将其加入总的计算结果之中。公式:Xˊ=Xi-AM(三)分组数据计算平均数的方法l组中值假设l散布在各区间内的数据围绕着该区间的组中值Xc均匀分布。l计算公式Xc为各区间的组中值,f为各区间的次数,N为数据的总次数,(四)分组数据平均数的估计平均数方法AM为估计平均数,i为次数分布表的组距,d可称为组差数+*4.平均数的特点。(填空、选择)l在一组数据中,每个变量与平均数之差(称为离均差)的总和等于0。l在一组数据中,每一个数据都加(减)上一个常数C,则所得的平均数为原来的平均数加常数C。l在一组数据中,每一个数据都乘(除)以一个常数C,则所得的平均数为原来的平均数乘(除)以常数C。5.平均数的优缺点。(简答)1)优点:反应灵敏;计算严密;计算简单;简明易解;适合于进一步用代数方法演算;较少受抽样变动的影响。2)缺点:易受极端数据的影响;若出现模糊不清的数据时,无法计算平均数。 6.计算与应用平均数的原则。(简答)l同质性原则l平均数与个体数据相结合的原则l平均数与标准差、方差相结合的原则7.中数的应用。(简答)Ø当一组观测结果中出现两个极端数目;Ø次数分布的两端数据或个别数据不清楚Ø需要快速估计一组数据的代表值。8.众数的计算方法、众数的优缺点及应用。(简答、计算)\n+*(一)计算众数的方法1、直接观察法a.原始数据:例:22,26,7,89,26,4,9b.在次数分布表中,次数最多的那个分组区间的组中值为众数。2、公式法用公式计算的众数称为数理众数。(1) 皮尔逊经验法(2)金氏插补法公式:9.平均数、中数与众数的关系。(选择、填空、简答)l正态分布:Mo=Md=Ml在偏态分布中,M永远位于尾端,Md位于中间,两者距离较近Mo=3Md-2Ml在正偏态分布中,M>Md>Mo在负偏态分布中,M
30);l两变量来自的总体均为正态分布;l两个变量都是连续数据/测量数据;l两变量之间为线性关系:可根据相关散布图判断。5.积差相关的计算公式。(填空、选择、计算)+*6.斯皮尔曼(二列)与肯德尔(多列)等级相关的适用数据类型。(选择、填空)l斯皮尔曼(二列)等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。l肯德尔和谐系数常以W表示,适用于多列等级变量相关程度的分析。Ø肯德尔和谐系数可以反映多个等级变量变化的一致性。l肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。7.质与量相关的数据类型及具体的相关类别。(选择、填空)l一列为等比或等距的测量数据,另一列按性质划分的类别l质量相关包括点二列相关、二列相关和多系列相关。8.点二列、二列与多列相关的适用数据资料。(选择、填空)\n+*一、点二列相关适用资料:一列变量为等距或等比数据,且其总体分布为正态,另一列变量为二分称名变量。二、二列相关适用资料:一列变量为等距或等比数据,另一列变量为人为划分二分变量,且两列变量数据的总体分布均为正态。三、多列相关适用资料:适合处理两列正态分布变量,一列为等比或等距的测量数据;另一列变量被人为地划分为多种类别。9.相关系数值的解释。(选择、填空、简答)l相关系数表示两个变量之间的关系程度,不是等距的测量值,只能说绝对值大者比小的相关更密切一些。l.相关系数的大小表示关系密切程度,正负号表示方向。l两变量之间的关系可能受到第三方影响l相关关系不等于因果关系出现相关原因:X引起Y;Y引起X;X、Y同时受另一变量影响+*第六章概率分布1.概率、后验概率与先验概率的界定。(名词解释)l概率(probability)是表示随机事件出现可能性大小的客观指标。l后验概率(或统计概率):通过对随机事件的观测和试验得到的概率l先验概率(古典概率):在特殊情况下直接计算的比值,是真实的概率而不是估计值。2.概率的基本性质。(选择、填空、计算)(一)概率的公理系统l任何随机事件A的概率都是在0与1之间的正数,即0≤P(A)≤1l必然事件的概率等于1,即P(A)=1l不可能事件的概率等于零,即P(A)=0(二)概率的加法定理l在一次实验或调查中,若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件。l两个互不相容事件之和的概率,等于这两个事件概率之和(三)概率的乘法定理适用于几种情况组合的概率,即几种事件同时发生的情况l若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件。l两个互相独立事件同时出现的概率,等于这两个事件概率的乘积,即3.概率分布的界定及类型。(名词解释)l概率分布(probabilitydistribution)是指对随机变量取不同值时的概率分布情况的描述,一般用概率分布函数进行描述。l类型Ø依随机变量是否取连续数据分类,可将概率分布分为离散型概率分布与连续型概率分布。Ø依分布函数的来源,可将概率分布分为经验分布与理论分布。Ø依所描述的数据特征,将概率分布分为基本随机变量分布与抽样分布。4.正态分布的特征。(简答)Ø正态分布的形式是对称的,对称轴是经过平均数的垂线。Ø正态分布中平均数所对应点最高,然后逐渐向两侧下降。拐点位于+1s处。Ø正态曲线下的面积为1,过平均数的垂线左右两部分面积均为0.50。面积即概率,即值为每一横坐标值的随机变量出现的概率。Ø正态分布是一族分布。因平均数与标准差不同有不同的分布形态。所有正态分布都可以通过Z分数公式非常容易地转换成标准正态分布。Ø正态分布中各差异系数间有固定比率Ø标准正态曲线下标准差与概率(面积)有一定的数量关系。+1s包括68.26%的个体+1.96s包括95%+2.58s包括99%+3s包括99.73%(可疑值取舍的依据)+4s包括99.99%5.二项分布的应用——解决含有机遇性质的问题。(计算)Ø二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中二项分布主要用于解决含有机遇性质的问题\n+*即主要用来判断试验结果是由猜测造成还是真实结果之间的界限。6.t分布的情况及分布特点。(简答)Øt分布是常用的一种随机变量分布,也称为学生氏分布。Øt分布受自由度(df=n-1,即一个统计量中可以自由变化的数目)影响,与总体标准差无关。Øt分布的特点l平均数为0,以平均数为中心左右对称分布,左侧t值为负,右侧t值为正。l形状与正态分布曲线相似,峰态比较高狭,t分布曲线随自由度的变化而变化l变量取值没有固定范围,-∞—+∞之间。l样本容量越大(n-1>30),t分布越接近正态分布,方差大于1;当样本容量趋向于无穷大时,t分布为正态分布,方差为1;当n-1<30,t分布与正态分布相差较大,离散程度更大,分布图中间变低尾部变高。第七章参数估计1.总体参数估计的界定及类型。(名词解释)l根据样本统计量对相应总体参数所作的估计叫作总体参数估计。l总体参数估计分为点估计和区间估计。2.点估计与区间估计的界定。(名词解释)l由样本的平均数和标准差估计总体的平均数和标准差即为点估计;l由样本的平均数和标准差估计总体平均数和标准差的取值范围则为区间估计。3.良好点估计量的标准。(简答)l无偏性如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。l有效性当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。l一致性当样本容量无限增大(大样本)时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。l充分性一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。4.置信区间、置信水平与显著性水平。(名词解释)l置信区间,也称置信间距(confidenceinterval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。l置信度,即置信水平,是作出某种推断时正确的可能性(概率)。如.95和.99的置信区间。1-α\n+*l显著性水平是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。1.区间估计的原理。(简答)l根据抽样分布理论,用抽样分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。l置信度为.95和.99,以及相对应的.05与.01的显著性水平是习惯上常用的两个数值,其依据是.05与.01的概率属于小概率事件,小概率事件在一次抽样中是不可能出现的。l区间估计依据的是该样本统计量的分布规律及样本分布的标准误(SE)。2.总体平均数估计(正态分布或t分布)。(简答、计算)l平均数区间估计的基本原理Ø通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。Ø根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性。Ø因为样本平均数的平均数与母总体的平均数相同(),因此,对平均数总体的平均数进行估计就是对母总体平均数的估计。l估计总体平均数的步骤1.根据样本的数据,计算样本的平均数和标准差;2.计算平均数抽样分布的标准误;(1)当总体方差已知时,(2)当总体方差未知时,3.确定置信水平或显著性水平;4.根据样本平均数的抽样分布确定查何种统计表;总体方差已知时,查正态表,总体方差未知时,查t值表5.计算置信区间;6.解释总体平均数的置信区间。l总体平均数μ的估计1.当总体已知时,查正态分布表①总体正态,不管样本容量大小,②总体非正态,大样本(n>30),平均数的抽样分布呈正态,总体平均数的置信区间为:Ø例题:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间。解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=6.25。无论样本容量大小,一切样本平均数的抽样分布呈正态分布。于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间。\n+*2.总体方差未知,查t分布表①总体正态,不管样本容量大小,②总体非正态,大样本(n>30),平均数的抽样分布为t分布,平均数的置信区间为:Ø例题:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小(n=12<30),在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。于是需用t分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。\n+*3.总体非正态,大样本平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理:Ø例题:从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为1.5,试估计全部考生作文成绩95%和99%的置信区间。解:学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t分布。但是由于样本容量较大(n=120>30),t分布接近于正态分布,因此可用正态分布近似处理。第八章假设检验1.假设检验的概念与原理(小概率事件)。(名词解释、简答)l利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。l设立标准的依据:小概率事件Ø样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。把出现概率很小的随机事件称为小概率事件。Ø当概率足够小时,可以作为从实际可能性上,把零假设加以否定的理由。因为根据这个原理认为:在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。+*2.假设检验中的两类错误及其之间的关系。(名词解释、简答)l对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。ØⅠ型错误(α错误)意味着当实验处理效应不存在时,研究者却得出结论,处理效应存在。ØⅡ型错误(β错误)意味着当实验处理效应确实存在时,但是假设检验却没有识别出来。l两类错误之间的关系Øα与β是两个前提下的概率;a+b不等于1Ø对于固定的n,a与b一般情况下不能同时减小。Ø要想减少a与b,一个方法就是要增大样本容量n。Ø统计检验力:1-b3.虚无假设与备择假设。(名词解释)ØH0:零假设,或称原假设、虚无假设(nullhypothesis)、解消假设;是要检验的对象之间没有差异的假设。ØH1:备择假设(alternative\n+*hypothesis),或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。4.单侧与双侧检验的确定。(简答)略5.假设检验的步骤。(简答)⑴提出假设(虚无假设和备择假设)⑵确定做出结论的标准(确定显著性水平)⑶选择检验统计量并计算统计量的值⑷.做出统计结论6.平均数的显著性检验(单总体检验)的几种不同情况。(简答、计算)⑴.总体为正态,总体标准差σ已知+*平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为:⑵.总体为正态,总体标准差σ未知,样本容量小于30平均数的抽样分布服从t分布,以t为检验统计量,计算公式为:⑶.总体标准差σ未知,样本容量大于30平均数的抽样分布服从t分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z代替t近似处理,计算公式为:⑷.总体非正态,小样本不能对总体平均数进行显著性检验。7.平均数差异的显著性检验(双总体检验)的几种不同情况。(简答、计算)Ø平均数差异的显著性检验时,统计量的基本计算公式为:1.两总体正态,总体标准差已知总体标准差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为:2.两总体正态,标准差未知,方差齐性,n1或n2小于30总体标准差未知条件下,平均数之差的抽样分布服从t分布,以t作为检验统计量,计算公式为:3.两总体非正态,n1和n2大于30(或50)总体标准差未知条件下,平均数之差的抽样分布服从t分布,但样本容量较大,t分布接近于正态分布,可以以Z近似处理,因此以Z′作为检验统计量,计算公式为:4.总体非正态,小样本不能对平均数差异进行显著性检验。第九章方差分析+*1.方差分析的主要功能。(填空、选择、简答)Ø方差分析又称为变异分析(analysisofvariance,ANOVA),是由斯内德克提出的一种变量关系的检验方法。Ø其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。2.方差分析的基本原理(综合的F检验与方差的可加性)。(简答)一、方差分析的基本原理:综合的F检验(一)综合虚无假设与部分虚无假设\n+*方差分析通过对多组平均数的差异进行显著性检验,分析实验数据中不同来源的变异对总变异影响的大小。(二)方差的可分解性方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量。因而它所依据的基本原理是变异的可加性。3.方差分析将总平方和分解为几个不同来源的平方和:组内平方和(实验误差,包括个体差异)与组间平方和(实验处理效应)。(简答)方差分析是将总平方和分解为几个不同来源的平方和(实验数据与平均数离差的平方和)。然后分别计算不同来源的方差,并计算方差的比值即F值。根据F值是否显著,对几组数据的差异是否显著作出判断。4.方差分析的基本假定。(选择、简答)⑴总体正态分布⑵变异的相互独立性,即各实验处理是随机且相互独立的(一般情况下都能满足)⑶各实验处理内的方差一致(需要进行检验)5.完全随机设计的方差分析与随机区组设计的方差分析的不同。(简答)Ø为了检验某一个因素多种不同水平间差异的显著性,将从同一个总体中随机抽取的被试,再随机地分入各实验组,施以各种不同的实验处理之后,用方差分析法对这多个独立样本平均数差异的显著性进行检验,称为完全随机设计的方差分析。Ø在对各区组施以多种实验处理之后,用方差分析法对这多个相关样本平均数差异所进行的显著性检验,称为随机区组设计的方差分析。Ø与完全随机设计的方差分析相比,其最大优点是考虑到个别差异的影响(即区组效应),可以将这种影响从组内变异中分离出来,从而提高效率。但是这种设计也有不足,主要表现在划分区组的困难上。如果不能保证同一区组内尽量同质,则有出现更大误差的可能。+*第十章χ2检验+*1.χ2检验的假设。(简答)⑴分类相互排斥,互不相容;⑵观测值相互独立;(每个被试只有一个观测值)⑶期望次数的大小每一个单元格中的期望次数要大于5或10。2.χ2检验的类别。(填空、选择、简答)Ø配合度检验用来检验一个因素多项分类的实际观察数与某理论次数是否接近,有时也称为无差假说检验。正态吻合性检验Ø独立性检验用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题。Ø同质性检验检定不同人群母总体在某个变量的反应是否具有显著差异3.χ2检验的原理。(简答)Øχ2检验(chi-squaretest)是专门用于计数数据的统计方法。Ø由于这类数据在整理时,常常以列联表(contingencytable)或交叉表(crosstabulation)呈现,因此这种分析方法又被称为列联表分析或交叉表分析。Ø又因列联表的单元格里是次数或百分比,因此又称为百分比检验。Ø非参数检验方法+*第十一章非参数检验1.非参数检验的特点。(简答)u一般不需要严格的前提假设。u非参数检验特别适用于顺序资料或等级变量。u非参数检验适用于小样本,且方法简单。u非参数检验最大的不足是未能充分利用资料的全部信息。u非参数方法目前还不能处理“交互作用”。