计算心理语言学简介

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

计算心理语言学简介

2001年第2期外语与外语教学2001,l2总第142期ForeignLanguagesandTheirTeachingSeriall142计算心理语言学简介崔刚(清华大学外语系,北京100084)摘要:计算心理语言学是一门介于心理语言学和计算机科学之间的跨学科的研究领域。本文讨论了计算心理语言学与心理语言学之间的关系,并分别对语言理解和言语产生过程中句法处理和句法编码的计算心理语言学模式进行了评述。关键词:计算心理语言学;句法;句法编码Abstract:Computationalpsycholinguisticsisajointstudyareaofcomputationalscienceandpsycholinguistics.Inthispaper,thewritermakesanefforttodiscussthesignificanceofthisnewareaofstudyforpsycholinguisticsandintroducethecomputationalmodelsofthegrammaticalprocessesinbothlanguagecomprehensionandspeechproduction.Keywords:computationalpsycholinguistics,syntax,syntacticencoding中图分类号:H0-05文献标识码:A文章编号:1004-6038(2001)02-0014-05计算心理语言学是近年来随着心理语言学和计算机科语言学实验结果的比较可以验证心理语言学理论,为心理语学的不断发展而产生的一门跨多学科的研究领域,其研究的言学理论的修订与发展奠定基础。重点在于以现有的心理语言学研究成果为基础,采用计算机技术模拟心理语言学提出的各种关于言语理解和言语产生的模式,帮助心理语言学家验证模式的正确性,并为人工智能中自然语言的处理提供理论基础。1.计算机心理语言学研究对心理语言学的重要性在心理语言学的发展过程中,研究者提出了许多模式来解释语言处理过程中各个阶段内所发生的心理过程,从而使我们对人类语言处理系统的构成具有了一定的认识。尤其是近十几年来,由于科技的发展为心理语言学研究提供了更图1计算心理语言学基本工作流程精确的测量工具,研究者可以获得更为准确的数据,心理语计算机模拟技术极大地推动了心理语言学的发展,因为言学家对语言处理过程各个阶段的认识越来越深刻,他们所采用计算机模型与传统的单纯使用自然表述的模式相比具提出的心理语言学模式也越来越复杂。(Levelt,1996)与此有明显的优势。同时,计算机技术得到了飞速的发展,而且被广泛地应用到(1)计算机模拟可以提高心理语言学研究的效率和心理各个领域,许多心理语言学家开始求助于计算机技术,力图语言学理论的可靠性。传统的心理语言学研究主要采用观通过计算机的模拟技术来验证这些模式的正确性。目前,计察和试验的方法,但是这两种方法都有一定的局限性。首算机模拟已经成为心理语言学研究人类语言处理的重要手先,无论是观察还是试验,能够采集的数据量都不大,从某种段。图1显示了计算心理语言学的基本工作流程。(Dijkstra程度上来说,数据的不足就使得结论不具有广泛性和普遍andSmedt,1996:5)性。其次,耗时较长,这一点在利用观察的方法时更为突出。如图1所示,心理语言学中关于语言理解与产生的模式时间长就使得被测个体或群体的内部因素不稳定,例如心情可以使用自然语言进行表述,也可借助计算机语言转化为变化、知识增长、生理变化等等,从而导致实验结果与实际有计算机模型,这一模型可以通过计算机编程语言制作成一系误差。再次,观察者和试验者都难免在研究过程中出现错列可以运行的计算机程序。计算机程序的运行过程实际上误,而重复试验有时又不可行,这就无法保证试验结果的准就是模拟人类自然语言处理的过程,因此,模拟结果和心理确性。而现有的计算机技术为解决上述问题提供了方便。作者简介:崔刚(1966)),副教授,博士,研究方向:心理语言学与计算语言学收稿日期:2000-09-11#14#\n利用计算机进行模拟,我们可以获得更多的有效数据,从而prehension)。本文主要介绍句法处理的模型。使结论更具普遍性。计算机自动、快速的运行和处理功能可句法处理是计算心理语言学所研究最早最多的领域,早节约大量的人力、物力和时间。计算机的准确性可以在一定在1972年Kaplan就提出了句法处理扩展转移网络模型程度上保证结果的准确性,而且,最重要的一点在于计算机(augmentedtransitionnetworks,ATN)。在1973年,Kimball保证了试验和结果的实时性。又提出了自然语言表层结构分析的七条原则,从此以后,句(2)计算机模拟可以进行一些传统上难以进行的实验。法处理一直是计算心理语言学的中心课题之一。正如Cutler(1981)所指出的,心理语言学实验正在变得越来句法处理主要关注句子歧义的问题。句子歧义的原因越难以进行,因为在设计实验时需要考虑太多的相关因素,有两方面:一是由句子结构引起的歧义,二是由一词多义或例如,在设计关于词汇认知的实验时,需要考虑有可能影响一词有多个语法类别造成的。因此,现有的句法处理模型就词汇认知的各种因素,包括词频、词频相近的单词数量及其可相应地分为由短语结构驱动型(phrase-structuredriven)和意义、语音相近的词的数量及相关词的意义、近义词的数量词汇驱动型(lexicallydriven)两种。在短语驱动型模式中,作及其意义、听话者对单词的熟悉程度等等。如果不采用计算句法分析时多采用最少附着项(MinimalAttachment)的原则机模拟的方法,要把所有的这些因素都考虑在内进行实验是(Mitchell,1994),该原则强调句法分析的结果应使得句法树非常困难的。而且,还有一些实验根本无法直接以人为实验的结点最少。在词汇驱动型模式中,句法分析则主要采用右对象进行。例如,有些研究者(例如,Patterson,Seidenberg侧结合原则(RightAssociation)。右侧结合原则是Kimball在andMcClelland,1989;HaarmannandKolk,1991等)采用计算1973年提出的,他认为在句法处理中,新的组成成分倾向于机模拟技术进行大脑损伤导致失语症的各种实验,而这种实与现有句法树的最右边的非终结点结合。例如,Theman验根本不可能在正常人身上进行。keptthedoginthehouse这个句子分别用最少附着项原则和(3)计算机模拟有助于人们检验心理语言学理论的完整右侧结合原则分析可得到以下两个不同的句法树:性和内部一致性。根据某一心理语言学模式建立的计算机S模型,只要编程无误,通过计算机程序的运行就应该得出心理语言学模式所预期的结果。例如,关于语言理解的计算机NPVP模型可以产生对词汇的识别或对句子解释的结果。计算机Theman程序能否顺利运行能够有效地检验心理语言学模式的内部VNPPP一致性,如果计算机程序能够顺利运行,就说明心理语言学keptthedoginthehouse.理论在逻辑上是前后一致的,不存在定义不清、自相矛盾和最少附着项原则循环论证等问题。而计算机模拟的结果能否与预测的结果S一致可以有效地检验心理语言学模式的完整性。如果计算机模拟的结果与人的言语行为相同,这说明计算机模型所依NPVP据的心理语言学理论是可靠的。正如桂诗春教授(1991:58)所指出的那样:/并不是所有的心理学理论都是那样清楚明ThemanVNP白的,有的往往较为含混,甚至循环论证。这些理论看上去有一定的吸引力,但却经不起推敲和科学论证。计算机模拟keptNPPP有助于我们清楚明了前后一致的认知心理语言学理论。0(4)计算机模拟可以为心理语言学的研究提出新的研究thedoginthehouse.课题,从而为心理语言学的发展注入新的活力。计算机模拟右侧结合原则往往会产生一些出人意料的结果,心理语言学家则需要解释图2两种不同的句法分析方法产生这些结果的原因。这些结果有助于修订原有的心理语目前,关于句法分析比较成熟的计算心理语言学模型是言学理论,还会推动研究者继续开展进一步的研究。移进)归约句法分析模型(Shift-ReduceParsing)。(Shieber,1983;Pereira,1985;Abney,1989)移进)归约句法分析模型2.语言的理解主要用来解决词类模糊的问题(即词类不确定的问题)。其语言的理解是心理语言学研究的中心问题之一。在计原理是:为了消除不确定性,程序提前考虑所有可能的词类,算心理语言学中,与语言的理解相关的计算机模型主要涉及并把它们储存在控制表中,然后让输入一步步消除所有其他言语听辨、句法处理和语篇的理解三个方面。目前,在计算的可能性,问题就会自然得到解决。该模型主要由两个模块心理语言学领域,言语听辨的代表性模型有两种:言语听辨组成:一个是句法模块,一个是输入模块。句法模块中包含的模糊逻辑模型(FuzzyLogicalModelofPerception,FLMP)句法状态和语法符号;输入模块中包含一些等待加工的自左(Massaro,1996)和跟踪模型(TraceModel)(McClellandand向右排列的句子。归约指的是当一条句法规则完成后,就会Elman,1986;McClelland,1991)。关于语篇理解的代表性模重写句法模块顶部的符号,并且把新的符号压入输入模块的型也有两个,一个是由Kintsch和vanDijk在1978年提出的顶部,若输入模块的符号与该符号(图3中的箭头及箭头上命题模型(PropositionModel),另一个是Sharkey(1990)所提的标记)相符,则该符号和新的状态将被一起压入句法模块出的语篇理解的关联模型(ConnectionistModelofTextCom-的顶部,这就是移进。移进)归约句法分析模型的句法分析#15#\n过程如图3所示(箭头所指为转移方向):输入模块(Theboyreadaninterestingbook.)(boyreadaninterestingbook)(readaninterestingbook)(NPreadaninterestingbook)(readaninterestingbook)(aninterestingbook)(interestingbook)(book)()(NP)(VP)(S)图3移进)归约句法分析模型**当输入冠词the后,状态转移到S1,利用移进原则,把我们用NP表示将要输入一个名词短语,用NP表示ART和S1压入句法模块,变为(S1ARTS0)。当输入完boy已经输入一个名词短语,而S则标记输入状态,图3的工作**后,句法规则S1完成,提出S1NS1ART(代表一个完整过程为:*的NP),利用归约原则,压入输入模块的顶部。输入模块弹初始状态S0:S->NPVP*出NP,句法状态转移到S2,依次类推。直到输入堆栈的句NP->ARTN*法符号为S。状态S1:NP->ARTN*虽然移进)归约句法在处理多词性方面有一定突破,但S->NPVP*是也有一定的限制。例如,当一条句法规则正是另一条规则状态S2:S->NVP*前半部分的时候,用该算法处理就会有一定问题。此时,解VP->AUXVNP*决办法是移进规则优先于归约原则。但是这个模型在语义VP->VNP)句法交互作用方面显得比较欠缺,语义基本上在句法处理VP有两种可能的输入,一种是情态动词+动词+名词过程中起的作用不大。随着计算语言学的不断发展,研究者短语,另一种可能是动词+名词短语,计算机预先保存了这普遍地接受了句法分析的递增和交互原则。(Kempen,两种可能。状态S1*:NP->ARTN*1996)根据这一原则,在句法分析的过程中,要把语义因素考状态S3:VP->V*NP虑在内。递增是指每当输入中有新的实义词出现时,现有的NP->*ARTN语义表达就要更新一次;交互指的是对句子先前语义的理解状态S4:VP->AUX*VNP会影响后面的句法选择。句法分析和语义理解的递增原则状态S2*:S->NPVP*为语义)句法之间的交互作用提供了可能。根据上述两原状态S3*:VP->VNP*则,句法处理与语义理解是密不可分的,所以单纯的句法处状态S5:VP->AUXV*NP理模型(即在句法处理的过程中不考虑语义因素)的合理性NP->*ARTN正在受到越来越多的质疑。因此,目前计算心理语言学在句状态S5*:VP->AUXVNP*法处理方面的研究重点在于补充和完善语义)句法在计算状态S6:NP->ARTADJ*N语言学模型中的交互作用。**状态S6:NP->ARTADJN请看一个具体例子,Theboyreadaninterestingbook.3.言语产生句法模块关于言语产生,Levelt(1989)的心理语言学模型是心理(S0)语言学界影响最大的理论之一。其他学者的心理语言模型(S1ARTS0)和现在提到的计算心理语言模型大多都是基于他的理论。(S1*NS1ARTS0)根据Levelt的理论,言语产生可分为四个模块:概念形成模(S0)块(conceptualizer)、句法形成模块(formulator),言语形成模(S2NPS0)块(articulator)和自我监控模块(sel-fmonitor)。概念形成是(S3VS2NPS0)指说话者构想自己要表达的意思,选取相关的信息进行排序(S1ARTS3VS2NPS0)整理,概念形成模块的输出是语言前信息(preverbalmes-(S6ADJS1ARTS3VS2NPS0)sage)。在构想要表达的意思时,又可分为宏观计划*(macroplanning)和微观计划(microplanning)两个过程。所谓(S6ADJS1ARTS3VS2NPS0)(S3VS2NPS0)宏观计划,是指把交际目的分为几个小的目的,然后调取相(S2NPS0)应的信息以实现这些目的。微观计划指的是给每段信息选(S0)取相应的命题形式和表达方式。句法形成也就是语法和语#16#\n音的编码过程,也就是说句法形成模块把概念形成模块输出图。请看句子Theoldwomanwenttothestreamtowash的信息转化为相应的语言结构。转化分三步进行:首先,对clothes.的输入图:信息进行句法编码,这个工作由句法编码器(grammaticalen-coder)完成。句法编码器从大脑词库中提取词汇,构造句法结构。然后由语音编码器(phonologicalencoder)进行语音编码,生成语音计划。言语形成就是在发声器官的协助下,实现语音计划,产生言语。下面我们主要介绍一种关于句法编图5FIG模型的输入(Smedt,1996:298)码的计算心理语言学模型。FIG是依靠扩展性激活(spreadingactivation)的方式进心理语言学的研究发现(GleasonandRatner,1999),在行工作的。开始的时候,每个概念结点都有一定的激活度,句法编码过程中,词汇选择和句法计划是相互影响的,如:*然后激活开始扩展整个系统,到达句法结点和单词结点。经a.Cecilereplaced/substitutedGreekliteraturewithSpan-过一定的时间段,激活程度最高的单词被选中,激活过程和ish.*选择过程交替进行,最终句子也就从左至右一个单词一个单b.Cecilereplaced/substitutedGreekliteratureforSpan-词地产生。图6说明了第一个单词the的选择过程(其中句ish.法结点用c表示,单词结点用w表示):上面的句子结构主要是由动词substitute和replace决定的,由此可以说句法计划在一定程度上是由词汇选择决定的;但是,句法计划同时也对词汇的选择起着限制作用,因为在口误中,比较普遍的一种现象是两个单词同时竞争一个句子位置(syntacticslot),造成拼缀错误(blendingerror)的发生。另外,言语产生是一个并行过程(parallelprocessing),而不是串行过程(serialprocessing)。说话者说话时并不是想好了下面要表达的完整的意思,进行完全的句法和语音编码后,才开图6the的激活原理(Smedt,1996:298)始说的。如果是这样,我们的语速会非常慢,而且每两句话之上图描述了句中的第一个单词the的激活路径和选择过间间隔的时间会很长,这与实际情况并不相符。Levelt(1989)程。由此,我们可以看出,在FIG模型中,从概念产生开始,词指出,言语产生是/增量产生0的(incrementallyproduced),也就汇的选择要受到许多结点调控,这些结点包括单词结点和句是说当概念形成模块完成一个信息片段的构想之后,句法编法结点。一个单词被激活的程度是由句法和词汇两方面的因码就会立即进行,此时概念形成模块会接着进行下一个构想;素所决定的,那些在句法和单词意义方面都合适的单词,被激当句法编码完成对第一个片段的编码后,语音编码马上进行。活的程度就高。FIG模式内设置一个指向(cursor)装置,用以这就是计算机科学中所称的传递(pipeline)过程,这个术语首过滤掉不合适的单词,其工作原理如下图所示:先是由Kempen和Hoenkamp在1989年为解释句子生成的过程时提出的。请看图4(其中a是没有句序颠倒的增量加工示例,b是有句序颠倒的增量加工示例):图7指向装置工作原理(Smedt,1996:299)指向装置的作用相当于一个过滤器,在选择限定词的时候,总的限定词被分为两类,一类包括冠词和表属格的词,另一类是形容词等其他限定词。指向装置根据句法结点(图中用C表示)的条件进行工作时,就会滤掉形容词类的限定词,使其权数为0,并把第一类限定词的权数设为1。这样,激活图4句法加工传递过程就会只沿着权数为1的路径走,依次类推。图中最终the的根据上述的心理语言学理论以及人工智能的原理,总激活度等于冠词(图中的article)的激活程度乘以相应的Ward(1992)提出了灵活增量句法产生模型(TheFlexibleIn-权数再加上语境(in-context)激活度乘以其权数。crementalGenerator,FIG)。在FIG模型中,没有专门的句法编码机制,模块句子产生不是单纯地依靠句子结构,而是一4.结语步步地选择合适的单词。而选择单词的过程是由句法知识、目前的计算心理语言学模型都在一定程度上为心理语词汇知识和其他知识决定的。言学的验证提供了旁证,但是从心理语言学的角度来看,目FIG的输入是由一些代表概念(conceptualnotions,用n前的模型主要基于人工智能的理论,所依据的心理语言学理标识)和主位标志(thematicroles,用r标识)的结点组成的论并不完整,这主要是因为目前从事计算心理语言学研究#17#\n的人员主要来自于人工智能领域。目前的计算心理语言学bridge,MA:MITPress.1989.还处在发展的初级阶段,但是目前的研究成果为该领域的发[10]Massaro,D.W.-Modelingmultipleinfluencesinspeechperception.展展示了美好的前景。经过语言学家、心理学家和计算机专inDijkstraandSmedt.1996.家的共同努力,计算心理语言学将为心理语言学和人工智能[11]McClelland,J.L.andElman,J.L.-Thetracemodelofspeechper-ception.,CognitivePsychology,1986,18:1-86.的发展做出更大的贡献。[12]Mitchell,D.C.-Sentenceparsing.,inGernsbacher,M.A.(Ed)HandbookofPsycholinguistics,SanDiego,CA:AcademicPress.参考文献:1994.[1]Cutler,A.-Makingupmaterialsisaconfoundednuisance,or:Will[13]Patterson,K.E.,Seidenberg,M.S.andMcClelland,J.L.-Connec-webeabletorunanypsycholinguisticexperimentsatallin1990.,tionsanddisconnections:Acquireddyslexiainacomputationalmod-Cognition,1981,10:65-70.elofreadingprocess.,inMorris,R.G.M.,(Ed),ParallelDis-[2]DijkstraT.andSmedtK.(Ed).ComputationalPsycholinguistics,tributedProcessing:ImplicationsforPsychologyandNeurobiolo-London:TaylorandFrancis.1996.gy,Oxford:Clarendon.1989.[3]Gleason,J.B.andRatner,N.B.Psycholinguistics,Philadelphia,[14]Pereira,F.C.N.-Anewcharacterizationofattachmentprocesses.NY:HarcourtBraceCollegePublishers.1999.inDowty,D.R.,Krattunen,L.andZwicky,A.M.(Eds)Natural[4]Haarmann,H.J.andKolk,H.H.J.-Acomputermodelofthetem-LanguageParsing:Psychological,computationalandTheoreticalporalcourseofagrammaticsentenceunderstanding:TheeffectsofPerspectives,Cambridge;CambridgeUniversitypress.1985.variationinseverityandsentencecomplexity.,CognitiveScience,[15]Sharkey,N.E.-Aconnectionistmodeloftextcomprehension.in1991,15:49-87.Balota,D.A.,Flores,G.B.andRayner,K.(Eds)Comprehension[5]Kempmen,G.-Computationalmodelsofsyntacticprocessinginlan-ProcessesinUnderstanding,Hillsadle,NJ:LawrenceErlbaum.guagecomprehension.inDijkstraandSmedt.1996.1990.[6]Kimball,J.-Sevenprinciplesofsurfacestructureparsinginnatural[16]Shieber,S.M.-Sentencedisambiguationbyashift-reduceparsinglanguage.,Cognition,1973,2:15-47.sttechnique.,inProceedingsofthe21AnnualMeetingoftheAsso-[7]Kintsch,W.andVanDijk,T.A.-Towardsamodeloftextcompre-ciationforComputationalLinguistics.1983.hensionandproduction.,PsychologicalReview,1978,85:363-[17]Smedt,K.-Computationalmodelsofincrementalgrammaticalen-394.coding.inDijkstraandSmedt.1996.[8]LeveltJ.M.W./ForewordtoComputationalPsycholinguistics0in[18]Ward,N.-Aparallelapproachtosyntaxforgeneration.,ArtificialDijkstraandSmedt.1996.Intelligence,1992,57:183-225.[9]Levelt,W.J.M.Speaking;Fromintentiontoarticulation.Cam-[19]桂诗春.实验心理语言学.[M].长沙:湖南教育出版社.1991.(上接第13页)语言学中已经取得一席之地。我国对汉语汇学著作是I.V.Arnold于1966年出版的TheEnglish词汇学的研究不是孤军作战,而是符合国际研究潮流、并且Word),毕竟还是令人高兴的。名列前茅的。俄罗斯对词汇学研究的现状为我们提供了另一个反面从俄罗斯最新出版的5英语词汇学6一书可以得到另一的教训。他们没有及时地在词汇学研究的传统领域拓宽思个启示。前苏联和俄罗斯在词汇学研究方面曾经起了开先路、更新方法,也没有从社会语言学、文体学、修辞学、语用河的作用,从40年代开始就在建立普通词汇学的基础上,对学、话语分析、应用语言学、语料库语言学和文化研究等研究俄语、英语等多种语言的词汇进行了研究。我国的词汇学研领域汲取营养,致使俄罗斯的词汇学研究没有取得突破性的究从50年代开始就受到前苏联的影响,并取得了很大的成进展。我国在汉语词汇学研究领域中,不仅要继承我国从古绩。然而,俄罗斯的词汇学研究没有能够紧跟当代语言学发代开始的汉语词汇研究的一切成果进行创新的研究,而且要展的最新步伐。从5英语词汇学6一书所附的参考书目来看,不断引进和借鉴国外的先进技术和理论(例如,利用计算机作为1999年最新出版的一本英语词汇学著作,除了引用在建立语料库,对汉语词汇系统进行更加全面深入的研究),使俄罗斯出版的著作以外,所引的最新的欧美语言学著作仅到汉语词汇学研究在新世纪开创一个崭新的局面。1979年为止,连JohnLyons于1976年出版的Semantics和DavidCrystal于1986年出版的LexicalSemantics都没有列参考文献:在其中(他们的观点自然也没有参考或引用),引用的欧美词[1]G.B.Antrushian、O.V.Afanasyeva&N.N.Morozova.English典竟然是60年代出版的,引用的其他英语著作也仅到1980Lexicology,Moscow,1999.年为止,更不用说90年代的最新著作了,不能不说是一个遗[2]HowardJackson&EtienneZ.Words,MeaningandVocabulary憾。所以,这本书与40年代的前苏联的英语词汇学著作相-AnIntroductiontoModernEnglishLexicology,CassellPublish-ingHouse,2000.比,没有取得突破性的进展。举例来说,书中对反义词的论[3]许嘉璐等.中国语言学现状与展望[M].北京:外语教学与研究述还停留在几十年前的水平,没有反映当代语言学的最新进出版社,1996.展。不过,在时隔30多年以后,俄罗斯总算出版了一本新的[4]汪榕培.英语词汇学研究[M].上海外语教育出版社,2000.用英语编写的英语词汇学著作(前一本用英语编写的英语词#18#
查看更多

相关文章

您可能关注的文档