古农学本体的半自动构建及检索研究
南京应鼍戈蓬Yl216070分类号§:Q22至盥!学号2QQ921§业!博士学位论文古农学本体的半自动构建及检索研究何琳研究方向型遮信息组终\n古农学本体的半自动构建及检索研究摘要近20年来,中国农史文献资料的研究已经由传统的手工整理方式逐渐转向衣史信息资源的数字化整理和建设,并借助于现代化的技术和手段来加强农史信息资源的产生.组织,存取,传播和利用,以便用户更便捷地获取农史研究资料,促进农史研究的发展.从目前的现状来看,农史学科已经拥有了一批数字化资源,这无疑促进了农业科技遗产的保护和传播.然而从利用的角度来看,在农史信息资源的组织和存取技术还有待提高,主要表现在缺乏有力的语义管理工具,检索技术相对陈旧,计算机仅把用户的检索关键词当作简单的字符处理,因此,在农史领域建立一种语义描述机制,使得计算机能够具有语义理解能力,是提高农史信息资源服务效果的有效手段.本体(Ontology)作为一种能够在语义和知识层次上描述信息系统的概念建模工具,自被提出以来就引起了国外众多科研人员的关注,并在知识工程、数字图书馆、软件复用、信息检索和Web异构信息的处理、语义Web等众多领域得到了广泛的应用.本文将本体引入到农史领域,尝试构建农史领域本体作为农史信息资源加工、组织和利用中有力的语义工具来解决语义异构问题,使得农史领域概念能够有着明确唯一的定义,在人和机器之间达成一种共识,促进人机交流.本文首先对农史信息资源的组织模式进行调查统计,分析目前农史信息资源组织现状,提出建立本体作为农史学科的语义工具,是提高农史信息资源管理和服务的有效手段,进而结合情报学领域在编制分类表和叙词表的技术和经验,借鉴知识工程领域在构建专家知识库中取得的成绩以及机器学习技术和自然语言处理技术的成果,尝试半自动地构建农史领域本体,提高本体构建的效率.最后,以该领域本体为基础,设计并开发了一个基于领域本体的语义检索模型.本文的研究内容主要有以下几个方面:(1)对农史信息资源组织方式的调查分析随着计算机技术的迅猛发展,农史信息资源的组织方式已经由传统手工编制的目录.索引,发展到了文献数据库、网站等高级组织方式.本文首先对目前农史信息资源数字化组织现状进行调查与统计,目前的农史信息资源组织主要有专题网站、专题数据库和数字图书馆/g史字博物馆三种类型,并对它们的分布进行了统计分析,以便了解农史信息资源建设现状.\n古农学本体的半自动构建及检索研究农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在.本文在农史信息资源调查的基础上,从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析,指出其主要的不足是资源的组织中缺乏语义控制机制.本体作为一种能在语义扣知识层次上描述信息系统的概念模型建模工具,可以对共享概念达成统一理解,为计算机提供一种互操作语言.本文提出利用本体来加强农史概念的形式化描述,并分析了领域本体在农史信息资源组织中对于提升信息服务的作用.(2)古农学本体构建模式研究本体的构建是解决语义异构问题的基础,因此实现语义Web需要大量的本体作为支撑.对于本体的构建,目前主要是手工构建方法和工具的研究.手工构建本体费时费力、进展缓慢且成本高昂,这也是本体构建无法走出实验室的原因之一.机器学习等文本自动化处理技术为本体的自动构建奠定了基础.从长期的发展趋势看,自动构建本体是未来的发展方向,但是在目前技术尚未成熟,机器学习到的概念关系还不够精细和准确.因此,从本体构建的可行性角度考虑,本文采用人机协作的半自动构建模式构建古农学本体.在前人构建领域本体方法论的基础上,结合叙词表的编制模式,由专业人员通过对古代农学领域概念关系分析给出领域的上层知识模式,利用机器学习技术从领域语料中学习概念关系,将专业人员的自项向下和机器学习的自底向上的结果结合起来.(3)古农学本体半自动构建技术研究本研究尝试综合运用多种技术方法用于领域关系的发现和识别,初步实现领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。①古农学领域概念的自动获取.采用基于N.Gram的无词典分词方法从古农学研究论文中获取领域候选概念,同时根据文献保障原则利用文本自动主题标引方法对候选概念进行筛选,以获得领域的核心概念.②古农学本体领域等级关系的建立.根据专业人员给出的古农学领域上层模式,结合现有的领域相关的分类表和主题词表的分类体系,以保证构建的领域本体具有通用性和良好的逻辑基础,同时利用改进的层次聚类法从古农学文本语料中识别等级关系,对原有的分类体系进行扩充和更新.③古农学领域概念属性关系的建立.采用基于关联规则挖掘和基于自然语言处理两种方法相结合的方式从古农学研究论文中获取领域概念的属性关系,利用支持度和置信度等度量方法从文本语料中获取最相关概念,利用汉语的句法特点从文本中抽取主谓宾关系,获取概念属性关系.这样可以减少大规模统计方法缺乏必要语义逻辑基础的不足,也可以降低概念间语义关系分析过分依赖复杂的语言处理模型的弊端.\n另外,采用基于模式匹配的同义词识别方法为概念获取同义词属性.④古衣学本体的形式化.本体的形式化处理,可以对概念关系按照既定的规则进行批处理并自动地生成形式化的本体,提高古农学本体生成的效率.可在已经识别出各种概念关系的基础上自动完成古农学本体的形式化文件的生成.(4)基于古农学本体的语义检索机制研究本文设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制.该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成.借助本体对用户的检索关键词进行语义分析,获取隐含概念,形成对检索需求的规范化描述,使得用户和机器获得统一的机器可理解的语义知识,实现信息资源的语义检索.本体的构建是一项复杂的系统工程,涉及多个学科领域,因此本文所作的工作还非常有限.其一是将本体引入农史信息资源管理,其二是探索半自动构建农史领域本体的技术和方法.由于时问和人力的限制,本文也仅选取了农史学科的一小部分一古农学作为本体构建对象,开发的原型工具尚处于实验探索阶段,在今后的工作中尚需要进一步的扩充和深入的研究.关键词:中国农史;信息组织;本体;古农学;半自动构建;机器学习;语义检索\n古农学本体的半自动构建及检索研究RESERCHONSEMI.AUTOMbⅡCCONSTRUCn0NOFANCIENTAGRONOMYONTOLOGYANDITSSEMANTICRETRIEVALChineseagriculturehistoryliteratureresearchhaschangedtodigitalconstructioninrecent20years.Ithasbeenstrengthenedbymodemtechnologythatthegeneration,organization,access,communicationandusageofagriculturehistoryinformationre.source.Theresearcherofa鲥culturehistorycangetresearchdatamoreeasilyandquickly.Sothedigihalconstructioncouldpromotethedevelopmentofagriculturehistoryresearch.Digitalconstructionofagriculturehistoryresourceshasmadegreatprogress,buttheorganizationandaco。sstechnologyisstillantiquated.ThereasonisthatcomputertreatedtheUSer’skeywordsonlyassimplesymbols.Sotheusefulmethodtoincreasetheinformationserviceofagriculturehistoryisthatbuildingasemanticdescriptionmechanismtomakecomputershavesemanticunderstandingability.Ontologyhasbeenpaidmuchattentionsinceitwasproposed,whichwasaconceptmouldtoolinsemanticandknowledgehierarchydescription.Ontologyhasbeenbroadlyappliedinknowledgeengineering,digitallibrary,softwarereuse,informationretrievalandWebheterogeneityprocessingandSemanticWeb.Thispaperintroducedontologyintoagriculturehistoryfield,triedtoconstructancientagronomyontologyastoolsofa鲥culturehistoryinformationprocessing,organizationandusagetoresolvesemanticheterogeneity,whichcanmakea鲥culturehistoryconcepthaveclarityanduniquedefinition,promotecommunicationbetweenpersonandmachine.TheSemanticwebreliesheavilyontheformalontologiesthatstructureunderlyingdataforthepurposeofcomprehensiveandtransportablemachineunderstanding.Therefore,theSUCCESSoftheSemanticWebdependsstronglyontheproliferationofontologies,whichrequiresfastandeasyengineeringofontologlesandavoidanceofaknowledgeacquisitionbottleneck.Manualconstmctionanddescfipltionofdomain—specificontologyisacomplexandtime—consumingprocess.Therecentstudyonontologydesignmethodologiesshowsthatitisveryhardforadesignertodevelopaccurateandconsistentontology.Therefore,thispaperemphasizedontheresearchofsemi-automaticconstructionancientagronomy\nontologyanditssemanticretrievalmechniasm.Themaincontentofthispapercanbeabstractedasfollowing:(1)SurveyandAnalysisofmodelofInformationOrgamzationofAgricultureHistoryInformationResources.Withtherapiddevelopmentofcomputertechnologyandnetworktechnology,Interactisgraduallybecominganimportantwaytoobtaininformationresourcefortheresearcher.Historyresearcherdiscardedtheloweffectinformationacquirewaywhichistosearchdatafromahug#oftraditionalphysicalliterature.Digitalinformationresourcesavedthetimeofsearchingliteratureofreasearchers.Thispapersurveysonthestateofinformationorganizationofagriculturehistoryinformationresource.Themainmodeofitsinformationorganizationincludedofprofessionalwebsite,professionaldatabaseanddi百tallibrary/museum.Digitalconstructionofagriculturehistoryinformationresourceistosupplybetterinformationservicefortheagriculturehistoryresearcher.Itisthekeytothedigitalconstructionofagriculturehistoryinformationresourcethatwhethercangivebettereffectofagriculturehistoryinformationservices.Thispaperanalyzedthestateofagriculturehistoryinformationorganizationbasedouthesurveyofagriculturehistoryinformationre$ourge,throughthethreelayerofinformationorganizationmode,retrievaltechnologyandinformationservicetype.Bytheanalysis,wefindthattheshortageinthecurrentinformationorganizationisthatthesystemislackingofsemanticcontrolmechanism.Keywordsintheresourceorganizationonlybetreatedassymbols,notconsideringitssemanticmeaning.Anis趾expficitspecificationofaconceptualization.Thetermisborrowedfromphilosophy,whereanOntologyisasystematicaccountofExistence.Bydefiningsharedandcommontheories,ontologyhelpsbothpeopleandmachinestocommunicateconcisely,supportingtheexchangeofsemanticsandnotonlysyntax.(2)ResearchOilthePatternofAncientAgronomyOntologyConstructionThoughengineeringtoolshavebecomematureoverthelastdecade,themanualAcquisitionofontologiesstillremainsatedious.cumbersometaskresultingeasilyinaknowledgeacquisitionbottleneck.Infact,theseproblemsontime,difficultyandconfidencethatweendedupwithweresimilartowhatknowledgeengineelfShaddealtwithoverthelasttwodecadeswhentheyelaboratedonmethodologieSforknowledgeacquisitionOrworkbenchesfordefiningknowledgebases.Amethodthatprovedextremely\n古农学本体的半自动构建及检索研究beneficialfortheknowledgeacquisitiontaskwastheintegrationofknowledgeacquisitionwithmachinelearningtechniques.Thedrawbackoftheseapproaches,e.g.theworkdescribedin,however,wastheirratherstrongfocusonstructuredknowledgeordatabases,fromwhichtheyinducedtheirrules.Therefore,anumberofapproachesproposetoimproveontologyconstructionusingautomaticdiscoveryoftaxonomicandnon-taxonomicrelationshipsfromdomaindataOrdomain-spcci触texts.Unfortunately,intheapproachesavailable,thereisalackofcombinationofthetwomethods,becausemethodsforlearningontologicalrelationshipsrelytoagiveninitialtaxonomyofconceptsanduseitinlearningprocess.So,inthisreseach,wetaketheapproachthatconstructedtheontologysemi—automatically.Thedomainexpertgivestheskeletonsofontologybasedonhisbackgroundknowledgeandcurrentclassificationschemaandtheasrus.Thenantomaticallyacquiredconceptsrelationbyintegratingthelargescalestatisticmethodandnaturallanguageprocessingmethodtoexpendandupdatetheskeletons.(3)ResearchonSemi-AutomaticConstructionTechnologyofAncientAgronomyOntologyThispaperattemptedtotakeamethodthatextremelybeneficialfortheknowledgeacquisitiontaskwastheintegrationofknowledgeacquisitionwithmachinelearningtechniquestoincreasetheontologyconstructioneffect.IntheConstruction,thispaperintegratedmanymethodsintotherecognitionandidentifiedofdomainrelation.Thispaperbasicallyrealizedthefunctionofdomainconceptsacquisition,taxonomyrelationrecognition,non-taxonomyrelationrecognitionandontologyformalizationdescription,①AutomaticAcquisitionofDomainConceptsofAncientAgronomyOntologyThispaperadoptedallapproachofNon-dictionaryChinesewordSegmentationtechniquesbasedonN—Gramtoacquiredomaincandidateconcepts.Thenittooktheapproachtoselectcoreconceptsfromthecandidateconcepts,whichadoptedtheautomaticsubjectindexingmethodtogetthecoreconceptsbasedontheprincipleofliteratureguarantee.②RecognitionofTaxonomyRelationofAncientAgronomyOntologyFirstgettheskeletonofancientagronomyontologybasedontheknowledgebackgroundofdomainexpertandtheclassificationschemaofcurrentclassificationandthesaurusrelatedtotheancientagronomy.Itcallassurethattheconstructedontologyhastheguaranteeofbettergeneralcharacterandwelllogicfoundation.Alsothepaperadoptedthe\nimprovedAgglomerativeHierarchicalClusteringalgorithmtorecognitiontaxonomyrelationfromancientagronomycorpus,whichCarlexpandandupdatetheskeletonofancientagronomyontologyacquiredfromdomainexpertandcurrentclassificationschemaandthesaurus.③RecognitionofNon-TaxonomyRelationofAncientAgronomyOntologyThispaperadoptedtheapproachofintegrationthemethodbasedofAssociationRuleMiningandthemethodbasedofNaturalLanguageProcessingintotherecognitionofdomainconceptpropertyrelationfromtheancientagronomyresearchcorpus.TheresearchUsedtheparametersofconfidenceandsupporttoacquirethemostassociatedconceptsfromthecorpus,alsofollowingthecharacteristicsofChineselanguagesyntax,weextractedsubject,predicateandobjectofsentences.ThistriangledatacanbetreatedasthetripletofDataTypeandObjectTypeProperty.Thiscombinationmethod啪decreasetheshortcomingoflargescalestatisticalmethodwhichlackingnecessarysemanticlogicfoundation,themethod啪alsoavoiddeficiencyofthesemanticrelationanalysisofconceptswhichexcessivelydependedoncomplicatedlanguageprocessingmodel,asweknowthemodelcan’tbeacquiredeasily.Inthisresearch,wetakethemethodtoacquiresynonympropertyfortheconceptsbasedonthemodematching.④FomaliztionDescriptionofOntologyformalizationfilecanbecreatedautomaticallybybatchprocessingaccordingtodecidedruleandconceptrelation.ThisapproachCarlincreasetheeffectofontologycreation。Thisformalizationwasbasedonthefoundationofrecognizedconceptrelation.(4)ResearchontheSemanticRetrievalMechanismbasedonAncientAgronomyOntologyThispaperdesignedanddevelopedasemanticretrievalprototypebasedonancientagronomyontologyinordertoprobethemechanismofsemanticretrieval.TheprototypeWasconsistedofretrievalwordsanalysismodule,semanticreasonedmodule,ontologybrowsingmoduleandsemanticquerymodule.Bytheontology,theprototypeCallgetimpliedconceptsofUSersthrou.ghthesemanticanalysisofUSer’Skeywords.Thenthemachinecanacquketheunifiedunderstandingtousers;formthestandardizationdescriptionofconcepts.Theprototyperealizedthesemanticretrievalbasedonthedomainontology.Itprovedthatthesemanticretrievalcangetbetterresultsthanthekeywordsretrievalthroughthecontracttestbythekeywordsretrieval。ItalsoprovedthatthesemanticretrievalCallincreasetheretrievaleffect.\n查查兰至竺竺兰苎垫望堡墨竺墨!塑Ittakeschallengesandchancestoagricultureheritageinformationbythehighdevelopmentofinformationtechnology.Howtosupplybetteragricultureheritageinformationservicesisthecrucialmissiontotheinformationservicesinstitution.ThispaperledOntologytechnologytotheagrculturehistoryinformationmanagement.Ittakesapuntatagrcultureontologysemi—constructionforagriculturehistoryinformationmanagement,whichintegratesinformationscience,machinelearningandnaturallanguageprocessingtechnologyintoasystemforitssemi-construction.Th/spaperdesignedanddevelopedasemi-constructionsystemofagriculturehistoryontology,alsoincludedasemanticretrievalsystembasedontheontology.Bythereasonoftimeandperson,thispaperonlyselectedapartofagriculturehistory·--AncientAgronomyastheresearchobject.ThesystemisonlyaPrototypewhichneedsfurtherresearchandastepforwardrevise.Keywords:AgricultureHistory;InformationOrganization;AncientAgronomy;Ontology;Semi-AutomaticConstruction;MachineLearning;SemanticRetrieval;Jena\n图表目录图1.1本体在语义检索中的作用示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3图1.2专家学者建模示意图⋯...⋯⋯图2.1中国农业遗产信息平台结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.!I⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..1:!图2.2基于领域本体的信息资源管理方案⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..26图2-3《齐民要术》导航图⋯...⋯⋯⋯⋯⋯⋯⋯⋯图3.1本体的分类图⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..32图3.2RDF三元组示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3.3古农书本体模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.39图3.4古农书本体样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。40图3.5Jena三层架构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图3.6Jena推理机的结构⋯⋯⋯⋯⋯⋯⋯.图4-1古农学本体构建流程图。⋯⋯⋯⋯⋯图4-2古代农作物影响因素简图图5.1古农学本体半自动构建来源语料样例⋯⋯⋯⋯⋯⋯.图5.2N.Gram方法处理流程图⋯⋯⋯图5.3领域概念筛选流程图.....⋯.....67..。.。⋯⋯74图5.4聚类中心单连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.84图5—5聚类中心全连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯..图5.6聚类中心平均连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。85图5.7聚类结果处理前数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。90图5.8聚类结果处理后数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.90图5.9基于自然语言处理的领域关系抽取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.93图5.10基于《同义词词林》的语义相似度计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯97图5.11古农学本体半自动构建系统模块图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102图5.12古农学本体半自动构建系统主界面⋯⋯j⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..102图5.13古农学本体候选概念获取界面图⋯。图5.14古农学本体半自动构建本体概念筛选模块界面图⋯⋯⋯⋯⋯⋯⋯⋯⋯104图5.15古农学本体半自动构建系统等级关系模块界面图1⋯⋯⋯⋯⋯⋯⋯⋯105图5.16古农学本体半自动构建系统等级关系构建模块界面图2⋯⋯⋯⋯⋯⋯105Ⅲ\n古农学本体的半自动构建及检索研究图S.17古农学本体半自动构建系统领域关系构建模块界面图⋯⋯⋯⋯⋯⋯。106图5.18古农学本体半自动构建系统领域关系提取结果放大图⋯⋯⋯⋯⋯⋯。106图6-1古农学本体检索点示意图⋯⋯⋯⋯⋯⋯⋯图6.2《汜胜之书》知识导航图⋯⋯⋯⋯⋯⋯⋯图每3古农学本体问答查询示意图⋯⋯⋯⋯⋯⋯图6.4基于古农学领域本体的语义检索系统框架图6.5基于古农学本体的语义检索系统流程图⋯图6.6《齐民要术》在本体库中的部分代码⋯⋯图6.7《齐民要术》的属性图⋯⋯⋯⋯⋯⋯⋯⋯⋯..........⋯⋯.⋯....116.........⋯⋯..⋯...116.........⋯⋯...⋯..117⋯..⋯⋯⋯.⋯.....119⋯⋯.⋯.⋯........120图6.8基于古农学本体的语义检索设计原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯120图6.9基于古农学的语义检索系统模块图⋯。图6.10古农学本体导航图⋯⋯⋯⋯⋯⋯⋯⋯图6.11语义关系检索结果图⋯⋯⋯⋯⋯⋯⋯.图6.12同义词检索结果图⋯⋯⋯⋯⋯⋯⋯⋯.图6.13上下位关系检索结果⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯122⋯⋯.⋯............⋯..126.⋯...................⋯.127........⋯.⋯⋯⋯⋯⋯.⋯.128.⋯⋯⋯⋯⋯⋯..........⋯129图6-14语义属性检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.129图6.15自然语言检索结果1⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。130图6.16自然语言检索检索结果2⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。130图6.17语义关系关键词方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.131图6.18上下位关系关键词方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。132图6.19自然语言提问方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.132图6.20检全率对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。136图6.21检准率对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.136图6.22F值对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表2.1主要史学专业数据库资料一览表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.13表2.2已经开通的主要大学数字博物馆⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.17表2.3农史信息资源组织现状分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。23表3.1OWL的三个子语言描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.35表5.1N元切分结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯76表5.2领域概念特征值表样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.80表5.3同义词对样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.82表5.4聚类词相关度表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.88表5.5基于关联规则的概念对获取样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.91Iv\n表5.6词性标注体系符号⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表5—7体词性谓词用法示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表6-1检索测试提问集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表6·2Ontology&Keyword检索结果对比分析数据表..V⋯⋯⋯⋯⋯..98.....⋯.⋯...134\n原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者(需亲笔)签名:彳i孑吱锄7年舌月77日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权南京农业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编学位论文。保密口,在年解密后适用本授权书。本学位论文属于不保密缸(请在以上方框内打“√”)学位论文作者(需亲笔)签名:z百球导师(需亲笔)签名:<瓠及丈每c嘲年彳月‘尸日唧∽fr\n1绪论计算机技术、通信技术和网络技术的发展为史学研究的交流和传播提供了更为便利的条件,遍布全球的学术资源通过网络得到了有机的整合。然而信息资源爆炸性的增长趋势,使得人们意识到了被“淹没”在数据的海洋中,如何更为有效地从海量数据中获取有用的信息是目前亟待解决的问题。1.1研究背景1.1.1选题来源本研究是以科技部社会公益专项基金项目子课题(2005DIB6J028)《中国农业科技遗产数字化保护与利用研究》为研究背景。该课题是将中华文明研究院珍藏的420册<方志物产资料》以及具有较高学术价值的120种古农书善本、校注本,通过数字化技术、信息组织技术以及网络技术等,实现中国古代农业科技信息资源的搜集、管理和共享服务功能,加强中国农业科技遗产的保护和利用,开展快捷、高效和开放的社会公益服务。目前,在古籍数字化方面,经过二十多年的发展已经取得了很大的进展,但是从后期的资源利用和服务效率方面还存在着许多的不足,究其原因主要是计算机不具备语义理解能力,仅能把文字作为一种符号进行匹配,缺乏有力的语义管理工具,使得目前的信息服务在准确性和完备性方面尚存在着一定的缺陷。本体(Ontology)作为一种“概念精确化描述”工具,比较适合解决数据集成中的语义异构问题。在课题“中国农业科技遗产数字化保护与利用研究”中,我们拟利用知识本体对概念进行语义描述,将目前的信息服务从关键词层面提高到语义层面,提升农业科技遗产公益服务的效率和精度。我们准备首先构建农业遗产描述本体,以该本体为中间层,在用户和农业科技数字化资源之间建立起一座语义沟通桥梁,使得计算机不仅能够充分理解用户的信息服务需求,而且可以明确农业科技数字化资源中各种概念的明确含义,提供具有语义的信息检索服务。在整个项目的实施中,核心问题除了农业遗产数字化过程中的所面临的字库、OCR识别等问题外,主要还有农业遗产本体的构建以及基于该本体的语义标注、语义检索机制以及进一步的知识挖掘机制。可以说,农业遗产本体的构建是实现农业遗产智能化服务的基础和关键。1.1.2本体的提出对于农史信息资源建设中所面临的困难,最直接的解决方案就是让计算机参与信\n古农学本体的半自动构建及检索研究息理解,建立一种能够在语义层面对概念进行明确描述的工具,让计算机具有语义理解能力,帮助人们从海量信息中挑选出真正用户需要的检索结果。将目前检索结果由用户来挑选的方式变成计算机直接帮助用户来挑选真正需要的信息。这也就是Web的创始人1缸Bemers—Lee在1998年提出的语义Web(SemanticWeb)的构想。我有一个关f万维两的梦想⋯⋯在梦想的第一部分。石维两变成7一个通过共享的知识来完成人们相i沟通的强大I具:在第二部分.沟通能力延伸勃7计算机.机器可以分析万维网i的所有数据.人类会固比甩更多的时阃采爱挥灵感与盔觉.——万维两发明人IimBerners-Lee本体(Ontology)作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。通俗地讲,本体就是用来描述某个领域(领域本体)甚至更广范围(通用本体)内的概念以及概念关系之间的联系,使得这些概念和联系在共享的范围内有着明确唯一的定义,达成一种共识,这样人、机器之间就可以进行交流。本体的构建是为了对共享概念达成统一理解,为计算机提供一种互操作语言。例如,用户要检索关于水果的研究史料,而某篇文本是关于“马奶”的研究,由于计算机不具备理解能力,无法判断出“马奶”就是一种水果,那么这篇文本将无法被检索出来。如果建立了关于植物的本体,通过语义标注得知“马奶”是一种葡萄,而葡萄是一种水果,因此计算机就可以判断“马奶”的文本就是用户想要的检索结果之一。可见,本体是某个领域内不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础。因此,本体是一座架在“语义鸿沟”(Semanticgap)上的桥梁,桥梁的一端是实际的语法表达形式,而另一端是这种表达的抽象概念模型(conceptualization),可以消除自然语言中的模糊性和不确定性,主要可以有如下作用:2\n1绪论图1.1本体在语义检索中的作用示意图Figure1-1FunctionofOntologyinSemanticWeb●对领域知识进行分析,建模,使其明确化利用本体对领域知识进行建模,可以明确领域中术语的明确含义,准确刻画术语的属性以及相关联的概念,使得领域术语含义明确,形成计算机可理解的基础。下图是对。专家学者”进行本体建模的示意图。图1.2专家学者建模示意图Figure1-2ModuleDiagramofProfessionalPerson·使领域知识能够重用和共享一旦建立了农史领域本体,其他研究组织就可以轻而易举地复用到各自地专业领域中去,有利于知识共享和知识建模,促进领域建模的效率,便于推进语义Web的发3\n古农学本体的半自动构建及检索研究展。例如,农史本体中建立了时间和空间的描述模型,如若建立其他学科的科技史本体就可以直接利用这两部分模型,避免从头建立,同时也更为通用和兼容。●在入、软件代理之间达成对某领域或信息组织结构的共同理解达成对信息和结构的共同理解是建立本体的基本目标。假如有若干个农史信息资源网站,如果他们使用了相同的底层本体,那么就可以提取和集成这些不同网站中的信息资源,尽管可能他们采用不同的术语来描述相同的概念。●可以对领域知识进行推理,获取隐含知识本体具有推理功能,将领域知识模型采用形式化语言进行描述,通过建立一定的公理和函数,就可以对领域知识进行推理,得出隐含的知识。例如,齐民要术的“湖湘本”收藏于中华文明研究院,而中华文明研究院位于南京,就可以推理得出“湖湘本”的收藏地之一为南京。1.1.3本体构建的国内外研究现状本体的构建是本体研究中的研究重点,有关本体构建目前主要有三种方法:手工构建、复用已有本体以及自动构建本体。(1)手工构建本体主要遵循以下几个步骤【3】:①定义本体所要描述的范围;②考虑是否有可重用的本体;③列举领域中所有可能的词汇;④定义词汇的分类体系;⑤定义概念的属性;⑥定义属性的分面:⑦定义概念的实例;⑧进行异常检查。目前大多数本体的构建都采用这种方法作为指导,主要有:IDEF5法、TOVE法、METHONrOLOGY法、KAc】ⅢS法、SENSUS法以及七步法等。(2)重用已有的本体复用已有的本体可以避免从头构建本体的麻烦和困难。目前可以复用的本体主要有以下几种:叙词表、分类表以及集成词表:某些顶级本体,如CYC、SUO、GUM等;语言学的本体,例如WordNet、FrameNet、GermaNet;在线本体资源库,如OntologyEngineeringGroupl4l和DAML[51。目前,很多机构研究从叙词表向本体转化,主要成果有:美国Syracuse大学的J.Qiu和s.Paling具体探索了将GEM(教育资料网关)中的受控词表转换成Ontology的原理和原则框架【6】。阿姆斯特丹大学信息科学系的B.J.Wielinga等人刑用A盯建立了一个描述艺术对象的Ontology[71。联合国粮农组织(FAO)国际农业研究信息管理中心尝试将AGROVOC叙词表改造成语义关系丰富的农业本体I刖。SWADEUROPE在从叙词表向本体转化方面也做了较深入的研究【91。美国NCI叙词表向本体的转化也取得了很大的进步。4\n1绪论(3)自动构建本体利用人工智能领域所取得的成果自动构建本体,可以在很大程度上加快的构建进程,节省很多的人力和时间。机器学习在本体自动构建中有不同的应用:·知识工程师从头构建本体:在这个过程中,机器学习主要是辅助知识工程师建议文本中抽取的关系以及检查知识库的结构。·从Web文本中抽取OntologySchema。在这个过程中,机器学习系统在知识工程师的帮助下,输入数据或元知识,输出可用的本体。·抽取本体实例。这个过程类似信息抽取和页面标注,可以应用和这些相关的技术来抽取本体。潜在的、有应用前景的机器学习算法包括:相关规则学习以及其他属性值规则学习算法、贝叶斯学习算法、First—orderHoraclauses以及聚类算法。总的来说,尽管机器学习应用于本体构建有巨大的潜力,但是距离良好的可理解性尚有很大的距离。目前还没有直接可用的技术或工具,但是这种状况随着研究的不断深入有望得到改善。1.1.4本研究的现实意义农史领域本体的构建对信息组织、检索和利用,尤其是对农史信息资源的共享和语义理解的实现,至关重要。它将提高农史信息资源的有序化程度,实现农史信息的自动处理和语义检索,改进农史信息资源服务的质量。本研究不仅对于探索数字时代信息处理和信息检索的理论和方法、完善情报语言学的体系具有一定意义,而且对于推动农史信息组织和检索的自动化和智能化,促进农史信息资源的建设、管理和开发,均有着很高的应用价值。(1)提高农史文献获取的效率学术上的突破,往往依赖于新材料的发现。农业典籍浩如烟海,借助于本体技术实现对农史资源的智能化组织,能够快捷智能地获取所需文献,能够把学者从枯燥的翻检工作中解放出来,把主要精力投入到更深层次的分析比较和理论思索中。(2)快速获取农史知识由于信息的急剧增长,使得人们在因特网时代更希望直接获得所需的知识,从对文本的获取提升到对知识需求的层面。领域本体在一定程度上可以视为领域专家知识库,利用其中的关联可以实现对领域知识的问答和获取。(3)有利于实现知识共享领域本体提供对该领域知识的共同理解,是机器理解词汇的语义基础,同时领域5\n古农学本体的半自动构建及检索研究本体也是一个开放的共享模型。建立农史领域本体有助于实现该领域的知识共享,促进不同信息资源的。无缝”集成,实现基于语义层次上的信息理解,从而实现农史信息共享在语义层面的互操作。(4)便于农史知识统一管理本体具有可重用性,建立农史文献领域本体的知识管理平台,建立一套共享的术语和信息表示结构,不仅可以减少信息转换的难度和工作量,为术语的标准化、形式化提供理论基础,还可以为信息集成提供一个统一的模式,便于实现农史信息资源共享,实现智能化检索与管理。此外,本项研究还有利于农业文献的保存和保护,加快农史信息资源建设的速度,促进农史信息资源信息化建设的进程。与此同时,还可以加强农史研究人员之间的联系,促进农史学科的发展。1.2论文的主要内容、结构及创新1.2.1论文的主要内容本研究旨在将情报学最新的信息组织加工技术应用于农史信息资源建设,提升农史信息资源服务的层次,为用户提供智能化信息服务。本体技术是目前用于解决信息组织中语义异构的最新解决方案。本研究将以农史研究论文为主要语料,采用机器学习和自然语言处理技术等自动化方法,尝试半自动构建领域本体,并以此为基础来实现基于领域本体的语义检索服务。本文的主要内容可以概括为以下几个方面:(1)农史信息资源组织方式调查随着网络技术和计算机技术的迅猛发展,网络逐渐成为研究人员获取信息资源的重要途径。史学研究工作者逐步告别了过去从大量纸本文献中翻阅查找资料的低效信息获取方式。电子化网络化的信息资源提高了农史研究者查找资料的效率。本文首先对目前农史信息资源数字化组织现状进行调查统计,目前的电子化信息资源组织方式分为专题网站、专题数据库和数字图书馆/数字博物馆三种类型,并对每种资源的资源的分布进行了统计分析,以便了解农史信息资源建设现状。(2)农史信息组织现状分析农史信息资源数字化建设是为了更好地为农史工作者进行信息服务,因此农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在。本文在农史信息资源调查的基础上,从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析,指出其中的不足,提出了基于领域本体的信息资源组织方案,将信息资源管理从关键词层面提高到语义层面。6\n1绪论(3)古农学本体构建模式研究经过近十年的发展,本体的编辑工具和手工构造方法已经相对成熟,本文在前人构建本体方法论的基础上结合了情报学以及机器学习部分成果,提出了由领域专家和知识工程师交互的农学本体半自动构建模式。(4)古农学本体半自动构建技术研究本研究借鉴了机器学习和自然语言处理的部分技术成果来实现古农学本体的半自动构建来提高本体的构建效率,初步实现了领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。·(5)基于古农学本体的语义检索机制研究本研究设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制。该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成,通过本体对领域概念的规范化描述,使得用户和机器获得统一的机器可理解的语义知识,实现信息资源的语义检索。1.2.2论文的结构本文各章的内容安排如下:第一章绪论介绍本研究的研究背景、选题意义,研究内容、目的与方法等。第二章农史信息资源组织现状主要介绍农史信息资源的组织模式以及信息资源组织现状、存在的问题等。第三章本体研究进展主要介绍本体相关理论,开发工具,编辑工具以及本体的构建研究进展和本体的应用概况。第四章古农学本体构建技术路线及技术准备探讨古农学本体的构建模式和方法以及构建中所需要的技术支持。第五章古农学本体构建的关键技术主要介绍采用半自动方法获取古农学本体概念、等级关系以及领域属性关系的方法以及技术实现。第六章基于古农学本体的语义检索研究以古农学本体为基础,研究基于本体的语义检索机制以及实现技术第七章结束语主要总结了本文的主要贡献以及下一步要继续的研究工作。1.2.3论文的创新点7\n古农学本体的半自动构建及检索研究本文的创新点主要体现在以下三个方面:(1)提出古农学本文的半自动构建模式。本研究在前人构建领域本体方法论的基础上,结合情报学领域在编制分类表和叙词表的技术和经验,借鉴知识工程领域在构建专家知识库中取得的成绩,利用机器学习技术和自然语言处理技术的部分成果,探讨了领域本体的半构建模式和方法。结合叙词表的编制模式,由领域专家给出领域的上层知识模式,通过机器学习技术从领域语料中学习等级关系和相关关系为构建农学领域本体提供参考,将专家的自顶向下和机器学习的自底向上的结果结合起来。(2)尝试借鉴机器学习和自然语言处理部分成果用于古农学本体的半自动构建,提高本体的构建效率。在构建中,综合运用多种技术方法用于领域关系的发现和识别。对N-Gram方法进行了一定的改进以获取领域概念,对层次聚类算法进行改进以提高该算法对本体等级关系识别的适应性,运用自然语言句法特点提取主谓宾三元组结构为领域概念关系提供参考。(3)开发了一个基于古农学本体的语义检索系统,用于古农学研究文本的语义检索。在本研究中,采用Java语言开发了一个基于古农学本体的语义检索系统,对用户的检索式进行处理,判断其中具有检索意义的检索词之间的语义关系,使得检索词之间不再是孤立的状态,推理用户的检索意图,最终从语义的层面对用户的检索式进行处理,最终返回检索结果。这种检索机制相比传统的关键词检索可以发现潜在的、隐含的语义结果,具有较高的精确率和召回率。1.3研究的主要方法本研究主要是将古农学本体应用于农史信息资源开发和利用,旨在利用网络技术以及知识组织和检索技术的成果提高农史工作者查找和利用农史资源的效率和效果。本项研究对于农史学科而言,是将一种新的科研方法和技术引入农史研究中,是~种方法和技术移植创新;对于情报学而言,是情报学领域中某项新技术的探索,同时是该技术在某一学科的实用化应用的探索,是一种理论研究和实践创新。因此,本研究属于两种学科交叉的研究,在研究过程中采用了史学和情报学以及计算语言学研究中的多种方法,主要有:(1)文献调研法在本项研究中,参考和阅读了近200余篇(部)相关论文、专著、工具书、词典和专业词表等。通过这些文献的调研,了解了领域本体技术的发展现状和发展趋势,同时分析出了目前该技术应用的不足,为本研究提供理论上的指导和技术支持。(2)统计分析法为了构建农史领域本体,对“中国农史论文全文数据库”中的大量主题相关论文8\n1绪论进行了词频加权统计分析,为农史领域概念间的关系的计算提供基础数据来源。(3)比较分析法对目前农史领域现有的知识组织工具和检索技术进行了比较分析,明确了目前农史知识管理中的不足之处,为农史领域本体的构建以及语义检索系统的开发明确了发展方向。对目前的领域本体的构建技术和基于领域本体的语义检索技术进行了对比分析,得出各项方案的利弊,为本研究的技术路线提供有力支持。(4)系统构建法采用Java语言,开发了一个农史本体构建系统和基于该本体的语义检索系统,包括概念抽取、等级聚类、关系获取、形式化处理以及语义检索等模块,实现了农史领域本体的半自动构建以及农史信息资源的组织和检索功能。本章参考文献【1】陈爽.网络时代与文史研究【J】.文史知识,2002(1)【2】张红萍等.数字化技术在农业古籍中的应用m.农业图书情报学科.2004,1600):33.35【3】李景.本体理论在文献检索系统中的应用研究【M】.北京:北京图书馆出版社,2005【4】OntologyEngeeringGronp[R/OL】.http:/pocww.ontoloL,,v.or.kr/ontologv/ontolib.asp.[2005.11.11】【5】TheDARPAAgentMarlmpLanguageHomepage[R/OLI.hRp:/Avww.daml.org.【2005.12.30l【6】QiaJiaa,PalingStephen.ConvertingaconUoHedvocabularyinto∞Ontology:thecaseofGEM.InformationResearch[J/OL】.http://laformationR.net/ir/6-2/oa∞r94.html.【2001.6.2】用B.J.Wielinga九Th.SchreiberJ.WiclcmakctJ.AC.Sandberg.FromThesaurustoOntology[J/OLlwww.cs.vu.nl/一g,uus/papers/Wielinga01a.pdf.[2005.12.201【8】DagobertSoergeLBuildingarichontologyfromAGROVOC[J/OL].www.delos.info/eventlist/LUBl/BorisLausedl-3.ppt.【2006.1.14】【9】9SWAn-EuropeThesaurusactivity[J/OL].http://www.w3.org./2001/sw/Earooe/reports/thes/.【2005.12.18】【10】YmgD吨.OntologyResearchandDevelopmentPart1一AReviewofOntologyGeneration[J/OL】.www.ece.ucf.edu/--crcd/ralcourses/m12/studentprojects/crc,d5(ref)/Review%200f%200ntology%20Generation.pdf.[2006.1.141【11】Joerg-UweKietz,AlexanderMaedche,RaphaelVolz.AMethodforSemi-AutomaticOntologyAcquisitionfromaCorporateIntranetfJ/OL】.www.irit,fr/ACTIVITES/EQSMI/GRACQAVSEKAW2000/PAPERSAMaedche.pdf.【2006.3.14】【12】曹玲等.农史研究的新工具一中国农业遗产信息平台的建设与构建【J】.中国农史.2006.19\n古农学本体的半自动构建及检索研究[131张琪玉,侯汉清.情报检索语言实用教程【M】.武汉:武汉大学出版社,2004【14】籁茂生.王延飞.赵丹群.计算机情报检索【M】.北京:北京大学出版社,1993【15】秦健.语义网与实用分类系统【R/oL】.www.1ibrarv.fudan.edu.cn/news/qianjianfudan2004.oot[2005.12.18】[161袁嫒.领域本体建设的方法论和工具研究【D】.北京:中国人民大学,200410\n2农史信息资源组织现状随着计算机和网络技术的迅猛发展,网络逐渐成为研究人员获取信息资源的重要途径,但是与其他学科相比,现有的信息服务模式难以满足研究人员对文献获取精、准、深的要求。因此,为农史研究提供一个数据来源丰富、类型多样、加工精深、及时准确,并具有强大信息检索功能的农史研究信息平台变得越来越重要。本章将对目前的农史电子信息资源组织模式进行调查统计,从中总结目前农史电子信息资源加工和利用的总体情况,提出采用领域本体作为农史信息资源管理的语义工具,优化农史信息资源的加工利用,以促进农史电子信息资源服务的质量。2.1农史信息资源组织模式信息组织就是“将无序的信息按照其外部特征和内容特征有序化,然后进行重新控制,其目的在于提供可控性的高效信息服务”111。目前的农史电子信息资源主要的组织模式有专题网站、专业数据库以及数字图书馆/数字博物馆等多种形式。2.1.1网站资源网络对学术交流和学术传播具有强大的推动作用,可以方便快捷的获取学术资料,为科学研究提供了便捷的平台。目前,史学领域也相继建成了众多的专题学科网站,成为宣传历史遗产、展示史学研究进展的重要窗口。(1)中华农业文明网12】(http://www.ieac.edu.cn/home.asp)由中华文明研究院主办的农业史研究的综合性权威网站。(2)中国农业历史与文化例(http://www.agd-history.net/)由中国科学院自然科学史研究所主办的中国农史研究权威网站(3)中国经济史论坛【4J(http://www.guoxue.com/economics/)由中国社科院经济研究《中国经济史研究》主办的经济史研究权威网站(4)中国农业科技史网姘卸(http://ecourse.scau.edu.cn/agro/xy/)由西北农林科技大学农史室主办的农业科技史科普类网站。(5)科技史论著目录查询【6l(http://www.ihns.ac.cn/library/searchl.htm)由中国科学院自然科学史研究所资料中心建立。(6)中国文化研究论文目录查询[71(http:{/192.192.58.101{cult)由台湾国家图书馆主办。此外,还有厦门大学历史系《中国社会经济史研究》全文数据库网站等有特色的网站资源。但是从总体来说,这些网站还尚缺乏有力的资源组织、加工意识,导航意识,致使这些网站相对混乱,用户容易迷失。\n古农学本体的半自动构建及检索研究2.1.2专业数据库我国从20世纪80年代中期开始尝试古籍文献的数字化工作,尽管初始建设工作很艰辛,但中国台湾、香港、大陆三地的文史工作者克服种种困难,推动古籍现代化进程的不断发展,并陆续取得一定的成果。表2-1罗列了二十几年来古籍数字化专业数据库建设的主要成果。专门针对农业遗产的专业数据库非常少,大部分分散于表2.1的各专业数据库中。在农业史料专业数据库资源建设方面,比较突出的有中华文明研究院以及中国农业科学研究院所做的研究工作,对于农业史料数字化资源建设做出了较突出的贡献,填补了农业史料数字资源建设的空白,对促进了相关科研和教学的发展具有重要的意义。(1)中国农业遗产信息平台中华农业文明研究院在科技部国家科技基础性工作专项“中国农业科技遗产信息数据库建设”的支持下,从2002--2005年历时三年成功建成了国内首个中国农业科技遗产信息平台——中国农业遗产信息平台。该平台集成了多个农史文献数据库,在农业遗产数字化领域取得了很大的进展。中国农业遗产信息平台是以农史研究文献为主要数据源的集成数据库,分为题录库、全文库、图文库三大类型,各数据库的文献资源经农史专家精心选择,类型多样,专业性强,覆盖面广,数据量大,填补了目前农史数字资源的空白。该平台界面友好,检索途径多,并能够提供检索结果保存、打印、下载等服务,最大程度方便用户对资源的获取。该平台可为农史研究人员提供全面、权威的农史文献信息服务,为农史学术研究提供有力支持。图2.1中国农业遗产信息平台结构图Figure2-1FrameofChlneseAgriculturalHeritageInformationWebPlatform(2)“农业古籍珍藏及全文数字化研究与建设”项目中国农业科学院农业信息研究所2006年12月完成了国家科技基础性工作专项\n2农史信息资源组织现状“农业古籍珍藏及全文数字化研究与建设”项目。该项目重点完成了基于图像的数字化农业古籍全文检索技术研究;国家农业图书馆古籍数字馆藏质量控制研究:农业古籍全文数字化检索技术研究和用户服务系统完善等。已建成适合农业古籍特点、数据内容完备、著录规范化、标准化程度较高的古籍书目数据库,总计12,767种,13,044册,其中重要农书、史书可与一次文献连接,数字化全文总量达6000余册,80余万页,砸f格式原图文件700余G,部分为彩色图像,成为我国珍贵的农业古籍全文数字化图像资源。表2-1主要史学专业数据库资料一览表Table2.1TableofHistoricalDatabase编号机构数据库名称类型同址备注1普通古籍书目数据库普通古籍2善本古籍书目数据库善本htto'J/www.nic.eov.cn/ser,'i=/eII&Bcane/euiishanben.htm3方志家谱书目数据库方志htta://fcsl.alc.£ov.c'n:90SOlchro家谱nic/index.him4地名数据库方志5地图数据库方志6国家圈书馆敦煌资料库htta://nlc].nlc.£ov.c'n:7777/scax布尔检索bdh.htm字段检索7中国金石拓片影像数据库金石htra.'//www.nlc.£ov.cn/Rubbind组合检索拓片查“8馆藏名家手稿书目数据库手稿9馆藏西夏文献数据库民族htto:∥弛.96.31.42:9080/weuxia古籍n/indexhtm10馆藏外文普本数目数据库外文善本民国期刊数据库期刊httv://tcsl.nlc.oov.cn:9080/ma£a五no/indexhim11馆藏古籍全文数据库古籍12馆藏束元善本全文数据库善本\n古农学本体的半自动构建及检索研究13上海图书馆名人家谱库家谱httv://scarch.1ibrarv.shc叫ia加/14盛怀宣档案库ht'to:/肭.1ibnct.shcv)dildlib/zixm/sxh.him15民国图书库图书httD://www.1lbnet.sh.cn坩idtd“mL,ts/index.htm16民国文献书目数据库17南京图书馆馆藏古籍书目数据库分类、主履18中国近代文献图像数据库htlo:/Avww2.isllb.o佗cn,was40/检索index.htm19南京大学图地方志方志20书馆清人词集21首都图书馆明清北京城垣资料库htto:I/www.c]cn∞.net/truest/search/zhuantika3asp町MPID=B22农史论文全文数据库论文23中华文明研农史论文题录数据库论文htto.J/iw.niau.edu血加ⅫFoB【N,24究院农业古籍题录数据库古籍Select.DU25农业古籍全文数据库古籍26农学遗产选集图文库古籍27天津图书馆馆藏古籍善本目录善本28广西图书馆太平天国史料库htlo:I/2(Y2.103.233139/trsweb/m垃:h地29北京师范大馆藏精品学图书馆30吉林省图书古籍、满铁资料书目检索hRo://www.ikUbcnrn_cn/d2.ht馆匹31辽宁图书馆善本古籍数据库32吴江图书馆吴江五百年古代地方志方志httn://www.w/libc.om/iianiie/z'v全文检索m33泉州市图书泉州市图书馆馆藏谱谍库谱牒httn://www.ozlibcoma吖删o.h馆t—m—34绍兴图书馆绍兴方志35广东省中山馆藏古籍书目数据库14\n2农史信息资源组织现状图书馆36北京大学古文献资源库古籍htto:llrbdl.calis.cdu.cn/'mdexisD浏览图书馆拓片组合检索37全唐诗电子检索hRo:/Ichinesc.nku.edu.cn/tane/38复旦大学古典文献数据库hlm:I/www.Ubrarvfud蛆.cdu.cⅡ:字段检索80∞,锄诳39西安交通大西安交通大学古籍特藏blip:肌jbralw.耐hI.educn/html/x[t学u/d叫‘mii/lndcxOlhtm40兰州大学敦煌学数据库hnD:,肺.1zu.edUcn/dunhuan“41厦门大学‘中国社会经济史研究》研究全文数据库论文42香港中文大国学宝典古文检索郭店楚楚简]mD:I/bamboo曲.锄Mc.edu.hk/学图书馆简资料库43菩本图书联合目录善本httD://www.ndcdu.tw/f89.htm44台湾中央图善本丛刊影像善本hRo:I/www.ecLcdu.I'w/flvweb7h书馆d.book/indcxhun.45古籍影像检索系统古籍htta://tbook_hvwcb.∞ⅡLnv/c口抵出ow?helo46超星数字图中国明清史档案文献档案明清47书馆民国史档案文献档案htm://www.ssreadcr.comcn/zbu至1995年48中国革命史档案文献档案allti/dawx/indexhtml重要档案49中国数字图中华大藏经书馆50北京书同文httD://www.n;h2ncom.cn/html/数字化技术四部丛刊、四库全书鱼4虹地公司51北极星书库中华古籍电子书52国学同四库全书目录htto://WWW.LmOXUecom/skas/in无检索dexhtm53简帛研究论文论文ht【D:Ⅳw、v。w_bamb∞siILo“血dc简帛研究x.him54简帛图片简帛httc://www.bamboosilkor口/Jbtk\n古农学本体的半自动构建及检索研究,Dic.htm55甲骨文字库htto://www.anvan£.£ov.cn/vswh/vs/iaL’u/ikzk.htm按照类别56殷商文化网精美甲骨htto://www.anvan£∞Vcn/vswh选择/vs/ia皿Coeautv,beauall.htm甲骨拓片57拓片大集htlo://www.anvaa£.£ov.cn/vswh对照释文|~s{、at,u/todi。him58明清研究会明清研究论文论文huo://v“vw.sinlca.cdu.tw/一min£(台湾)chind59典藏目录及资料库古籍60国际汉学博士论文摘要资论文科库61明人文集多种高级62两汉诸子研究论著目录资论文检索方式台湾汉学研料库图书跨库检索63究中心经学研究论著目录资料库论文httu:llccs.ncl.exto.tw/data.html图书64敦煌学研究论著目录资料论文库图书65外文期刊汉学论著目次资期刊料库66中央研究院汉籍电子文献中文全文资hnD:^bnⅣqnshd曲.edu.tw/flms-b付费使用料in/ftmsw367中央研究院多种检索历史语言研历代名臣奏议奏折htm://www.ihosinica.edutw/dat方式究所(台湾)abase/68东京大学东所藏古籍线装书资源图书htw://www.ioc.u.10k'voacio/-hi属介绍性洋文化研究.d,.c...m...i./..a..i..i.d..e...i.U..0.....h...t—m—l质所69国际敦煌学敦煌遗书§业地gP:b!:g型多种高级项目IDP检索70美国丝绸之丝路文明htW://www.sHk.roadcnm/toc/m16\n2农史信息资源组织现状路基金会d£x.hmd71美国明史学瞬史研究htto:巾V^眦histu衄edulJⅡin一会(注f古籍书目数据厍只罗列了部分主要图书馆,此表部分参考自—MXv:I/www.xian£:vam.n—vt/file.s/175/biao.htm据)2.1.3数字图书馆/数字博物馆在数字图书馆/数字博物馆建设方面,史学界也开展了众多的建设项目,相继开通和建成了一批数字图书馆,博物馆,涉及到古籍、考古、建筑史、数学史等十几个领域,成为教学和科研获取资料的一个重要途径。“中国科技史数字图书馆资料库”19】在CALIS(中国高等教育文献保障系统)一期特色库项目资助的“中国工程技术史料库”基础上建成,获得CALIS二期特色库重点项目资助。现己初步建成科技典籍书目、科技典籍资料、研究论著索引、工程发明史资料卡片、中国科技史图像资料等专题库,该资料库将为建设中的清华大学中国科技史数字图书馆提供资源支持。数字图书馆已经建成建筑数字图书馆、数学史数字图书馆、机械史数字图书馆、水利史数字图书馆、工艺史数字图书馆和陶瓷史数字图书馆。2003年中国农业大学图书馆展开了小规模农业古籍数字化尝试,将馆藏的代表性农业历史专著,即《吕氏春秋》的“上农”、“任地”、“审时”、“辨土”四篇农业论文,《齐民要术》、《陈舅农书》、《王祯农书》、《汜胜之书》、‘四民月令》、《农政全书》等进行数字化处理,扫描成图像并进行人工著录,包括题名、作者、版本、年代等检索点,同时提供分类浏览和主题检索两种方式【131。台湾中央研究院汉籍电子文献(旧称瀚典全文检索系统)是迄今最具规模的中文古籍数据库,也是目前网络中资料整理最为严谨的中文全文数据库。它包含整部二十五史、整部阮刻十三经、超过2000万字的台湾史料、1000万字的大正藏以及其它典籍,合计字数13400万字,并以每年至少1000万字的速率增长,蔚为壮观。表2—2已经开通的主要大学数字博物馆编号单位名称网址1北京中医药大学中医博物馆httD://bwg.biucmneducn/2昆明理工大学矿物数字博物馆htto:f/www,kmust.edu.crt/dm/ind嘿hun3中山大学生物数字博物馆ht_to://bioIIIUS£Umsv锄edu.cn/index2htm4北京大学地质数字博物馆htto://muscum.nkueMucn]17\n古农学本体的半自动构建及检索研究5清华大学美术学院数字博物馆6四川大学人文数字博物馆htto:|恤2.115.40.18:82僦|7山东大学考古数字博物馆htlo:I/museumsth.cdu.ca/S上海交通大学船舶数字博物馆httD://shiDmuscumsireedu.cn,9成都理工大学恐龙数字博物馆htto://wvmc.museumcdut.edu.ca/10中国地质大学地学数字博物馆1l湖南大学岳麓书院数字博物馆12北京航空航天大学航空航天数字博物馆htto://dieita[mu趾umbuaaedu.cn,13中国农业大学农业数字博物馆htto://museumcall.educ—14复旦大学文化人类学数字博物馆httn://www.di2mm.如dan.educ珏,15西北大学考古数字博物馆htto://dmuseumn、^Ⅲcdii.ca/16南开大学古代社会生活数字博物馆htto:Hmuscumnanbi.educ8/17南京大学地球科学数字博物馆htto://202.1194929/museum/index.him18西安建筑科技大学建筑博物馆htto:,/202200.14415,t9贵州工业大学古生物博物馆www.azit.educn/mcnl/indexhtm20清华大学机械史数字图书馆htm://eliblib.tsin吐uaeduc'n:9080/machinedntm/index.iso21清华大学建筑数字图书馆hrm://166III.120.55:8001,22清华大学数学数字图书馆htto://clib.1lbtsindma.educa:9080/mathdb“atm/indexisa23北京大学古籍数字图书馆httm//rbdlcaIise,ducn/indcxiso24南京博物馆数字化博物馆httO://c—museumnimuseum.corn/25故宫博物院网上博物苑htlo://www_dom.ore.ca/China/defaair.asD26中国航空数字博物馆htto://www.akcraftmuseum.ca/教育部《面向21世纪教育振兴行动计划》“现代远程教育工程”2001年专门设立了“现代远程教育网上公共资源建设——大学数字博物馆建设工程”项目,拟重点支持8.10个有特色的大学博物馆数字化改造。根据初步调查,现有大学实体博物馆130余家。依据目前的实际情况和“十五”规划建议按学科和实体博物馆建设50个大学数字博物馆,其主要有:人文、生物、历史、军事、航空航天、船泊、地学、林业、农业、医学、天文、气象等学科的大学数字博物馆。目前以开通的主要大学数字博物馆见表2.2。2。2农史电子信息资源组织与检索现状经过二十余年的发展,我国目前已经拥有了相当数量的电子信息资源,2.1节总\n2农史信息资源组织现状结了目前的农史信息资源的组织模式,包括专业数据库、数字图书馆/数字博物馆以及专业网站资源。要有效地利用这些资源必须对这些信息资源进行有效的组织和加工。无序的信息资源不仅无助于信息资源的使用,反而会加剧信息增长与使用的矛盾。下文将对目前农史信息资源的组织和利用现状进行总结和分析,总结利弊,以期提高农史信息资源利用的效果。2.2.1农史知识组织检索技术现状信息检索过程实际上是将检索提问词与文本或文本标引词进行对比匹配的过程。为了提高检索效率,通常采用一些运算方法对检索提问进行技术处理,例如概念相关性、位置相关性等,这些技术处理方法就是通常所说的检索技术。总体来说,目前农史信息资源管理中主要采用了字段限定检索、布尔逻辑检索以及全文检索等传统检索技术进行字词层面的处理,而未达到语义处理的层次,检索技术相对比较低级,智能化程度还不高。(1)字段限定检索字段(field)是组成记录的基本信息单元,每个字段都描述文献的某一方面的特征。字段限定检索可以将检索词限定在某个特定的文献特征中去,例如,检索词只出现在题名或者作者中。中国农业遗产信息平台以及目前在建的各个数字图书馆项目都提供了字段限定检索,主要有:题名、责任者、机构、文摘、关键词、刊名、资源类型以及正文几个字段供检索时选择。(2)布尔逻辑检索布尔逻辑检索技术是信息系统中应用最广泛的检索技术之一,它是最简单、最基本的匹配模式,其理论基础是集合论和布尔逻辑。常用的布尔逻辑运算符有三种:逻辑或OR,它表示包含检索词A或者包含检索词B的,均为命中文献;逻辑与m囝,它表示同时含有检索词A和检索词B的才为命中文献:逻辑非NOT,它表示不含有该检索词的文献才为命中文献。大部分农史信息检索平台都使用了布尔逻辑检索,用户在检索时候可以对各个字段进行布尔逻辑选择,支持二次检索。(3)全文检索技术全文检索,简言之,就是以各类数据诸如文字、声音、图像等为处理对象,提供按照数据资料的内容而不是外在特征来实现的信息检索手段。以文本为例,就是文中的任意词汇都可以作为检索点来进行检索,这种检索方式能够对海量数据进行快速的查询,成为目前各类数据库以及搜索引擎的主要核心技术。大多数农史信息资源检索系统都提供了全文检索服务,如,中国农业遗产研究室开发的中国农业遗产信息平台、清华大学主持的“中国科技史数字图书馆资料库”等都提供了全文检索服务。\n古农学本体的半自动构建及检索研究(4)检索输出技术基于关键词的全文检索机制是将检索词与文献资源库进行字面匹配,含有该检索词的检索结果均为命中结果,也就是说,全文检索的缺点之一就是会返回大量的检索结果,常会有输入一个检索词,会有成百上千的检索结果出现。因此,对检索结果的输入进行处理,是评价检索系统的一项关键因素。对于相关性排序,统计中的农史检索系统中,只有中国农业遗产信息平台具有相关性排序功能,所提供的相关性排序有;内容新旧排序和命中次数排序。2.2.2农史知识组织中检索语言的现状检索语言是用来描述信息源特征和进行检索的人工语言。检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。检索语言分为分类语言和主题语言,实行分类控制可以将主题相似的文献集中起来,满足族性检索的需要,两主题控制可以将精确检索某一特定文献,满足特性检索的需要。在农史信息组织中,有些网站和数据库建立了初步的分类浏览功能,便于用户发现某一大类文献查找的需要,而在词汇的主题控制方面,所做的工作还甚少。总体来说,在农史信息组织领域检索语言的建设还非常薄弱,从而也影响了农史信息资源利用的效果。(1)中国农史分类裂16】2006年,中华农业文明研究院在犁播的《中国农学遗产文献综录》的分类体系、中国农业博物馆的《中国农史论文目录索引》以及《中国农业百科全书·农业历史卷》分类目录等前人研究成果的基础上,编制了国内首个农史学科的专业分类表。该分类表将农史分为农史理论、农业史通论、农业思想史、农业科技史、农业经济史、农村社会史等九个大类,每个类目下设置了详细的小类,为农史信息资源的组织、导航、检索提供了基础支持,但是该分类表更新和修订较慢,结构过于严谨,应用于网络信息的自动处理还需改进。(2)农史概念词典【16】2006年,中华农业文明研究院在“中国农业科技遗产信息数据库建设”项目中,为了提高农史信息资源的组织和检索效率,构建了中国农史概念词典。在该词典中,主要构建了概念间的相关关系,并且同时构建了农史地名表和农史时代表作为农史信息资源组织和检索的有力支持。以此为基础开发的农史信息资源组织和检索系统,可以对资源进行相关关系的控制,一定程度上提高了农史信息资源的检索效果。(3)Web农业古汉语电子词典【”J中国农业科学院农业信息研究所在“农业古籍珍藏及全文数字化研究与建设”项目的研究中,设计和开发了Web农业古汉语电子词典。该词典从《农政全书》、《月令\n2农史信息资源组织现状辑要》等农业古籍文献中,选取农业及相关的古汉语词汇,并进行现代汉语释义以及繁简字对照处理,主要收录了与农业相关的词汇,主要包括名词以及名词词组,古地名词汇以及疑难词汇等,例如“夜合藤”今称“何首乌”,“豕”为“猪”的古称等。该词典主要可以提供古代农业词汇的同义词汇控制,是理解和利用农业古籍数字化资源的实用辅助工具之一。2.2.3农史信息资源组织现状评价农业遗产数字化的目的是为了用户更方便快捷的获取农史研究资料,因此需要采用大量的信息处理技术对电子化的信息资源进行加工、整理、检索和开发,“物尽其用”才能使得农史的数字化遗产得到共享,体现出其在目前网络环境下的价值,然而通过调查分析发现,在农史信息资源建设方面尚处于“粗放型”的资料电子化处理状态,而对于后期的信息资源的加工、整理、开发和利用方面所做的工作还需要进行大量的投入和研究。目前在农史信息资源加工利用方面的总体特点是检索技术相对落后、后台语义支撑工具缺乏、服务方式尚处于被动服务状态。下文将从检索技术、检索语言、检索服务三个方面对目前的农史信息资源现状进行总结。(1)检索技术分析通过对目前的农史信息资源的检索技术调查来看,多数农史信息资源检索系统均提供了布尔逻辑检索、字段限定检索这些检索技术,是在目前信息技术高速发展的带动下,农史学科向高效的信息化服务迈出的可喜的步伐。然而从目前信息技术发展的现状来看,这些检索技术都是基于关键字检索的检索模式,这类检索模式的最大缺点在于计算机对于输入的文字只能做“字面”的处理,参与匹配的只是字符的外在形式,计算机无法从语义的角度去处理,也就是不能做到计算机和用户对检索需求形成统一的认识,用户在检索时经常无法用准确的语言来表达自己的检索需求,同时由于不同行业背景,常常对同一事物会有不同的定义和称呼,其结果必然是会返回大量无关、答非所问的检索结果。检索结果的处理是衡量一个检索系统检索性能的一个重要指标,在检索结果的相关性排序方面,有些农史信息检索系统虽然开发了相关性排序功能,但是只停留在了简单的按照内容的新旧以及命中的次数层面。事实上相关性排序要综合考虑多种因素,如文本的权威性、被引用和阅读的频率等。有效的相关性排序,应该更着重于考虑检索结果与检索需求在语义上的相关程度,要实现语义层面的相关度分析,需要引入一个语义词典、领域本体等语义关联分析工具作为相关性分析的支撑工具,同时,也可以为用户的检索扩展提供具有语义价值的参考和提示。而关于语义方面的研究,在农史信息服务领域几乎还尚处于未起步状态。\n古农学本体的半自动构建及检索研究(2)资源组织模式分析在农史信息资源的组织中,建立了一定的语义管理工具,如《中国农史分类表》、‘农史概念词典》以及{Web农业古汉语电子词典》等,但是《中国农史分类表》更多的作用是与《中国图书馆分类法》类似的专业分类法,属于面向学科的等级列举式分类法,结构体系过于严谨,类目体系缺乏横向的语义关联;《农史概念词典》可以提供相关关系的控制,但这种语义控制过于松散,更多的是起到检索扩展的作用:{Web农业古汉语电子词典》收录了重要的农业古汉语词汇的释义,属于农史信息资源处理的基础数据,如若使之发挥作用,还需进行进一步的语义挖掘。检索语言是描述信息主题内容的工具。也是用户表达检索提问的语言。信息检索系统中一般将关键词作为描述信息和用户提问的基本单元,尤其是在网络信息资源检索中,大多数搜索引擎都提供按关键词搜索的功能,因为关键词是最简单的自然语言,是实现主题检索的重要途径,而且简单易用,但是关键词不能充分表达概念之间的语义关系,通常难以满足用户的族性信息需求。只能基于简单的形式匹配,无法对知识进行理解和处理,也就不可能真正理解用户的查询意图,无法达到较高的查准率和查全率。目前在农史信息资源组织方式上,除了一部分资源采用粗略的分类体系进行组织外,大部分资源都采用关键词的形式检索。因此,要提高农史信息资源组织的效率,就必须改变目前信息资源的描述方式,在信息创建之初就加入语义信息,实现基于语义的信息资源组织,从而有效提高信息资源组织的效率。例如,用户查询“唐代的税收”,经过语义匹配,系统可以得出用户的检索意图的真正意图可能是“两税法”。(3)检索服务分析目前的信息服务方式,主要有两种,一种是传统的“拉”方式,一般情况下,“拉”方式由用户来控制信息的查找和获取。另一种是与“拉”(pull)方式相对“推”(push)方式,它是由信息的生产者或信息系统来控制信息的流向。也就是信息的主动服务和被动服务。对于现代信息检索而言,进行深层次的开发和创建,支持以用户为核心的服务模式是目前网络环境下信息服务的主要发展趋势。“推”技术是一种主动信息服务的方式,根据用户个人的需求特征,运用“筛选”、“过滤”机制,将信息不断、主动地提供给用户的一系列服务。例如,某位进行农业经济史研究的农史专家,个人需求特征方面填写“田赋、田制、租佃关系”等关键词,则信息系统就会根据用户的需求,将最新的关于这方面的研究进展及时地以邮件等方式“推送”给该农史专家。从调查来看,在信息服务方式上,目前的农史信息资源还处于传统的“拉”(pull)方式。系统根据用户的检索词,得出检索结果被动的返回给用户,还处于被动信息服务方式。因此,应尽快开发“推送”服务的个性化信息服务方式,可以减少用户浏览\n2农史信息资源组织现状信息、查找信息、筛选信息的时间,同时还可以节省网络的流量,提高信息服务的质量和效率。表2-3农史信息资源组织现状分析、、\荽术现状服务方式检索技术组织方式资源类;\布尔检索字段检索全文检索分类语言主题语言数字图书馆被动有部分有无专题数据库被动有部分有无专题网站被动无部分有无目前在科技史信息资源建设上,已经完成了大量的资源数字化基础工作,但是由表2-3不难看出,在资源的加工和利用方面还处于落后状态,使得大量的电子信息资源不能褥到很好的利用。在专题网站建设方面,大多数的网站只是起到了宣传的作用,没有有效的门户网站建成。一是网站的资源还相对较少,二是网站建设水平相对落后,缺乏有效的资源组织技术,佼得网站的资源杂乱无章。在专题数据库建设上,诸多研究机构和信息服务部门花费大量的人力物力将宝贵的纸本文献数字化,建成了各类专题数据库,积累了宝贵的电子资源。在对这些资源的利用方面,目前提供的仍是最近基本的服务方式,如布尔检索、字段检索等,检索技术仍停留在字符匹配的水平,缺乏有效的语义控制技术,使得检索结果用户满意度不够。在数字图书馆建设方面,虽然建成了数十个门类齐全的数字图书馆/博物馆,但是大都提供了静态的图片展示,用户可以浏览其中的资源,但是缺乏有效的资源导航服务,在资源检索方面,还优待加强。总之,目前科技史信息资源建设方面所取得了一定的成绩,拥有了相当数量的数字化资源,但是在资源的有效服务方面,需要加大研究力度,提高这些数字化资源利用的效率和效果,以实现这些数字化资源的真正价值。2.3基于本体的农史信息资源组织利用通过调查分析,不难得出目前农史信息资源组织利用中,主要采用基于关键字的机械匹配。割裂了字、词间的语义关联,缺乏必要的语义分析,导致用户信息获取结果不尽人意。这种查询机制缺乏智能性和知识性,越来越难以满足人们日益增长的知识需求。究其原因是目前的信息组织和信息检索机制中缺乏对语义的控制,于是,在农史信息资源组织利用中引入基于语义的知识组织和检索的研究就显得越发重要了。2.3.1引入本体的必要性我们知道,情报检索的过程实质上是存贮与检索过程中情报语言f标引语言与检索\n古农学本体的半自动构建及检索研究语言)匹配的过程,只有当检索用语与标引语言完全一致时,才能检中文献。当然,这个完全一致可通过如下两种形式实现:①字符形式直接完全一致。②两者通过查询转换(如借助后控词典、概念库、本体论等)实现一致。在情报检索语言中,存在着人工受控语言和自然语言两种检索语言。使用受控语言对于普通用户来说难度太大,因此,在网络环境下,大多数系统都采用接近自然语言的关键词作为检索语言,但是由于自然语言的灵活性,存在着大量的一词多义,一义多词等现象,导致关键词在信息检索中出现了种种的不适。对于自然语言的控制措施,早期有入口词表控制法、后控制词表控制法等词表控制方法【14】。随着人们对词表编制效率要求的提高,人们又提出了概念空间、语义网络、语料库控制、语义本体等方法。在众多的语义控制措施中,语义本体作为一种最新的、最具前景的语义概念控制方法备受瞩目。(1)本体的概念本体(Ontology)最早是一个哲学概念,与认识论相对,研究事物客观存在的本质,是对客观存在的系统的阐释和说明,描述的是客观存在的抽象本质。后来随着人工智能的发展,本体被人工智能界给予了新的定义。最初人们对Ontology的理解并不完善,随着对本体研究的深入,这些定义也出在不断的发展变化中。1993年,G埘beIll8】给出了Ontology的一个最为人们所熟知和认可的定义,“Ontology是概念模型的明确的规范化的说明”。后来,Borst在此基础上给出了Ontology的另外一种定义“Ontology是共享概念模型的形式化规范说明”。Studer等对上述两个概念进行了深入的研究,认为Ontology是共享概念模型的明确的形式化规范说明。这包含了4个层次的含义:①概念模型(conceptualization)概念模型是通过抽象出客观世界中的一些现象的概念而得到的模型,其所表现的含义独立于具体的环境状态。②明确(explicit)“明确”是指所使用的概念和概念约束都有明确的定义。③形式化(formal)“形式化”是指Ontology是计算机可读的,可被计算机理解和处理的。④共享(share)“共享”是指Ontology所体现的是共同认可的知识,是相关领域中公认的概念集。Ontology的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇\n2农史信息资源组织现状之间相互关系的明确定义。(2)本体的特点就其实质而言,本体是特定领域内的概念集,描述了该领域内公认的对象以及对象间的关系。Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,具有的良好的概念层次结构和对逻辑推理的支持,特别是其共享性和开放性,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。Ontology能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率和查准率。由于本体是对特定领域内的概念及概念关联的形式化表示,具有较强的语义属性,因而,利用本体可以克服传统信息检索割裂词间语义关系的弱点,较好地解决因简单关键词匹配带来的“信息过载”、“形义不符”等问题,并在一定程度上实现基于知识、语义的检索。用本体改善信息检索,实质上是对主题分析与概念抽取这两个过程进行改进,这是因为,借助本体,一方面可以对文档内容和检索用语进行标注、规范,辅助分析信息源的领域归属;另一方面,可以实现查询语词的扩展与转换,提高检索系统的语义处理能力。2。3.2本体在农史信息资源管理的作用.建立农史领域本体可以对农史领域知识进行结构化描述,提供机器可理解的语义基础,因此,借助于农史领域本体可以对农史信息资源提供具有语义的描述、组织和检索,解决目前农史信息资源组织中的弊端,提升农史信息资源服务的效率和精度。(见图2.1)领域本体在农史信息资源管理中的作用主要体现在如下几个方面:\n古农学本体的半自动构建及检索研究厂_墨_④瓷薄泰T者甲瓷薄加者匡虿l爱壤童■库l匕===:::'、——.——————/④■⋯;赢⋯一.I’青;:识≤三≥竺竺!竺鼍卫推理几翮n翮L-----·-----------’-----一L-.----、........-----一吴/\。用户图2-2基于领域本体的信息资源管理方案Figure2-2DesignofAgricultureInformationManagementSystembasedonDomainOntology(1)语义导航农史本体是由农史领域概念以及概念关系构成的网状结构。概念及其之间的关系可以形成一个相对比较完整的分类体系。而其中的实例则是关于农史领域内某一概念分类的具体实现,它们聚集在该概念分类之下,相当于关键词或主题词的作用。因此可以说本体更加完善的实现了分类与主题的一体化。即由概念以及概念之间的关系形成分类体系,概念的实例形成词表。利用农史本体严密的“分类——主题”结构组织资源,进行资源智能导航,将资源合理分配与农史本体的概念节点之下,可以实现基于语义的分类、(主题)概念的无缝组合。基于农史本体可以向用户提供上下文相关的知识,即随着用户浏览意图的不同,提供不同的信息,实现动态导航。在农史本体中,不同的类别又拥有不同的属性。浏览Web页面时,用户在浏览时可以选择不同类别的概念实体,根据概念实体的不同属性进行选择。这种导航是根据特点概念实体而生成的动态的具有语义上下文环境的服务方式,同时对于用户来说是具有一定的启发作用。,\n2农史信息资源组织现状图2-3‘齐民要术》导航固Figure2-3NavigationDiagramofa/MinYaoShu(2)语义检索语义检索是基于知识、语义的匹配检索方式。基于领域本体的语义检索实质上是把借助领域本体规范后的检索请求按领域与标注后的信息源索引库进行语义匹配和语义推理,并提交给检索系统的过程。基于领域本体对术语的严格描述和定义,以及反映术语间关系的语义网络,可以实现对查询请求和信息源知识的规范处理。在农史信息资源的管理中引入本体,能够实现按领域的语义检索,同时也可以较好地解决一义多词、一词多义问题,大大减少了信息检索中的噪音干扰,节约了检索时间,减少了检索主体遍历的空间,有利于解决目前信息检索中存在的诸多问题,大大提高农史信息资源检索的效果。(3)语义标注从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。通常,这种语义信息的添加是基于本体进行的,称之为语义标注。语义标注将推动语义Web走向实际应用,智能Agent能够根据Web上的语义信息实现智能推理任务,并能提高信息检索的精确性。使用已有本体在Web页面中插入语义元数据信息,从而使Web页的内容机器可识别。例如:在农史本体中表达“整地农具”这个概念时,预先为它设置了几个属性:英文名、中文名、构建材料、出现时间、适用土地、牵引力以及记载农书等。在实际\n古农学本体的半自动构建及检索研究的网页中,发现了“曲辕犁”一词就可以将其标注为
金属</material>、