古农学本体的半自动构建及检索研究

2022-08-18 发布 |
37.5 KB |
156页

申明敬告： 本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

古农学本体的半自动构建及检索研究

南京应鼍戈蓬Yl216070分类号§：Q22至盥!学号2QQ921§业!博士学位论文古农学本体的半自动构建及检索研究何琳研究方向型遮信息组终\n古农学本体的半自动构建及检索研究摘要近20年来，中国农史文献资料的研究已经由传统的手工整理方式逐渐转向衣史信息资源的数字化整理和建设，并借助于现代化的技术和手段来加强农史信息资源的产生．组织，存取，传播和利用，以便用户更便捷地获取农史研究资料，促进农史研究的发展．从目前的现状来看，农史学科已经拥有了一批数字化资源，这无疑促进了农业科技遗产的保护和传播．然而从利用的角度来看，在农史信息资源的组织和存取技术还有待提高，主要表现在缺乏有力的语义管理工具，检索技术相对陈旧，计算机仅把用户的检索关键词当作简单的字符处理，因此，在农史领域建立一种语义描述机制，使得计算机能够具有语义理解能力，是提高农史信息资源服务效果的有效手段．本体(Ontology)作为一种能够在语义和知识层次上描述信息系统的概念建模工具，自被提出以来就引起了国外众多科研人员的关注，并在知识工程、数字图书馆、软件复用、信息检索和Web异构信息的处理、语义Web等众多领域得到了广泛的应用．本文将本体引入到农史领域，尝试构建农史领域本体作为农史信息资源加工、组织和利用中有力的语义工具来解决语义异构问题，使得农史领域概念能够有着明确唯一的定义，在人和机器之间达成一种共识，促进人机交流．本文首先对农史信息资源的组织模式进行调查统计，分析目前农史信息资源组织现状，提出建立本体作为农史学科的语义工具，是提高农史信息资源管理和服务的有效手段，进而结合情报学领域在编制分类表和叙词表的技术和经验，借鉴知识工程领域在构建专家知识库中取得的成绩以及机器学习技术和自然语言处理技术的成果，尝试半自动地构建农史领域本体，提高本体构建的效率．最后，以该领域本体为基础，设计并开发了一个基于领域本体的语义检索模型．本文的研究内容主要有以下几个方面：(1)对农史信息资源组织方式的调查分析随着计算机技术的迅猛发展，农史信息资源的组织方式已经由传统手工编制的目录．索引，发展到了文献数据库、网站等高级组织方式．本文首先对目前农史信息资源数字化组织现状进行调查与统计，目前的农史信息资源组织主要有专题网站、专题数据库和数字图书馆／g史字博物馆三种类型，并对它们的分布进行了统计分析，以便了解农史信息资源建设现状．\n古农学本体的半自动构建及检索研究农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在．本文在农史信息资源调查的基础上，从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析，指出其主要的不足是资源的组织中缺乏语义控制机制．本体作为一种能在语义扣知识层次上描述信息系统的概念模型建模工具，可以对共享概念达成统一理解，为计算机提供一种互操作语言．本文提出利用本体来加强农史概念的形式化描述，并分析了领域本体在农史信息资源组织中对于提升信息服务的作用．(2)古农学本体构建模式研究本体的构建是解决语义异构问题的基础，因此实现语义Web需要大量的本体作为支撑．对于本体的构建，目前主要是手工构建方法和工具的研究．手工构建本体费时费力、进展缓慢且成本高昂，这也是本体构建无法走出实验室的原因之一．机器学习等文本自动化处理技术为本体的自动构建奠定了基础．从长期的发展趋势看，自动构建本体是未来的发展方向，但是在目前技术尚未成熟，机器学习到的概念关系还不够精细和准确．因此，从本体构建的可行性角度考虑，本文采用人机协作的半自动构建模式构建古农学本体．在前人构建领域本体方法论的基础上，结合叙词表的编制模式，由专业人员通过对古代农学领域概念关系分析给出领域的上层知识模式，利用机器学习技术从领域语料中学习概念关系，将专业人员的自项向下和机器学习的自底向上的结果结合起来．(3)古农学本体半自动构建技术研究本研究尝试综合运用多种技术方法用于领域关系的发现和识别，初步实现领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。①古农学领域概念的自动获取．采用基于N．Gram的无词典分词方法从古农学研究论文中获取领域候选概念，同时根据文献保障原则利用文本自动主题标引方法对候选概念进行筛选，以获得领域的核心概念．②古农学本体领域等级关系的建立．根据专业人员给出的古农学领域上层模式，结合现有的领域相关的分类表和主题词表的分类体系，以保证构建的领域本体具有通用性和良好的逻辑基础，同时利用改进的层次聚类法从古农学文本语料中识别等级关系，对原有的分类体系进行扩充和更新．③古农学领域概念属性关系的建立．采用基于关联规则挖掘和基于自然语言处理两种方法相结合的方式从古农学研究论文中获取领域概念的属性关系，利用支持度和置信度等度量方法从文本语料中获取最相关概念，利用汉语的句法特点从文本中抽取主谓宾关系，获取概念属性关系．这样可以减少大规模统计方法缺乏必要语义逻辑基础的不足，也可以降低概念间语义关系分析过分依赖复杂的语言处理模型的弊端．\n另外，采用基于模式匹配的同义词识别方法为概念获取同义词属性．④古衣学本体的形式化．本体的形式化处理，可以对概念关系按照既定的规则进行批处理并自动地生成形式化的本体，提高古农学本体生成的效率．可在已经识别出各种概念关系的基础上自动完成古农学本体的形式化文件的生成．(4)基于古农学本体的语义检索机制研究本文设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制．该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成．借助本体对用户的检索关键词进行语义分析，获取隐含概念，形成对检索需求的规范化描述，使得用户和机器获得统一的机器可理解的语义知识，实现信息资源的语义检索．本体的构建是一项复杂的系统工程，涉及多个学科领域，因此本文所作的工作还非常有限．其一是将本体引入农史信息资源管理，其二是探索半自动构建农史领域本体的技术和方法．由于时问和人力的限制，本文也仅选取了农史学科的一小部分一古农学作为本体构建对象，开发的原型工具尚处于实验探索阶段，在今后的工作中尚需要进一步的扩充和深入的研究．关键词：中国农史；信息组织；本体；古农学；半自动构建；机器学习；语义检索\n古农学本体的半自动构建及检索研究RESERCHONSEMI．AUTOMbⅡCCONSTRUCn0NOFANCIENTAGRONOMYONTOLOGYANDITSSEMANTICRETRIEVALChineseagriculturehistoryliteratureresearchhaschangedtodigitalconstructioninrecent20years．Ithasbeenstrengthenedbymodemtechnologythatthegeneration,organization,access，communicationandusageofagriculturehistoryinformationre．source．Theresearcherofa鲥culturehistorycangetresearchdatamoreeasilyandquickly．Sothedigihalconstructioncouldpromotethedevelopmentofagriculturehistoryresearch．Digitalconstructionofagriculturehistoryresourceshasmadegreatprogress，buttheorganizationandaco。sstechnologyisstillantiquated．ThereasonisthatcomputertreatedtheUSer’skeywordsonlyassimplesymbols．Sotheusefulmethodtoincreasetheinformationserviceofagriculturehistoryisthatbuildingasemanticdescriptionmechanismtomakecomputershavesemanticunderstandingability．Ontologyhasbeenpaidmuchattentionsinceitwasproposed,whichwasaconceptmouldtoolinsemanticandknowledgehierarchydescription．Ontologyhasbeenbroadlyappliedinknowledgeengineering，digitallibrary,softwarereuse，informationretrievalandWebheterogeneityprocessingandSemanticWeb．Thispaperintroducedontologyintoagriculturehistoryfield，triedtoconstructancientagronomyontologyastoolsofa鲥culturehistoryinformationprocessing,organizationandusagetoresolvesemanticheterogeneity,whichcanmakea鲥culturehistoryconcepthaveclarityanduniquedefinition,promotecommunicationbetweenpersonandmachine．TheSemanticwebreliesheavilyontheformalontologiesthatstructureunderlyingdataforthepurposeofcomprehensiveandtransportablemachineunderstanding．Therefore，theSUCCESSoftheSemanticWebdependsstronglyontheproliferationofontologies，whichrequiresfastandeasyengineeringofontologlesandavoidanceofaknowledgeacquisitionbottleneck．Manualconstmctionanddescfipltionofdomain—specificontologyisacomplexandtime—consumingprocess．Therecentstudyonontologydesignmethodologiesshowsthatitisveryhardforadesignertodevelopaccurateandconsistentontology．Therefore，thispaperemphasizedontheresearchofsemi-automaticconstructionancientagronomy\nontologyanditssemanticretrievalmechniasm．Themaincontentofthispapercanbeabstractedasfollowing：(1)SurveyandAnalysisofmodelofInformationOrgamzationofAgricultureHistoryInformationResources．Withtherapiddevelopmentofcomputertechnologyandnetworktechnology,Interactisgraduallybecominganimportantwaytoobtaininformationresourcefortheresearcher．Historyresearcherdiscardedtheloweffectinformationacquirewaywhichistosearchdatafromahug#oftraditionalphysicalliterature．Digitalinformationresourcesavedthetimeofsearchingliteratureofreasearchers．Thispapersurveysonthestateofinformationorganizationofagriculturehistoryinformationresource．Themainmodeofitsinformationorganizationincludedofprofessionalwebsite，professionaldatabaseanddi百tallibrary／museum．Digitalconstructionofagriculturehistoryinformationresourceistosupplybetterinformationservicefortheagriculturehistoryresearcher．Itisthekeytothedigitalconstructionofagriculturehistoryinformationresourcethatwhethercangivebettereffectofagriculturehistoryinformationservices．Thispaperanalyzedthestateofagriculturehistoryinformationorganizationbasedouthesurveyofagriculturehistoryinformationre$ourge，throughthethreelayerofinformationorganizationmode，retrievaltechnologyandinformationservicetype．Bytheanalysis,wefindthattheshortageinthecurrentinformationorganizationisthatthesystemislackingofsemanticcontrolmechanism．Keywordsintheresourceorganizationonlybetreatedassymbols，notconsideringitssemanticmeaning．Anis趾expficitspecificationofaconceptualization．Thetermisborrowedfromphilosophy,whereanOntologyisasystematicaccountofExistence．Bydefiningsharedandcommontheories，ontologyhelpsbothpeopleandmachinestocommunicateconcisely,supportingtheexchangeofsemanticsandnotonlysyntax．(2)ResearchOilthePatternofAncientAgronomyOntologyConstructionThoughengineeringtoolshavebecomematureoverthelastdecade，themanualAcquisitionofontologiesstillremainsatedious．cumbersometaskresultingeasilyinaknowledgeacquisitionbottleneck．Infact，theseproblemsontime,difficultyandconfidencethatweendedupwithweresimilartowhatknowledgeengineelfShaddealtwithoverthelasttwodecadeswhentheyelaboratedonmethodologieSforknowledgeacquisitionOrworkbenchesfordefiningknowledgebases．Amethodthatprovedextremely\n古农学本体的半自动构建及检索研究beneficialfortheknowledgeacquisitiontaskwastheintegrationofknowledgeacquisitionwithmachinelearningtechniques．Thedrawbackoftheseapproaches，e．g．theworkdescribedin,however，wastheirratherstrongfocusonstructuredknowledgeordatabases，fromwhichtheyinducedtheirrules．Therefore，anumberofapproachesproposetoimproveontologyconstructionusingautomaticdiscoveryoftaxonomicandnon-taxonomicrelationshipsfromdomaindataOrdomain-spcci触texts．Unfortunately，intheapproachesavailable，thereisalackofcombinationofthetwomethods，becausemethodsforlearningontologicalrelationshipsrelytoagiveninitialtaxonomyofconceptsanduseitinlearningprocess．So，inthisreseach,wetaketheapproachthatconstructedtheontologysemi—automatically．Thedomainexpertgivestheskeletonsofontologybasedonhisbackgroundknowledgeandcurrentclassificationschemaandtheasrus．Thenantomaticallyacquiredconceptsrelationbyintegratingthelargescalestatisticmethodandnaturallanguageprocessingmethodtoexpendandupdatetheskeletons．(3)ResearchonSemi-AutomaticConstructionTechnologyofAncientAgronomyOntologyThispaperattemptedtotakeamethodthatextremelybeneficialfortheknowledgeacquisitiontaskwastheintegrationofknowledgeacquisitionwithmachinelearningtechniquestoincreasetheontologyconstructioneffect．IntheConstruction,thispaperintegratedmanymethodsintotherecognitionandidentifiedofdomainrelation．Thispaperbasicallyrealizedthefunctionofdomainconceptsacquisition,taxonomyrelationrecognition，non-taxonomyrelationrecognitionandontologyformalizationdescription，①AutomaticAcquisitionofDomainConceptsofAncientAgronomyOntologyThispaperadoptedallapproachofNon-dictionaryChinesewordSegmentationtechniquesbasedonN—Gramtoacquiredomaincandidateconcepts．Thenittooktheapproachtoselectcoreconceptsfromthecandidateconcepts，whichadoptedtheautomaticsubjectindexingmethodtogetthecoreconceptsbasedontheprincipleofliteratureguarantee．②RecognitionofTaxonomyRelationofAncientAgronomyOntologyFirstgettheskeletonofancientagronomyontologybasedontheknowledgebackgroundofdomainexpertandtheclassificationschemaofcurrentclassificationandthesaurusrelatedtotheancientagronomy．Itcallassurethattheconstructedontologyhastheguaranteeofbettergeneralcharacterandwelllogicfoundation．Alsothepaperadoptedthe\nimprovedAgglomerativeHierarchicalClusteringalgorithmtorecognitiontaxonomyrelationfromancientagronomycorpus，whichCarlexpandandupdatetheskeletonofancientagronomyontologyacquiredfromdomainexpertandcurrentclassificationschemaandthesaurus．③RecognitionofNon-TaxonomyRelationofAncientAgronomyOntologyThispaperadoptedtheapproachofintegrationthemethodbasedofAssociationRuleMiningandthemethodbasedofNaturalLanguageProcessingintotherecognitionofdomainconceptpropertyrelationfromtheancientagronomyresearchcorpus．TheresearchUsedtheparametersofconfidenceandsupporttoacquirethemostassociatedconceptsfromthecorpus，alsofollowingthecharacteristicsofChineselanguagesyntax，weextractedsubject，predicateandobjectofsentences．ThistriangledatacanbetreatedasthetripletofDataTypeandObjectTypeProperty．Thiscombinationmethod啪decreasetheshortcomingoflargescalestatisticalmethodwhichlackingnecessarysemanticlogicfoundation,themethod啪alsoavoiddeficiencyofthesemanticrelationanalysisofconceptswhichexcessivelydependedoncomplicatedlanguageprocessingmodel，asweknowthemodelcan’tbeacquiredeasily．Inthisresearch,wetakethemethodtoacquiresynonympropertyfortheconceptsbasedonthemodematching．④FomaliztionDescriptionofOntologyformalizationfilecanbecreatedautomaticallybybatchprocessingaccordingtodecidedruleandconceptrelation．ThisapproachCarlincreasetheeffectofontologycreation。Thisformalizationwasbasedonthefoundationofrecognizedconceptrelation．(4)ResearchontheSemanticRetrievalMechanismbasedonAncientAgronomyOntologyThispaperdesignedanddevelopedasemanticretrievalprototypebasedonancientagronomyontologyinordertoprobethemechanismofsemanticretrieval．TheprototypeWasconsistedofretrievalwordsanalysismodule，semanticreasonedmodule，ontologybrowsingmoduleandsemanticquerymodule．Bytheontology,theprototypeCallgetimpliedconceptsofUSersthrou．ghthesemanticanalysisofUSer’Skeywords．Thenthemachinecanacquketheunifiedunderstandingtousers；formthestandardizationdescriptionofconcepts．Theprototyperealizedthesemanticretrievalbasedonthedomainontology．Itprovedthatthesemanticretrievalcangetbetterresultsthanthekeywordsretrievalthroughthecontracttestbythekeywordsretrieval。ItalsoprovedthatthesemanticretrievalCallincreasetheretrievaleffect．\n查查兰至竺竺兰苎垫望堡墨竺墨!塑Ittakeschallengesandchancestoagricultureheritageinformationbythehighdevelopmentofinformationtechnology．Howtosupplybetteragricultureheritageinformationservicesisthecrucialmissiontotheinformationservicesinstitution．ThispaperledOntologytechnologytotheagrculturehistoryinformationmanagement．Ittakesapuntatagrcultureontologysemi—constructionforagriculturehistoryinformationmanagement，whichintegratesinformationscience，machinelearningandnaturallanguageprocessingtechnologyintoasystemforitssemi-construction．Th／spaperdesignedanddevelopedasemi-constructionsystemofagriculturehistoryontology,alsoincludedasemanticretrievalsystembasedontheontology．Bythereasonoftimeandperson,thispaperonlyselectedapartofagriculturehistory·--AncientAgronomyastheresearchobject．ThesystemisonlyaPrototypewhichneedsfurtherresearchandastepforwardrevise．Keywords：AgricultureHistory；InformationOrganization；AncientAgronomy；Ontology；Semi-AutomaticConstruction；MachineLearning；SemanticRetrieval；Jena\n图表目录图1．1本体在语义检索中的作用示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3图1．2专家学者建模示意图⋯．．．⋯⋯图2．1中国农业遗产信息平台结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．!I⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．1：!图2．2基于领域本体的信息资源管理方案⋯⋯⋯⋯．．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．26图2-3《齐民要术》导航图⋯．．．⋯⋯⋯⋯⋯⋯⋯⋯图3．1本体的分类图⋯⋯⋯⋯．．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．32图3．2RDF三元组示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3．3古农书本体模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．39图3．4古农书本体样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。40图3．5Jena三层架构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图3．6Jena推理机的结构⋯⋯⋯⋯⋯⋯⋯．图4-1古农学本体构建流程图。⋯⋯⋯⋯⋯图4-2古代农作物影响因素简图图5．1古农学本体半自动构建来源语料样例⋯⋯⋯⋯⋯⋯．图5．2N．Gram方法处理流程图⋯⋯⋯图5．3领域概念筛选流程图．．．．．⋯．．．．．67．．。．。⋯⋯74图5．4聚类中心单连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．84图5—5聚类中心全连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯．．图5．6聚类中心平均连通计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。85图5．7聚类结果处理前数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。90图5．8聚类结果处理后数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．90图5．9基于自然语言处理的领域关系抽取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．93图5．10基于《同义词词林》的语义相似度计算示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯97图5．11古农学本体半自动构建系统模块图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102图5．12古农学本体半自动构建系统主界面⋯⋯j⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．102图5．13古农学本体候选概念获取界面图⋯。图5．14古农学本体半自动构建本体概念筛选模块界面图⋯⋯⋯⋯⋯⋯⋯⋯⋯104图5．15古农学本体半自动构建系统等级关系模块界面图1⋯⋯⋯⋯⋯⋯⋯⋯105图5．16古农学本体半自动构建系统等级关系构建模块界面图2⋯⋯⋯⋯⋯⋯105Ⅲ\n古农学本体的半自动构建及检索研究图S．17古农学本体半自动构建系统领域关系构建模块界面图⋯⋯⋯⋯⋯⋯。106图5．18古农学本体半自动构建系统领域关系提取结果放大图⋯⋯⋯⋯⋯⋯。106图6-1古农学本体检索点示意图⋯⋯⋯⋯⋯⋯⋯图6．2《汜胜之书》知识导航图⋯⋯⋯⋯⋯⋯⋯图每3古农学本体问答查询示意图⋯⋯⋯⋯⋯⋯图6．4基于古农学领域本体的语义检索系统框架图6．5基于古农学本体的语义检索系统流程图⋯图6．6《齐民要术》在本体库中的部分代码⋯⋯图6．7《齐民要术》的属性图⋯⋯⋯⋯⋯⋯⋯⋯⋯．．．．．．．．．．⋯⋯．⋯．．．．116．．．．．．．．．⋯⋯．．⋯．．．116．．．．．．．．．⋯⋯．．．⋯．．117⋯．．⋯⋯⋯．⋯．．．．．119⋯⋯．⋯．⋯．．．．．．．．120图6．8基于古农学本体的语义检索设计原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯120图6．9基于古农学的语义检索系统模块图⋯。图6．10古农学本体导航图⋯⋯⋯⋯⋯⋯⋯⋯图6．11语义关系检索结果图⋯⋯⋯⋯⋯⋯⋯．图6．12同义词检索结果图⋯⋯⋯⋯⋯⋯⋯⋯．图6．13上下位关系检索结果⋯⋯⋯⋯⋯⋯．⋯⋯⋯⋯⋯⋯⋯⋯⋯122⋯⋯．⋯．．．．．．．．．．．．⋯．．126．⋯．．．．．．．．．．．．．．．．．．．⋯．127．．．．．．．．⋯．⋯⋯⋯⋯⋯．⋯．128．⋯⋯⋯⋯⋯⋯．．．．．．．．．．⋯129图6-14语义属性检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．129图6．15自然语言检索结果1⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。130图6．16自然语言检索检索结果2⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。130图6．17语义关系关键词方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．131图6．18上下位关系关键词方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。132图6．19自然语言提问方式文本检索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．132图6．20检全率对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。136图6．21检准率对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．136图6．22F值对比表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表2．1主要史学专业数据库资料一览表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．13表2．2已经开通的主要大学数字博物馆⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．17表2．3农史信息资源组织现状分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。23表3．1OWL的三个子语言描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．35表5．1N元切分结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯76表5．2领域概念特征值表样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．80表5．3同义词对样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．82表5．4聚类词相关度表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．88表5．5基于关联规则的概念对获取样例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．91Iv\n表5．6词性标注体系符号⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表5—7体词性谓词用法示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表6-1检索测试提问集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表6·2Ontology&Keyword检索结果对比分析数据表．．V⋯⋯⋯⋯⋯．．98．．．．．⋯．⋯．．．134\n原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者(需亲笔)签名：彳i孑吱锄7年舌月77日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权南京农业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编学位论文。保密口，在年解密后适用本授权书。本学位论文属于不保密缸(请在以上方框内打“√”)学位论文作者(需亲笔)签名：z百球导师(需亲笔)签名：<瓠及丈每c嘲年彳月‘尸日唧∽fr\n1绪论计算机技术、通信技术和网络技术的发展为史学研究的交流和传播提供了更为便利的条件，遍布全球的学术资源通过网络得到了有机的整合。然而信息资源爆炸性的增长趋势，使得人们意识到了被“淹没”在数据的海洋中，如何更为有效地从海量数据中获取有用的信息是目前亟待解决的问题。1．1研究背景1．1．1选题来源本研究是以科技部社会公益专项基金项目子课题(2005DIB6J028)《中国农业科技遗产数字化保护与利用研究》为研究背景。该课题是将中华文明研究院珍藏的420册<方志物产资料》以及具有较高学术价值的120种古农书善本、校注本，通过数字化技术、信息组织技术以及网络技术等，实现中国古代农业科技信息资源的搜集、管理和共享服务功能，加强中国农业科技遗产的保护和利用，开展快捷、高效和开放的社会公益服务。目前，在古籍数字化方面，经过二十多年的发展已经取得了很大的进展，但是从后期的资源利用和服务效率方面还存在着许多的不足，究其原因主要是计算机不具备语义理解能力，仅能把文字作为一种符号进行匹配，缺乏有力的语义管理工具，使得目前的信息服务在准确性和完备性方面尚存在着一定的缺陷。本体(Ontology)作为一种“概念精确化描述”工具，比较适合解决数据集成中的语义异构问题。在课题“中国农业科技遗产数字化保护与利用研究”中，我们拟利用知识本体对概念进行语义描述，将目前的信息服务从关键词层面提高到语义层面，提升农业科技遗产公益服务的效率和精度。我们准备首先构建农业遗产描述本体，以该本体为中间层，在用户和农业科技数字化资源之间建立起一座语义沟通桥梁，使得计算机不仅能够充分理解用户的信息服务需求，而且可以明确农业科技数字化资源中各种概念的明确含义，提供具有语义的信息检索服务。在整个项目的实施中，核心问题除了农业遗产数字化过程中的所面临的字库、OCR识别等问题外，主要还有农业遗产本体的构建以及基于该本体的语义标注、语义检索机制以及进一步的知识挖掘机制。可以说，农业遗产本体的构建是实现农业遗产智能化服务的基础和关键。1．1．2本体的提出对于农史信息资源建设中所面临的困难，最直接的解决方案就是让计算机参与信\n古农学本体的半自动构建及检索研究息理解，建立一种能够在语义层面对概念进行明确描述的工具，让计算机具有语义理解能力，帮助人们从海量信息中挑选出真正用户需要的检索结果。将目前检索结果由用户来挑选的方式变成计算机直接帮助用户来挑选真正需要的信息。这也就是Web的创始人1缸Bemers—Lee在1998年提出的语义Web(SemanticWeb)的构想。我有一个关f万维两的梦想⋯⋯在梦想的第一部分。石维两变成7一个通过共享的知识来完成人们相i沟通的强大I具：在第二部分．沟通能力延伸勃7计算机．机器可以分析万维网i的所有数据．人类会固比甩更多的时阃采爱挥灵感与盔觉．——万维两发明人IimBerners-Lee本体(Ontology)作为一种能在语义和知识层次上描述信息系统的概念模型建模工具，自被提出以来就引起了国外众多科研人员的关注，并在计算机的许多领域得到了广泛的应用，如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。通俗地讲，本体就是用来描述某个领域(领域本体)甚至更广范围(通用本体)内的概念以及概念关系之间的联系，使得这些概念和联系在共享的范围内有着明确唯一的定义，达成一种共识，这样人、机器之间就可以进行交流。本体的构建是为了对共享概念达成统一理解，为计算机提供一种互操作语言。例如，用户要检索关于水果的研究史料，而某篇文本是关于“马奶”的研究，由于计算机不具备理解能力，无法判断出“马奶”就是一种水果，那么这篇文本将无法被检索出来。如果建立了关于植物的本体，通过语义标注得知“马奶”是一种葡萄，而葡萄是一种水果，因此计算机就可以判断“马奶”的文本就是用户想要的检索结果之一。可见，本体是某个领域内不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础。因此，本体是一座架在“语义鸿沟”(Semanticgap)上的桥梁，桥梁的一端是实际的语法表达形式，而另一端是这种表达的抽象概念模型(conceptualization)，可以消除自然语言中的模糊性和不确定性，主要可以有如下作用：2\n1绪论图1．1本体在语义检索中的作用示意图Figure1-1FunctionofOntologyinSemanticWeb●对领域知识进行分析，建模，使其明确化利用本体对领域知识进行建模，可以明确领域中术语的明确含义，准确刻画术语的属性以及相关联的概念，使得领域术语含义明确，形成计算机可理解的基础。下图是对。专家学者”进行本体建模的示意图。图1．2专家学者建模示意图Figure1-2ModuleDiagramofProfessionalPerson·使领域知识能够重用和共享一旦建立了农史领域本体，其他研究组织就可以轻而易举地复用到各自地专业领域中去，有利于知识共享和知识建模，促进领域建模的效率，便于推进语义Web的发3\n古农学本体的半自动构建及检索研究展。例如，农史本体中建立了时间和空间的描述模型，如若建立其他学科的科技史本体就可以直接利用这两部分模型，避免从头建立，同时也更为通用和兼容。●在入、软件代理之间达成对某领域或信息组织结构的共同理解达成对信息和结构的共同理解是建立本体的基本目标。假如有若干个农史信息资源网站，如果他们使用了相同的底层本体，那么就可以提取和集成这些不同网站中的信息资源，尽管可能他们采用不同的术语来描述相同的概念。●可以对领域知识进行推理，获取隐含知识本体具有推理功能，将领域知识模型采用形式化语言进行描述，通过建立一定的公理和函数，就可以对领域知识进行推理，得出隐含的知识。例如，齐民要术的“湖湘本”收藏于中华文明研究院，而中华文明研究院位于南京，就可以推理得出“湖湘本”的收藏地之一为南京。1．1．3本体构建的国内外研究现状本体的构建是本体研究中的研究重点，有关本体构建目前主要有三种方法：手工构建、复用已有本体以及自动构建本体。(1)手工构建本体主要遵循以下几个步骤【3】：①定义本体所要描述的范围；②考虑是否有可重用的本体；③列举领域中所有可能的词汇；④定义词汇的分类体系；⑤定义概念的属性；⑥定义属性的分面：⑦定义概念的实例；⑧进行异常检查。目前大多数本体的构建都采用这种方法作为指导，主要有：IDEF5法、TOVE法、METHONrOLOGY法、KAc】ⅢS法、SENSUS法以及七步法等。(2)重用已有的本体复用已有的本体可以避免从头构建本体的麻烦和困难。目前可以复用的本体主要有以下几种：叙词表、分类表以及集成词表：某些顶级本体，如CYC、SUO、GUM等；语言学的本体，例如WordNet、FrameNet、GermaNet；在线本体资源库，如OntologyEngineeringGroupl4l和DAML[51。目前，很多机构研究从叙词表向本体转化，主要成果有：美国Syracuse大学的J．Qiu和s．Paling具体探索了将GEM(教育资料网关)中的受控词表转换成Ontology的原理和原则框架【6】。阿姆斯特丹大学信息科学系的B．J．Wielinga等人刑用A盯建立了一个描述艺术对象的Ontology[71。联合国粮农组织(FAO)国际农业研究信息管理中心尝试将AGROVOC叙词表改造成语义关系丰富的农业本体I刖。SWADEUROPE在从叙词表向本体转化方面也做了较深入的研究【91。美国NCI叙词表向本体的转化也取得了很大的进步。4\n1绪论(3)自动构建本体利用人工智能领域所取得的成果自动构建本体，可以在很大程度上加快的构建进程，节省很多的人力和时间。机器学习在本体自动构建中有不同的应用：·知识工程师从头构建本体：在这个过程中，机器学习主要是辅助知识工程师建议文本中抽取的关系以及检查知识库的结构。·从Web文本中抽取OntologySchema。在这个过程中，机器学习系统在知识工程师的帮助下，输入数据或元知识，输出可用的本体。·抽取本体实例。这个过程类似信息抽取和页面标注，可以应用和这些相关的技术来抽取本体。潜在的、有应用前景的机器学习算法包括：相关规则学习以及其他属性值规则学习算法、贝叶斯学习算法、First—orderHoraclauses以及聚类算法。总的来说，尽管机器学习应用于本体构建有巨大的潜力，但是距离良好的可理解性尚有很大的距离。目前还没有直接可用的技术或工具，但是这种状况随着研究的不断深入有望得到改善。1．1．4本研究的现实意义农史领域本体的构建对信息组织、检索和利用，尤其是对农史信息资源的共享和语义理解的实现，至关重要。它将提高农史信息资源的有序化程度，实现农史信息的自动处理和语义检索，改进农史信息资源服务的质量。本研究不仅对于探索数字时代信息处理和信息检索的理论和方法、完善情报语言学的体系具有一定意义，而且对于推动农史信息组织和检索的自动化和智能化，促进农史信息资源的建设、管理和开发，均有着很高的应用价值。(1)提高农史文献获取的效率学术上的突破，往往依赖于新材料的发现。农业典籍浩如烟海，借助于本体技术实现对农史资源的智能化组织，能够快捷智能地获取所需文献，能够把学者从枯燥的翻检工作中解放出来，把主要精力投入到更深层次的分析比较和理论思索中。(2)快速获取农史知识由于信息的急剧增长，使得人们在因特网时代更希望直接获得所需的知识，从对文本的获取提升到对知识需求的层面。领域本体在一定程度上可以视为领域专家知识库，利用其中的关联可以实现对领域知识的问答和获取。(3)有利于实现知识共享领域本体提供对该领域知识的共同理解，是机器理解词汇的语义基础，同时领域5\n古农学本体的半自动构建及检索研究本体也是一个开放的共享模型。建立农史领域本体有助于实现该领域的知识共享，促进不同信息资源的。无缝”集成，实现基于语义层次上的信息理解，从而实现农史信息共享在语义层面的互操作。(4)便于农史知识统一管理本体具有可重用性，建立农史文献领域本体的知识管理平台，建立一套共享的术语和信息表示结构，不仅可以减少信息转换的难度和工作量，为术语的标准化、形式化提供理论基础，还可以为信息集成提供一个统一的模式，便于实现农史信息资源共享，实现智能化检索与管理。此外，本项研究还有利于农业文献的保存和保护，加快农史信息资源建设的速度，促进农史信息资源信息化建设的进程。与此同时，还可以加强农史研究人员之间的联系，促进农史学科的发展。1．2论文的主要内容、结构及创新1．2．1论文的主要内容本研究旨在将情报学最新的信息组织加工技术应用于农史信息资源建设，提升农史信息资源服务的层次，为用户提供智能化信息服务。本体技术是目前用于解决信息组织中语义异构的最新解决方案。本研究将以农史研究论文为主要语料，采用机器学习和自然语言处理技术等自动化方法，尝试半自动构建领域本体，并以此为基础来实现基于领域本体的语义检索服务。本文的主要内容可以概括为以下几个方面：(1)农史信息资源组织方式调查随着网络技术和计算机技术的迅猛发展，网络逐渐成为研究人员获取信息资源的重要途径。史学研究工作者逐步告别了过去从大量纸本文献中翻阅查找资料的低效信息获取方式。电子化网络化的信息资源提高了农史研究者查找资料的效率。本文首先对目前农史信息资源数字化组织现状进行调查统计，目前的电子化信息资源组织方式分为专题网站、专题数据库和数字图书馆／数字博物馆三种类型，并对每种资源的资源的分布进行了统计分析，以便了解农史信息资源建设现状。(2)农史信息组织现状分析农史信息资源数字化建设是为了更好地为农史工作者进行信息服务，因此农史信息资源服务的效果是体现农史信息资源数字化建设的关键所在。本文在农史信息资源调查的基础上，从农史信息资源的资源组织方式、检索技术和信息服务类型三个层面对目前的农史信息资源组织现状进行了总结和分析，指出其中的不足，提出了基于领域本体的信息资源组织方案，将信息资源管理从关键词层面提高到语义层面。6\n1绪论(3)古农学本体构建模式研究经过近十年的发展，本体的编辑工具和手工构造方法已经相对成熟，本文在前人构建本体方法论的基础上结合了情报学以及机器学习部分成果，提出了由领域专家和知识工程师交互的农学本体半自动构建模式。(4)古农学本体半自动构建技术研究本研究借鉴了机器学习和自然语言处理的部分技术成果来实现古农学本体的半自动构建来提高本体的构建效率，初步实现了领域概念的获取、等级关系的识别以及领域概念关系的发现和本体的形式化描述。·(5)基于古农学本体的语义检索机制研究本研究设计和开发了一个基于古农学本体的语义检索模型来探索基于领域本体的语义检索实现机制。该模型的主要由提问词分析模块、语义推理模块、本体浏览模块以及语义查询模块组成，通过本体对领域概念的规范化描述，使得用户和机器获得统一的机器可理解的语义知识，实现信息资源的语义检索。1．2．2论文的结构本文各章的内容安排如下：第一章绪论介绍本研究的研究背景、选题意义，研究内容、目的与方法等。第二章农史信息资源组织现状主要介绍农史信息资源的组织模式以及信息资源组织现状、存在的问题等。第三章本体研究进展主要介绍本体相关理论，开发工具，编辑工具以及本体的构建研究进展和本体的应用概况。第四章古农学本体构建技术路线及技术准备探讨古农学本体的构建模式和方法以及构建中所需要的技术支持。第五章古农学本体构建的关键技术主要介绍采用半自动方法获取古农学本体概念、等级关系以及领域属性关系的方法以及技术实现。第六章基于古农学本体的语义检索研究以古农学本体为基础，研究基于本体的语义检索机制以及实现技术第七章结束语主要总结了本文的主要贡献以及下一步要继续的研究工作。1．2．3论文的创新点7\n古农学本体的半自动构建及检索研究本文的创新点主要体现在以下三个方面：(1)提出古农学本文的半自动构建模式。本研究在前人构建领域本体方法论的基础上，结合情报学领域在编制分类表和叙词表的技术和经验，借鉴知识工程领域在构建专家知识库中取得的成绩，利用机器学习技术和自然语言处理技术的部分成果，探讨了领域本体的半构建模式和方法。结合叙词表的编制模式，由领域专家给出领域的上层知识模式，通过机器学习技术从领域语料中学习等级关系和相关关系为构建农学领域本体提供参考，将专家的自顶向下和机器学习的自底向上的结果结合起来。(2)尝试借鉴机器学习和自然语言处理部分成果用于古农学本体的半自动构建，提高本体的构建效率。在构建中，综合运用多种技术方法用于领域关系的发现和识别。对N-Gram方法进行了一定的改进以获取领域概念，对层次聚类算法进行改进以提高该算法对本体等级关系识别的适应性，运用自然语言句法特点提取主谓宾三元组结构为领域概念关系提供参考。(3)开发了一个基于古农学本体的语义检索系统，用于古农学研究文本的语义检索。在本研究中，采用Java语言开发了一个基于古农学本体的语义检索系统，对用户的检索式进行处理，判断其中具有检索意义的检索词之间的语义关系，使得检索词之间不再是孤立的状态，推理用户的检索意图，最终从语义的层面对用户的检索式进行处理，最终返回检索结果。这种检索机制相比传统的关键词检索可以发现潜在的、隐含的语义结果，具有较高的精确率和召回率。1．3研究的主要方法本研究主要是将古农学本体应用于农史信息资源开发和利用，旨在利用网络技术以及知识组织和检索技术的成果提高农史工作者查找和利用农史资源的效率和效果。本项研究对于农史学科而言，是将一种新的科研方法和技术引入农史研究中，是～种方法和技术移植创新；对于情报学而言，是情报学领域中某项新技术的探索，同时是该技术在某一学科的实用化应用的探索，是一种理论研究和实践创新。因此，本研究属于两种学科交叉的研究，在研究过程中采用了史学和情报学以及计算语言学研究中的多种方法，主要有：(1)文献调研法在本项研究中，参考和阅读了近200余篇(部)相关论文、专著、工具书、词典和专业词表等。通过这些文献的调研，了解了领域本体技术的发展现状和发展趋势，同时分析出了目前该技术应用的不足，为本研究提供理论上的指导和技术支持。(2)统计分析法为了构建农史领域本体，对“中国农史论文全文数据库”中的大量主题相关论文8\n1绪论进行了词频加权统计分析，为农史领域概念间的关系的计算提供基础数据来源。(3)比较分析法对目前农史领域现有的知识组织工具和检索技术进行了比较分析，明确了目前农史知识管理中的不足之处，为农史领域本体的构建以及语义检索系统的开发明确了发展方向。对目前的领域本体的构建技术和基于领域本体的语义检索技术进行了对比分析，得出各项方案的利弊，为本研究的技术路线提供有力支持。(4)系统构建法采用Java语言，开发了一个农史本体构建系统和基于该本体的语义检索系统，包括概念抽取、等级聚类、关系获取、形式化处理以及语义检索等模块，实现了农史领域本体的半自动构建以及农史信息资源的组织和检索功能。本章参考文献【1】陈爽．网络时代与文史研究【J】．文史知识，2002(1)【2】张红萍等．数字化技术在农业古籍中的应用m．农业图书情报学科．2004,1600)：33．35【3】李景．本体理论在文献检索系统中的应用研究【M】．北京：北京图书馆出版社，2005【4】OntologyEngeeringGronp[R／OL】．http：／pocww．ontoloL，,v．or．kr／ontologv／ontolib．asp．[2005．11．11】【5】TheDARPAAgentMarlmpLanguageHomepage[R／OLI．hRp：／Avww．daml．org．【2005．12．30l【6】QiaJiaa,PalingStephen．ConvertingaconUoHedvocabularyinto∞Ontology：thecaseofGEM．InformationResearch[J／OL】．http：／／laformationR．net／ir／6-2／oa∞r94．html．【2001．6．2】用B．J．Wielinga九Th．SchreiberJ．WiclcmakctJ．AC．Sandberg．FromThesaurustoOntology[J／OLlwww．cs．vu．nl／一g,uus／papers／Wielinga01a．pdf．[2005．12．201【8】DagobertSoergeLBuildingarichontologyfromAGROVOC[J／OL]．www．delos．info／eventlist／LUBl／BorisLausedl-3．ppt．【2006．1．14】【9】9SWAn-EuropeThesaurusactivity[J／OL]．http：／／www．w3．org．／2001／sw／Earooe／reports／thes／．【2005．12．18】【10】YmgD吨．OntologyResearchandDevelopmentPart1一AReviewofOntologyGeneration[J／OL】．www．ece．ucf．edu／--crcd／ralcourses／m12／studentprojects／crc,d5(ref)／Review％200f％200ntology％20Generation．pdf．[2006．1．141【11】Joerg-UweKietz，AlexanderMaedche，RaphaelVolz．AMethodforSemi-AutomaticOntologyAcquisitionfromaCorporateIntranetfJ／OL】．www．irit,fr／ACTIVITES／EQSMI／GRACQAVSEKAW2000／PAPERSAMaedche．pdf．【2006．3．14】【12】曹玲等．农史研究的新工具一中国农业遗产信息平台的建设与构建【J】．中国农史．2006．19\n古农学本体的半自动构建及检索研究[131张琪玉，侯汉清．情报检索语言实用教程【M】．武汉：武汉大学出版社，2004【14】籁茂生．王延飞．赵丹群．计算机情报检索【M】．北京：北京大学出版社，1993【15】秦健．语义网与实用分类系统【R／oL】．www．1ibrarv．fudan．edu．cn／news／qianjianfudan2004．oot[2005．12．18】[161袁嫒．领域本体建设的方法论和工具研究【D】．北京：中国人民大学，200410\n2农史信息资源组织现状随着计算机和网络技术的迅猛发展，网络逐渐成为研究人员获取信息资源的重要途径，但是与其他学科相比，现有的信息服务模式难以满足研究人员对文献获取精、准、深的要求。因此，为农史研究提供一个数据来源丰富、类型多样、加工精深、及时准确，并具有强大信息检索功能的农史研究信息平台变得越来越重要。本章将对目前的农史电子信息资源组织模式进行调查统计，从中总结目前农史电子信息资源加工和利用的总体情况，提出采用领域本体作为农史信息资源管理的语义工具，优化农史信息资源的加工利用，以促进农史电子信息资源服务的质量。2．1农史信息资源组织模式信息组织就是“将无序的信息按照其外部特征和内容特征有序化，然后进行重新控制，其目的在于提供可控性的高效信息服务”111。目前的农史电子信息资源主要的组织模式有专题网站、专业数据库以及数字图书馆／数字博物馆等多种形式。2．1．1网站资源网络对学术交流和学术传播具有强大的推动作用，可以方便快捷的获取学术资料，为科学研究提供了便捷的平台。目前，史学领域也相继建成了众多的专题学科网站，成为宣传历史遗产、展示史学研究进展的重要窗口。(1)中华农业文明网12】(http：／／www．ieac．edu．cn／home．asp)由中华文明研究院主办的农业史研究的综合性权威网站。(2)中国农业历史与文化例(http：／／www．agd-history．net／)由中国科学院自然科学史研究所主办的中国农史研究权威网站(3)中国经济史论坛【4J(http：／／www．guoxue．com／economics／)由中国社科院经济研究《中国经济史研究》主办的经济史研究权威网站(4)中国农业科技史网姘卸(http：／／ecourse．scau．edu．cn／agro／xy／)由西北农林科技大学农史室主办的农业科技史科普类网站。(5)科技史论著目录查询【6l(http：／／www．ihns．ac．cn／library／searchl．htm)由中国科学院自然科学史研究所资料中心建立。(6)中国文化研究论文目录查询[71(http：{／192．192．58．101{cult)由台湾国家图书馆主办。此外，还有厦门大学历史系《中国社会经济史研究》全文数据库网站等有特色的网站资源。但是从总体来说，这些网站还尚缺乏有力的资源组织、加工意识，导航意识，致使这些网站相对混乱，用户容易迷失。\n古农学本体的半自动构建及检索研究2．1．2专业数据库我国从20世纪80年代中期开始尝试古籍文献的数字化工作，尽管初始建设工作很艰辛，但中国台湾、香港、大陆三地的文史工作者克服种种困难，推动古籍现代化进程的不断发展，并陆续取得一定的成果。表2-1罗列了二十几年来古籍数字化专业数据库建设的主要成果。专门针对农业遗产的专业数据库非常少，大部分分散于表2．1的各专业数据库中。在农业史料专业数据库资源建设方面，比较突出的有中华文明研究院以及中国农业科学研究院所做的研究工作，对于农业史料数字化资源建设做出了较突出的贡献，填补了农业史料数字资源建设的空白，对促进了相关科研和教学的发展具有重要的意义。(1)中国农业遗产信息平台中华农业文明研究院在科技部国家科技基础性工作专项“中国农业科技遗产信息数据库建设”的支持下，从2002--2005年历时三年成功建成了国内首个中国农业科技遗产信息平台——中国农业遗产信息平台。该平台集成了多个农史文献数据库，在农业遗产数字化领域取得了很大的进展。中国农业遗产信息平台是以农史研究文献为主要数据源的集成数据库，分为题录库、全文库、图文库三大类型，各数据库的文献资源经农史专家精心选择，类型多样，专业性强，覆盖面广，数据量大，填补了目前农史数字资源的空白。该平台界面友好，检索途径多，并能够提供检索结果保存、打印、下载等服务，最大程度方便用户对资源的获取。该平台可为农史研究人员提供全面、权威的农史文献信息服务，为农史学术研究提供有力支持。图2．1中国农业遗产信息平台结构图Figure2-1FrameofChlneseAgriculturalHeritageInformationWebPlatform(2)“农业古籍珍藏及全文数字化研究与建设”项目中国农业科学院农业信息研究所2006年12月完成了国家科技基础性工作专项\n2农史信息资源组织现状“农业古籍珍藏及全文数字化研究与建设”项目。该项目重点完成了基于图像的数字化农业古籍全文检索技术研究；国家农业图书馆古籍数字馆藏质量控制研究：农业古籍全文数字化检索技术研究和用户服务系统完善等。已建成适合农业古籍特点、数据内容完备、著录规范化、标准化程度较高的古籍书目数据库，总计12，767种，13，044册，其中重要农书、史书可与一次文献连接，数字化全文总量达6000余册，80余万页，砸f格式原图文件700余G，部分为彩色图像，成为我国珍贵的农业古籍全文数字化图像资源。表2-1主要史学专业数据库资料一览表Table2．1TableofHistoricalDatabase编号机构数据库名称类型同址备注1普通古籍书目数据库普通古籍2善本古籍书目数据库善本htto'J／www．nic．eov．cn／ser,'i=／eII&Bcane／euiishanben．htm3方志家谱书目数据库方志htta：／／fcsl．alc．￡ov．c'n：90SOlchro家谱nic／index．him4地名数据库方志5地图数据库方志6国家圈书馆敦煌资料库htta：／／nlc]．nlc．￡ov．c'n：7777／scax布尔检索bdh．htm字段检索7中国金石拓片影像数据库金石htra．'／／www．nlc．￡ov．cn／Rubbind组合检索拓片查“8馆藏名家手稿书目数据库手稿9馆藏西夏文献数据库民族htto：∥弛．96．31．42：9080／weuxia古籍n／indexhtm10馆藏外文普本数目数据库外文善本民国期刊数据库期刊httv：／／tcsl．nlc．oov．cn：9080／ma￡a五no／indexhim11馆藏古籍全文数据库古籍12馆藏束元善本全文数据库善本\n古农学本体的半自动构建及检索研究13上海图书馆名人家谱库家谱httv：／／scarch．1ibrarv．shc叫ia加／14盛怀宣档案库ht'to：／肭．1ibnct．shcv)dildlib／zixm／sxh．him15民国图书库图书httD：／／www．1lbnet．sh．cn坩idtd“mL,ts／index．htm16民国文献书目数据库17南京图书馆馆藏古籍书目数据库分类、主履18中国近代文献图像数据库htlo：／Avww2．isllb．o佗cn，was40／检索index．htm19南京大学图地方志方志20书馆清人词集21首都图书馆明清北京城垣资料库htto：I／www．c]cn∞．net／truest／search／zhuantika3asp町MPID=B22农史论文全文数据库论文23中华文明研农史论文题录数据库论文htto．J／iw．niau．edu血加ⅫFoB【N，24究院农业古籍题录数据库古籍Select．DU25农业古籍全文数据库古籍26农学遗产选集图文库古籍27天津图书馆馆藏古籍善本目录善本28广西图书馆太平天国史料库htlo：I／2(Y2．103．233139／trsweb／m垃：h地29北京师范大馆藏精品学图书馆30吉林省图书古籍、满铁资料书目检索hRo：／／www．ikUbcnrn_cn／d2．ht馆匹31辽宁图书馆善本古籍数据库32吴江图书馆吴江五百年古代地方志方志httn：／／www．w／libc．om／iianiie／z'v全文检索m33泉州市图书泉州市图书馆馆藏谱谍库谱牒httn：／／www．ozlibcoma吖删o．h馆t—m—34绍兴图书馆绍兴方志35广东省中山馆藏古籍书目数据库14\n2农史信息资源组织现状图书馆36北京大学古文献资源库古籍htto：llrbdl．calis．cdu．cn／'mdexisD浏览图书馆拓片组合检索37全唐诗电子检索hRo：／Ichinesc．nku．edu．cn／tane／38复旦大学古典文献数据库hlm：I／www．Ubrarvfud蛆．cdu．cⅡ：字段检索80∞，锄诳39西安交通大西安交通大学古籍特藏blip：肌jbralw．耐hI．educn／html／x[t学u／d叫‘mii／lndcxOlhtm40兰州大学敦煌学数据库hnD：，肺．1zu．edUcn／dunhuan“41厦门大学‘中国社会经济史研究》研究全文数据库论文42香港中文大国学宝典古文检索郭店楚楚简]mD：I／bamboo曲．锄Mc．edu．hk／学图书馆简资料库43菩本图书联合目录善本httD：／／www．ndcdu．tw／f89．htm44台湾中央图善本丛刊影像善本hRo：I／www．ecLcdu．I'w／flvweb7h书馆d．book／indcxhun．45古籍影像检索系统古籍htta：／／tbook_hvwcb．∞ⅡLnv／c口抵出ow?helo46超星数字图中国明清史档案文献档案明清47书馆民国史档案文献档案htm：／／www．ssreadcr．comcn／zbu至1995年48中国革命史档案文献档案allti／dawx／indexhtml重要档案49中国数字图中华大藏经书馆50北京书同文httD：／／www．n；h2ncom．cn／html／数字化技术四部丛刊、四库全书鱼4虹地公司51北极星书库中华古籍电子书52国学同四库全书目录htto：／／WWW．LmOXUecom／skas／in无检索dexhtm53简帛研究论文论文ht【D：Ⅳw、v。w_bamb∞siILo“血dc简帛研究x．him54简帛图片简帛httc：／／www．bamboosilkor口／Jbtk\n古农学本体的半自动构建及检索研究，Dic．htm55甲骨文字库htto：／／www．anvan￡．￡ov．cn／vswh／vs／iaL’u／ikzk．htm按照类别56殷商文化网精美甲骨htto：／／www．anvan￡∞Vcn／vswh选择／vs／ia皿Coeautv，beauall．htm甲骨拓片57拓片大集htlo：／／www．anvaa￡．￡ov．cn／vswh对照释文|～s{、at,u／todi。him58明清研究会明清研究论文论文huo：／／v“vw．sinlca．cdu．tw／一min￡(台湾)chind59典藏目录及资料库古籍60国际汉学博士论文摘要资论文科库61明人文集多种高级62两汉诸子研究论著目录资论文检索方式台湾汉学研料库图书跨库检索63究中心经学研究论著目录资料库论文httu：llccs．ncl．exto．tw／data．html图书64敦煌学研究论著目录资料论文库图书65外文期刊汉学论著目次资期刊料库66中央研究院汉籍电子文献中文全文资hnD：^bnⅣqnshd曲．edu．tw／flms-b付费使用料in／ftmsw367中央研究院多种检索历史语言研历代名臣奏议奏折htm：／／www．ihosinica．edutw／dat方式究所(台湾)abase／68东京大学东所藏古籍线装书资源图书htw：／／www．ioc．u．10k'voacio／-hi属介绍性洋文化研究．d，．c．．．m．．．i．／．．a．．i．．i．d．．e．．．i．U．．0．．．．．h．．．t—m—l质所69国际敦煌学敦煌遗书§业地gP：b!：g型多种高级项目IDP检索70美国丝绸之丝路文明htW：／／www．sHk．roadcnm／toc／m16\n2农史信息资源组织现状路基金会d￡x．hmd71美国明史学瞬史研究htto：巾V^眦histu衄edulJⅡin一会(注f古籍书目数据厍只罗列了部分主要图书馆，此表部分参考自—MXv：I／www．xian￡：vam．n—vt／file．s／175／biao．htm据)2．1．3数字图书馆／数字博物馆在数字图书馆／数字博物馆建设方面，史学界也开展了众多的建设项目，相继开通和建成了一批数字图书馆，博物馆，涉及到古籍、考古、建筑史、数学史等十几个领域，成为教学和科研获取资料的一个重要途径。“中国科技史数字图书馆资料库”19】在CALIS(中国高等教育文献保障系统)一期特色库项目资助的“中国工程技术史料库”基础上建成，获得CALIS二期特色库重点项目资助。现己初步建成科技典籍书目、科技典籍资料、研究论著索引、工程发明史资料卡片、中国科技史图像资料等专题库，该资料库将为建设中的清华大学中国科技史数字图书馆提供资源支持。数字图书馆已经建成建筑数字图书馆、数学史数字图书馆、机械史数字图书馆、水利史数字图书馆、工艺史数字图书馆和陶瓷史数字图书馆。2003年中国农业大学图书馆展开了小规模农业古籍数字化尝试，将馆藏的代表性农业历史专著，即《吕氏春秋》的“上农”、“任地”、“审时”、“辨土”四篇农业论文，《齐民要术》、《陈舅农书》、《王祯农书》、《汜胜之书》、‘四民月令》、《农政全书》等进行数字化处理，扫描成图像并进行人工著录，包括题名、作者、版本、年代等检索点，同时提供分类浏览和主题检索两种方式【131。台湾中央研究院汉籍电子文献(旧称瀚典全文检索系统)是迄今最具规模的中文古籍数据库，也是目前网络中资料整理最为严谨的中文全文数据库。它包含整部二十五史、整部阮刻十三经、超过2000万字的台湾史料、1000万字的大正藏以及其它典籍，合计字数13400万字，并以每年至少1000万字的速率增长，蔚为壮观。表2—2已经开通的主要大学数字博物馆编号单位名称网址1北京中医药大学中医博物馆httD：／／bwg．biucmneducn／2昆明理工大学矿物数字博物馆htto：f／www,kmust．edu．crt／dm／ind嘿hun3中山大学生物数字博物馆ht_to：／／bioIIIUS￡Umsv锄edu．cn／index2htm4北京大学地质数字博物馆htto：／／muscum．nkueMucn]17\n古农学本体的半自动构建及检索研究5清华大学美术学院数字博物馆6四川大学人文数字博物馆htto：|恤2．115．40．18：82僦|7山东大学考古数字博物馆htlo：I／museumsth．cdu．ca／S上海交通大学船舶数字博物馆httD：／／shiDmuscumsireedu．cn，9成都理工大学恐龙数字博物馆htto：／／wvmc．museumcdut．edu．ca／10中国地质大学地学数字博物馆1l湖南大学岳麓书院数字博物馆12北京航空航天大学航空航天数字博物馆htto：／／dieita[mu趾umbuaaedu．cn，13中国农业大学农业数字博物馆htto：／／museumcall．educ—14复旦大学文化人类学数字博物馆httn：／／www．di2mm．如dan．educ珏，15西北大学考古数字博物馆htto：／／dmuseumn、^Ⅲcdii．ca／16南开大学古代社会生活数字博物馆htto：Hmuscumnanbi．educ8／17南京大学地球科学数字博物馆htto：／／202．1194929／museum／index．him18西安建筑科技大学建筑博物馆htto：，／202200．14415，t9贵州工业大学古生物博物馆www．azit．educn／mcnl／indexhtm20清华大学机械史数字图书馆htm：／／eliblib．tsin吐uaeduc'n：9080／machinedntm／index．iso21清华大学建筑数字图书馆hrm：／／166III．120．55：8001，22清华大学数学数字图书馆htto：／／clib．1lbtsindma．educa：9080／mathdb“atm／indexisa23北京大学古籍数字图书馆httm／／rbdlcaIise,ducn／indcxiso24南京博物馆数字化博物馆httO：／／c—museumnimuseum．corn／25故宫博物院网上博物苑htlo：／／www_dom．ore．ca／China／defaair．asD26中国航空数字博物馆htto：／／www．akcraftmuseum．ca／教育部《面向21世纪教育振兴行动计划》“现代远程教育工程”2001年专门设立了“现代远程教育网上公共资源建设——大学数字博物馆建设工程”项目，拟重点支持8．10个有特色的大学博物馆数字化改造。根据初步调查，现有大学实体博物馆130余家。依据目前的实际情况和“十五”规划建议按学科和实体博物馆建设50个大学数字博物馆，其主要有：人文、生物、历史、军事、航空航天、船泊、地学、林业、农业、医学、天文、气象等学科的大学数字博物馆。目前以开通的主要大学数字博物馆见表2．2。2。2农史电子信息资源组织与检索现状经过二十余年的发展，我国目前已经拥有了相当数量的电子信息资源，2．1节总\n2农史信息资源组织现状结了目前的农史信息资源的组织模式，包括专业数据库、数字图书馆／数字博物馆以及专业网站资源。要有效地利用这些资源必须对这些信息资源进行有效的组织和加工。无序的信息资源不仅无助于信息资源的使用，反而会加剧信息增长与使用的矛盾。下文将对目前农史信息资源的组织和利用现状进行总结和分析，总结利弊，以期提高农史信息资源利用的效果。2．2．1农史知识组织检索技术现状信息检索过程实际上是将检索提问词与文本或文本标引词进行对比匹配的过程。为了提高检索效率，通常采用一些运算方法对检索提问进行技术处理，例如概念相关性、位置相关性等，这些技术处理方法就是通常所说的检索技术。总体来说，目前农史信息资源管理中主要采用了字段限定检索、布尔逻辑检索以及全文检索等传统检索技术进行字词层面的处理，而未达到语义处理的层次，检索技术相对比较低级，智能化程度还不高。(1)字段限定检索字段(field)是组成记录的基本信息单元，每个字段都描述文献的某一方面的特征。字段限定检索可以将检索词限定在某个特定的文献特征中去，例如，检索词只出现在题名或者作者中。中国农业遗产信息平台以及目前在建的各个数字图书馆项目都提供了字段限定检索，主要有：题名、责任者、机构、文摘、关键词、刊名、资源类型以及正文几个字段供检索时选择。(2)布尔逻辑检索布尔逻辑检索技术是信息系统中应用最广泛的检索技术之一，它是最简单、最基本的匹配模式，其理论基础是集合论和布尔逻辑。常用的布尔逻辑运算符有三种：逻辑或OR，它表示包含检索词A或者包含检索词B的，均为命中文献；逻辑与m囝，它表示同时含有检索词A和检索词B的才为命中文献：逻辑非NOT，它表示不含有该检索词的文献才为命中文献。大部分农史信息检索平台都使用了布尔逻辑检索，用户在检索时候可以对各个字段进行布尔逻辑选择，支持二次检索。(3)全文检索技术全文检索，简言之，就是以各类数据诸如文字、声音、图像等为处理对象，提供按照数据资料的内容而不是外在特征来实现的信息检索手段。以文本为例，就是文中的任意词汇都可以作为检索点来进行检索，这种检索方式能够对海量数据进行快速的查询，成为目前各类数据库以及搜索引擎的主要核心技术。大多数农史信息资源检索系统都提供了全文检索服务，如，中国农业遗产研究室开发的中国农业遗产信息平台、清华大学主持的“中国科技史数字图书馆资料库”等都提供了全文检索服务。\n古农学本体的半自动构建及检索研究(4)检索输出技术基于关键词的全文检索机制是将检索词与文献资源库进行字面匹配，含有该检索词的检索结果均为命中结果，也就是说，全文检索的缺点之一就是会返回大量的检索结果，常会有输入一个检索词，会有成百上千的检索结果出现。因此，对检索结果的输入进行处理，是评价检索系统的一项关键因素。对于相关性排序，统计中的农史检索系统中，只有中国农业遗产信息平台具有相关性排序功能，所提供的相关性排序有；内容新旧排序和命中次数排序。2．2．2农史知识组织中检索语言的现状检索语言是用来描述信息源特征和进行检索的人工语言。检索语言在信息检索中起着极其重要的作用，它是沟通信息存储与信息检索两个过程的桥梁。检索语言分为分类语言和主题语言，实行分类控制可以将主题相似的文献集中起来，满足族性检索的需要，两主题控制可以将精确检索某一特定文献，满足特性检索的需要。在农史信息组织中，有些网站和数据库建立了初步的分类浏览功能，便于用户发现某一大类文献查找的需要，而在词汇的主题控制方面，所做的工作还甚少。总体来说，在农史信息组织领域检索语言的建设还非常薄弱，从而也影响了农史信息资源利用的效果。(1)中国农史分类裂16】2006年，中华农业文明研究院在犁播的《中国农学遗产文献综录》的分类体系、中国农业博物馆的《中国农史论文目录索引》以及《中国农业百科全书·农业历史卷》分类目录等前人研究成果的基础上，编制了国内首个农史学科的专业分类表。该分类表将农史分为农史理论、农业史通论、农业思想史、农业科技史、农业经济史、农村社会史等九个大类，每个类目下设置了详细的小类，为农史信息资源的组织、导航、检索提供了基础支持，但是该分类表更新和修订较慢，结构过于严谨，应用于网络信息的自动处理还需改进。(2)农史概念词典【16】2006年，中华农业文明研究院在“中国农业科技遗产信息数据库建设”项目中，为了提高农史信息资源的组织和检索效率，构建了中国农史概念词典。在该词典中，主要构建了概念间的相关关系，并且同时构建了农史地名表和农史时代表作为农史信息资源组织和检索的有力支持。以此为基础开发的农史信息资源组织和检索系统，可以对资源进行相关关系的控制，一定程度上提高了农史信息资源的检索效果。(3)Web农业古汉语电子词典【”J中国农业科学院农业信息研究所在“农业古籍珍藏及全文数字化研究与建设”项目的研究中，设计和开发了Web农业古汉语电子词典。该词典从《农政全书》、《月令\n2农史信息资源组织现状辑要》等农业古籍文献中，选取农业及相关的古汉语词汇，并进行现代汉语释义以及繁简字对照处理，主要收录了与农业相关的词汇，主要包括名词以及名词词组，古地名词汇以及疑难词汇等，例如“夜合藤”今称“何首乌”，“豕”为“猪”的古称等。该词典主要可以提供古代农业词汇的同义词汇控制，是理解和利用农业古籍数字化资源的实用辅助工具之一。2．2．3农史信息资源组织现状评价农业遗产数字化的目的是为了用户更方便快捷的获取农史研究资料，因此需要采用大量的信息处理技术对电子化的信息资源进行加工、整理、检索和开发，“物尽其用”才能使得农史的数字化遗产得到共享，体现出其在目前网络环境下的价值，然而通过调查分析发现，在农史信息资源建设方面尚处于“粗放型”的资料电子化处理状态，而对于后期的信息资源的加工、整理、开发和利用方面所做的工作还需要进行大量的投入和研究。目前在农史信息资源加工利用方面的总体特点是检索技术相对落后、后台语义支撑工具缺乏、服务方式尚处于被动服务状态。下文将从检索技术、检索语言、检索服务三个方面对目前的农史信息资源现状进行总结。(1)检索技术分析通过对目前的农史信息资源的检索技术调查来看，多数农史信息资源检索系统均提供了布尔逻辑检索、字段限定检索这些检索技术，是在目前信息技术高速发展的带动下，农史学科向高效的信息化服务迈出的可喜的步伐。然而从目前信息技术发展的现状来看，这些检索技术都是基于关键字检索的检索模式，这类检索模式的最大缺点在于计算机对于输入的文字只能做“字面”的处理，参与匹配的只是字符的外在形式，计算机无法从语义的角度去处理，也就是不能做到计算机和用户对检索需求形成统一的认识，用户在检索时经常无法用准确的语言来表达自己的检索需求，同时由于不同行业背景，常常对同一事物会有不同的定义和称呼，其结果必然是会返回大量无关、答非所问的检索结果。检索结果的处理是衡量一个检索系统检索性能的一个重要指标，在检索结果的相关性排序方面，有些农史信息检索系统虽然开发了相关性排序功能，但是只停留在了简单的按照内容的新旧以及命中的次数层面。事实上相关性排序要综合考虑多种因素，如文本的权威性、被引用和阅读的频率等。有效的相关性排序，应该更着重于考虑检索结果与检索需求在语义上的相关程度，要实现语义层面的相关度分析，需要引入一个语义词典、领域本体等语义关联分析工具作为相关性分析的支撑工具，同时，也可以为用户的检索扩展提供具有语义价值的参考和提示。而关于语义方面的研究，在农史信息服务领域几乎还尚处于未起步状态。\n古农学本体的半自动构建及检索研究(2)资源组织模式分析在农史信息资源的组织中，建立了一定的语义管理工具，如《中国农史分类表》、‘农史概念词典》以及{Web农业古汉语电子词典》等，但是《中国农史分类表》更多的作用是与《中国图书馆分类法》类似的专业分类法，属于面向学科的等级列举式分类法，结构体系过于严谨，类目体系缺乏横向的语义关联；《农史概念词典》可以提供相关关系的控制，但这种语义控制过于松散，更多的是起到检索扩展的作用：{Web农业古汉语电子词典》收录了重要的农业古汉语词汇的释义，属于农史信息资源处理的基础数据，如若使之发挥作用，还需进行进一步的语义挖掘。检索语言是描述信息主题内容的工具。也是用户表达检索提问的语言。信息检索系统中一般将关键词作为描述信息和用户提问的基本单元，尤其是在网络信息资源检索中，大多数搜索引擎都提供按关键词搜索的功能，因为关键词是最简单的自然语言，是实现主题检索的重要途径，而且简单易用，但是关键词不能充分表达概念之间的语义关系，通常难以满足用户的族性信息需求。只能基于简单的形式匹配，无法对知识进行理解和处理，也就不可能真正理解用户的查询意图，无法达到较高的查准率和查全率。目前在农史信息资源组织方式上，除了一部分资源采用粗略的分类体系进行组织外，大部分资源都采用关键词的形式检索。因此，要提高农史信息资源组织的效率，就必须改变目前信息资源的描述方式，在信息创建之初就加入语义信息，实现基于语义的信息资源组织，从而有效提高信息资源组织的效率。例如，用户查询“唐代的税收”，经过语义匹配，系统可以得出用户的检索意图的真正意图可能是“两税法”。(3)检索服务分析目前的信息服务方式，主要有两种，一种是传统的“拉”方式，一般情况下，“拉”方式由用户来控制信息的查找和获取。另一种是与“拉”(pull)方式相对“推”(push)方式，它是由信息的生产者或信息系统来控制信息的流向。也就是信息的主动服务和被动服务。对于现代信息检索而言，进行深层次的开发和创建，支持以用户为核心的服务模式是目前网络环境下信息服务的主要发展趋势。“推”技术是一种主动信息服务的方式，根据用户个人的需求特征，运用“筛选”、“过滤”机制，将信息不断、主动地提供给用户的一系列服务。例如，某位进行农业经济史研究的农史专家，个人需求特征方面填写“田赋、田制、租佃关系”等关键词，则信息系统就会根据用户的需求，将最新的关于这方面的研究进展及时地以邮件等方式“推送”给该农史专家。从调查来看，在信息服务方式上，目前的农史信息资源还处于传统的“拉”(pull)方式。系统根据用户的检索词，得出检索结果被动的返回给用户，还处于被动信息服务方式。因此，应尽快开发“推送”服务的个性化信息服务方式，可以减少用户浏览\n2农史信息资源组织现状信息、查找信息、筛选信息的时间，同时还可以节省网络的流量，提高信息服务的质量和效率。表2-3农史信息资源组织现状分析、、＼荽术现状服务方式检索技术组织方式资源类；＼布尔检索字段检索全文检索分类语言主题语言数字图书馆被动有部分有无专题数据库被动有部分有无专题网站被动无部分有无目前在科技史信息资源建设上，已经完成了大量的资源数字化基础工作，但是由表2-3不难看出，在资源的加工和利用方面还处于落后状态，使得大量的电子信息资源不能褥到很好的利用。在专题网站建设方面，大多数的网站只是起到了宣传的作用，没有有效的门户网站建成。一是网站的资源还相对较少，二是网站建设水平相对落后，缺乏有效的资源组织技术，佼得网站的资源杂乱无章。在专题数据库建设上，诸多研究机构和信息服务部门花费大量的人力物力将宝贵的纸本文献数字化，建成了各类专题数据库，积累了宝贵的电子资源。在对这些资源的利用方面，目前提供的仍是最近基本的服务方式，如布尔检索、字段检索等，检索技术仍停留在字符匹配的水平，缺乏有效的语义控制技术，使得检索结果用户满意度不够。在数字图书馆建设方面，虽然建成了数十个门类齐全的数字图书馆／博物馆，但是大都提供了静态的图片展示，用户可以浏览其中的资源，但是缺乏有效的资源导航服务，在资源检索方面，还优待加强。总之，目前科技史信息资源建设方面所取得了一定的成绩，拥有了相当数量的数字化资源，但是在资源的有效服务方面，需要加大研究力度，提高这些数字化资源利用的效率和效果，以实现这些数字化资源的真正价值。2．3基于本体的农史信息资源组织利用通过调查分析，不难得出目前农史信息资源组织利用中，主要采用基于关键字的机械匹配。割裂了字、词间的语义关联，缺乏必要的语义分析，导致用户信息获取结果不尽人意。这种查询机制缺乏智能性和知识性，越来越难以满足人们日益增长的知识需求。究其原因是目前的信息组织和信息检索机制中缺乏对语义的控制，于是，在农史信息资源组织利用中引入基于语义的知识组织和检索的研究就显得越发重要了。2．3．1引入本体的必要性我们知道，情报检索的过程实质上是存贮与检索过程中情报语言f标引语言与检索\n古农学本体的半自动构建及检索研究语言)匹配的过程，只有当检索用语与标引语言完全一致时，才能检中文献。当然，这个完全一致可通过如下两种形式实现：①字符形式直接完全一致。②两者通过查询转换(如借助后控词典、概念库、本体论等)实现一致。在情报检索语言中，存在着人工受控语言和自然语言两种检索语言。使用受控语言对于普通用户来说难度太大，因此，在网络环境下，大多数系统都采用接近自然语言的关键词作为检索语言，但是由于自然语言的灵活性，存在着大量的一词多义，一义多词等现象，导致关键词在信息检索中出现了种种的不适。对于自然语言的控制措施，早期有入口词表控制法、后控制词表控制法等词表控制方法【14】。随着人们对词表编制效率要求的提高，人们又提出了概念空间、语义网络、语料库控制、语义本体等方法。在众多的语义控制措施中，语义本体作为一种最新的、最具前景的语义概念控制方法备受瞩目。(1)本体的概念本体(Ontology)最早是一个哲学概念，与认识论相对，研究事物客观存在的本质，是对客观存在的系统的阐释和说明，描述的是客观存在的抽象本质。后来随着人工智能的发展，本体被人工智能界给予了新的定义。最初人们对Ontology的理解并不完善，随着对本体研究的深入，这些定义也出在不断的发展变化中。1993年，G埘beIll8】给出了Ontology的一个最为人们所熟知和认可的定义，“Ontology是概念模型的明确的规范化的说明”。后来，Borst在此基础上给出了Ontology的另外一种定义“Ontology是共享概念模型的形式化规范说明”。Studer等对上述两个概念进行了深入的研究，认为Ontology是共享概念模型的明确的形式化规范说明。这包含了4个层次的含义：①概念模型(conceptualization)概念模型是通过抽象出客观世界中的一些现象的概念而得到的模型，其所表现的含义独立于具体的环境状态。②明确(explicit)“明确”是指所使用的概念和概念约束都有明确的定义。③形式化(formal)“形式化”是指Ontology是计算机可读的，可被计算机理解和处理的。④共享(share)“共享”是指Ontology所体现的是共同认可的知识，是相关领域中公认的概念集。Ontology的目标是捕获相关的领域知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇(术语)和词汇\n2农史信息资源组织现状之间相互关系的明确定义。(2)本体的特点就其实质而言，本体是特定领域内的概念集，描述了该领域内公认的对象以及对象间的关系。Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具，具有的良好的概念层次结构和对逻辑推理的支持，特别是其共享性和开放性，因而在信息检索，特别是在基于知识的检索中得到了广泛的应用。Ontology能通过概念之间的关系来表达概念语义的能力，所以能够提高检索的查全率和查准率。由于本体是对特定领域内的概念及概念关联的形式化表示，具有较强的语义属性，因而，利用本体可以克服传统信息检索割裂词间语义关系的弱点，较好地解决因简单关键词匹配带来的“信息过载”、“形义不符”等问题，并在一定程度上实现基于知识、语义的检索。用本体改善信息检索，实质上是对主题分析与概念抽取这两个过程进行改进，这是因为，借助本体，一方面可以对文档内容和检索用语进行标注、规范，辅助分析信息源的领域归属；另一方面，可以实现查询语词的扩展与转换，提高检索系统的语义处理能力。2。3．2本体在农史信息资源管理的作用．建立农史领域本体可以对农史领域知识进行结构化描述，提供机器可理解的语义基础，因此，借助于农史领域本体可以对农史信息资源提供具有语义的描述、组织和检索，解决目前农史信息资源组织中的弊端，提升农史信息资源服务的效率和精度。(见图2．1)领域本体在农史信息资源管理中的作用主要体现在如下几个方面：\n古农学本体的半自动构建及检索研究厂_墨_④瓷薄泰T者甲瓷薄加者匡虿l爱壤童■库l匕===：：：'、——．——————／④■⋯；赢⋯一．I’青；：识≤三≥竺竺!竺鼍卫推理几翮n翮L-----·-----------’-----一L-．----、．．．．．．．．-----一吴／＼。用户图2-2基于领域本体的信息资源管理方案Figure2-2DesignofAgricultureInformationManagementSystembasedonDomainOntology(1)语义导航农史本体是由农史领域概念以及概念关系构成的网状结构。概念及其之间的关系可以形成一个相对比较完整的分类体系。而其中的实例则是关于农史领域内某一概念分类的具体实现，它们聚集在该概念分类之下，相当于关键词或主题词的作用。因此可以说本体更加完善的实现了分类与主题的一体化。即由概念以及概念之间的关系形成分类体系，概念的实例形成词表。利用农史本体严密的“分类——主题”结构组织资源，进行资源智能导航，将资源合理分配与农史本体的概念节点之下，可以实现基于语义的分类、(主题)概念的无缝组合。基于农史本体可以向用户提供上下文相关的知识，即随着用户浏览意图的不同，提供不同的信息，实现动态导航。在农史本体中，不同的类别又拥有不同的属性。浏览Web页面时，用户在浏览时可以选择不同类别的概念实体，根据概念实体的不同属性进行选择。这种导航是根据特点概念实体而生成的动态的具有语义上下文环境的服务方式，同时对于用户来说是具有一定的启发作用。，\n2农史信息资源组织现状图2-3‘齐民要术》导航固Figure2-3NavigationDiagramofa／MinYaoShu(2)语义检索语义检索是基于知识、语义的匹配检索方式。基于领域本体的语义检索实质上是把借助领域本体规范后的检索请求按领域与标注后的信息源索引库进行语义匹配和语义推理，并提交给检索系统的过程。基于领域本体对术语的严格描述和定义，以及反映术语间关系的语义网络，可以实现对查询请求和信息源知识的规范处理。在农史信息资源的管理中引入本体，能够实现按领域的语义检索，同时也可以较好地解决一义多词、一词多义问题，大大减少了信息检索中的噪音干扰，节约了检索时间，减少了检索主体遍历的空间，有利于解决目前信息检索中存在的诸多问题，大大提高农史信息资源检索的效果。(3)语义标注从语义Web的角度来看，在传统Web上添加语义信息，将Web的状态从机器可读提高到机器可理解，这是整个语义Web实现的基础。通常，这种语义信息的添加是基于本体进行的，称之为语义标注。语义标注将推动语义Web走向实际应用，智能Agent能够根据Web上的语义信息实现智能推理任务，并能提高信息检索的精确性。使用已有本体在Web页面中插入语义元数据信息，从而使Web页的内容机器可识别。例如：在农史本体中表达“整地农具”这个概念时，预先为它设置了几个属性：英文名、中文名、构建材料、出现时间、适用土地、牵引力以及记载农书等。在实际\n古农学本体的半自动构建及检索研究的网页中，发现了“曲辕犁”一词就可以将其标注为金属<／material>、唐代<／time>、江南水m<／land·type>、牛<／drag>、耒耜经<／book>，其他农具都照此标注，这样就建立了一个广泛的可共享的概念体系，以后用户就可以采用多种语言，随意使用不同的表达方式对农具进行检索。(4)术语服务(TerminologyService)当今时代科技信息飞速发展，随之而来涌现出大批新的术语，如果不及时发现、收集并解释这些新术语，势必会影响科技信息在大众之中的理解和传播，给学术交流带来不便。然而，在科技发展的新形势下，传统的手工方式己远远不能满足术语标准化工作的实际需求。领域本体收录了特定学科领域中的概念以及概念之间的关系，或者该学科领域的重要理论。这类本体包含了大量的科技词汇，属于专业性的本体，例如，飞机制造、化学元素以及生物信息学等以及本文所构建的古农学本体。而一般的术语定义是按照“种差+属概念”的形式，这也正符合本体的定义结构，即为概念所属的类别以及自身的属性。因此，构建出的农史本体在一定程度上可为农史领域专业词典的编纂以及农史术语服务提供核心参考数据。(5)个性化服务用户语义模型是用户描述某一对象时所用词汇及其关系集合的语义标注。反映用户对某一对象的理解。不同知识背景的用户对相同词汇的理解各不相同。用户语义模型的构建主要有两个方面：首先是按照一定规则确定用户的概念集合。即在分析用户兴趣爱好、信息需求、浏览行为等基础上，抽取出概念集合；其次是将用户的概念集合与领域本体进行语义映射，确定和用户概念相匹配的概念以及概念之间的关系，建立用户的语义空间。通过将用户概念空间与领域本体进行语义映射，可以建立信息源和用户之间统一的语义模型。该语义模型是为用户提供个性化信息服务的基础。在农史信息资源管理中，引入用户语义模型可以为用户提供个性化信息服务。同样是研究土地，农业经济史学者则偏重于土地制度方面，农业科技史研究者则偏重于土地利用制度方面。因此，建立用户语义模型一是可以根据用户的背景提供更为精确的导航和检索，二是可以根据用户的需求提供主动的信息服务，将用户需要的信息及时发送给用户，节省用户搜索信息的时间。不难看出，实现语义层面的信息服务的核心问题是领域本体的建立。领域本体用于描述特定专业领域，定义该领域的概念和概念间关系，描述该领域的基本原理、主要实体和主要活动及其关系，提供领域内部知识共享和知识重用的公共理解基础。目前许多领域已经拥有了相应的本体，例如美国国家医学图书馆建立的UMLS医学领域本体、多伦多大学的虚拟企业(virtualenterprise)企业本体，酶催化生物医学本体\n2农史信息资源组织现状GENSIM，Hinius陶瓷材料本体等。我国在农业本体的建立方面也进行了大量的研究工作，为农业信息资源实现语义层面的信息组织和信息检索奠定了基础。然而在农业史领域，目前尚未见有此类的知识组织工具的研究。2．4本章小结经过近二十年的发展，农业遗产数字化工作已经取得了很大的进展。本章总结了现有的数字化的农史信息资源并对其进行了分类，在此基础上，从检索技术、检索语言以及服务方式等三个主要层面对这些数字化的信息资源的服务方式和利用手段进行了分析，通过调查分析发现，尽管目前拥有了不少的数字化资源，但是对资源的深加工和利用工作还相对很粗糙，使得这些资源不能得到很好的利用，无法最大程度的体现资源本身的价值。本章在分析了目前农学遗产信息服务中存在的弊端的基础上，结合目前的本体发展技术，提出了基于语义本体的农史信息资源管理的设计方案。信息技术的高速发展，给农业遗产信息化带来了机遇，同时也带来了挑战，如何更好地提供农业遗产信息化服务的效果是摆在信息服务机构的重大任务。从语义的角度对信息资源进行加工和利用，使得计算机能够理解用户的需求，形成机器和用户统一的语义认识是解决目前信息服务中效率低下的根本措施。而各种本体是语义网发展的基础。本章参考文献11】郭美玲．网路时代的图书资讯组织【J】．大学图书馆，1999(1)【2】中华农业文明网．http：／／www．icac．edu．ca／home．asp．【2006．10．1】【3】中国农业历史与文化，http：／／www．agri-history．net／．【2006．9．301【41中国经济史论坛．h业；幽璺盥鲫Q5Hg：盟gl纽B卿亟型．[2006．9．301【5】中国农业科技史网站．http：／／ecourse．scau．edu．cn／agro／xy／．【2006．9．301【6】科技史论著目录查询．http：／／www．ihns．ac．cn／librarv／scarchl．htm．[2006．9．291【71中国文化研究论文目录查询．h丛P；碰l丝：!12：塾：!Q!』盟出．[2006．10．1】【8】中国农业遗产信息平台．http：／／rw．njau．edu．cn／INFOBIN／Select．Dll【2007．1。221【91中国科技史数字图书馆资料库．hup：／／156．111．120．21：4237／home／database／htm／．[2006．10．16】【101赖茂生，王延飞，赵丹群．计算机情报检索p田．北京：北京大学出版杜，1993【11】续向军．中外数字图书馆检索技术的比较研究【J】．医学信息2006．12(19)：2109-2112【12】焦玉英，索传军．网络环境中信息检索理论与实践的发展【J】．图书情报知识，2001(1)\n古农学本体的半自动构建及检索研究【13】张红萍等．数字化技术在农业古籍中的应用【J】．农业图书情报学科．2004，16(10)：33．35【14】侯汉清，马张华．文献分类法主题法导论【M】．北京：北京图书馆出版社，1999．7【15】张琪玉．情报检索语言．武汉：武汉大学出版社rM】，1983．6【16】薛春香．农史知识组织系统构建与应用研究p】．南京：南京农业大学，2006．6【17】卢文林等．Web农业古汉语电子词典设计[J】．农业图书情报学刊，2005(12)【18】TomGruber．WhatisanOntology[J／OLl．http：／／www-ksl．stanford．edu／kst／what-is-an-ontolo红．html[2005．12．15】【19】李景．本体理论在文献检索系统中的应用研究川：北京：北京图书馆出版社，2005[20】刘云，张玉峰．基于本体论的语义导航模型研究【J】．图书馆杂志，2005(10)：52-56【21】金燕，张玉峰．基于本体论的知识检索研究[J】．图书情报工作，2004(7)：41．-43【22】胡道静．农书·农史论集【M】．北京：农业出版社，1985【23J犁播．中国农学遗产文献综录嗍．北京：农业出版社，1985【24】中国农业百科全书部．‘中国农业百科全书(农业历史卷)》【M】．北京：中国农业出版社，1995【25】张芳，王思明主编．中国农业古籍目录【M】．北京：图书馆出版社，2003．3【26】石声汉．中国古代农书评介[M】．北京：农业出版社，1985[271本体库的建立与标注_p／oq．h鲍；2△巡查丑!曼鳗皇丝坠：坠曼“塾!卫世[盟旦丝坠型墅蝗尘鲤：垫垂：也曼Qg尘坠尘卫垃!Qg“!丛丛地!璺Q垦：Pb巳[2007．3．20】12S]曹玲等．农史研究的新工具一中国农业遗产信息平台的建设与构建p】．中国农史，2006．1【29】王毓瑚．中国农学书录【M】．北京：农业出版社，1964【30】天野元之助．中国古农书考p咽．北京：农业出版杜，1992\n3本体研究进展3．1本体概述3．1．1本体的分类知识系统中存在不同种类的本体，根据不同的分类标准，可以将本体分成不同的种类。Mizoguchi等人12】根据语境相关和语境无关的分类标准将本体分为：领域本体、常识本体、元本体和任务本体。而vanHeijst等人【3l则将本体按概念结构的数量和类型及概念的主题二个维度来分类。若按第一个维度来分，本体可分为：术语本体、信息本体和知识建模本体；若按第二个维度来分，本体又可分为：应用本体、领域本体、通用本体和表示本体。综合上述有关本体的分类结果，知识系统的较常用的本体类型有【4】：(1)知识表示本体(KnowledgeRepresentationontolotgJies)获取用于基于框架语言的表示原语，这些原语包括类、子类，属性、属性值、关系和公理。典型的例子是Ontoligua项目中的Frame—Ontology。(2)通用本体(Generalontologies)包含与事物、事件、时间、空间、因果关系、行为、功能等相关的词汇。典型的通用本体是CYC本体。(3)顶级本体(Top—LevelOntologies／UpperLevelOntologies)包含可以被其他本体使用的通用概念。例如，Sowa’sbooleanlatticePANGLOSS、PenmanUpperLevel、CYC、Mikrokosmos、Guarino’stoplevelproposal。(4)领域本体(Domainontologies)给定与一个领域的概念、概念之间的关系、原理和基本法贝Ij有关的词汇。本研究中所构建的农学本体就属于这种本体。(5)任务本体(Taskontologies)提供用于解决某一特定任务的术语，这个任务可以是领域无关的，也可以是领域有关的。(6)领域——任务本体(Domain．Taskontologies)只能在一个给定领域重用的任务本体。(7)方法本体(Methodontologies)为完成某一特定任务的具体推理过程所用到的概念及概念之间的关系提供定义。方法本体和领域本体通常用来定义PSM(problem—solvingmethods)。(8)应用本体(Applicationonlologies)\n古农学本体的半自动构建及检索研究包含一个特定应用系统建模的必要知识。(9)元本体(Meta—ontologies)元本体也被称为类本体(Genericontologies)或者核心本体(corcontologies)。它定义了“part—of'’关系和其上的属性，这个关系可以用来说明一个装置上的各种组件的集合，每个组件又可分解成子组件。元本体可以在不同的领域中被重用。图3—1本体的分类图【41Figure3-IClassificationDiagramofOntology3．1．2本体的描述语言本体描述语言是用特定的形式化语言对本体模型进行描述，使得机器和用户都能达到统一的理解。现有本体表示语言可以分为两类，一类是基于一阶谓词逻辑的，如框架逻辑(Frame．109ic)等。第二类基于XML标准的、W3C推荐的本体语言，这些语言主要包括：XML、RDF／RDFS、DIAMI．A-OIL、0、ⅣI。等。1XMLI’JIo】XML是严格符合SGML的结构化语言，其实现了文档的显示和数据分离，这种结构化的数据易于使用、携带和传递，是Web数据交换的较好的语法格式。XML提供DTD、XMLSchema对文档结构进行有效性验证，通过描述，约束文档逻辑结构实现数据的语义。XML对本体的描述，就是利用DTD或XMLSchema对本体所表达的领域知识进行结构化定义，然后再利用XML文档结构与XML内容之间的关系对本体知识进行描述，从而提供对数据内容的语义描述。但是DTD自身描述能力、数据类型的支持、约束定义的能力是有限的，无法对\n3本体研究进展XML实例文档做出更细致的语义限制。因此，通过DTD表示的本体，无法表达概念间的继承关系，XMLSchema虽然解决了DTD存在的问题，例如定义了更为丰富的语法结构、可以定义元素类型、提供了包含和继承机制等，但是DTD、XMLSchema为XML文档提供的约束机制只是用限定XML文档所用到的标记和这些标记之间的结构关系，通过DTD和XMLSchema可以解决对数据的词汇和用途的说明，其语义仍然是隐含的。因此，XML所表示的本体是轻量级的本体，只能保证人们是用相同的词汇，是一种较低层次的本体的应用，本体中不包含语义信息。2RDF和RDFS[TI[8JW3C的资源描述框架(ResourceDescriptionFramework,RDF)为基于元数据的语义表示提供了基础，RDF为在Web上应用系统间进行机器可理解的信息交换提供了互操作能力。RDF对资源描述基于如下思想：利用当前现有的Web体系结构中的标识符URIs作为标识符系统来标识事物，用简单的属性(Property)以及属性值(Value)来声明资源(Resource)，这里的资源指Web上任何可以被标识的事物，可以创建URIs来引用声明中需要被标识的任何资源，例如，一份电子文档、一个图片、一个声音文件等网络可访问资源；或者如人、公司、图书馆中的图书等非网络可访问资源；或者如“作者”、“主席”这样非物理存在的抽象概念。RDF的基本构造为陈述(或者叫做声明，statement)]"--个资源．资源具有的属性．属性值(主体．属性．客体)的三元组。它表现的是一个数据模型，通俗的说一个陈述就是一个什么事物(资源)具有什么属性(属性)，这个属性是怎样的属性(属性值)。为数据模型提供了简单的语义，这些数据模型能够用XML语法进行表达。例如：描述“中国农业遗产研究室位于南京”，用RDF图来表示为：图3-2RDF三元组示意图Figure3-2DiagramofRDFtriangleArchitecture采用RDF语法表示为：南京<／location>\n古农学本体的半自动构建及检索研究<／rdf：Description><／rdf：RDF>但是，RDF只是提供了一个用于领域无关的机制来描述元数据，描述资源属性及其相关关系，没有提供按照类的机制描述信息资源、声明属性、描述属性语义及其与资源之间的关系。也就是说RDF不能描述领域相关的语义关系，如同义词、一词多义等，因此，提出了RDFS。RDFS是RDF的扩展，在RDF基础上增加了许多语义原语。提供了一种机制来定义相关领域的资源的属性、类型及其关系，用来更进一步增加对资源的描述能力。如，核心类rdfs：Resource、rdfs：Property、rdfs：Class；核心特性rdf：Type、rdfs：subCIassOf、rdfs：subPropertyOf；核心约束rdfs：ConstraintResource、rdfs：ConstraintProperty、rdfs：domain、rdfs：range。RDFS虽然提供了简单的机器可理解语义模型，解决了RDF中存在的一些问题，如属性、概念间的继承关系，但是对语义描述的深度仍然不够，只是进一步提高了计算机处理的自动化程度，还无法表达概念间的合取、析取、不相关等关系。在RDFS建模的基础上，针对RDFS在语义方面表示的不足，一些研究团体提出了其他的本体表示语言XOL、OIL、DAML，在此基础上，W3C发布了Web标准本体表示语言OWL，在机器间实现本体的共享和重用，实现对Web信息的智能化处理。3OWLl9Ⅱ101OWL全称w曲OntologyLanguage，是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的，其中DA／vlL来自美国的提案DAML-ONT，OIL来自欧洲的一种本体描述语言。在W3C提出的本体语言栈中，OWL处于最上层。OWL能够被用于清晰地表达词汇表中的词条(term)的含义以及这些词条之间的关系。而这种对词条和它们之间的关系的表达就称作Ontology。OWL相对XML、RDF和RDFSchema拥有更多的机制来表达语义，从而OWL超越了XML、RDF和RDFSchema仅仅能够表达网上机器可读的文档内容的能力。和XMLSchema相比，OWL语言是知识表示，不是信息表示格式；和RDFS相比，OWL不仅可以用更复杂的方法描述类，如disjoint，而且扩展了RDFS属性，允许表示属性的transitive、symmetdc以及functional性质，表达了更强的概念语义信息，支持描述逻辑推理。OWL语言提供了三种表达能力不同的子语言OwLLite、OWLDL、OWLFuU，分别满足不同的需要，见下表简要描述。\n3本体研究进展表3．10WL的三个子语言描述子语言描述例子OWLLj把用于提供给那些只需要一个分类层次支持基数(cardinality)，只允和简单的属性约束的用户。许基数为0或1。OWLDL支持那些需要在推理系统上进行最大当一个类可以是多个类的一程度表达的用户，这里的推理系统能够个子类时，它被约束不能是另保证计算完全性(computational外一个类的实例。completeness，即所有地结论都能够保证被计算出来)和可决定性(decidability，即所有的计算都在有限的时间内完成)。它包括了OwL语言的所有约束，但是可以被仅仅置于特定的约束下．OWLFllll支持那些需要在没有计算保证的语法一个类可以被同时表达为许自由的RDF上进行最大程度表达的用多个体的一个集合以及这个户。它允许在一个Ontology在预定义的集合中的一个个体。(RDF、OwL)词汇表上增加词汇，从而任何推理软件均不能支持OWLFUu。的所有feature。3．2本体构建编辑工具——Prot696经过近10年的发展，本体编辑工具已经比较成熟，目前存在Onto姆a、Wcbonto等数种有影响力的本体编辑工具。在这些工具中，被使用最广泛、最受关注的是斯坦福大学医学情报研究组开发的本体编辑工具—Prot696(http：／／protege．stanford．edu)。该工具采用Java编写，可以免费下载，其界面与普通的Windows应用程序风格一致，由于其开放性和兼容性备受瞩目，成为目前本体编辑的首选工具Illl。3．2．1Prot696特点分析Protdgd有很多其他编辑工具所不具备的优点：(1)是一个开放资源，允许用户二次开发，目前拥有最多的注册用户；(2)不断有新版本推出，不断增加新功能，目前已经推出3．2版本：(3)系统的可扩展性好，支持下载安装或者自行开发插件，拓展protdgt!的功能；\n古农学本体的半自动构建及检索研究(4)能够以多种方式存储本体，包括多种数据库格式和纯文本格式；(5)支持多种本体表示语言输出，包括XML、RDFS、OWL等；(6)界面简单友好，易于用户学习和操作；(7)拥有众多的可视化插件供用户选择，概念关系一目了然；(8)支持中文编码。当然，Prot69∈在设计上也存在着一定程度的不足：(1)一次只能打开一个本体：有些大型本体的编辑需要参考和引用已经存在的本体，这样的方式会影响大型本体的工作效率；(2)不支持协同开发：目前的Prot696只有客户端，没有服务器端，不支持协同开发。而尤其是大型本体的开发，需要多人的合作，大大影响本体的编辑效率；(3)不能进行批量处理：在输入实例的过程中，不能以文本的形式将同类型的内容一次性导入，输入比较繁琐；(4)运行速度比较慢，编辑效率不高，启动需要占用大量的内存资源；(5)部分图形化显示工具不支持中文本体的显示，如OWLViz。3．2．2Prot@961吏用方法Prot∈西T具有三个主要功能标签(1’ab)：类(Class)、属性(Property)、实例(Instance)，主要是定义类和类结构，属性和属性值约束，类之间的关系和关系的属性等。使用Prot∈96编辑本体只需要经过简单的操作即可实现，本节以古农书实验本体为例阐述Prot69∈的使用。(1)建立本体项目给古农书本体建立project文件，类似软件项目开发中的项目文件，对古农书本体进行全面管理，同时需要给要建立的本体选择描述语言，目前的Pmt∈醇有XML、RDF以及OWL三种语言供用户选择。(2)建立类别为古农书本体建立类别，主要是根据对古农书领域的分面分析，给出古农书领域的概念模型，在Prot696中可以对类进行设置，如不相交类。经过概念分析，设置了如下类别：农书类、版本类、人物类、知识元类、研究论著类、时间类以及地点类等。(3)设置属性为古农书本体设置属性主要是定义类之间的语义关系，以OWL语言为例，其中的属性有Object属性、Datatype属性和Annotation属性。其中最主要的是Object属性和Datatype属性，前者用来描述两个类之间的语义关系，定义属性的定义域(doraain)和值域(range)，如写作(Write)属性连接人物和农书类／研究论著类；后\n，本体研究进展者用来描述类本身的特点，如时间类型、字符串类型、整形等，可用来定义日期、年龄等，类似程序设计中的变量类型。(4)添加实例为已经设置好的类添加实例概念。例如农书类的实例可能为齐民要术、农政全书；时间类的实例可能为宋代、元代等；地点类的实例可能为汉中地区、关中地区、长江流域等。以上是最基本的设置，在OWL语言中，还可以为本体设置更多的语义关系约束，如把属性设置为：(1)翻转属性(inverseof)如果P1被声明为P2的翻转属性，那么如果X通过P1关联到Y，那么Y通过P1关联到x。如果hasChiid是hasParem的翻转属性，DeborahhasParentLouisc，那么我们就能够推理出LouisehasChildDeborah。(2)传递属性(TransitiveProperty)如果(x，y)是传递属性P的一个实例。(弘)也是传递属性P的一个实例，那么(x，z)是传递属性P的一个实例。如果ancestor被声明为传递的，(sm，Louise)是它的一个实例，(Louise，Deborah)也是他的一个实例，那我们就能够推理出(sara，Dcborah)是他的一个实例。(3)对称属性(SymmetricProperty)如果(x，y)是对称属性P的一个实例，那么戗x)也是它的一个实例。被声明为对称的属性不能有任意的domain和range。Friend可以被说成是一个对称属性，如果Frank是Deborah的Friend，那我们可以推断出Deborah是Frank的Friend。为属性添加约束(Restrictions)，包括(1)allValuesFrom约束该约束将一个属性的取值和一个class相关。也就是说，如果一个class的实例通过这个属性和另外一个individual相关，那么后一个individual则能够被认为是该约束类的一个实例。ClassPerson有一个属性hasOffspring，该属性被约束在allValuesFrom上取值为Person类a这就是说如果Person的一个实例Louise通过属性hasoffspring和另一个individualDeborah相关，从这～点我们能推断出Deborah是Person的一个实例。这种约束允许hasOffspring属性被其他class使用，例如被classCat使用，从而做出相应的约束。(2)someValuesFrom约束和上面类似，该约束也将一个属性的取值和一个class相关。只不过此时要求该\n古农学本体的半自动构建及检索研究属性的取值至少有一个是该class类型的。3．2．3古农书本体的构建古农书集中记载和反映了传统农业的科技知识和生产经验，它对于研究传统农业科学发生、发展的过程和规律，探讨中国农业的历史特点，吸取传统农业精华，为现代农业发展服务，以及进行中华民族历史传统教育和文化建设，均具有重要的文献资料价值和现实意义。经过近百年的努力，我国农史学家已经陆续整理出版了绝大多数重要的农业典籍。为了更好地开发与利用这些史籍及其包含的信息资源，同时，为了验证领域本体构建的可行性，尝试采用Prot船6作为本体编辑工具来构建农书本体，可以多维度、可视化、动态地表示和组织农书知识和相关的信息资源，是进行农书知识传播、知识组织和知识发现的有力工具。(1)数据来源构建古农书本体的数据来源为：《中国农业百科全书(农业历史卷)》【121、《中国农书概况》[t31、《中国古农书考》【141、《中国农业古籍目录》1151、《中国农学书录》【16】以及部分农史研究论文，从中获取了农书的版本沿革、内容主题、研究概况、研究论著以及收藏情况等数据。(2)总体设计‘农书本体的构建目标是：对古农书的版本沿革，收藏情况、内容主题以及后世对该农书的研究论著及研究专家等进行多维度、多层面地描述。经过概念的分面分析、细化和归纳，形成的以下几个大类：(1)农书类：我国古代重要农书(春秋时期——请代)，分为天时、耕作、农具和农田水利专著、蚕桑专书、畜牧兽医书、野菜专书等。(2)版本类：农书的各个版本，包括原本、辑本、点校本、校释本。描述版本的成书时间、收藏地、版本作者。(3)知识元类：农书描述的内容主题，主要包括农书所描述的农业思想体系和农业技术体系。(4)研究论著类：主要是农书的后世研究论文和图书。(5)人物类：包括农史人物类以及农书专家类。主要是农书以及农书各版本的作者，农书研究论著的作者。描述其籍贯、生卒年代、主要著者和研究领域。(6)时间类：时间是农史研究中重要特征，用来描述不同时期的农书，研究成果等。将时间按照朝代进行划分。f7)地点类：地点用来描述农书所论及的地区以及人物的籍贯和研究机构的地点属性。将地点进行二重划分，一是现有区划，包括华北、华东、西北、西南等地区，\n3本体研究进展每个地区下进一步划分；二是农书内容所涉及的某些范围较含糊的传统地域，如关中地区、黄河流域、江南地区等。著作t甜#考：作者钰著作名称帆构髟机构地点髟机构名称％机构类型农书岛别名岛朝代如主题：主题岛版本。版本七收叠机}勾：机构研究论著写莉丽豇i矿一岛出艋机掏：出版机构版本I—、、Lj幽麓笋i压岛朝代l／屯!!!盟姗究顿域r—}细究机构：研究机构}堡耋I；====，、也器簇j摧。／’农#作者一，}々明代图3．3古农书本体模型Figure3-3ModelofAncientAgriculturalBookOntology(3)古农书本体样例采用OWL语言作为农书本体的语义描述语言。以《农政全书》为例，从图2中可以看到该农书的各种版本、各版本的收藏地以及该农书论及的主题。该图是动态图，点击各个节点还可以进一步显示该节点的相关信息，例如迸一步点击“大豆”，可以显示更多描述大豆的相关农书信息。点击“马首农言”，可以显示该农书的所有相关信息。一息秘度术器一思物衣制拄主一学作具田作作一农枉农隶耕耕若岛毛屯岛卑\n古农学本体的半自动构建及检索研究·譬螗；盘学压L鼍严图3·4古农书本体样例Figure3-4ExampleofAncientAgriculturalBookOntology从以上不难看出，本体是继分类表和叙词表之后发展起来的一种更高级的概念以及概念关系表达技术。通过本体的描述，可以更加有效的表达概念模型，比传统与传统的叙词表相比，在概念关系显示上，本体不再限于叙词表的“用、代、属、分、参”关系，更加全面、细致地描述了概念之间的关系，同时有可视化显示软件支持；在组织结构上，本体打破了词表的线性关系，概念间的关系形成一个网状结构；在修订更新上，本体是一个开放共享的体系，较传统的叙词表更为灵活和便捷。更值得一提的是本体具有概念关系推理功能，可以根据已有的关系推理出概念之间的隐含关系。本体具有更为完善的语义关系和语义结构，且采用形式化语言进行描述，因此更易于实现知识的共享化描述，使得领域知识能够为计算机处理和理解。3．3本体开发工具——Jena3．3．1Jena简介Jena[171是mile实验室研究开发，用于构建语义Web应用的开发框架。该框架工具完全以Java开发的，它定义的类很容易用来进行语义Web于l：发，既可以方便地访问标准的OWI．璞及属性，也可以进行关联文件的推理、基于结构的推理、基于实例的推理等等。Jena从最初的Jenal版本开始，经过不断的发展改进，目前的版本是Jena2．4(2006年12月)。Jenal的主要贡献是【18】为处理RDF图提供了丰富的用于ModeI类的API。围绕着这40\n3本体研究进展些API，Jenal提供了大量的工具，包括对模型的多种方式的输入和输出I／O(RDF／XML，N3，N一啊ple)，RDF查询语言RDQL，使用这些API，用户可以选择将RDF图存储在内存或者是持久性存储(即文件和数据库方式)。Jenal还提供了附加的用于处理DAML+OIL数据的API，但是Jenal并不支持OWL。Jena2支持基于RDFS和0wL等语义推理。Jena支持RDQLi吾义网查询语言。Jena2还拥有一种表现层接口是RDFwcbAPI，它能够提供Web客户端查询RDF图，这种基于Web查询的数据获取方式当然也可以成为系统和应用程序员提供接口，是Jena以后的发展方向。3．3．2Jena的主要构成Jena是一个具有三层架构和多种视图的语义网开发框架，提供给各种开发人员多种应用程序开发接口，具有很高的灵活性【19】。Jena主要由6部分组件构成，分别是ARP、RDFAPI、持久性存储、推理子系统、OntologyAPI和RDQL。在使用Jena进行语义网应用时，最重要的包是tom．hp．hpl．mesmrdf．jcna．model。这个包包含了用于表达model、l"eSOUrCe、property、literal，statemen坞以及其他RDF的关键的接口；c,om．hp．hpl．mesa．rdf．jena．tutorial包包含了与Jena一同发布的指南中所使用的例子的源代码；com．hp．hpl．mesa．rdf．jena．mem包包含了用于将整个模型状态装入内存的JenaAPI的实现。凡是创建基于内存的模型(最典型的是创建ModelMem类的实倒)的实现都在本包中：com．hp．hpl．mesa．rdfjena．common包包含了对于诸多实现通用的实现类。例如，它定义了类ResourceImpl，PropertyImpl,Literallmpl。开发者一般不要直接使用这里的方法，例如不直接使用Resourcelmpl，而使用createResource方法。这是为了保证在实现发生优化后不需要进行类型转换；com．hp．hpl．jena．rdf为RDF包。(1)Jena的三层架构Jena2的系统架构分为三层：Graph层、EnhGraph层和Model(Ontology)层。各层的详细功能如下：①Graph层：用RDF三元组作为全局数据结构，包括内存和持久性存储方式，同时实现提供多种持久性存储三元组的方式，并且内置了基于RDFS和OWL--Lite的推理。②Model层：为应用开发人员提供视图，提供了大量的方法来操作RDF有向图(通过Model接口)和图中的节点(通过Resource接口)。匿)EnhGraph层：多种视图的同步，Model层和Graph层之间的中间层，使得系统能够同步提供多种图或节点的方式。41\n古农学本体的半自动构建及检索研究厣[]1N3∞ill，．．．．．．．．．．．．．．J图3．5Je∞三层架构图。埘Figure3-5FrameworkofJena(2)Jena的构成组件①ARPARP是Jena的一部分，它的功能是解析RD胍ML数据文件，主要用于Jena中的读取操作，但是也可以脱离Jena而使用在其他的Java程序中。ARP是基于Xerces(一种xml解析器)的，它遵循以下的规范：daml：collection，xml：lang，xml：base，URI，XMLNames，InternationalURIrefs，UnicodeNormalFormC。XMLUteral，RelativeNamespaceURIreferences。通常ARP被用在其他应用程序中，但是可以通过NTriple类的命令行方式来将一个RDF／XML文档转换成N--Triple形式，同时可以测试一个RDF／XML文档的健壮性。②RDFAPIRDFAPI用来创建、解析、处理和查询RDF模型。Jena定义了很多接口来处理和访问RDF数据。一个RDF图有多个三元组组成，而每个三元组又是由三个RDFNode构成，一个三元组可以用{predicate，subject，object}来表示。\n3本体研究进展RDFNode接口为所有的可以作为RDF三元组的元素提供了一个公共的基础，Resource和Literal集成了RDFNode接口．Literal接口表示文字值，例如“红色”、“宋代”等，提供了将文字值转换为String、int和double这样Java类型数据的方法。Resource接口提供了将RDF数据模型当作一个具有属性资源的集合来处理的方法。Property接13对象用来处理三元组中的。Statement接口提供了将RDF数据模型当作一个RDF三元组集合来处理的方法。一个Statement表示一个三元组，或者一个三元组中的

古农学本体的半自动构建及检索研究

文档介绍

相关文章

您可能关注的文档