中文知识图谱体系获取与服务
- 格式:pdf
- 大小:3.82 MB
- 文档页数:37
㊀第52卷第2期郑州大学学报(理学版)Vol.52No.2㊀2020年6月J.Zhengzhou Univ.(Nat.Sci.Ed.)Jun.2020收稿日期:2019-08-22基金项目:国家社科基金重大资助项目(18ZDA315);河南省高等学校重点科研项目(20A520038);河南省科技攻关项目(192102210260);河南省科技攻关计划国际合作项目(172102410065)㊂作者简介:昝红英(1966 ),女,河南焦作人,教授,主要从事自然语言处理研究,E-mail:iehyzan@;通信作者:窦华溢(1994 ),男,河南周口人,硕士研究生,主要从事自然语言处理研究,E-mail:douhuayi@.基于多来源文本的中文医学知识图谱的构建昝红英1,㊀窦华溢1,2,㊀贾玉祥1,㊀关同峰1,2,㊀奥德玛2,3,㊀张坤丽1,㊀穗志方3(1.郑州大学信息工程学院㊀河南郑州450001;2.鹏城实验室㊀广东深圳518055;3.北京大学计算语言学教育部重点实验室㊀北京100871)摘要:中文医学知识图谱(Chinese medical knowledge graph,CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要㊂通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%㊂在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6310种疾病㊁19853种药物(西药㊁中成药㊁中草药)㊁1237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万㊂所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础㊂关键词:医学知识图谱;命名实体;实体关系;标注规范;知识图谱构建中图分类号:TP391.1㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)02-0045-07DOI :10.13705/j.issn.1671-6841.20193830㊀引言随着互联网技术的飞速发展,知识的存储和共享变得越来越便捷,随之而来的是知识总量的指数级增长,各领域的知识已不再是孤岛,而是在互联网的海洋中相互交融㊁交叉发展㊂自Google 公司提出 Knowl-edge Graph [1]后,这种可以绘制知识脉络㊁挖掘数据间的潜在关系㊁分析语义信息以及以图谱方式可视化地为用户提供知识信息的技术迅速引起了各领域的研究兴趣㊂知识图谱的前身是语义网[2],语义网致力于让计算机能够理解和处理文本中所表达的语义信息,从而支持网络环境下广泛有效的自动推理㊂而知识图谱作为知识载体,其最大的优势就是使知识可视化[3],让人们既能快速理清专业知识之间的逻辑脉络,也能把握住最关键的知识点,迅速找到自己需要的信息㊂目前,医疗领域是知识图谱重要的应用领域之一㊂在医学知识图谱研究领域,SNOMED-CT [4-5]㊁IBMWatson Health [6]等,都致力于构建一套全面统一的医学术语系统,来对大部分临床信息进行统一的标准化描述㊂目前的医学知识本体库主要有医学概念知识库LinkBase [7]㊁TAMBIS 本题库[8]等㊂一体化医学语言系统自动构建了医学知识库[9]㊂上海曙光医院构建了中医药知识图谱[10],利用自身优势,对大量的中医药数据和临床诊疗知识库进行了整合和利用㊂贾李蓉等[11]于2002年开始研制中医药学语言系统,目前已发展为包括13万多个概念㊁30余万术语以及100余万语义关系的大型语义网络㊂侯丽等[12]构建了基于本体的临床医学知识库,构建以知识节点为对象的疾病库㊁药物库㊁检查库三大医学知识库,并通过不同知识库中的知识节点建立关联㊂建立一个结构科学㊁层次清晰㊁覆盖全面㊁高度关联的大规模㊁高质量中文医学知识图谱,离不开大规模医疗语料库的支撑[13-14]㊂在构建过程中,本研究首先对语料进行了分析,提出了初步的医学知识图谱描述体系,而后在医学专家的指导下进一步完善标注规范,并对多来源文本进行了多轮人工标注以及自动抽取工作㊂构建了一个覆盖面广㊁知识描述准确㊁结构完备的中文医学知识图谱,为智慧医疗领域的广泛应用奠定郑州大学学报(理学版)第52卷了专业知识基础㊂1㊀知识图谱构建过程中文医学知识图谱的构建过程可分为两个阶段:一是描述体系设计;二是知识图谱构建㊂首先,我们调研了国内外权威的标准医学术语集,初步设计了概念分类体系,通过案例标注与分析,设计了关系分类体系,而后经过医学专家的评估,形成了医学知识图谱的描述体系㊂随后,通过从权威性㊁全面性和实用性等方面的考量,经过对比和整合,形成了多来源医学文本㊂对于这些非结构或半结构化的文本数据,采用了人工标注和自动提取两种方法相结合从中提取关系,其中自动提取使用了规则加tagging 模型的方法㊂对于抽取出的实体及实体关系,进行人工审核评估,构建医学知识图谱知识本体,并完成多来源数据的知识融合,从而构建出专业性强㊁内容丰富的中文医学知识图谱㊂整体构建框架如图1所示㊂图1㊀医学知识图谱构建框架Figure 1㊀Constructing framework of medical knowledge graph实体资源库的构建基于医学主题词表(medical subject headings,MeSH)㊁融合国际疾病分类[15](interna-tional classification of diseases,ICD-10)㊁解剖学治疗学及化学分类系统(anatomical therapeutic chemical,ATC)等医学术语为资源库中的实体㊂MeSH [16]是美国国立医学图书馆编制的医学主题词表,它是一部规范化㊁可扩充的动态性叙词表㊂ICD-10是国际疾病分类的第10个版本,是根据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统㊂ATC 是解剖学治疗学及化学分类系统,是世界卫生组织对药品的官方分类系统㊂实体资源库的构建不仅是本研究标注实体的依据,也是后续利用机器学习进行命名实体识别以及关系抽取的基础㊂为保证标注质量以及标注进度,本研究选取了常见的106种疾病进行人工标注㊂通过分析多来源医疗文本结构信息,按照其不同的类型进行分类,分别从病因㊁并发症㊁诊断步骤㊁鉴别诊断㊁流行病学㊁病史和查体㊁监测㊁预防㊁预后等多个维度对疾病进行了描述㊂在语料中经常会出现一句话里或一整段里没有提及该主题疾病的情况,这时就无法标注此种疾病的实体㊂为此,本研究对语料进行了预处理,以句号为特征,在每一句之前加上主题疾病的名字,并以@和原文做分割㊂如 患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂ 预处理后为 非ST 段抬高型心肌梗死@患者可能有各种不典型症状,这些症状包括乏力㊁恶心㊁呕吐㊁腹痛以及晕厥㊂2㊀知识图谱描述体系及标注规范本研究将实体分为12大类,分别为语义㊁疾病㊁部位㊁症状㊁检查㊁手术治疗㊁药物治疗㊁其他治疗㊁流行病6474㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建学㊁预后㊁社会学和其他,并使用不同的参考标准界定每一类实体涵盖的范围㊂实体之间的关系包括:语义㊁疾病-疾病㊁疾病-部位㊁疾病-症状㊁疾病-检查㊁疾病-手术治疗㊁疾病-药物治疗㊁疾病-其他治疗㊁疾病-流行病学㊁疾病-预后㊁疾病-社会学㊁疾病-其他共12个类型关系㊂具体关系类型如表1所示㊂表1㊀疾病类实体间常见关系类型Table1㊀Common㊀㊀命名实体标注的基本原则有:第一,不重叠标注,即同一段字符串不能标注为两个不同的实体;第二,不嵌套标注,即一个实体不能在另一个实体的内部;第三,实体要尽可能不含有标点符号及连接词(或㊁和㊁以及),主要目的是为了防止实体过长和实体嵌套㊂将疾病类实体作为核心,以疾病为入口,标注疾病与其他类实体和属性值(字符串㊁数字)之间的关系类型㊂对于非结构化的文本,实体关系经常跨句出现甚至跨段出现,所以标注关系时,不仅仅局限于一个句子范围内的实体关系,还包括跨段句子范围内的关系㊂3㊀知识图谱的构建3.1㊀知识图谱构建过程为了提升标注效率,开发了面向医疗文本的实体及关系标注平台㊂对于医疗文本中出现的实体,选择实体标签,选中对应的文字,即可完成实体标注㊂在完成实体标注后,可以选择进行关系标注,再依次选择关系标签所对应的第一个实体和第二个实体,即可完成两个实体间的关系标注㊂标注平台可以实现实体标注和关系标注的切换,同时提供了文件管理功能,方便进行多轮标注工作㊂第一阶段,在详细地分析了多来源医疗文本的特点之后,借鉴中文电子病历标注规范[17]的经验,本研究初步制定出了医学知识图谱描述体系结构,以此为基准,进行了3轮的试标注过程㊂试标注阶段主要目的在于收集标注中所发现的问题,经过和医学专家的讨论,进一步完善规范㊂与此同时,实体资源库的收集工作和标注平台的开发工作也在同步进行中㊂郑州大学学报(理学版)第52卷第二阶段,为了保证标注过程的准确性和一致性,本研究采取了多轮标注的方法㊂一人标注完成后,另一人进行二次标注,两次标注不一致和不确定的地方要记录下来,留待讨论会讨论,经过医学专家和老师的确认后,再由一标人返回语料中进行修改,形成最终的三标版本㊂在此过程中,根据标注人员的反馈,本研究也在不断地优化㊁更新标注规范,使其更加贴合语料自身特点㊂整体构建流程图如图2所示㊂图2㊀语料库构建流程图Figure 2㊀Flow chart of corpus construction3.2㊀知识图谱的节点描述知识图谱的描述形式为六元组,分别为实体1㊁关系㊁实体2,以及对每一元的约束或属性,表示为{entity 1,entity 1_property ,relation ,relation _property ,entity 2,entity 2_property },简记为{e 1,e 1_pro ,rel ,rel _pro ,e 2,e 2_pro }㊂CMeKG 使用百度开源可视化库Echarts 展示知识图谱,对于每一个实体,选择以该实体为主语的六元组进行显示,其中属性描述的三元可以为空,即六元组在实体和关系的属性都为空时会蜕化为三元组㊂如图3所示,连接同一节点的相同颜色节点代表相同的语义关系,整体效果呈现为以查询实体为中心,具有语义关系的相关实体发散至四周的网状结构,每个关系边的权重相等㊂4㊀构建结果及分析标注一致性用Kappa 值[18]和F 值[19]来表示㊂Kappa 值在情感极性分类的语料标注中应用较广,但在实体识别中,若把未标注的文本作为反例的话,则反例数量巨大而难以统计㊂此种情况下F 值接近于Kappa 值,故可使用F 值来对实体识别标注语料进行一致性评价[20]㊂具体做法是将三标者A 1的标注结果作为标准答案,计算一标者A 2的标注结果的精确度P 和召回率R ,进而计算F 值,计算公式为P =A 1和A 2一致的标注结果总数A 2的标注总数,R =A 1和A 2一致的标注结果总数A 1的标注总数,F =2ˑP ˑRP +R㊂㊀㊀确定实体一致性时,只有当实体文本㊁实体类型标签和起止位置均相同时,才认为实体标注是一致的;确定关系一致性时,只有当实体对的两个实体㊁关系名称和起止位置均相同时,才认为关系标注是一致的㊂文献[21]指出,标注一致性达到80%以上时,可以认为语料的一致性是可信赖的㊂最终,本研究标注的命名实体识别一致率达到了87.3%,实体关系一致率达到了82.9%,说明本研究的标注结果是可信赖的㊂共有两名医学专家和近二十名标注人员参与标注工作㊂共计完成标注3029448字㊁23475种实体概84㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建念㊁32530个实体关系三元组㊂去重后的实体数量如表2所示,关系数量如表3所示㊂表2㊀实体数量Table 2㊀Number of entities实体类型实体数量/个疾病5643部位670症状4590检查2808手术治疗683药物治疗2454其他治疗1283社会学3580流行病学854预后165其他745表3㊀关系数量Table 3㊀Number of relationships关系类型关系数量/条疾病-疾病5334疾病-部位966疾病-症状7729疾病-检查4401疾病-手术治疗858疾病-药物治疗4194疾病-其他治疗1645疾病-流行病学1042疾病-预后183疾病-社会学4567疾病-同义词753疾病-其他858㊀㊀以人工标注的106种疾病标注结果为基础,本研究还使用了规则加tagging 模型对745种其他疾病进行了自动抽取工作,共抽取出140224条实体关系,经过人工校对后,剔除57676条错误信息,剩余82548条关系,准确率为58.8%㊂因为医疗文本的非结构化信息比较复杂,所以自动抽取的准确率还有待进一步的提高㊂中文医学知识图谱(http:ʊ)展示界面如图3所示㊂图形化展示是中文医学知识图谱的重要部分,通过系统页面的首字母索引或者搜索框可以查询到各类疾病实体,并以疾病为中心放射性链接与之相关的各类实体及关系㊂图3㊀中文医学知识图谱展示界面Figure 3㊀Chinese medical knowledge graph display interface9405郑州大学学报(理学版)第52卷5 小结本文主要对中文医学知识图谱的标注进行了研究,具体从3个方面来进行展开:首先调研了国内外各类医学资源的整体情况,将其整合成多来源医疗文本作为标注文本;然后在分析语料库的结构基础上,和医学专家讨论制定出医学知识图谱描述体系,通过试标注给出初版标注规范;最后通过多轮迭代的方式标注医疗文本,并请医疗专家全程把控标注质量,以确保准确性,同时使用规则加机器学习的方法进行自动抽取,至2019年3月,构建了中文医学知识图谱CMeKG1.0版,包括6310种疾病,20余万种实体概念,100余万个实体关系三元组㊂目前来看,机器标注的准确率还有待进一步提升,同时人工标注集和海量的医学文本相比规模还是比较小,未来将继续研究如何进一步提高自动标注的准确率,并且根据妇产科学㊁儿科学等临床医学主要学科进一步扩充标注疾病㊂参考文献:[1]㊀WANG C Y,GAO M,HE X F,et al.Challenges in Chinese knowledge graph construction[C]ʊ31st IEEE International Con-ference on Data Engineering Workshops.Seoul,2015.[2]㊀ZHANG X L,DU C L,LI P S,et al.Knowledge graph completion via local semantic contexts[M].Database systems for ad-vanced applications.Cham:Springer International Publishing,2016.[3]㊀刘则渊,陈悦,候海燕.科学知识图谱方法与应用[M].北京:人民出版社,2007.LIU Z Y,CHEN Y,HOU H Y.Mapping of scientific knowledge:methods and applications[M].Beijing:Peopleᶄs Publishing House,2007.[4]㊀牟冬梅,张艳侠,黄丽丽,等.基于SNOMED CT和FCA的医学领域本体构建研究[J].情报学报,2013(6):653-662.MU D M,ZHANG Y X,HUANG L L,et al.Constructing medical ontology based on SNOMED CT and FCA[J].Journal of the China society for scientific and technical information,2013(6):653-662.[5]㊀AMARILLI A,GALÁRRAGA L,PREDA N,et al.Recent topics of research around the YAGO knowledge base[M].Cham:Springer International Publishing,2014.[6]㊀AUER S,BIZER C,KOBILAROV G,et al.DBpedia:a nucleus for a web of open data[M].Berlin:Springer Berlin Heidel-berg,2007:722-735.[7]㊀CEUSTERS W,MARTENS P,DHAEN C,et al.LinkFactory:an advanced formal ontology management system[J].Proceed-ings of interactive tools for knowledge capture(KCAP2001).Victoria B C,2001:75-204.[8]㊀STEVENS R,BAKER P,BECHHOFER S,et al.TAMBIS:transparent access to multiple bioinformatics information sources[J].Bioinformatics,2000,16(2):184-186.[9]㊀NADKARNI P,CHEN R,BRANDT C.UMLS concept indexing for production databases:a feasibility study[J].Journal of theAmerican medical informatics association,2001,8(1):80-91.[10]阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13.RUAN T,SUN C L,WANG H F,et al.Construction of traditional Chinese medicine knowledge graph and its application[J].Journal of medical informatics,2016,37(4):8-13.[11]贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志,2015,36(8):51-53,59.JIA L R,LIU J,YU T,et al.Construction of traditional Chinese medicine knowledge graph[J].Journal of medical informat-ics,2015,36(8):51-53,59.[12]侯丽,钱庆,黄利辉,等.基于本体的临床医学知识库系统构建探讨[J].医学信息学杂志,2011,32(4):42-47.HOU L,QIAN Q,HUANG L H,et al.Discussion on clinical medicine knowledge base system construction based on ontology [J].Journal of medical informatics,2011,32(4):42-47.[13]徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122.XU L H,LIN H F,ZHAO J.Construction and analysis of emotional corpus[J].Journal of Chinese information processing, 2008,22(1):116-122.15㊀第2期昝红英,等:基于多来源文本的中文医学知识图谱的构建[14]张德政,谢永红,李曼,等.基于本体的中医知识图谱构建[J].情报工程,2017,3(1):35-42.ZHANG D Z,XIE Y H,LI M,et al.Construction of knowledge graph of traditional Chinese medicine based on the ontology [J].Technology intelligence engineering,2017,3(1):35-42.[15]SUNDARARAJAN V,HENDERSON T,PERRY C,et al.New ICD-10version of the Charlson comorbidity index predicted in-hospital mortality[J].Journal of clinical epidemiology,2004,57(12):1288-1294.[16]LIPSCOMB C E.Medical subject headings(MeSH)[J].Bulletin of the medical library association,2000,88(3):265-270.[17]杨锦锋,于秋滨,关毅,等.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562.YANG J F,YU Q B,GUAN Y,et al.An overview of research on electronic medical record oriented named entity recognition and entity relation extraction[J].Acta automatica sinica,2014,40(8):1537-1562.[18]JEAN C.Assessing agreement on classification tasks:the kappa statistic[J].Computational linguistics,1996,22(2):249-254.[19]HRIPCSAK G.Agreement,the F-measure,and reliability in information retrieval[J].Journal of the American medical infor-matics association,2005,12(3):296-298.[20]OGREN P,SAVOVA G,CHUTE C.Constructing evaluation corpora for automated clinical named entity recognition[C]ʊPro-ceedings of the12th World Congress on Health(Medical)Informatics.Marrakech,2008:28-30.[21]ARTSTEIN R,POESIO M.Inter-coder agreement for computational linguistics[J].Computational linguistics,2008,34(4):555-596.Construction of Chinese Medical Knowledge Graph Based onMulti-source CorpusZAN Hongying1,DOU Huayi1,2,JIA Yuxiang1,GUAN Tongfeng1,2,ODMAA Byambasuren2,3,ZHANG Kunli1,SUI Zhifang3(1.School of Information Engineering,Zhengzhou University,Zhengzhou450001,China;2.Peng Cheng Laboratory, Shenzhen518055,China;3.Institute of Computational Linguistics,Peking University,Beijing100871,China) Abstract:The Chinese medical knowledge graph(CMeKG)was a structured description of professional medical knowledge,which was also an actual need for various types of intelligent medical applications. With medical texts from multiple sources collected by this study,structural features of corpus were ana-lyzed;semantic features of medical knowledge were combined;the annotation system of medicine named entities and entity relations was formulated and the platform was developed accordingly.Under the guidance of medical experts,106high-incidence diseases were selected and labeled.The consistency rate of named entity and entity relationship were achieved87.3%and82.9%respectively.On the basis of manual anno-tation,the entity and relation were extracted automatically.Along with more than200000medical entities and over one million conceptual relationship examples and attribute triples,6310diseases,19853drugs (western medicine,Chinese patent medicine and Chinese herbal medicine),and1237diagnosis and treat-ment technologies were included in the CMeKG version1.0.Thus,A solid foundation could be laid by CMeKG in certain fields,such as medical question answering system and intelligent assisted diagnosis. Key words:medical knowledge graph;named entity;entity relationship;labeling specification;knowl-edge graph construction(责任编辑:方惠敏)。
中医药知识图谱构建贾李蓉;刘静;于彤;董燕;朱玲;高博;刘丽红【摘要】在对知识图谱进行简要介绍的基础上,从数据来源、研究内容、图形化展示几方面探讨如何构建中医药知识图谱,实现中医药知识资源的有效整合,最后提出中医药知识图谱的应用前景。
%Based on introducing knowledge graph, the paper discusses how to construct Traditional Chinese Medicine ( TCM ) knowledge graph from the aspects of data sources, research contents and visualized display, so as to integrate TCM knowledge resources. It also puts forward the application prospect.【期刊名称】《医学信息学杂志》【年(卷),期】2015(000)008【总页数】4页(P51-53,59)【关键词】知识图谱;中医药;知识服务【作者】贾李蓉;刘静;于彤;董燕;朱玲;高博;刘丽红【作者单位】中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700;中国中医科学院中医药信息研究所北京100700【正文语种】中文【中图分类】R-058随着知识的爆炸式增长,计算机存储和处理能力的不断提升,信息的存储、分析、检索、可视化等技术的发展,一种以知识单元为基础,能有效获取知识、快速把握学科前沿领域的方法——知识图谱(Knowleglge Graph)悄然兴起。
2021知识图谱的数据来源、挖掘及更新维护范文 2001年维基媒体基金创建了维基百科,访问量排名世界第六,2012 年 12 月到2013 年 12 月期间,它损伤了近 10%即20 亿的页面访问量,其中英文版、德语版和日语版的浏览量分别下降了 12%、17%和 9%.虽然维基百科的管理员认为这其中可能存在统计错误,但是其他专家认为是去年 Google推出的知识图谱功能导致了维基百科访问量下降。
如果问题能在搜索页解决,那么就没必要去维基百科查找了。
随着近两年,LinkingOpen Data 等项目的全面展开,数量激增的语义 Web 数据源,大量 RDF 数据发布,互联网从仅包含网页和网页之间超链接的文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。
谷歌、百度、搜狗搜索引擎公司以此为基础构建知识图谱,改进搜索质量,语义搜索的序幕就此拉开。
什么是知识图谱?知识图谱的表示在搜索中的展现形式,知识图谱如何构建,如何在搜索中应用?知识图谱是谷歌在 2010 年收购的开放式数据库公司Metaweb 率先提出来的。
知识图谱也被称为科学知识图谱,它是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制展示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
搜索引擎中的知识图谱技术是以知识卡片(KnowledgeCard)的形式展现出来的。
在搜索关键词时,知识卡片会为用户提供更多与关键词相关的结构化内容信息,也就是说可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。
比如搜索“帕金森综合症”是一种什么病,传统的搜索结果里面会有一些诸如“XX 最近得了帕金森综合症”的新闻,或者是网友发帖提问“帕金森综合症到底是什么”帖子,又或者是一些治疗帕金森医院的信息或广告,其实你一一浏览这些网站对了解这个疾病帮助不大,这就大大降低了你获得知识的效率。
知识图谱构建与应用方法介绍与示例知识图谱是一种用于描述和组织知识的技术,它可以将各种不同领域的知识整合在一起,形成一个结构化的知识网络。
知识图谱可以帮助人们更好地理解和利用知识,在许多领域具有广泛的应用前景。
本文将介绍知识图谱的构建方法和应用示例,帮助读者了解并应用这一强大的技术。
一、知识图谱构建方法1. 知识抽取:知识抽取是构建知识图谱的第一步,它包括从文本、数据库或其他数据源中提取结构化的知识。
常用的技术包括自然语言处理、信息抽取和实体识别等。
通过这些技术,我们可以从大量数据中提取出实体、关系和属性等信息,用于构建知识图谱的节点和边。
2. 知识表示:知识表示是将抽取得到的知识转化为计算机可以理解和处理的形式。
常用的表示方法有本体表示、三元组表示和图表示等。
本体表示使用本体语言(如OWL)定义概念和属性之间的关系,三元组表示使用主语-谓语-宾语的形式表示实体之间的关系,图表示使用节点和边的形式表示知识的结构。
3. 知识融合:知识融合是将从不同数据源中抽取得到的知识整合在一起,形成一个统一的知识图谱。
融合知识需要解决实体对齐、关系对齐和属性对齐等问题,常用的方法包括基于规则的匹配、基于语义的匹配和基于机器学习的匹配等。
4. 知识推理:知识推理是对知识图谱进行推理和推断,发现其中的隐藏知识和规律。
常用的推理方法包括规则推理、语义推理和统计推理等。
通过知识推理,我们可以发现新的关系、属性和实体,提高知识图谱的质量和可用性。
二、知识图谱应用示例1. 智能问答系统:知识图谱可以用于构建智能问答系统,帮助用户快速获取有关问题的答案。
通过将问题转化为图谱查询,系统可以在知识图谱中找到相关的实体和关系,并生成相应的回答。
例如,用户可以询问“谁是美国第一位女性总统?”,系统可以通过知识图谱回答“希拉里·克林顿是美国第一位女性总统”。
2. 智能推荐系统:知识图谱可以用于构建智能推荐系统,帮助用户发现符合其需求和兴趣的内容。
基于知识图谱的高校服务能力提升探索和研究文/孙兆群1,陆成松2(1.上海仪电人工智能创新院有限公司;2.上海海洋大学)摘要:本文在高校数据中台的基础上,构建基于知识图谱的高校服务能力服务平台,为数据中台提供更加完善的智能化处理单元,实现对高校数据中台的语义搜索与智能推荐,进而实现数据价值的有效挖掘与提取,改善用户搜索交互、提供搜索增项数据、筛选条件排序优化,将数据资产有效地转化为知识和数据价值,促进学校内部数据资产的价值挖掘,推动学校的数据资产应用和智能决策,为教学和学生管理工作提供更加智能、高效的服务。
本文的研究成果,具有很强的基础性和通用性,可应用在高校多种数据驱动的应用业务场景,如学涯规划、岗位匹配、招生咨询等,亦可在学生综合能力评价、学科发展潜力评估、教师教学质量评价等领域展开拓展。
关键词:资源调度;知识图谱;学涯规划;岗位匹配;招生咨询1.引言高校处于高端人才孵化、前沿科技策源、创新思维迸发的重要交汇点,肩负着人才培养、科学研究、社会服务、文化传承创新、国际交流合作等重要责任和使命,是国家科技创新体系的重要组成部分[1]。
学生作为高校教育活动的主要参与者,其学习和成长的过程情况与反馈,是判断高校服务水平优劣和促进高校服务能力提升的重要参考指标和依据。
坚持教育以学生为中心,以“发掘学生潜质、激发学生兴趣、指导学生学习、成就学生价值”为基本目标,探索基于数据驱动的新型人才培养和教育治理模式,对促进学生全面高素质发展和提升高校服务能级具有重要意义[2]。
互联网技术的迅猛发展,使人类依次经历了以文档互联为主要特征的“Web1.0”时代和以数据互联为特征的“Web2.0”时代,并正处于以知识互联为基础的“Web3.0”时代[3]。
近年来,在《国家中长期教育改革和发展规划纲要(2010—2020年)》[4]和《教育管理信息化建设与应用指南》等政策文件的指导下,高校在教学信息化、科研信息化、管理信息化等方面取得了显著的成果,学校基础数据、学生数据、教学数据、教职工数据、研究生数据、科研数据、财务数据、资产与设备数据等逐步汇聚。
第43卷第2期㊀2021年3月㊀湖北大学学报(自然科学版)Journal of Hubei University(Natural Science)㊀Vol.43㊀No.2㊀㊀Mar.2021收稿日期:20200928基金项目:国家自然基金项目(61977021)㊁国家重点研发计划(2017YFB1400602)㊁湖北省技术创新重大专项(2018ACA13)和湖北省教育厅青年人才项目(Q20171008)资助作者简介:单娅辉(1995),女,硕士生;张龑,通信作者,教授,主要研究方向为信息安全㊁数据库,E -mail:zhangyan@文章编号:10002375(2021)02021406面向中文基础教育知识图谱的关系抽取模型单娅辉,田迎,张龑(1.湖北大学计算机与信息工程学院,湖北武汉430062;2.湖北省教育信息化工程技术研究中心,湖北武汉430062;3.绩效评价信息管理研究中心(湖北大学),湖北武汉430062)摘要:在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子层注意力机制,动态降低噪声数据的权重.在基于中文信息技术教材教辅和百度百科的基础上构建的知识库上的关系抽取实验表明,引入句子层注意力机制能够促进模型的关系抽取效果,模型的准确率相比于中文主流关系抽取方法提高了4%~5%,能更好地应用于知识图谱的构建.关键词:中文关系抽取;注意力机制;远程监督;基础教育;知识图谱中图分类号:TB324.1㊀㊀文献标志码:A㊀㊀DOI :10.3969/j.issn.1000-2375.2020.00.007著录信息:单娅辉,田迎,张龑.面向中文基础教育知识图谱的关系抽取模型[J].湖北大学学报(自然科学版),2021,43(2):214-219.Shan Y H,Tian Y,Zhang Y.A relation extraction model oriented to the knowledge graph of Chinese basic education [J].Journal ofHubei University(Natural Science),2021,43(2):214-219.A relation extraction model oriented to the knowledgegraph of Chinese basic educationSHAN Yahui,TIAN Ying,ZHANG Yan(1.School of Computer Science and Information Engineering,Hubei University,Wuhan 430062,China;2.Research Center of Educational Informatization Engineering and Technology,Hubei University,Wuhan 430062,China;3.Research Center of Information Management for Performance Evaluation,Hubei University,Wuhan 430062,China)Abstract :In the process of constructing a knowledge graph of Chinese basic education,the use of remotesupervision can effectively solve the problem of lack of training corpora,and the use of neural network modelscan improve the efficiency of relation extraction during the construction process.In order to mitigate the impactof incorrect labels introduced in remote supervision,the model obtains semantic information in a bidirectionalcontext through a bidirectional gated recurrent unit,while introducing a sentence-level attention mechanism todynamically reduce the weight of noisy data.The relationship extraction experiments on the knowledge basebuilt on the basis of Chinese information technology teaching materials and baidu encyclopedia show that theintroduction of sentence-level attention mechanism can promote the relationship extraction effect of the model.The mainstream relation extraction method is improved by 4%-5%,which can be better applied to the construction of knowledge graph.Key words :Chinese relation extraction;attention mechanism;remote supervision;basic education;knowledge graph第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型215㊀0㊀引言随着我国信息技术的发展,通过新兴技术来直接或间接影响传统教育教学方式,已成为教育信息化的新热点.2012年,Google提出 Google Knowledge Graph 后,知识图谱在各个领域受到了广泛的关注,其中教育领域知识图谱更是在近年来成为研究热点.在构建中文教育领域知识图谱的过程中,面对急剧增长的数据,中文实体关系抽取成为其中的难点之一.传统的关系抽取方法主要包括两类,一类是基于规则匹配的方法,另一类是基于深度学习的方法.其中基于规则匹配的方法是定义了一种表达实体关系的规则模版,然后在数据中找到与该模版相匹配的实体及关系.该方式对数据要求较高且灵活性很差[1],已逐渐被深度学习的方法所取代.基于深度学习的方法目前流行的包括有监督的方法和远程监督的方法[2].其中,有监督的关系抽取方法主要是利用深度学习中的神经网络模型能够自动学习文本的特征,改善了经典方法中需要人工特征选择的缺点[3].远程监督的关系抽取方法是将大量无标注的数据自动对准已标注的知识库来自动标注数据来提高关系抽取的效率.该方法的前提是,如果两个实体间存在已定义的某种关系,那么所有包含这两个实体的文本都存在该关系[4].Mintz等[5]提出使用Freebase知识库与维基百科中的文本来对齐,获取实体及其关系的三元组.在该前提下,基于远程监督的关系抽取能够自动获取大量的训练实例,但是同时也不可避免地存在许多噪声数据.王斌等[6]用远程监督的方法进行关系抽取时,通过采用LDA(latent dirichlet allocation)模型㊁对比类型相似度和对关键词进行模式匹配去噪.Surdeanu等[7]提出加入多标签来减少噪声数据对关系抽取性能的影响.Lin等[8]提出在加入注意力机制在训练过程中通过动态调整各实例的权重来降低噪声数据的权重,从而减少错误实例对关系抽取模型性能的影响.以上方式大多是基于英文语料或者中文通用语料上[9]提出的模型,而在中文教育领域,杨玉基等[10]提出在构建领域知识图谱过程中使用有监督㊁无监督㊁远程监督多种方法来进行关系抽取,最后使用大量人工标注来获取高质量数据,耗费时间精力.黄焕等[11]在构建java知识图谱的过程中采用人工定义关系类型,且在识别实体关系的过程中采用手工标注关系的方式,虽然保证了数据的准确性,但适用性不强.本研究提出的实体关系抽取模型适用于中文基础教育中的科目,将高质量的教材教辅通过文本处理成已标注的知识库,通过远程监督能够获取大量数据并自动标注,加入的句子层注意力更能有效减少噪声数据对于关系抽取性能的影响.1㊀远程监督构建关系语料库由于中文领域公开的可供使用的数据很少,而基础教育领域的就更少见,所以首先利用教育部发布的基础教育的教材教辅,将其转换成可供使用的电子文本;然后结合网络爬虫从百度百科上获取的网页数据,通过预处理得到关系实体对以及包含实体对的文本集;最后选取其中一部分数据作为训练数据对关系抽取模型进行训练,另一部分作为测试数据来检测模型关系抽取的效果.构建流程如图1所示.图1㊀构建流程1.1㊀构建信息技术知识库㊀基于教育部发布的基础教育中信息技术学科的教材教辅,利用OCR技术216㊀湖北大学学报(自然科学版)第43卷将图像中的文字转换成文本格式存储,使用词频-逆向文件频率[12](term frequency-inverse document frequency,TF-IDF)算法和TextRank [13]算法对文本集进行关键词抽取,TF-IDF 算法是一个统计词语在该文件中的重要程度的方法,其核心思想是词语的重要性与它在该文件中出现的次数成正比,同时与它在语料库中出现的次数成反比.TF-IDF 算法考虑了词语出现的频率等因素,但是没有考虑与其他词语的关联性,而TextRank 算法就考虑到了词语之间的关联程度.TextRank 算法起源于Google 团队的PageRank 算法,其核心思想是,如果网页节点代表一个字词,那么这个词语的重要性与连接其他词语的多少和与它连接的词语权值的高低成正比.分别使用以上两种算法对文本进行关键词提取,得到了 数据库 信息安全 信息资源管理 计算机病毒 等核心概念,但同时也得到了一些出现频率高,却不是核心概念的词,如 学生 方法 过㊀㊀㊀㊀程 等.结合信息技术领域专家的指导,得到最终的学科实体并且定义了基础教育领域信息技术中实体的2种属性关系: 同级 父级 .如表1所示,构建了包括2种属性关系及其对应的3563个实例的知识库.表1㊀关系及其对应实例关系名称实例父级<数据库,数据库管理>同级<音频,视频>1.2㊀构建关系实例集㊀在远程监督构建关系实例集中,如果我们文本集中的句子包含的实体对在知识库中有对应的关系,那么我们认为该句子可以描述此关系.以关系实体对<信息技术,传感技术,父级>为例,可以在文本集中找到包含 信息技术 和 传感技术 的句子:1)[传感技术]同计算机技术与通信一起被称为[信息技术]的三大支柱;2)[信息技术]包括[传感技术],通信技术和电子计算机技术等,将这两个句子分别提取出来,作为 父级 关系的两个实例, 信息技术传感技术父级传感技术同计算机技术与通信一起被称为信息技术的三大支柱 , 信息技术传感技术父级信息技术包括传感技术,通信技术和电子计算机技术等 ,为了方便模型训练,我们将关系实例的各个部分用空格符分割,这些关系实例构成我们使用的关系实例数据集.图2㊀模型训练流程2㊀关系抽取模型设计本研究提出一种面向中文基础教育知识图谱的关系抽取模型,基于权威教材教辅和远程监督构建的关系数据集,转化成词向量模型供模型训练,通过双向门限循环单元获得句子上下文语义,引入句子层注意力机制来动态降低句子噪声权重,提升了关系抽取模型的准确率.模型训练算法如图2所示.2.1㊀词向量映射训练㊀为了将数据转换成模型可识别的形式,我们需要将文本数据向量化.Mikolov 等[14]提出了分布式的词向量表征word2vec,即一个词用一个低维向量来表示,词与词之间的相似性可以通过向量之间的相关性表示,其中包括2个模型,连续词袋(Continuous Bag-of-Words,CBOW )模型和Skip-Gram 模型,由于Skip-Gram 模型在语义关系识别方面效果较好,所以本研究采用word2vec 中的Skip-Gram 模型来对词向量模型进行训练,使用知识库中所有的三元组来进行训练,其中模型参数设置的窗口数为5,向量维度为200.2.2㊀BI-GRU ㊀传统的循环神经网络通过权重矩阵使神经网络具备了记忆功能,但是由于梯度爆炸和梯度消失的存在,它不能记忆太前和太后的内容.GRU 网络是由Chung 等[15]对LSTM 网络(一种循环神经网络)进行改进得到的一种结构,由于门控机制,很大程度上弥补了梯度爆炸或梯度消失所带来的第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型217㊀图3㊀GRU 内部结构损失,同时它简化了LSTM 网络,只有更新门(update gates)和重置门(reset gates)两种门结构,因此参数更少,也更容易收敛㊂其内部结构如图3所示.其更新表达式为:h t =z t h t -1+(1-z t ) hᶄ(1)h t-1包含了前一时刻节点的相关信息,z t 表示更新门,hᶄ表示当前时刻节点的相关信息,主要是包含了当前的输入x t .从公式中可以得到,z t 能控制遗忘和记忆的信息量,它的取值范围为0~1,越接近1,代表 记忆 下来的前一时刻节点信息越多;越接近0则代表 遗忘 的越多.z t 计算表达式为:z t =σ(W z ㊃[h t -1,x t ])(2)σ为sigmoid 函数,这个函数使数据的取值范围为0~1来表示成门控信号,重置门r t 计算表达式为:r t =σ(W r ㊃[h t -1,x t ])(3)㊀㊀hᶄ计算表达式为:hᶄ=tanh(W ㊃[r t ∗h t -1,x t ])(4)上述公式中W z ,W r ,W 为权值矩阵,用于模型训练,x t 表示当前的输入信息.我们通过上一个节点传输下来隐状态的h t-1和当前输入的信息x t 来得到更新门z t 和重置门r t ,然后使用重置门r t 将重置之后的数据通过σ激活函数缩放到-1~1的范围,最后由更新门z t 对原本隐藏状态的选择性 遗忘 和对当前信息选择性 记忆.图4㊀Bi-GRU 内部结构为了能够捕获词语的前后特征,本研究采用双向GRU (Bi-GRU )网络作为模型的一部分来提高模型的性能,从而更好地进行关系抽取.Bi-GRU 的结构如图4所示.在每一时刻,模型的输入数据会同时经过两个方向相反的单向GRU,而后通过它们进行输出.2.3㊀句子层注意力㊀使用远程监督的方法构建实例数据集中,自动获取的实例有时候并不包含该关系,为了减少噪声数据的影响,本文引入了句子层注意力机制.对于含有相同实体对的m 个句子向量集合s ={s 1,s 2,s 3, ,s m },s i 为句子向量,句子向量为s 中所有句子的加权,其表达式T 为:T =ðmi =1k i si(5)其中,权重K i 表示句子S i 与对应关系R 的相关程度,其表达式为:k i =softmax (s i Ar )(6)其中,A 为初始化的加权对角矩阵,r 为对应关系R 的向量表示.3㊀实验与分析3.1㊀实验数据㊀由于目前还没有通用和权威的针对基础教育信息技术这一领域的公开数据集,因此本研究基于教育部发布的教材教辅采用远程监督的方法构建了关系实例数据集.针对基础教育知识图谱的特性,本文中所构建的语料包含2类属性关系: 同级 父级 ,包含了106332个关系实例.本研究实验随机选取数据集80%的关系实例数据作为训练数据,其余的20%的关系实例作为测试数据,图5为关系实例数据集片段.3.2㊀评估标准㊀本研究使用准确率(P Precision )㊁召回率(R Recall )㊁F 值(F1-score)作为模型的评估标准,来218㊀湖北大学学报(自然科学版)第43卷图5㊀关系实例片段评估关系抽取模型的效果.其计算公式如式(7)~(9)所示:P Precision =TP TP +FP(7)R Recall =TP TP +FN(8)F =2∗P Precision ∗R Recall P Precision +R Recall(9)其中,TP (true positive)表示测试集中该关系的正例被匹配到的数值,FP (false positive)表示测试集中该关系的正例未被匹配到的数值,FN (false negatives)表示测试集中该关系的负例被错误匹配的数值.3.3㊀实验结果及分析㊀为了验证本文中方法的有效性和适用性,设置3组实验进行对比.㊀㊀实验一:在远程监督构建数据的实验上,加入的句子层注意力机制能够减少噪声数据,为了验证去噪数据和未去噪数据关系抽取效果,对于两种关系类型,采用BIGRU 与BIGRU +Attention 模型进行对比实验.实验结果如表2所示.表2㊀BIGRU 与BIGRU +Attention 模型实验结果关系类型BIGRU BIGRU +AttentionPRF P RF同级74.21%73.55%73.88%83.18%82.41%82.79%父级74.33%73.62%73.97%83.11%82.45%82.78%㊀㊀从表2可以看出,加入了句子层注意力机制后,模型的实验结果指标均有提高.主要原因是句子层注意力机制能够减少训练语料的噪声数据,更有效地捕捉句子的特征,使得模型训练得更好,故关系抽取效果更好.㊀㊀实验二:通过神经网络进行远程监督的关系抽取模型中,PCNN +Attention 模型通过加入句子层注意力来减少噪声标注,对于两种关系类型,采用BIGRU +Attention 与PCNN +Attention 模型进行对比实验.实验结果如表3所示.表3㊀PCNN +Attention 与BIGRU +Attention 模型实验结果关系类型PCNN +AttentionBIGRU +AttentionP RF P RF同级78.41%77.52%77.96%83.18%82.41%82.79%父级78.62%77.75%78.18%83.11%82.45%82.78%㊀㊀从表3可以看出,在同样加入句子层注意力机制的远程监督方法中,相比于PCNN 神经网络,BIGRU 神经网络模型有着更高的准确率和召回率,模型提高了5%左右,这表明BIGRU 模型能够提升关系抽取的效果.实验三:由于中文教育知识图谱的实体关系不同于通用领域的实体关系,目前已知的一些中文教育领域知识图谱实体关系使用支持向量机(SVM),条件随机场(CRF)进行关系抽取,为了验证本文中关系抽取模型对于构建中文教育知识图谱的适用性,在相同条件下,采用SVM 和CRF 模型进行对比实验.实验结果如表4所示.表4㊀SVM 、CRF 与本文中模型实验结果关系类型SVM CRF 本研究模型P R F P R F P R F 同级79.31%79.66%79.48%80.12%80.32%80.22%83.51%82.76%83.13%父级80.02%79.33%79.67%80.38%80.45%80.41%84.44%83.57%84.00%㊀㊀从表4可以看出,本研究所提出的关系抽取模型在中文基础教育数据中的关系抽取的F 值更高,模型性能更好,适用性更强.主要原因是本研究加入的句子层Attention 机制能够减少数据中的噪声问题,同时双向GRU 能够解决SVM 模型在关系抽取的过程中丢失了词语位置信息的缺点.第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型219㊀4㊀结束语本研究针对中文基础教育知识图谱中的实体关系,提出一种基于注意力机制的远程监督关系抽取模型,为验证模型的性能,本研究以信息技术知识图谱为例,构建基于中文信息技术教材教辅的知识库并进行了对照试验,实验结果表明,相比于已知的知识图谱中实体关系抽取方法,基于注意力机制的关系抽取模型能有效提高关系抽取的准确率.后续工作将尝试使用该模型参与中文基础教育知识图谱的构建,提高知识图谱构建效率及准确率,由于中文基础教育领域的公开数据较少,数据前期处理工作量较大,本研究使用的数据不够全面,模型还未达到理想的抽取效果,后期将考虑采用更多更全面的数据,结合更丰富的人工特征,如词性等来改进模型.5㊀参考文献[1]陈金栋,肖仰华.一种基于语义的上下位关系抽取方法[J].计算机应用与软件,2019,36(2):216-221.[2]吴佳昌,吴观茂.基于依存关系和双通道卷积神经网络关系抽取方法[J].计算机应用与软件,2019,36(4):241-246.[3]鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818.[4]Riedel S,Yao L,Mccallum A.Modeling relations and their mentions without labeled text[C]//Proceedings of European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer-Verlag,2010:148-163. [5]Mintz M,Steven B,Rion S,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of Joint Conference of the Meeting of the ACL.Stroudsburg:Association for Computational Linguistics,2009:1003-1011. [6]王斌,郭剑毅,线岩团,等.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能,2019,32 (2):133-143.[7]Surdeanu M,Tibshirani J,Nallapati R,et al.Multi-instance multi-label learning for relation extraction[C]//Proc of the Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:455-465.[8]Lin Y,Shen S,Liu Z,et al.Neural relation extraction with selective attention over instances[C]//Proceedings of the54th Annual Meeting of the Association for Computational Linguistics,Berlin,Germany,2016:2124-2133.[9]张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135.[10]杨玉基,许斌,胡家威,等.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.[11]黄焕,元帅,何婷婷,等.面向适应性学习系统的课程知识图谱构建研究:以 Java程序设计基础 课程为例[J].现代教育技术,2019,29(12):89-95.[12]田迎,单娅辉,王时绘.基于知识图谱的抑郁症自动问答系统研究[J].湖北大学学报(自然科学版),2020,42(5):587-591.[13]Mihalcea R,Tarau P.TextRank:bringing order into texts[C]//Proc of the Association for Computational Linguistics,2004.[14]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J/OL].arXiv PreprintarXiv:1301.3781,2013.[15]Chung J,Gulcehre C,Cho K,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J/OL].arXiv:1412.3555,2014.(责任编辑㊀江津)。
课程代码: 081513学时/学分:32/2 成绩:经济管理学院研究生课程论文(情报分析与研究)论文题目:web级的知识图谱构建课程教师:陈淑云学院/专业:经济管理/情报学学生姓名:吴俊爽学号: SY14063072014年 1 月15 日摘要摘要:随着技术的发展,各个垂直领域对数据的处理、整理使其结果化、关联化的方式呈现在用户面前。
用户的使用体验得到了极大的提升,同时用户的预期也被抬高。
结构化、智能化成为趋势,传统的搜索结果面临很大的挑战。
自动化或半自动化的产生领域的知识图谱,以这个数据为基础可以优化该领域的搜索体验,结构化的展示查询结果,支持智能的查询。
本文主要从四个方面知识表达、知识提取、知识融合和知识存储技术介绍学术界和工业界的现有的研究方法和成果,最后提出自己的研究内容和相关基础工作。
关键词:知识图谱,本体,知识提取,知识融合,图数据库Abstract:With the development of technology, the vertical filed begin to process data, so that the user can get the structured and associated results. The user experience has been greatly improved, while the expectation of users is also raised. Structure and Intelligence become the trend so that traditional search results are facing great challenges. Automated or semi-automated way that generates knowledge graph in vertical filed is a powerful tool to solve this problem. Based on the knowledge graph, Experience of vertical filed search will be optimized, because it is possible for the search engine to display the structured query results and support more complicated and intelligent query goal. In this paper, we focus on introducing knowledge expression, knowledge extraction and knowledge integration and knowledge storage research trend in the industry and the scholar and our some research work are also mentioned.Keywords: Knowledge graph, Ontology, Information Extraction, Knowledge Fusion, Graph Database1.引言语义万维网是万维网的发明人Tim-Burners Lee倡导的下一代万维网,旨在为万维网上信息资源之间赋予语义联系,使得计算机能够借助万维网上的语义信息更加智能的替人类完成更多复杂的任务。
⾏业知识图谱的构建及应⽤【说在前⾯】本⼈博客新⼿⼀枚,象⽛塔的⽼⽩,职业场的⼩⽩。
以下内容仅为个⼈见解,欢迎批评指正,不喜勿喷![认真看图][认真看图]【补充说明】如果你对知识图谱感兴趣,欢迎先浏览我的另⼀篇随笔:⼀、知识图谱的机遇与挑战分享⼀下肖仰华教授的报告。
报告深度剖析知识图谱的发展进程,系统整理知识图谱上半场的主要成果,分析知识图谱下半场的挑战与机遇,以期为各⾏业的认知智能实践带来有益的参考。
▌知识图谱上半场1. 传统知识⼯程2. ⼤数据知识⼯程①⼤规模简单知识表⽰②知识获取③基于知识图谱的简单推理3. ⼤数据知识⼯程到底解决了哪些问题?①语⾔表达鸿沟②缺失的因果链条③碎⽚化数据的关联与融合④深化⾏业数据的理解与洞察⑤显著提升了机器的⾃然语⾔理解⽔平⑥基于知识图谱的⼤规模知识服务⑦知识图谱可视化已⼤量应⽤⑧⼤数据知识⼯程理论体系⽇趋完善▌知识图谱下半场1. 应⽤场景转变2. 新的趋势①繁杂的应⽤场景②深度的知识应⽤③密集的专家知识④有限的数据资源3. 机遇4. 应对策略知识表⽰⽅⾯:①与其他知识表⽰的协同表⽰与推理②知识图谱的多模态表⽰③知识图谱的个性化表⽰知识获取⽅⾯:①发展低成本知识获取⽅法②注重多粒度知识获取③发展⼤规模常识知识获取④复杂知识获取机制与⽅法①知识图谱应⽤透明化②基于知识图谱的可解释⼈⼯智能③发展符号知识指导下的机器学习模型▌总结⼆、⾏业知识图谱的构建与应⽤分享⼀下PlantData的⽂章:⾏业知识图谱构建与应⽤。
1. 知识图谱整体结构描述知识图谱结构拓扑图如图所⽰:企业全量数据应⽤挑战及应对策略:(1)多源异构数据难以融合使⽤知识图谱(本体)对各类数据建模,基于可动态变化的数据模型(概念-实体-属性-关系),实现统⼀建模。
(2)数据模式动态变迁困难使⽤可⽀持数据模式动态变化的知识图谱的数据存储。
(3)⾮结构化数据计算机难以理解利⽤信息抽取技术。
(4)数据使⽤专业程度过⾼(5)分散的数据难以统⼀消费利⽤在知识融合的基础上,基于语义检索、知识问答、图计算、推理、可视化等技术,提供数据检索/分析/利⽤,统⼀平台。
国内知识图谱应用研究综述一、本文概述随着信息技术的快速发展,知识图谱作为一种重要的知识组织形式,已经在多个领域展现出其强大的应用潜力。
知识图谱通过图状结构展示实体间的关系,将分散的信息进行有效整合,为用户提供高效、直观的知识查询与推理服务。
本文旨在对国内知识图谱的应用研究进行综述,以期全面展现知识图谱在国内的研究现状、应用领域及发展趋势。
本文将对知识图谱的基本概念、发展历程及核心技术进行简要介绍,为后续的应用研究奠定理论基础。
接着,重点分析国内知识图谱在不同领域的应用案例,如智能问答、语义搜索、推荐系统、自然语言处理等,揭示知识图谱在解决实际问题中的优势和挑战。
本文还将对现有的知识图谱构建方法、质量评估标准等关键技术进行深入探讨,以期为国内知识图谱的进一步发展提供参考。
本文将总结国内知识图谱应用研究的现状,展望未来发展方向,以期为相关领域的研究人员和实践者提供有益的借鉴和指导。
通过本文的综述,我们期望能够推动国内知识图谱应用研究的深入发展,为技术的广泛应用提供有力支持。
二、知识图谱技术基础知识图谱是一种大规模、语义化的知识库,它以图的形式描述现实世界中的概念、实体及其之间的关系。
知识图谱的构建涉及多个技术领域,包括自然语言处理(NLP)、信息抽取、知识表示、图数据库等。
自然语言处理是知识图谱构建的关键技术之一。
通过自然语言处理技术,可以实现对文本信息的自动解析、分词、词性标注、命名实体识别等,从而提取出文本中的实体和关系。
NLP技术还可以用于构建知识图谱中的语义关系,例如通过语义角色标注、情感分析等技术,可以进一步丰富和完善知识图谱的语义信息。
信息抽取是知识图谱构建的另一项核心技术。
信息抽取的目标是从非结构化或半结构化的文本数据中提取出结构化的信息,并将其存储到知识图谱中。
信息抽取的方法包括规则、模板、机器学习等多种方法,这些方法可以根据不同的数据源和数据特点进行选择和调整。
知识表示是知识图谱构建的重要环节。
2021年2月第2期Vol. 42 No. 2 2021小型微型计算机系统Journal of Chinese Computer Systems融合预训练模型的中文知识图谱问题生成方法叶子I,陈小平I,张波2,欧阳昱2,刘辉舟2'(中国科学技术大学计算机科学与技术学院,合肥230027)2 (国网安徽省电力有限公司,合肥230022)E-mail : yz0626@ mail. ustc. edu. cn摘 要:基于知识图谱的问答方法旨在通过知识图谱的三元组检索和推断来对自然语言形式的问题进行解答.然而,现有中文知识图谱问答语料库存在规模较小,质量较差等问题,相关语料库构建方法亟待完善.因此,本文提出一种融合预训练模型的中文知识图谱问题生成方法,目标是以中文知识图谱三元组作为输入生成正确且多样的问题.该方法汲取了条件变分自编码器的 思想,以预编码器■源编码器-解码器为核心架构,利用BERT 模型进行预编码,并以Transformei ■模型为基础构建源编码器和解码器•此外,该方法还结合了答案编码技术并进行了改进.本文使用NLPCC2017 KBQA 数据集进行实验,实验表明该模型在BLEU.ROUGE 以及人工评价指标上较基线模型有明显提升,并且能够生成更具多样性的问题,证明了该方法的有效性.关键词:知识图谱;问题生成;预训练模型;条件变分自编码器中图分类号:TP183 文献标识码:A 文章编 号:1000-1220(2021)02-0246-05Method for Chinese Knowledge Graph Question Generation Based on Pre-trained ModelYE Zi 1 ,CHEN Xiao-ping 1, ZHANG Bo 2, OU Y ANG Yu 2 ,LIU Hui-zhou 21 ( School of Computer Science and Technology ,University of Science and Technology of China,Hefei 230027,China )2 ( State Grid Anhui Electric Power Co. ,LTD. , Hefei 230022, China )Abstract : The knowledge-graph-based question answering methods aim to answer questions in the form of natural language by search ing and inferring triples of the knowledge graph. However , the existing Chinese graph question answering corpora is so small and ofpoor quality that related construction methods need to be improved. Therefore , this paper proposes a question generation model based on a pre ・trained model , which uses Chinese knowledge graph triples as input to generate correct and diverse questions. This modeldraws on the idea of the conditional variational autoencoder with the core architecture called p-s-encoder-decoder which uses the BERTmodel for pre-encoding , the Transformer model as source encoder and decoder. Besides , we improve the model based on answer enco ding. We conduct our experiment on the NLPCC2017 KBQA dataset , which shows that the model has a significant improvement over the baseline model on BLEU , ROUGE , human evaluation results , and diversity , proving the effectiveness of the method.Key words : knowledge graph ; question generation ; pre-trained model ; conditional variational autoencoder1引言近年来,智能问答技术在诸多领域得到了广泛应用,例如教育、医疗和电力等⑴.传统问答系统由于缺乏知识和推理能力始终存在提升瓶颈,因此,基于知识库的问答方法成为了研究问答技术的主流方向.知识图谱具有高效表达海量知识、深度知识推理、与领域 知识高度关联等优势⑵,是知识问答的优质知识来源.然而, 基于知识图谱的问答技术目前尚处于起步阶段,现有中文知识图谱问答语料库大多存在规模较小,质量较差的问题,这严 重制约了中文知识图谱问答技术的发展.问题生成是利用文本数据生成自然语言形式问题的一种 技术⑶•文本数据可以是结构化的知识库、句法树等,也可以是篇章级文本或完整的问答语料.简单来说,问题生成是人工智能“主动提问”的技术,它的目标是生成正确且多样的问 题.有了问题生成技术,以中文知识图谱三元组作为输入生成 对应问题,可以生成中文知识图谱问答训练语料.不仅如此,问题生成技术对自动合成FAQ 文档,自动辅导系统等应用场 景也具有重要意义.现有的问题生成方法大多是基于规则的方法,这些方法 对模板的质量和数量要求较高,较为耗费人力资源,泛化能力较弱,对大规模数据的处理能力有限.要弥补这些不足,需要 问题生成模型充分获取隐含在语料库中的语法模式和特征, 行之有效的方法是将预训练模型与问题生成模型进行融合. 预训练模型可以利用大规模语料训练词语和句子的向量化表示,充分获取语料中隐含的语义信息,最后根据特定任务设计 微调方法得到结果.本文提出一种融合预训练模型的中文知识图谱问题生成收稿日期:2020-02-13收修改稿日期= 2020-04-21基金项目:国家重点研发计划项目(2017YFB 1002204)资助;国家自然科学基金项目 (U1613216)资助.作者简介:叶子,男,1995年生,硕士研究生,研究方向为自然语言处理、知识图谱;陈小平,男,1955年生,博士,教授,博士 生导师,国际RoboCup Federation 理事,研究方向为智能体形式化建模、多机器人系统关键技术;张 波,男,1966年生,硕士,高级工程师,研究 方向为“互联网+”电力营销服务管理;欧阳昱,男,1971年生,硕士,高级工程师,研究方向为电力营销信息化;刘辉舟,男,1985年生,硕士,高级 工程师,研究方向为电力营销大数据.2期叶子等:融合预训练模型的中文知识图谱问题生成方法247方法,其创新性有3点:1)利用条件变分自编码器解决预训练模型难以完成问题生成任务的问题;2)提出一种融合预训练模型和编码器-解码器架构的预编码器-源编码器-解码器架构;3)改进了问题生成的答案编码方法.2相关工作现有的问题生成方法大多是基于规则的生成方法"",这些方法可以较为稳定的生成符合语法规则的问题,但是极度依赖于人工设定的规则或模板,扩展性和泛化性能较差,很难生成大规模语料.随着机器学习技术的不断进步与发展,端到端的神经网络模型被更多地应用在了文本生成领域.在问题生成任务上,Song等人⑷通过获取网络信息提出了用于生成领域问题的方法;Venugopal等人⑺提出了问题生成的难度建模方法;Kumar等人⑻对难度可控的复杂问题生成方法进行了尝试;除此之外,研究者们对篇章级的问题生成方法也有很多新的尝试m.这些方法具有较好的泛化能力,能够完成大规模语料库的文本生成问题,但缺点是生成的文本容易出现语法错误,可读性较差.Liu等人M发现,如果不对基于编码器-解码器模型(Seq2seq)的问题生成方法加以限制,容易生成语义不相关的问题.因此,他们将该方法与基于模板的问题生成方法进行了结合,提出了一种基于模板的编码器-解码器模型(Templatebased Seq2seq),兼顾了模型的泛化性能和问题生成的稳定性.实验结果显示这种方法较基线模型而言具有一定提升.然而这种方法始终没有办法完全脱离模板,相当于牺牲了一部分效率换取生成问题的稳定性.事实上,原始的编码器-解码器模型效果不佳是因为它对语言的特征提取能力还较为有限,只有提升问题生成模型的语义理解能力才能真正脱离模板进行大规模的问题生成.原始的编码器-解码器模型存在并行能力较差,长期信息会丢失的问题,而基于自注意力机制的Transformer模型g 可以解决这些问题.一方面,该模型将序列中的任意两个位置之间的距离缩小为一个常量,解决了长期依赖的问题;另一方面,该模型的计算方式具有更好的并行性,计算速度更快. Transformer模型的整体架构也是编码器-解码器模型,所以它可以很好地完成文本生成任务.以Transformer模型为基础,谷歌提出了基于双向Transformer编码器的预训练模型BERT(Bidirectional Encoder Representation from Transformers)1141,这个模型的主要任务是预训练语言模型,其预训练任务有两种,分别为掩藏词语言模型训练(Masked LM,MLM)和预测下句(Next Sentence Prediction,NSP).预训练完成后,根据不同自然语言处理任务进行微调.BERT模型极大地提升了语言模型对语义信息的获取能力,但是由于缺少解码器部分,该模型处理文本生成问题的能力不是很强.要利用BERT这种预训练模型来完成文本生成任务,需要在BERT的下游接入解码器,然而直接接入Transformer解码器的效果并不理想.Gupta等人提出了一种基于变分自编码器(Variational Autoencoder,VAE)[,61的文本生成框架,本文利用这种思想将BERT编码器和Transformer解码器进行结合.VAE是一种基于隐变量的生成式模型,它可以学习高维输入的非线性表征.对于一个输入x,VAE首先学习它的隐式表征Z,使得输入x可以通过z重构得到.VAE可以得到z的后验分布%(zlx),这种后验分布一般是高斯分布N(“(x), a(x)),其中参数<p=|M(x),a2(x)|是输入x的非线性变换,同时也是以x为输入的前向神经网络的输出部分.解码器部分需要学习另一个分布几&I z),指的是采样z得到解码后的匚学习该模型的损失函数为:=E&3)[logPe(jrlz)]||p(z))(1)其中第二项为两个分布之间的KL散度.公式(1)提供了模型的置信概率P(xl0,<p)的下界,训练过程中需要最大化这个下界.将公式(1)中的隐变量分布局限在条件‘下可得条件变分自编码器(Conditional Variational Autoencoder,CVAE)[,7],其损失函数如下:L(x,y;e,<p)=E,?WXi,)[logp9(xlz,j)]-KUq r(z\x,y')||p(z))(2)3融合预训练模型的中文知识图谱问题生成模型本文提出的模型结构如图1所示,主要分为预编码器、源编码器和解码器3个部分.图1融合BERT的问题生成模型结构图Fig.1Question generation model with BERT3.1预编码器预编码器是使用预训练模型的编码器结构,其核心是BERT模型.BERT模型的输入是句子对的序列化表示,该序列中有两个重要的标记符[CLS]和[SEP].[CLS]是起始标记符,它被用来综合表示序列的最终隐状态,可用来进行分类等. [SEP]标记符是分隔标记符,用来分隔序列中的两个句子.序列的向量化表示由词向量,分隔向量和位置向量相加得到,其中词向量是经由训练得到的每个词或标记符的向量化表示,分隔向量用来区分某个词或标记符属于句子A还是句子B,位置向量表示每个词或标记符的位置顺序.248小型微型计算机系统2021年得到序列的向量化表示后,将进行BERT模型最重要的两个训练步骤:预训练和微调.3.1.1预训练BERT模型的预训练过程主要是在两种不同的任务上进行无监督学习,即MLM和NSP.MLM的具体实现方式是在序列中随机用[MASK]标记符来替换15%的词,然后根据未被替换的词来预测被替换的词.为了解决在训练过程出现[MASK]标记符而下游任务中未出现该标记符的问题,对于一个被替换的词,有80%时间使用[MASK]标记符进行正常替换,有10%的时间用随机词进行替换,剩下的10%时间保持该词不变,最终将三者综合后进行预测.很多下游任务比如问答任务都需要语言模型理解不同句子之间的关系,所以BERT采用了NSP方法进行训练.在训练过程中,对于句子A,它的下一句为B.有50%的时间B为A真实的下一句,标记为“是下一句"(IsNext),其余的50%时间B是语料库中其他的随机一个句子,标记为“不是下一句"(NotNext).预训练过程需要大量语料和较强的算力,直接采用已有的开源预训练模型可以大大节约计算成本提高效率.因此,本文在实验部分直接采用了预训练好的中文BERT参数模型进行使用.3.1.2微调在微调过程中,我们将包括了头实体、关系和尾实体的中文知识图谱三元组x®=\E…,E r,E,\=与对应问题=\tok x,tok2,-,tok…\进行拼接,预编码器的输入如图2所示.和BERT模型一样,头部接入[CLS]标记符.乂⑺与x(p)用[SEP]进行分隔,尾部接入结束符</S>,得到序列S,输入装载BERT的预编码器部分.头实体关系尾实体(答案)目标问题|[CLS]|活着|作者|余华|[SEP]|谁|创作「了|活着|</S>|图2预编码器的输入表示Fig.2Input representation of p-encoder序列s进行训练可得到T[CZJ]e R H,它是训练后的综合向量表示.然后,将兀c凶作为输入放入一个前向神经网络,将该网络的输出维映射为2H,以输出维为基准等分为两个张量,其中一个表示均值“•由于方差大于等于0,需要对另一个张量施加Softplus激活函数,表示标准差o■,从而得到分布z~ N(“,<r).3.2源编码器源编码器是对知识图谱三元组进行编码的模块,采用的是Transformer的编码器模型.源编码器的输入x<o)=\E h, E r,E,\=\t0k},tok2,-,tok n\在答案编码上有略微不同,将在3-5节中介绍.在源编码器中,数据首先会经过多头的自注意力层.它会将数据分别输入到人个自注意力层中进行运算,得到人个加权后的特征矩阵,然后按列进行拼接并经过一层全连接层后得到输出.计算注意力值的公式为:Z=softmax^V(3)其中Q,K,V,分别代表Query,Key,Value矩阵.为了梯度的稳定,公式(3)在计算注意力值时使用了分数归一化,即除以压入是输入向量的维度.为了防止退化问题,模型中采用了残差网络〔⑹的短路方法将原有向量与经过自注意力层的向量进行相加并归一化.得到注意力值之后,它会被送入一个前向神经网络,它共有两层,第一层的激活函数是ReLU,第二层是一个线性激活函数,可以表示为:FFN(Z)=max(0,ZW,+ft,)W2+b2(4) 3.3解码器解码器部分采用的是Transformer的解码器模型.因为解码的过程一般为顺序操作过程,所以Transformer采用了掩式的多头注意力机制(Masked Multi-head Attention),也就是说当解码第i个向量时,解码器只能看到第i -1及其之前的解码结果.在本文的问题模型中,我们将BERT模型得到的分布向量z与解码得到的输出。
知识图谱构建与应用的技术难点及解决方案随着人类社会的快速发展,以及互联网技术的不断创新,知识图谱已经成为了信息管理和知识应用领域的热门话题。
知识图谱可以将海量数据进行语义化建模,提供全面、精准、智能的查询和推荐服务,帮助用户更高效地获取所需信息。
但是,知识图谱的构建和应用还存在一些技术难点,需要我们进行更加深入的研究和创新。
一、知识图谱构建技术难点及解决方案1. 数据质量问题知识图谱是由数据构成的,而数据的质量直接影响着知识图谱的正确性和可用性。
在构建知识图谱的过程中,我们需要解决的第一个难点就是如何保证数据的质量。
一方面,我们需要对数据进行清洗、去重、标注和归一化等处理,另一方面,我们需要建立一套有效的数据管理和质量控制机制,不断优化和完善数据的质量。
2. 数据来源和获取问题构建知识图谱的另一个难点就是如何获取和整合海量数据。
在这个过程中,我们需要面对数据来源的多样性和分散性,以及数据获取的难度和成本。
为了解决这个难题,我们需要采用多种数据获取方式,如爬虫、API、数据交换和开放数据等,同时也需要建立一套数据整合和清洗机制,保障数据的质量和完整性。
3. 关系建模和推理问题知识图谱是由实体和关系组成的,如何对实体和关系进行语义化建模和推理,是构建知识图谱的又一个难点。
在这个过程中,我们需要采用先进的自然语言处理、机器学习和推理技术,对实体和关系进行自动化建模和推理。
同时,我们还需要建立一套专业的领域本体库,提供数据的标准化和融合,以支持知识图谱的共建和共享。
二、知识图谱应用技术难点及解决方案1. 智能检索和推荐问题知识图谱的最大优势就在于它可以提供全面、精准、智能的检索和推荐服务。
但是,在实际应用中,我们还需要解决一些智能检索和推荐的难点,如实时性、多样性和个性化等问题。
为了解决这些难点,我们需要采用先进的搜索引擎和机器学习技术,建立一套智能化的检索和推荐系统,同时也需要对系统进行不断的优化和改进。
中文图书馆资源整合及服务管理第1章图书馆资源整合概述 (2)1.1 资源整合的定义与意义 (2)1.1.1 定义 (3)1.1.2 意义 (3)1.2 图书馆资源整合的目标与原则 (3)1.2.1 目标 (3)1.2.2 原则 (3)1.3 国内外图书馆资源整合现状 (3)1.3.1 国内图书馆资源整合现状 (3)1.3.2 国外图书馆资源整合现状 (4)第2章图书馆资源整合模式与策略 (4)2.1 图书馆资源整合模式 (4)2.1.1 一体化整合模式 (4)2.1.2 协同整合模式 (4)2.1.3 虚拟整合模式 (4)2.1.4 混合整合模式 (4)2.2 图书馆资源整合策略 (5)2.2.1 明确整合目标 (5)2.2.2 制定整合计划 (5)2.2.3 优化资源配置 (5)2.2.4 加强合作与协同 (5)2.2.5 创新服务模式 (5)2.3 资源整合的实施与评估 (5)2.3.1 实施步骤 (5)2.3.2 评估方法 (5)第3章数字资源整合 (6)3.1 数字资源概述 (6)3.2 数字资源整合技术 (6)3.3 数字资源整合实践 (6)第四章馆藏实体资源整合 (7)4.1 实体资源整合的必要性 (7)4.2 实体资源整合方法 (7)4.3 实体资源整合案例分析 (8)第5章人力资源整合 (8)5.1 人力资源整合的重要性 (8)5.2 图书馆员的角色与职责 (8)5.3 人力资源整合策略与实施 (8)第6章服务整合与创新 (9)6.1 图书馆服务整合概述 (9)6.1.1 图书馆服务整合的定义 (9)6.1.2 图书馆服务整合的意义 (9)6.1.3 图书馆服务整合的目标 (9)6.2 服务整合模式与策略 (10)6.2.1 服务整合模式 (10)6.2.2 服务整合策略 (10)6.3 服务创新实践 (10)6.3.1 创新服务模式 (10)6.3.2 创新技术应用 (10)6.3.3 创新服务内容 (11)第7章信息技术在图书馆资源整合中的应用 (11)7.1 信息技术概述 (11)7.2 信息技术的应用与挑战 (11)7.2.1 应用 (11)7.2.2 挑战 (11)7.3 信息技术在图书馆资源整合中的应用案例 (12)第8章用户服务与管理 (12)8.1 用户需求分析 (12)8.1.1 用户基本信息分析 (12)8.1.2 阅读需求分析 (12)8.1.3 学习需求分析 (12)8.1.4 个性化需求分析 (12)8.2 用户服务体系构建 (13)8.2.1 资源建设 (13)8.2.2 服务内容 (13)8.2.3 服务方式 (13)8.2.4 个性化服务 (13)8.3 用户服务质量管理 (13)8.3.1 服务规范 (13)8.3.2 服务评价 (13)8.3.3 用户反馈 (13)8.3.4 员工培训 (13)第9章跨界合作与共享 (14)9.1 跨界合作的必要性 (14)9.2 跨界合作模式与策略 (14)9.3 资源共享与互惠互利 (14)第10章图书馆资源整合与服务管理的未来发展 (15)10.1 发展趋势与挑战 (15)10.2 创新驱动与可持续发展 (15)10.3 图书馆资源整合与服务管理的展望与建议 (16)第1章图书馆资源整合概述1.1 资源整合的定义与意义1.1.1 定义资源整合,指的是将分散的、独立的资源按照一定的规律和标准进行有效整合,以提高资源的利用率、降低成本、优化服务质量为目标,实现资源共享、互补和协同发展。
知识图谱在金融服务中的应用研究随着金融业的高速发展,如今的金融服务越来越多元化,并且更趋于智能化。
随着智能化发展的越来越迅猛,知识图谱在金融服务中的应用越来越普及,成为众多金融机构智能化转型中的重要工具。
首先,什么是知识图谱呢?简单来说,知识图谱就是一种将数据集成与分析技术相结合的新型技术,它可以将海量数据转化为具有语义信息的有向、加权、多类型的图数据,实现机器自动推理和语义理解。
在金融服务中,知识图谱应用范围非常广泛。
它可以用于知识管理、智能投资决策、风险管理、客户服务等多个方面。
下面我们来看看知识图谱在个别方面如何应用。
一、知识管理在金融机构中,很多数据都物理分散在不同的数据库中,不方便整合和分析,导致了信息孤岛的存在。
而知识图谱的应用可以解决这个问题。
其将分散的数据整合起来,并且进行语义抽取,从而通过机器自动推理与语义理解,帮助机构快速定位有业务价值的数据,实现数据的智能查询、统计和推荐,将数据转化为有价值的知识。
二、智能投资决策在金融机构中,投资决策是一个复杂的过程,需要考虑的因素繁多,且需要及时准确的决策。
而知识图谱的应用可以协助机构在投资决策中实现智能化。
通过知识图谱的智能化分析和推荐,机构可以对各类金融产品进行数据分析和风险评估,并根据客户的需求和风险承受能力提供最佳的投资组合,从而提高投资回报率。
三、风险管理金融机构的风险管理是其中一个非常重要的环节。
知识图谱的应用可以提供机构准确的风险模型,即知识图谱模型。
通过收集海量的数据,建立起全方位的知识图谱模型,机构可以针对不同的风险进行智能化的分类与风险控制,从而优化风险管理,降低风险损失。
四、客户服务知识图谱的应用还可以协助机构提高客户服务效率并促进客户忠诚度。
通过对客户需求进行分析并建立起客户画像,机构可以通过知识图谱提供个性化的金融服务,包括智能投资推荐、偏好定制、个性化风险评估等等。
综上所述,知识图谱在金融服务中切实发挥了重要作用。
12种通用知识图谱项目介2通用知识图谱大体可以分为百科知识图谱(Encyclopedia Knowledge Graph) 和常识知识图谱(Common Sense Knowledge Graph)。
百科知识图谱是百科事实构成的,通常是“非黑即白”的确定性知识。
早在2010年微软就开始构建商用知识图谱,应用于旗下的搜索、广告、Cortana等项目o 2012 年谷歌基于Freebase 正式发布Google Knowledge Grapho 目前微软和谷歌拥有全世界最大的通用知识图谱,脸书拥有全世界最大的社交知识图谱。
而阿里巴巴和亚马逊则分别构建了商品知识图谱。
相比之下,国内知识图谱创业公司则从智能客服、金融、法律、公安、航空、医疗等“知识密集型”领域作为图谱构建切入点。
除了上述商业通用图谱以外,DBpedia、Yago、Wikidata、BabelNet等开放域百科知识图谱也蓬勃发展。
另一种常识知识图谱,则集成了语言知识和概念常识,通常关心的是带有一定的概率的不确定事实,因此需要挖掘常识图谱的语言关联或发生概率。
下面,我们将对两类知识图谱做详细介绍。
一、百科知识图谱百科知识图谱构建模式可以分为两类。
一类是对单百科数据源进行深度抽取, 典型代表有DBpedia。
另一类是结合了语言知识库(如%rdNet)后,出现了一大批兼具语言知识的百科知识库,如Google Knowledge Graph后端的Freebase、IBM Waston 后端的YAGO,以及BabelNet。
此外,还有世界最大开放知识库WikiData等。
下面我们分别进行介绍。
1.DBpediaDBpedia是始于2007年的早期语义网项目,也就是数据库版本的多语言维基百科。
DBpedia采用了严格的本体设计,包含人物、地点、音乐、组织机构等类型定义。
从对维基百科条目和链接数据集中抽取包括abstract、infobox、category等信息。