2020-2021年中国知识图谱行业研究报告
- 格式:docx
- 大小:2.86 MB
- 文档页数:42
前言1.知识图谱的研究目标与意义知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。
知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。
知识图谱于2012年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用。
94年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。
在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。
大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。
我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。
知识图谱在下面应用中已经凸显出越来越重要的应用价值:-知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;-语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;-问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;-大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
第49卷第1期2021年1月河海大学学报(自然科学版)Journal of Hohai University(Natural Sciences)Vol.49No.1Jan.2021DOI :10.3876/j.issn.10001980.2021.01.005 基金项目:国家重点研发计划(2018YFC0407901);安徽省高等学校自然科学研究重点项目(KJ2019A1277)作者简介:冯钧(1969 ),女,教授,博士,主要从事数据管理㊁智能数据处理与数据挖掘㊁水利信息化研究㊂E⁃mail:fengjun@ 通信作者:杭婷婷,副教授㊂E⁃mail:httsf@引用本文:冯钧,杭婷婷,陈菊,等.领域知识图谱研究进展及其在水利领域的应用[J].河海大学学报(自然科学版),2021,49(1):26⁃34.FENG Jun,HANG Tinting,CHEN Ju,et al.Research status of domain knowledge graph and its application in water conservancy[J].Journal of Hohai University(Natural Sciences),2021,49(1):26⁃34.领域知识图谱研究进展及其在水利领域的应用冯 钧1,杭婷婷1,2,陈 菊1,王云峰1,王秉发1,张 涛1(1.河海大学计算机与信息学院,江苏南京 211100;2.无人机开发及数据应用安徽高校联合重点实验室,安徽马鞍山 243031)摘要:首先总结现有领域知识图谱的研究现状㊂其次,介绍领域知识图谱的发展趋势㊂然后,梳理水利领域知识图谱的构建难点,提出包含知识表示㊁抽取㊁融合㊁推理和存储等关键模块的水利领域知识图谱研究框架,并简要概括上述各模块的研究内容㊂最后,指出领域知识图谱构建存在的表示形式单一㊁抽取样本稀少㊁多源知识冲突㊁规则表示困难和数据管理低效等问题,认为合理化表示㊁准确全面抽取㊁实时性融合㊁可解释推理和高性能存储是下一步水利知识图谱的研究方向㊂关键词:领域知识图谱;水利领域;大数据;知识表示;知识抽取;知识融合;知识推理;知识存储中图分类号:TP391.1 文献标志码:A 文章编号:10001980(2021)01002609Research status of domain knowledge graph and its application in water conservancyFENG Jun 1,HANG Tinting 1,2,CHEN Ju 1,WANG Yunfeng 1,WANG Bingfa 1,ZHANG Tao 1(1.College of Computer and Information ,Hohai University ,Nanjing 211100,China ;2.Key Laboratory of Unmanned Aerial Vehicle Development and Data Application of Anhui Higher Education Institutes ,Maanshan 243031,China )Abstract :Firstly,this study summarized the current research status of the domain knowledge graph.Secondly,the development trend of the domain knowledge graph was introduced.Then,this study sorted out some difficulties in the construction of water conservancy knowledge graph,proposed a research framework including main modules such as knowledge representation,extraction,fusion,reasoning,and storage,and briefly summarized the research content of each module.Finally,the construction of domain knowledge graph encountered some problems,such as the single representation,the extraction sample sparse,the multi⁃source knowledge conflict,the rule representation difficulty,and the inefficient data management.Therefore,the rationalized representation,accurate and comprehensive extraction,real⁃time fusion,interpretable reasoning,and high⁃performance storage are regarded as the next research direction of water conservancy knowledge graph.Key words :domain knowledge graph;water conservancy;big data;knowledge representation;knowledge extraction;knowledge fusion;knowledge reasoning;knowledge storage随着人工智能研究的不断发展,人工智能的主要发展方向经历了从拥有快速计算和记忆存储能力的运算智能,到拥有视觉㊁听觉㊁触觉等感知能力的感知智能,正在迈向拥有理解和思考能力的认知智能㊂知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心㊂知识图谱本质是一种揭示实体之间关系的语义网络,可以对现实世界的事务及其相关关系进行形式化描述[1],它强大的语义处理和互联组织能力,对有效描述数据间的关联关系进而打破信息孤岛的局面具有一定的现实意义㊂目前,在一些领域已经出现了面向领域的知识图谱,例如电影领域的IMDB [2]㊁生物医学领域的BMKN [3]㊁新闻领域的ECKG [4]㊁健康领域的SHKG [5]等㊂从已有的领域知识图谱看,构建领域知识图谱需要借鉴通用知识图谱的方法,同时还需要依靠特72第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用定行业数据,具有特定的行业意义,领域知识图谱的构建是当前知识图谱研究的一个重要方向和趋势㊂随着水利信息化及其水利信息技术的发展,水利领域长期业务实践积累了实时监测㊁遥感遥测㊁水文气象㊁水利工程㊁社会经济等多源异构水利大数据,实现了水利监测从点到面的转变,从静态到动态的拓展㊂随着信息采集和传输技术的飞速发展和领域信息化的进程,领域数据不断更新,数据量日益增加,数据间语义不一致也屡见不鲜㊂多源异构数据呈现出海量㊁动态㊁内容多样㊁处理复杂的特点㊂如何让分布存储管理的㊁语义各异的数据能够互联,充分发掘领域数据价值,促进信息资源的高效利用,是推进智慧水利[6]的关键,也是水利信息资源查询推荐,语义搜索,智慧防汛[7⁃8]和智慧水资源管理[9]等应用的基础,对于提高水利领域智能化管理水平㊁辅助管理者进行决策分析具有非常重要的意义[10]㊂因此,水利领域知识图谱研究既具有重要的理论意义,也具有显著的实用价值㊂本文总结领域知识图谱构建的研究现状,包括构建方式㊁应用现状等方面的进展;介绍近年来领域知识图谱构建的发展趋势;对水利领域知识图谱构建工作进行展望,提出研究框架和具体的研究内容㊂1 领域知识图谱构建研究现状知识图谱按照覆盖范围可分为通用知识图谱和领域知识图谱㊂通用知识图谱面向通用领域,以常识性知识为主,其构建过程高度自动化㊂其关联的大多数是静态的㊁客观的㊁明确的三元组事实性知识㊂领域知识图谱面向某一特定领域,以行业数据为主,其构建过程半自动化㊂其关联的不仅包含静态知识,也涉及一些动态知识㊂本文主要探讨领域知识图谱构建㊂1.1 领域知识图谱的构建方式在领域知识图谱的构建方式方面,目前主要有自顶向下和自底向上2种构建方式㊂自顶向下方式是针对特定的行业,由该行业专家定义好顶层本体与数据模式,再将抽取到的实体加入到知识库中㊂国内外现有的本体建模工具以Protégé㊁PlantData为代表㊂Protégé是一套基于RDF(S),OWL等语义网规范的开源本体编辑器,拥有图形化界面,适用于原型构建场景㊂PlantData是一款商用知识图谱智能平台软件㊂该软件提供了本体概念类㊁关系㊁属性和实例的定义和编辑,屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建,使得建模更加便捷㊂自底向上方式主要依赖开放链接数据集和百科网站,从这些结构化的知识中进行自动学习,直接将抽取数据中发现的实体㊁关系以及属性合并到知识图谱中[11]㊂自顶向下的方法有利于抽取新的实例,保证抽取质量㊂而自底向上的方法则能发现新的模式㊂因此,目前大部分领域知识图谱的构建方式是自顶向下和自底向上相结合的方式㊂1.2 领域知识图谱的应用现状领域知识图谱通常用来辅助各种复杂的分析应用或决策支持㊂目前,在大多数领域中均存在领域知识图谱的应用㊂因为应用场景和应用目的不同,不同领域的应用形式也有所不同㊂下面将从知识应用的角度出发,介绍相关领域知识图谱的应用现状㊂a.电商知识图谱的应用㊂电商知识图谱的主要应用场景就是导购㊂导购就是让消费者更容易找到他想要的东西㊂为此,电商知识图谱学习了大量的行业规范与国家标准,对一些专业词汇进行了更细致的解决㊂另外,它还可以从公共媒体和专业社区中识别出近期热词㊂当消费者输入相关热词之后,可以出现跟热词相关的商品㊂与此同时,电商知识图谱还可以通过场景构建,实现与场景相关的商品推荐㊂b.医疗知识图谱的应用㊂医疗知识图谱的主要应用包括医疗过程智能辅助㊁医学科研以及患者服务等方面㊂其中医疗过程智能辅助是通过医疗知识图谱实现临床辅助决策㊁合理用药等智能服务㊂医学科研是基于医疗知识图谱,辅助医务工作者实现疾病风险预测㊁药物研发等应用服务㊂患者服务是根据患者过去的就医记录以及相关的医疗知识,为患者提供健康知识推送和健康评估等日常服务㊂c.企业知识图谱的应用㊂企业知识图谱通过异常关联挖掘㊁最终控制人等方式为行业客户提供风险管理㊂其中异常关联挖掘是通过路径分析㊁关联探索等操作,挖掘企业之间的异常关联,减少企业经营风险和资金风险㊂最终控制人是寻找持股比例最大的股东,最终追溯至自然人或者国有资产管理部门,向行业用户提供更准确的智能服务㊂d.创投知识图谱的应用㊂创投知识图谱主要应用包含知识检索和可视化决策支持㊂其中知识检索是由机器完成用户搜索意图识别,向用户提供准确检索答案㊂可视化决策支持是通过图谱可视化技术对公司82河海大学学报(自然科学版)第49卷的全方位信息,投资机构的投资偏好等进行展示,为投融资决策提供支持㊂总的来说,知识图谱与各行业的深度融合已经成为一个重要趋势㊂在这一过程中,涌现出一系列的领域应用,可以解决行业痛点问题㊂2 领域知识图谱构建的发展趋势领域知识图谱构建的主要过程包括知识表示㊁知识抽取㊁知识融合㊁知识推理和知识存储等5个方面㊂尽管目前相关原理和应用都已经取得了较好的成果,但仍在快速发展之中㊂近年来,领域知识图谱的发展趋势发生了一系列的变化,主要表现在:a.在知识表示方面,现阶段一般采用三元组表达事实知识㊂但是,在决策㊁推理等相关应用中,需要依赖于大量专家知识㊁动态知识进行辅助判断,而专家知识的表示已经超出了常规知识表示的范畴㊂在大数据的赋能下,知识表示的重心将逐步过渡到动态知识是必然趋势㊂b.在知识抽取方面,现阶段的研究主要集中在纯文本信息抽取方面㊂在训练样本较为丰富的情况下,基于神经网络的抽取模型可以取得较好的抽取效果㊂但是,领域知识多数处于小样本㊁零样本以及面向开放域的抽取环境下,知识抽取的重心将逐步过渡到小样本㊁零样本信息抽取是必然趋势㊂c.在知识融合方面,现阶段的研究主要聚焦于知识融合过程中的某一部分或者只关注知识融合的模式,冲突检测㊁实体对齐㊁属性对齐和属性真值发现过程的研究缺乏连续性㊂另外,随着大量新增知识的更新,知识融合的重心将逐步过渡到新增知识的实时融合是必然趋势㊂d.在知识推理方面,现阶段的研究主要采用基于规则㊁逻辑的方法挖掘领域图谱中隐含的知识或纠正错误的知识㊂但是,该方法对规则的依赖度高㊂图神经网络是连接主义与符号主义的有机结合,不仅使深度学习模型能够应用在图这种非欧几里德结构上,还为深度学习模型赋予了一定的因果推理能力[12]㊂知识推理的重心将逐步过渡到面向图结构的深度推理是必然趋势㊂e.在知识存储方面,现阶段一般利用传统的关系型数据库存储领域知识图谱㊂但是,针对低选择性㊁复杂查询效率低的问题,知识存储的重心将逐步过渡到分布式RDF查询优化是必然趋势㊂3 水利领域知识图谱构建3.1 水利领域知识图谱构建的难点a.在水利知识表示方面,领域应用不仅需要静态知识,也需要动态知识㊂如何对抽取出来的静态知识和动态知识进行合理表示是当前面临的主要技术难点㊂另外,有很多知识和事实有时间和空间条件,从时空纬度扩展知识表示也是需要解决的技术难点㊂b.在水利知识抽取方面,纯文本信息抽取是当前面临的主要难点㊂部分文本抽取算法在公共数据集上取得了较好的实验结果,但普遍存在应用到水利领域中扩展性不好等问题㊂难点在于如何根据领域知识图谱的小样本特性,构建基于小样本的有效模型㊂c.在水利知识融合方面,主要存在以下难点:(a)实体对应不准确,同一实体名在不同数据源中常含有歧义,数据源中存在严重的多源指代问题[11];(b)不同数据源关于相同实体的相同属性存在表述差异[13];(c)不同数据源为同一实体的同一属性提供的属性值存在冲突[11]㊂d.在水利知识推理方面,由于现有水利领域的应用需要高准确性地从图谱中获取信息,因此基于描述逻辑和规则的推理方法能有效用于水利知识推理㊂难点在于如何设计基于一阶谓词逻辑的推理规则用于知识推理㊂e.在水利知识存储方面,主要存在以下难点:(a)随着水利数据不断丰富,RDF数据规模日益增加,现有的集中式数据管理系统难以满足对大规模RDF数据的存储和查询性能需求,需要高性能的分布式数据管理系统[14]来实现对大规模RDF数据的存储㊁索引和查询处理;(b)现有的分布式数据管理系统,对特定类型的查询进行了优化[15],但对水利领域常涉及的低选择性㊁大直径查询的查询效率低;(c)现有的分布式数据管理系统不能动态适应工作负载[16]的变化㊂3.2 水利领域知识图谱的总体框架为解决上述水利领域知识图谱构建研究的5个难点,并实现建立水利领域知识图谱的目标,本文提出了第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用如图1所示的研究框架㊂在该研究框架下,首先对水利知识表示进行研究,建立2种不同的表示形式;其次,针对不同类型的水利数据,研究相对应的水利知识抽取方法;然后,研究了水利知识融合和推理的具体方法;最后,在充分利用水利大数据和相关存储技术的基础上,对水利领域知识进行存储,支撑相关应用㊂图1 水利领域知识图谱构建研究框架Fig.1 Modeling framework of domain knowledge graph in water conservancy3.3 水利领域知识图谱构建的研究内容水利领域知识图谱的构建流程可以被归纳为5个模块,即水利知识表示㊁水利知识抽取㊁水利知识融合㊁水利知识推理以及水利知识存储㊂水利知识表示是将水利知识表达成计算机可存储㊁可计算的结构化知识㊂水利知识抽取可以从大量结构化㊁半结构化和非结构化的水利数据中提取知识要素㊂水利知识融合可以消除实体㊁关系㊁属性与对象之间的歧义,并为水利知识图谱更新旧知识或补充新知识㊂水利知识推理是在已有水利知识的基础上进一步挖掘隐含知识或者缺失事实,从而丰富㊁扩展水利知识库㊂水利知识存储是设计有效的存储模式来支持对水利数据的有效管理㊂3.3.1 水利知识表示三元组是知识图谱的一种通用表示形式[17],由2个具有语义连接关系的水利实体和实体间关系组成,是水利知识的直观表示㊂三元组的基本形式主要包括(实体1,关系,实体2)和(实体,属性,属性值)等㊂概念主要指水利对象类,例如水资源分区㊁流域分区㊁湖泊㊁测站㊁河流㊁水库及水电站等;实体是知识图谱中的最基本元素,例如湖西区㊁长江流域㊁汾湖㊁吴江水厂㊁太浦河㊁青山水库㊁龙头水电站等;关系存在于不同实体之间,例如属于㊁位于㊁流入㊁包含等;属性主要指对象可能具有的特征及参数,例如湖泊代码㊁湖泊名称㊁跨界类型等;属性值指对象特定属性的值,例如FH407㊁FHBA1B00000M㊁跨省等㊂表1 太湖描述的三元组表示Table 1 Triple representation of Taihu Lake 基本形式实体1关系实体2(实体1,关系,实体2)太湖流域太湖流域太湖流域太湖流域包括包括包括包括苏南地区杭嘉湖地区上海市大陆部分宣城的小部分地区基本形式实体属性属性值(实体,属性,属性值)太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域太湖流域总面积水面积河道总长河道密度地形地势河道比降水流流速 3.69万km 25551km 212万km 3.3km /km 2碟状平坦小缓慢通过一个全局唯一的ID 号来标识实体,实体间内在特征通过属性属性值来进行刻画,实体之间的关联通过关系来描述㊂三元组的存在表示一个已有的事实㊂例如关于太湖的描述为:太湖流域包括江苏省苏南地区㊁浙江省杭嘉湖地区㊁上海市大陆部分(不含崇明㊁长兴㊁横沙三道)和安徽省宣城的小部分地区,总面积3.69万km 2㊂流域水面积5551km 2;河道总长约12万km,河道密度达3.3km /km 2㊂流域地形呈周边高㊁中间低的碟状地形,地势平坦,河道比降小,水流流速缓慢㊂太湖的描述可以通过表1的三元组进行表示㊂所有三元组合可以并构成一个图(图2),其中节点表示实体,有向边表示实体之间的关系,不同的关系边的标签不同㊂3.3.2 水利知识抽取在水利信息技术飞速发展的今天,水利知识大量存在于水利信息系统的结构化数据㊁半结构化的表格㊁网页以及非结构化的文本数据中㊂针对不同类型的水利数据,采用不同的知识抽取方法㊂对于结构化数据,研究基于D2R 技术的知识图谱构建方法,利用信息系统中的结构化对象数据,抽取出静态对象及其相关关92河海大学学报(自然科学版)第49卷图2 水利知识表示示意图Fig.2 Schematic diagram of knowledge representation in water conservancy系㊂结构化数据抽取如图3(a)所示,基本步骤包括:(a)通过分析关系型数据库判断可以建立联系的2张表是否有外键关联㊂如果没有外键关联,需要人工设置外键或者在映射文件中写入外键㊂(b)建立了外键关系之后,将2张表映射成RDF 之后就可以实现语义互联㊂通过上述一系列操作,可以将2个实体之间存在的关系进行合理表示㊂对于半结构化数据,利用包装器将分布在互联网上半结构化的HTML 页面中的属性和属性值抽取出来㊂半结构化数据抽取如图3(b )所示,基本步骤包括:(a)HTML 页面清洗及解析㊂将页面转换为DOM 树形结构㊂(b)页面去噪㊂去除页面中与主题信息无关的其他信息㊂(c)包装器自动生成㊂自动获取需求信息节点的XPath 路径,定义规则模板,结合XPath 路径表达式实现抽取规则的自动构造㊂通过上述一系列操作,可以抽取出与实体有关的属性和属性值信息㊂对于非结构化数据,利用基于远程监督和神经网络的方法抽取出水利文本中的知识㊂非结构化数据抽取如图4(c)所示,基本步骤包括:(a)采用远程监督的方法利用知识库自动生成标注数据,再通过离群点检测的方法去除其中的错误标注㊂(b)采用基于监督学习的神经网络方法,先在标注好的数据上进行训练,再对未标注的数据进行测试,抽取出未标注文本中包含的实体和它们之间的关系㊂通过上述一系列操作,可以补充知识图谱中所需要的一些静态知识和动态知识㊂3.3.3 水利知识融合鉴于百科类网站具有一个页面围绕一个实体进行描述㊁页面组织结构相对统一㊁信息质量相对较高的特点,百科类网站成为领域知识库进行知识融合的主要数据来源[18],其信息框中的关于实体的属性-属性值对是对该页面实体信息的高度提炼㊂对不同百科中描述相同实体的知识卡片进行融合,可以获得关于水利对象的更全面㊁质量更高的知识㊂针对前述关于多知识库融合的难点,研究基于中文维基百科㊁百度百科㊁互动百科的知识卡片的水利知识融合方法㊂图4所示为水利知识融合流程㊂通过基于多特征的命名实体消歧㊁基于词典的属性对齐和基于贝叶斯分析的属性真值发现模块,消除实体㊁关系㊁属性及其对象之间的歧义,最终获得跟水利对象有关的属性及相应的属性值㊂图5是三大百科以及本地知识库对于水利对象 太湖”融合后的查询结果㊂蓝色的方块代表初步形成的水利领域知识图谱,红色的方块代表中文维基百科,黄色的方块代表百度百科,绿色的方块代表互动百科㊂从 太湖”的融合结果可以看出,本地水利领域知识图谱提供的信息资源具备良好的行业覆盖面和行业深度,为水利知识图谱的构建提供了核心支撑㊂中文维基百科则更多地从专业领域对其进行描述,提供的更多是较严谨的知识㊂百度百科和互动百科的知识卡片存在很多重复,且覆盖的属性更符合普通大众的娱乐需要,如关于太湖的适宜游玩季节㊁建议游玩时长㊁门票价格等㊂3.3.4 水利知识推理知识推理旨在从图谱已有的知识推理得到新的事实[19]㊂由于水利知识来源多样化,水利知识和数据的收集局限于终端采集方式而缺乏整体性,需要结合水利知识推理方法,来对相关知识进行补充㊂例如,水利领域知识图谱中存在由不同数据源得到的2个三元组:(太湖,出口,太浦闸)和(太浦闸,属于,太浦河),可以利用知识推理来获取新的事实知识(太湖,流入,太浦河)㊂目前主要的领域知识推理的方法有:基于规则推理的方法[20]㊁基于本体推理的方法[21⁃22]㊁基于表示模型的方法[23⁃25]㊁基于神经网络的方法[26]㊂通过对水利领域的业务需求进行分析,可以发现水利领域知识图谱需要为即时查询㊁决策提供支撑,因此决定了水利领域知识图谱构建的高准确性要求㊂另外,水利领域知识图谱的层次性较强,根据管理单位㊁地理空间㊁河网管网的分层关系可以在实际应用场景中将图谱切分,以降低搜索空间㊂结合水利知识图谱存在的高准确性要求和可切分特点,最适合的知识推理方法是基于规则推理的方法㊂该方法通过结合现有的一些水利领域知识,手工定义一些推理规则,去服务水利知识推理㊂其具体过程如下:(a)在概念层,通过一阶谓03第1期冯 钧,等 领域知识图谱研究进展及其在水利领域的应用图3 水利知识抽取示意图Fig.3 Schematic diagrams of knowledge extraction in water conservancy13河海大学学报(自然科学版)第49卷图4 水利知识融合流程Fig.4 Flow chart of knowledge fusion in waterconservancy图5 水利知识融合示意图Fig.5 Schematic diagram of knowledge fusion in water conservancy表2 水利知识推理规则Table 2 Rules of knowledge reasoning in water conservancy 编号推理规则含义1(河流,流入,水库),(水电站,属于,水库)→(水电站,位于,河流)水电站在水库所在的河流上2(泵站,拥有,取水口),(泵站口,位于,湖泊),(湖泊,属于,流域分区)→(取水口,属于,流域分区)取水口属于泵站所在湖泊的流域分区3(桥梁,位于,河段),(河段,属于,河流)→(桥梁,横跨,河流)桥梁横跨河段所属的河流词逻辑表示定义相关推理规则㊂(b)在实例层,再通过实例去实例化推理规则,找到符合推理规则的关系事实㊂表2为部分推理规则及其相关含义㊂3.3.5 水利知识存储水利知识存储的优化目标是减少冗余数据的存储,提高查询的效率㊂为了达到上述目标,采用以下处理手段:(a)针对集中式系统难以满足对大规模水利RDF 数据的存储和查询处理的问题,采用了一个无共享的集群,以分布式的方式处理大规模RDF 数据㊂(b)针对水利领域涉及的低选择性㊁大直径查询效率低,对查询工作负载伸缩性差的问题,研究了基于垂直划分和哈希划分的混合关系存储模式㊂通过监控查询工作负载中的频繁模式,使用频繁模式指导水利RDF 数据进行增量重划分,以提高对查询工作负载的伸缩性㊂(c)通过设置代价评估模型,进行代数优化和连接顺序优化,从而优化分布式查询的效率㊂水利知识存储流程如图6所示㊂该流程首先对经过质量评估后的水利知识进行基于主语的哈希划分形成三元组表(TT);然后,对哈希划分后的三元组表进行垂直划分,形成只包含主语-宾语列的垂直划分表(VP);最后,通过查询监控器监控查询工作负载,挖掘频繁模式,对频繁模式所对应的垂直划分表进行半连接计算,形成频繁谓词扩展垂直划分表(FP⁃ExtVP)㊂上述不同类型的表都以Parquet 格式存储到集群的各23。
第13卷㊀第5期Vol.13No.5㊀㊀智㊀能㊀计㊀算㊀机㊀与㊀应㊀用IntelligentComputerandApplications㊀㊀2023年5月㊀May2023㊀㊀㊀㊀㊀㊀文章编号:2095-2163(2023)05-0032-08中图分类号:TP399文献标志码:A知识图谱在医学领域的研究现状分析郑增亮1,蔡晓琼1,苏前敏1,黄继汉2(1上海工程技术大学电子电气工程学院,上海201620;2上海中医药大学药物临床研究中心,上海201203)摘㊀要:本文针对国内外知识图谱在医学领域的研究进行可视化分析,对比国内和国外研究的热点和异同,以期推动中国知识图谱在医学领域的研究㊂以CNKI和WebOfScience上刊载的 知识图谱在医学领域研究 主题相关核心文献作为数据来源,运用CiteSpace可视化软件进行文献计量分析㊂从时间序列上看,知识图谱在医学领域的研究已引起国内外学者的广泛关注,该领域的发文量随着时间推移,呈现不断增长的趋势㊂新的方法㊁技术如大数据㊁人工智能,深度学习不断应用到医学领域的知识图谱中,但国内外知识图谱在医学领域方面的研究侧重点不同,国内侧重于理论研究,国外侧重于实际应用㊂关键词:知识图谱;医学领域;可视化AnalysisofthecurrentresearchstatusofknowledgegraphinthemedicalfieldZHENGZengliang1,CAIXiaoqiong1,SUQianmin1,HUANGJihan2(1CollegeofElectricalandElectronicEngineering,ShanghaiUniversityofEngineeringScience,Shanghai201620,China;2CenterforDrugClinicalResearch,ShanghaiUniversityofChineseMedicine,Shanghai201203,China)ʌAbstractɔThispaperpresentsavisualanalysisofdomesticandforeignresearchonknowledgegraphsinmedicine,comparingthehotspotsandsimilaritiesbetweendomesticandforeignresearch,withaviewtopromotingtheresearchonknowledgegraphsinmedicineinChina.Thecoreliteraturerelatedtothetopicof"knowledgegraphsinmedicine"publishedinCNKIandWebOfSciencewasusedasthedatasource,andthebibliometricanalysiswasconductedusingCiteSpacevisualizationsoftware.Intermsoftimeseries,theresearchonknowledgegraphsinmedicinehasattractedwidespreadattentionfromscholarsathomeandabroad,andthenumberofarticlespublishedinthisfieldhasshownagrowingtrendovertime.Newmethodsandtechnologiessuchasbigdata,artificialintelligence,anddeeplearninghavebeencontinuouslyappliedtoknowledgemappinginthemedicalfield,butthefocusofresearchonknowledgemappinginthemedicalfieldisdifferentathomeandabroad,withChinafocusingontheoreticalresearchandforeigncountriesonpracticalapplications.ʌKeywordsɔknowledgegraph;medicine;visualization基金项目: 十三五 国家科技重大专项(2018ZX09711001-009-011);科技创新2030重大项目(2020AAA0109300)㊂作者简介:郑增亮(1996-),男,硕士研究生,主要研究方向:知识图谱㊁大数据;苏前敏(1974-),男,博士,副教授,硕士生导师,主要研究方向:生物医学信息处理㊁智能信息处理㊂通讯作者:苏前敏㊀㊀Email:suqm@sues.edu.cn收稿日期:2022-05-280㊀引㊀言随着移动互联网㊁物联网㊁云计算等技术的不断发展,数据的类型和规模以前所未有的速度增长,社会各个领域都步入大数据时代[1]㊂在医学领域,伴随着医学信息化系统的发展,积累了规模可观的医学大数据,但这些数据并没有发挥应有的价值,如何从巨量复杂的数据中快速提取最有价值的信息,是制约当前医学大数据分析的关键问题[2]㊂近年来,知识图谱在工业界和学术界都得到了广泛的应用,成为最有效的知识集成方法之一[3]㊂知识图谱作为一种新型的知识表示形式,可以对错综复杂的文本数据进行有效的加工㊁处理㊁整合,转化为简单㊁清晰的三元组,最后聚合大量的知识,从而实现知识的快速响应和推理㊂一个完整的知识图谱的构建需要经历知识建模㊁知识存储㊁知识抽取㊁知识融合㊁知识计算和知识应用等阶段[4]㊂近年来,Freebase和DBpedia这样的大型知识图谱在众多下游应用中发挥了重要作用,引发了学术界和工业界的广泛关注㊂为了更全面分析知识图谱在医学领域的研究现状和趋势㊁对比研究热点,本文通过检索CNKI和WebOfScience中2012 2021年与知识图谱在医学领域研究主题相关的核心期刊为数据来源,导入CiteSpace软件进行文献计量可视化分析,旨在为中国的知识图谱在医学领域的研究提供参考建议㊂1㊀数据与方法1.1㊀数据来源中国知网(CNKI)是目前世界上最大的连续动态更新的学术期刊全文数据库,因此对CNKI数据库的学术期刊进行检索㊂2012年5月17日,Google正式提出了知识图谱(KnowledgeGraph)的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,2013年以后开始在学术界和业界普及[5]㊂故本文高级检索条件设置为:主题=知识图谱,检索时间设置为:2012 2021年,来源类别设置为:北大核心期刊㊁CSSCI期刊及CSCD期刊,根据检索结果,继续在检索结果中检索,设置主题= 医学 or主题= 医疗 or主题= 疾病 ,总计220条数据㊂以科学引文数据库WebofScience(WoS)核心合集为数据源,基本检索条件1设置为: 主题=KnowledgeGraph;文献类型=Article,Review;语种=English;自定义年份:2012-01-01到2021-12-31 ;基本检索条件2设置为: 主题=KnowledgeMap∗ ,其余检索条件同条件1;基本检索条件3设置为: 主题=Medical∗ ,其它条件同条件1㊂条件1检索到数据6019条,条件2检索到数据25439条,条件3检索到数据493292条㊂根据条件1㊁2㊁3检索的结果进行高级检索,高级检索条件4:(#1)OR(#2);高级检索条件5:(#3)AND#4㊂高级检索条件4检索到数据30784条,高级检索条件5检索到数据1251条㊂由于选择了精确匹配且在检索条件中限定了文献类型,而WoS数据库入库时也对文献类型进行了筛选分类,故检索获得的1251篇文献全部纳入本研究㊂1.2㊀研究方法本文以中国知网(CNKI)和WebofScience数据库核心合集收录的相关文献为研究对象,对国内外 知识图谱在医学领域研究 相关文献进行分析探究;利用文献分析工具CiteSpace对国内外该领域的研究现状和研究热点进行可视化分析;最后,综合对比国内外该领域研究现状和研究热点,提出相关建议㊂1.3㊀检索结果截止2021年11月6日,从CNKI核心期刊库检索出相关的文献220条,国内医学领域应用知识图谱的研究较少,从WebofScience核心期刊数据库检索出相关文献1251篇,相对于国内的研究,国外在该领域的研究投入较多㊂2㊀国内知识图谱在医学领域研究现状和热点分析2.1㊀发文量CNKI检索出该领域研究的学术论文220篇,从时间序列上来看,2012 2021年,国内知识图谱在医学领域研究整体发文量呈增长趋势如图1所示㊂2012 2014年该领域发文量增长缓慢,原因为国内知识图谱在医学领域研究处于起步阶段;2014年以后,该领域发文量增长速度较快;2020年达53篇,增长率高达70.9%学科领域的发文量在一定程度上可以反映该学科的发展程度和研究水平,该数据表明国内知识图谱在医学领域正处于较快发展阶段,知识图谱研究已引起了相关研究者的关注㊂国外文献数量30025020015010050发文量年份2012201320142015201620172018201920202021图1㊀发文量随时间变化趋势Fig.1㊀Trendsinthenumberofarticlespublishedovertime2.2㊀作者和研究机构分析对作者和研究机构进行分析,有助于整体把握中国知识图谱在医学领域开展研究的作者和机构分布态势㊂利用Citespace软件进行可视化分析,获得该领域研究者的合作关系如图2所示,节点半径越大表示相应发文量越多㊂㊀㊀对论文发表的作者进行统计分析见表1㊂表中列出了知识图谱在医学领域研究发表论文数量前10位的作者㊂普莱斯定律能够有效评价学者研究成果的影响力,定律指出相同主题中论文数量的一半是由具有较高生产力的作者群体所写,并且作者集合的数量约等于所有作者总数的平方根,计算公式(1):Mp=0.749㊀Npmax(1)式中Npmax表示发文量㊂按取整原则,发文量在2篇或2篇以上的论文作者为核心作者㊂33第5期郑增亮,等:知识图谱在医学领域的研究现状分析图2㊀国内作者合作关系图Fig.2㊀Domesticauthorpartnershipchart表1㊀国内作者发文量统计Tab.1㊀Statisticsonthenumberofarticlespublishedbydomesticauthors发文量(篇)首次发文时间作者52020昝红英52020张坤丽42020穗志方42014张持晨32020关同峰32017孙国涛32014苏纯惠32014郑建中32019奥德玛32014胡伟红㊀㊀利用Citespace进行可视化分析,获得机构合作关系图如图3所示,图中节点半径越大表示该机构与其他机构合作次数越多㊁发文量越多㊂由图3可知,中国知识图谱在医学领域的研究主要集中在高校和研究所,且主要集中于信息情报工程学院和医学院,其中郑州大学信息工程学院和鹏城实验室发文量最多,说明这两所研究机构对知识图谱在医学领域的研究比较重视,而且合作密切,在该领域科研力量强大;其次是中国中医科学院中医临床基础医学研究所㊁华中科技大学同济医学院医药卫生管理学院㊁华南理工大学工商管理学院等㊂2.3㊀国内研究热点和研究前沿分析研究热点和研究前沿常来源于新的科学发现或学科进展,是科学研究中最先进㊁最有发展潜力的研43智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀究主题或研究领域[6]㊂关键词词频共现可揭示文献所属领域研究主题的热点分布并揭示其内在联系和演进规律[7]㊂利用Citespace绘制关键词词频共现时序图如图4所示,进而展现知识图谱在医学领域研究热点和趋势㊂时序图节点的大小代表出现频次,频次较多的关键词或名词短语在一定程度上代表该领域的研究热点[8]㊂关键词时序图中关键词表示该关键词首次出现的时间,字体或节点大小客观反映知识图谱在医学领域研究持续的热度,节点越大说明该方向研究持续的热度越久㊂图3㊀机构合作关系图谱Fig.3㊀Institutioncooperationmap㊀㊀图4从左向右时间从2012年依次递增,最大的节点是 知识图谱 ,表明 知识图谱 热度在2012年一直持续;其次是 研究热点 , 可视化 , 共词分析 方面的热度比较持久;在 大数据 ㊁ 人工智能 词条出现后, 实体抽取 ㊁ 实体关系 和 实体识别 等关键词集中涌现,深度学习也应用于医学领域的知识图谱研究,说明随着前沿技术的应用,医学领域知识图谱的研究有了更深层次的发展;近年来知识图谱开始应用于 医养结合 ㊁ 临终关怀 ㊁ 养老院 等相关的养老服务,说明养老方向是近年国内医学知识图谱研究的一个趋势㊂53第5期郑增亮,等:知识图谱在医学领域的研究现状分析图4㊀国内研究关键词时序图Fig.4㊀Timelineofdomesticresearchkeywords3㊀国际研究热点和研究前沿分析3.1㊀发文量WebofScience数据库中检索出知识图谱在医学领域研究方面的文献1251篇㊂从时间序列上来看,2012-2021年,国外知识图谱在医学领域的研究的发文量整体呈增长趋势,每年的发文量总体大于国内的发文量,在2020年增长最快,增长率为48.45%㊂总体表明,国外知识图谱在医学领域的研究正处于不断发展的阶段㊂3.2㊀作者和研究机构分析对国外高产作者进行统计,见表2㊂依据普莱斯定律,发文量在2篇或2篇以上的论文作者为核心作者,共计77位,共发表论文162篇,占所有论文总数的12.95%,表明领域内合作度较小,作者发文都集中在自己的小圈子㊂可见国外在该领域研究的高产作者带头作用还未形成,且排名前十的作者中中国学者占据了6位,表明国内知识图谱在医学领域的研究处于国际前沿㊂㊀㊀利用Citespace进行可视化分析,获得国外该领域研究者的合作关系图以及国外机构合作关系图,如图5㊁图6所示㊂由图5可知,国外作者间的合作度比较低,倾向于在自己的圈子中开展研究;由图6可知,国外知识图谱在医学领域的研究机构主要集中在高校,加拿大多伦多大学(UniversityofToronto)发文量最多,其次依次是加拿大的麦克马斯特大学(McMasterUniversity)㊁美国的约翰斯㊃霍普金斯大学(JohnsHopkinsUniversity)㊁加拿大的麦吉尔大学(McGillUniversity)等㊂在发文量前十的国外机构中,加拿大的高校占据四席,且排名前二的都是隶属于加拿大的机构,表明加拿大高校在该领域的研究投入较多,在国际处于领先地位㊂表2㊀国外作者发文量统计Tab.2㊀Statisticsonthenumberofarticlespublishedbyforeignauthors发文量(篇)首次发文时间作者42014CLOVISFOGUEM42014BERNARDKAMSUFOGUEM32012ELPINIKIIPAPAGEORGIOU32020BUZHOUTANG32020YANGLI32020JUNYAN22021TAOLIU22020ZHEYUWANG22015ADAMLEEGORDON22018AILIANZHANG63智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀图5㊀国外作者合作关系图Fig.5㊀Foreignauthorcollaborationchart图6㊀国外机构合作关系图Fig.6㊀Foreigninstitutionpartnershipchart73第5期郑增亮,等:知识图谱在医学领域的研究现状分析3.3㊀研究热点和前沿分析利用CiteSpace构建关键词共现时序图,构建的关键词共现时序图包括339个节点,1786条连线如图7所示㊂可以看到knowledge(知识)㊁system(系统)㊁Care(护理)㊁model(模型)㊁management(管理)㊁education(教育)㊁medicaleducation(医学教育)㊁disease(疾病)㊁classification(分类)㊁impact(影响)10个热点词汇,显示当前国外在该领域的研究主题比较广㊂与国内的发展趋势相近,在2019年以后,出现了大数据㊁人工智能㊁预测等词汇,表明当前国外的知识图谱在医学领域的研究延伸到了技术应用的深层次领域㊂图7㊀国外研究关键词共现时序图Fig.7㊀Foreignresearchkeywordco-occurrencetimeserieschart4㊀国内外知识图谱在医学领域研究对比分析一篇文献的研究主题㊁研究方法等集中体现在关键词上,因此对一学科研究热点的探析可通过统计关键词的方法来进行研究,在CiteSpace可视化图谱中,突变词是指在较短时间内出现较多或使用频次增长率明显提高的词,可以反映出该领域的前沿动态[9]㊂关键词突现度可以反映一段时间内影响力较大的研究领域[10]㊂利用CiteSpace绘制关键词突显图来综合分析该领域的研究热点如图8所示㊂图8㊀关键词突显Fig.8㊀Keywordhighlight㊀㊀由图8可知,在研究内容方面,在知识图谱概念提出的前期,该领域 可视化 ㊁ 体系机构 ㊁ 学习 ㊁ 统计 等词出现较多,表明知识图谱研究初期,知识图谱在医学领域的研究大部分工作是利用知识图谱进行医学数据的统计㊂近几年,国内该领域逐渐出现 命名实体 ㊁ 抽取 ㊁ 分类 ㊁ 图数据83智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀库 等名词,可见随着科学技术的发展,医学领域的知识图谱正逐步构建起来㊂纵观国外知识图谱在医学领域的研究,从图概念㊁医学教育到药物的研发㊁病人的干预模式,而国内的研究则主要集中在统计和数据挖掘分析,值得注意的是中国知识图谱在养老服务中的研究比较深入㊂在研究深度方面,该领域的研究初期,国内外的研究热点主要集中在 统计 ㊁ 图概念 ㊁ 学习教育 领域的研究㊂随着时间推移,国外学者研究的主要方向在于知识图谱在 疾病 ㊁ 药物 ㊁ 干预方式 等领域的研究,国内主要注重于 大数据 ㊁ 数据挖掘 ㊁ 养老服务 领域的研究㊂最近研究的趋势都倾向于 人工智能| , 实体抽取 , 深度学习 等领域,表明知识图谱在医学领域的研究步入更深层次的阶段㊂在研究方向方面,国内知识图谱在医学领域研究关键词出现频次最高的为研究热点可视化(26次)㊁文献计量(13次)㊁深度学习(10次)㊁研究前沿(6次)㊁人工智能(6次)㊁实体关系(5次)㊁大数据(4次);国外关键词出现频次最高的为 system(系统) (70次)㊁ care(护理) (59次)㊁ model(模型) (55次)㊁ management(管理) (54次)㊁ education(教育) (42次)㊁ medicaleducation(医学教育) (39次)㊁ disease(疾病) (39次)㊁ classification(分类) (38次),说明国内的研究侧重于利用知识图谱相关技术进行医学领域知识的分析,并将前沿的技术应用到知识图谱中,而国外的研究侧重于把知识图谱应用到具体相关的应用,使其发挥实际作用,即国内知识图谱在医学领域的研究侧重于学术理论研究,国外研究侧重于实际应用㊂5 结束语本研究借助文献计量学方法和Citespace软件,对2012 2021年CNKI和WebofScience核心数据库中收录的㊁以 知识图谱在医学领域研究 为主题的研究文献,从发表时间㊁作者机构及前沿热点视角进行统计分析,探讨国内外学者对于知识图谱在医学领域研究异同点,得出以下结论㊂从时间序列上看,知识图谱在医学领域的研究已引起国内外学者的广泛关注,该领域的发文量正随着时间推移,呈现不断增长的趋势,并且国内外在该方面的研究逐渐步入更深层次的技术领域,新的方法技术正不断应用到医学领域的知识图谱中,包括 人工智能 ㊁ 大数据技术 ㊁ 深度学习 ,最近几年 实体抽取 ㊁ 实体融合 ㊁ 图数据库 等关键词不断涌出,表明医学领域的知识图谱正在逐步被构建㊂随着人工智能㊁大数据技术㊁机器学习和知识图谱逐步融合,构建完善的医学领域知识图谱,必定在医学辅助决策㊁辅助诊断㊁智慧医疗等方面发挥积极作用㊂从该领域作者发文量和作者所属机构的合作情况来看,该领域还未形成具有带头作用的机构或团体,在该领域的研究合作度较低,知识图谱在医学领域还有广阔的发展空间,各机构间加强合作,扩展自己的合作圈是在该领域快速取得成果的有效途径㊂领域发文最多的前10作者中,国内的作者占据一多半,足以展现出中国知识图谱在医学领域的研究处于国际领先水平,中国许多优秀的学者倾向于把研究成果优先发表于国外的核心期刊中㊂在研究机构中,加拿大高校在该领域的研究投入较多,在该领域的科研实力较强㊂国内外知识图谱在医学领域方面的研究侧重点不同,国内学者在该领域的研究处于世界领先地位,未来利用大数据㊁人工智能㊁深度学习技术推进医学领域知识图谱的构建当前知识图谱在医学领域的研究趋势㊂国内学者加强合作,积极探索理论和应用相结合的方式方法,进一步深化研究,必然推动中国医学领域的全面发展㊂参考文献[1]LIG,LIUY,CAIH.Researchonapplicationofbigdatainmedicalindustry[C]//20183rdInternationalConferenceonSmartCityandSystemsEngineering(ICSCSE).IEEE,2018:763-765.[2]袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018,35(7):8.[3]YANJ,WANGC,CHENGW,etal.Aretrospectiveofknowledgegraphs[J].FrontiersofComputerScience,2018,12(1):55-74.[4]朱超宇,刘雷.基于知识图谱的医学决策支持应用综述[J].数据分析与知识发现,2020,4(12):26-32.[5]段宏.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):19.[6]陈仕吉.科学研究前沿探测方法综述[J].现代图书情报技术,2009(9):28-33.[7]孙雨生,陈卫.我国网格服务研究进展 基于CNKI(2003-2012)的文献计量与知识图谱分析[J].现代情报,2013,33(7):102-111.[8]安传艳,李同昇,翟洲燕,等.1992-2016年中国乡村旅游研究特征与趋势 基于CiteSpace知识图谱分析[J].地理科学进展,2018,37(9):30-44.[9]寇继虹,楼雯.概念图研究演进的知识图谱分析[J].图书情报知识,2012(2):117-123.[10]李静,朱继民,武松.我国医学统计学课程研究热点及趋势的知识图谱分析[J].中国卫生统计,2020,37(2):284-286.93第5期郑增亮,等:知识图谱在医学领域的研究现状分析。
2021,31(2)郭和刚 我国尿素行业研究知识图谱分析 櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴櫴毷毷毷毷综 述评 论我国尿素行业研究知识图谱分析郭和刚 中国成达工程有限公司 成都 610041摘要 以中国知网2010~2020年尿素行业相关文献为数据源,采用citespace软件进行技术领域和研究热点可视化分析,发现近十年我国尿素行业研究共形成了尿素工艺、尿素装置(装备)两个重点技术领域,尿素工艺技术领域的研究热点为二氧化碳汽提法、水溶液全循环法和尿素增值技术;尿素装置(装备)技术领域的研究热点为尿素合成塔和尿素水解解吸系统。
目前我国尿素行业正处于创新发展、转型升级的关键时期,需要提高行业整体技术水平、环保水平和优化产品结构。
关键词 尿素 工艺 装置 知识图谱郭和刚:高级工程师。
2005年毕业于四川大学应用化学专业。
从事化工工艺设计及工程咨询工作。
联系电话:(028)65537113,18010657113,E-mail:guohegang@chengda com。
我国粮食产量的增加与氮肥施用存在正相关关系[1],其中尿素是我国粮食增产和不断发展的重要基础。
虽然尿素生产是一门古老而传统的生产技术,但大型尿素生产装置的工程配套技术却是尖端技术工程化的结晶。
分析近年来我国尿素行业相关文献,厘清领域内的研究热点及其演化,有利于掌握尿素相关技术的发展动态,对提高尿素行业整体技术水平、环保水平和优化尿素相关产品结构有重要的指导意义。
1 研究数据与方法以“尿素生产”为研究主题在中国知网进行文献检索,检索时间范围为2010~2020年,共检索出3500篇期刊论文,作为本研究样本文献。
Citespace是由美国陈超美教授[2]研发的一款学术动态追踪软件,运用文献计量学的方法,从大量文献中给出热点技术领域及其研究趋势和演化方向,并以可视化图谱的方式加以呈现。
2 知识图谱分析基于3500篇文献生成的知识图谱见图1。
可见近十年我国尿素行业共形成了尿素工艺、尿素装置(装备)两个重点技术领域。
(2023)中国知识图谱行业研究报告(一)
中国知识图谱行业研究报告
概述
•2023年中国知识图谱市场规模有望突破100亿元
•知识图谱是指利用图谱模型来表示知识的一种知识表示方法•目前国内知识图谱产业正在经历快速发展阶段
技术趋势
•基于知识图谱的智能问答系统将逐渐取代基于搜索引擎的问答方式
•基于知识图谱的智能客服系统将成为企业数字化转型的重要组成部分
•知识图谱与人工智能、区块链等技术的结合将会带来更多的应用场景
市场前景
•教育领域:利用知识图谱打造个性化、智能化的教育平台
•医疗领域:利用知识图谱构建医疗知识库和智能辅助诊断系统•金融领域:利用知识图谱加强风险控制和客户管理
行业热点
•知识图谱数据可视化工具的研发
•知识图谱自动化构建技术的提升
•知识图谱标准化和融合技术的发展
未来展望
•未来几年内,中国知识图谱市场有望保持高速增长态势
•知识图谱产业将成为人工智能发展的重要支撑
•未来,知识图谱将成为企业数字化转型的重要基础设施之一
主要挑战
•知识图谱数据的质量和规模问题
•知识图谱应用场景的局限性问题
•知识图谱行业标准和规范的缺失问题
发展策略
•加强知识图谱相关人才的培养和引进
•加强知识图谱产业生态建设,促进行业标准化和融合
•推动知识图谱技术与其他技术的深度融合,拓展应用场景
结语
中国知识图谱产业正处于高速发展期,面临诸多机遇和挑战。
未来,随着技术的成熟和应用场景的拓展,知识图谱将会为各个行业带来更多的智能化解决方案,推动数字化转型和经济发展。
人工智能之知识图谱Research Report of Knowledge Graph目录图表目录 (4)摘要 (6)1.概念篇 (7)1.1.知识图谱概念和分类 (7)1.1.1.知识图谱的概念 (7)1.1.2.知识图谱的分类 (3)1.2.知识工程发展历程 (3)1.3.知识图谱的知识图谱 (6)2.技术人才篇 (10)2.1.知识表示与建模 (11)2.1.1.知识表示模型 (11)2.1.2.知识表示学习 (12)2.1.3.知识表示与建模人才介绍 (12)2.2.知识获取 (19)2.2.1.实体识别与链接 (19)2.2.2.实体关系学习 (20)2.2.3.事件知识学习 (21)2.2.4.知识获取人才介绍 (22)2.3.知识融合 (29)2.3.1.本体匹配 (30)2.3.2.实例匹配 (30)2.3.3.知识融合人才介绍 (30)2.4.知识图谱查询和推理计算 (36)2.4.1.知识推理 (36)2.4.2.知识存储和查询 (37)2.4.3.知识查询与推理人才介绍 (38)2.5.知识应用 (44)2.5.1.典型应用 (44)2.5.2.通用和领域知识图谱 (45)2.5.3.知识应用人才介绍 (46)2.6.高引学者及论文介绍 (51)2.6.1.高引学者介绍 (51)2.6.2.高引论文介绍 (56)2.7.会议奖项介绍 (57)3.应用篇 (67)3.1.通用知识图谱应用 (67)3.2.3.企业商业 (70)3.2.4.创业投资 (71)3.2.5.生物医疗 (72)4.趋势篇 (73)参考文献 (76)附录 (78)图表目录图 1 知识工程发展历程 (3)图 2 Knowledge Graph 知识图谱 (9)图 3 知识图谱细分领域学者选取流程图 (10)图 4 基于离散符号的知识表示与基于连续向量的知识表示 (11)图 5 知识表示与建模领域全球知名学者分布图 (13)图 6 知识表示与建模领域全球知名学者国家分布统计 (13)图7 知识表示与建模领域中国知名学者分布图 (14)图8 知识表示与建模领域各国知名学者迁徙图 (14)图9 知识表示与建模领域全球知名学者h-index 分布图 (15)图10 知识获取领域全球知名学者分布图 (23)图11 知识获取领域全球知名学者分布统计 (23)图12 知识获取领域中国知名学者分布图 (23)图13 知识获取领域各国知名学者迁徙图 (24)图14 知识获取领域全球知名学者h-index 分布图 (24)图15 语义集成的常见流程 (29)图16 知识融合领域全球知名学者分布图 (31)图17 知识融合领域全球知名学者分布统计 (31)图18 知识融合领域中国知名学者分布图 (31)图19 知识融合领域各国知名学者迁徙图 (32)图20 知识融合领域全球知名学者h-index 分布图 (32)图21 知识查询与推理领域全球知名学者分布图 (39)图22 知识查询与推理领域全球知名学者分布统计 (39)图23 知识查询与推理领域中国知名学者分布图 (39)图24 知识表示与推理领域各国知名学者迁徙图 (40)图25 知识查询与推理领域全球知名学者h-index 分布图 (40)图26 知识应用领域全球知名学者分布图 (46)图27 知识应用领域全球知名学者分布统计 (46)图28 知识应用领域中国知名学者分布图 (47)图29 知识应用领域各国知名学者迁徙图 (47)图30 知识应用领域全球知名学者h-index 分布图 (48)图31 行业知识图谱应用 (68)图32 电商图谱Schema (69)图33 大英博物院语义搜索 (70)图34 异常关联挖掘 (70)图35 最终控制人分析 (71)图36 企业社交图谱 (71)图37 智能问答 (72)图38 生物医疗 (72)图39 知识图谱领域近期热度 (75)图40 知识图谱领域全局热度 (75)表1 知识图谱领域顶级学术会议列表 (10)表2 知识图谱引用量前十论文 (56)表3 常识知识库型指示图 (67)摘要知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应用,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
新一代信息技术产业应用与创新研究报告第一章引言 (3)1.1 研究背景 (3)1.2 研究目的与意义 (3)1.3 研究方法与框架 (4)第二章新一代信息技术概述 (4)2.1 新一代信息技术的定义与发展 (4)2.2 新一代信息技术的分类与特点 (4)2.2.1 分类 (4)2.2.2 特点 (5)2.3 新一代信息技术的发展趋势 (5)2.3.1 技术创新不断加速 (5)2.3.2 产业融合程度加深 (5)2.3.3 应用场景日益丰富 (5)2.3.4 安全问题日益凸显 (5)2.3.5 政策支持力度加大 (5)第三章人工智能应用与创新 (5)3.1 人工智能技术概述 (6)3.2 人工智能在行业中的应用 (6)3.2.1 制造业 (6)3.2.2 医疗健康 (6)3.2.3 金融业 (6)3.2.4 教育 (6)3.2.5 交通出行 (6)3.3 人工智能技术的创新方向 (6)3.3.1 机器学习算法优化 (6)3.3.2 知识图谱构建与应用 (7)3.3.3 边缘计算与人工智能融合 (7)3.3.4 人工智能伦理与法律规范 (7)第四章大数据应用与创新 (7)4.1 大数据技术概述 (7)4.2 大数据在行业中的应用 (7)4.3 大数据技术的创新方向 (8)第五章物联网应用与创新 (8)5.1 物联网技术概述 (8)5.2 物联网在行业中的应用 (8)5.2.1 智能家居 (8)5.2.2 智慧农业 (9)5.2.3 智慧医疗 (9)5.2.4 智慧城市 (9)5.3 物联网技术的创新方向 (9)5.3.1 传感器技术 (9)5.3.2 网络通信技术 (9)5.3.3 数据处理与分析技术 (9)5.3.4 安全技术 (9)5.3.5 跨界融合 (10)第六章云计算应用与创新 (10)6.1 云计算技术概述 (10)6.2 云计算在行业中的应用 (10)6.2.1 金融行业 (10)6.2.2 医疗行业 (10)6.2.3 教育行业 (10)6.2.4 制造行业 (10)6.3 云计算技术的创新方向 (11)6.3.1 云计算安全 (11)6.3.2 云计算功能优化 (11)6.3.3 云计算与人工智能的融合 (11)6.3.4 边缘计算与云计算的融合 (11)第七章 5G技术应用与创新 (11)7.1 5G技术概述 (11)7.2 5G技术在行业中的应用 (11)7.2.1 智能制造 (11)7.2.2 智能交通 (12)7.2.3 医疗健康 (12)7.2.4 虚拟现实与增强现实 (12)7.2.5 其他领域 (12)7.3 5G技术的创新方向 (12)7.3.1 网络切片技术 (12)7.3.2 边缘计算 (12)7.3.3 新型网络架构 (12)7.3.4 开放性网络 (12)7.3.5 安全与隐私保护 (13)第八章区块链应用与创新 (13)8.1 区块链技术概述 (13)8.2 区块链在行业中的应用 (13)8.3 区块链技术的创新方向 (14)第九章新一代信息技术产业政策与发展策略 (14)9.1 新一代信息技术产业政策分析 (14)9.1.1 国家层面政策概述 (14)9.1.2 地方层面政策分析 (14)9.2 新一代信息技术产业发展策略 (15)9.2.1 坚持以创新为核心 (15)9.2.2 优化产业结构 (15)9.2.3 深化产业链协同 (15)9.2.4 加强人才培养与引进 (15)9.3 新一代信息技术产业前景预测 (15)第十章结论与建议 (16)10.1 研究结论 (16)10.2 研究不足与展望 (16)10.3 政策建议与产业指导 (17)第一章引言1.1 研究背景全球经济一体化和科技创新的不断推进,新一代信息技术产业成为推动国家经济发展的重要引擎。
⾏业知识图谱的构建及应⽤【说在前⾯】本⼈博客新⼿⼀枚,象⽛塔的⽼⽩,职业场的⼩⽩。
以下内容仅为个⼈见解,欢迎批评指正,不喜勿喷![认真看图][认真看图]【补充说明】如果你对知识图谱感兴趣,欢迎先浏览我的另⼀篇随笔:⼀、知识图谱的机遇与挑战分享⼀下肖仰华教授的报告。
报告深度剖析知识图谱的发展进程,系统整理知识图谱上半场的主要成果,分析知识图谱下半场的挑战与机遇,以期为各⾏业的认知智能实践带来有益的参考。
▌知识图谱上半场1. 传统知识⼯程2. ⼤数据知识⼯程①⼤规模简单知识表⽰②知识获取③基于知识图谱的简单推理3. ⼤数据知识⼯程到底解决了哪些问题?①语⾔表达鸿沟②缺失的因果链条③碎⽚化数据的关联与融合④深化⾏业数据的理解与洞察⑤显著提升了机器的⾃然语⾔理解⽔平⑥基于知识图谱的⼤规模知识服务⑦知识图谱可视化已⼤量应⽤⑧⼤数据知识⼯程理论体系⽇趋完善▌知识图谱下半场1. 应⽤场景转变2. 新的趋势①繁杂的应⽤场景②深度的知识应⽤③密集的专家知识④有限的数据资源3. 机遇4. 应对策略知识表⽰⽅⾯:①与其他知识表⽰的协同表⽰与推理②知识图谱的多模态表⽰③知识图谱的个性化表⽰知识获取⽅⾯:①发展低成本知识获取⽅法②注重多粒度知识获取③发展⼤规模常识知识获取④复杂知识获取机制与⽅法①知识图谱应⽤透明化②基于知识图谱的可解释⼈⼯智能③发展符号知识指导下的机器学习模型▌总结⼆、⾏业知识图谱的构建与应⽤分享⼀下PlantData的⽂章:⾏业知识图谱构建与应⽤。
1. 知识图谱整体结构描述知识图谱结构拓扑图如图所⽰:企业全量数据应⽤挑战及应对策略:(1)多源异构数据难以融合使⽤知识图谱(本体)对各类数据建模,基于可动态变化的数据模型(概念-实体-属性-关系),实现统⼀建模。
(2)数据模式动态变迁困难使⽤可⽀持数据模式动态变化的知识图谱的数据存储。
(3)⾮结构化数据计算机难以理解利⽤信息抽取技术。
(4)数据使⽤专业程度过⾼(5)分散的数据难以统⼀消费利⽤在知识融合的基础上,基于语义检索、知识问答、图计算、推理、可视化等技术,提供数据检索/分析/利⽤,统⼀平台。
知识图谱发展报告摘要:本文主要研究知识图谱的发展现状及未来趋势。
通过分析当前主流的知识图谱技术,梳理了知识图谱的定义、实现方式、应用场景及优势。
同时,针对知识图谱在各领域的实际应用情况进行了详细探讨。
最后,本文提出了知识图谱未来的发展方向以及相应的发展策略。
一、知识图谱概念及实现方式知识图谱是基于知识图谱技术的知识管理和智能应用平台。
知识图谱是一种结构化的、语义化的、以图形表示的知识存储和信息管理方法。
它通过将大量的结构化数据整合起来,形成一个综合的、可查询的、可编辑的知识图谱数据库,实现知识的有效管理和共享。
知识图谱的实现方式主要有以下两种:1.基于本体的知识建模方法:本体是一种描述物体、概念、关系等数据的模型,它是知识图谱的基础。
通过本体描述事物之间的关系,将这些事物组织成一张结构化的知识图谱。
2.自然语言处理技术:自然语言处理技术是将自然语言数据转化为计算机可读格式的一种技术。
通过自然语言处理技术,获取文本中的实体、关系、属性等信息,将其转化为结构化的知识图谱。
二、知识图谱应用场景及优势知识图谱在各领域均有广泛的应用。
例如,医疗领域中的疾病诊断、药物研发和医学知识整合,知识图谱都有重要的应用。
电商领域中的产品推荐、智能客服和定制化营销等,同样离不开知识图谱。
知识图谱具有以下几点优势:1.高效的知识管理和共享:知识图谱通过其良好的数据模型,可以对大量的信息进行有效管理和共享。
不同部门或机构之间可以共享各自的知识,提高工作效率。
2.全面的知识关联和分析:知识图谱可以对海量的数据进行关联和分析,快速找到潜在的知识关联和价值。
这有助于发现新的知识和洞察业务的本质。
3.智能化的应用和服务:基于知识图谱建立的应用和服务可以实现更智能化的业务需求,提高客户满意度和用户黏性。
三、知识图谱未来发展方向和策略随着大数据技术和人工智能的发展,知识图谱的应用范围和深度都将不断扩大。
未来,知识图谱将在以下几个方面得到更广泛的应用:1.跨领域知识融合:知识图谱将应用在更多的领域,并囊括更多的知识和信息。