领域知识图谱的技术与应用
- 格式:doc
- 大小:1.22 MB
- 文档页数:20
知识图谱技术应用于图书领域的研究随着人工智能技术的发展,知识图谱作为其中的一个重要领域,逐渐得到了广泛的关注和应用。
知识图谱是一种用于描述和组织各种实体及其之间关系的语义网络。
它可以帮助我们更好地理解和管理海量的数据信息,而在图书领域,知识图谱技术的应用,也正逐步地改变着图书的生命周期的各个环节。
一、知识图谱技术在图书分类和索引方面的应用在图书馆或图书出版社的分类和索引工作中,传统的方法是采用手工编制。
这样的方式效率低下、成本高昂、且容易出现误差。
而借助于知识图谱技术,可以建立一个基于语义的自动化分类和索引系统,大大提高了准确性和效率。
在这个系统中,每一本图书都可以通过它的特征和元数据,结合知识图谱的运用,自动分类和归档。
此外,在知识图谱技术的帮助下,还可以实现对图书的智能检索和推荐,让读者能够更方便地获取自己需要的信息。
二、知识图谱技术在出版社编辑和策划方面的应用在出版业中,图书的编辑和策划等环节非常重要。
借助于知识图谱技术,可以在图书编辑的初期就对洛或章节的结构进行更为高效和科学的规划。
因为知识图谱技术可以对大量相关信息进行有效的整合和分析,而这些信息可以用于辅助编辑人员进行文献引用的管理,查找相关资源,以及为读者提供更好的长尾内容服务等方面。
三、知识图谱技术在读者服务和图书销售方面的应用在传统的图书店中,往往需要借助于图书专员或书籍推荐系统,来帮助读者找到适合自己的图书。
而在借助知识图谱技术的帮助下,通过对读者所借阅的图书做出分析和推荐,可以更好地为读者提供个性化及时的推荐服务。
同时,知识图谱技术还可以辅助图书销售,帮助书店更好地进行进货和销售管理。
四、知识图谱技术的应用现状如今,世界各地的各个部门,都在积极地采用知识图谱技术,以更好地管理和利用大数据。
而在图书领域,很多公司和机构也在积极地探索和推进其应用。
例如,亚马逊的 Kindle 电子书阅读器就在其固件中引入了一个名为 Goodreads 的社交网络系统,其中就包含了对书籍的评分、评论和收藏等信息。
知识图谱技术的发展及其应用前景1.前言随着人工智能、大数据、云计算等技术的发展,知识图谱技术也越来越受到人们的关注。
知识图谱是一种基于语义网络构建的知识库,可以帮助我们更好地理解和利用数据。
本文将介绍知识图谱技术的发展及其应用前景。
2.知识图谱技术的发展知识图谱的概念最早出现在20世纪60年代,但当时由于技术限制和数据的匮乏,知识图谱并没有得到广泛应用。
直到近年来,随着人工智能和大数据技术的发展,知识图谱技术才逐渐成为热门话题。
目前,知识图谱技术已经得到了广泛应用,其中包括金融、医疗、教育、智能家居等领域。
以智能家居为例,如果我们能够将各种设备和服务连接在一起,形成一个智能家居系统,那么我们就可以通过一个设备控制整个家居系统,并利用知识图谱进行智能决策。
3.知识图谱技术的应用前景随着知识图谱技术的发展,其应用前景也变得异常广阔。
以下是知识图谱技术的主要应用领域:3.1 智能推荐系统智能推荐系统是指根据用户的兴趣、偏好和历史行为,自动推荐最相关的内容。
知识图谱技术可以通过分析用户的行为数据和社交关系,提取出用户的兴趣和偏好,并帮助企业更好地了解用户需求。
3.2 金融行业知识图谱技术可以帮助银行更好地了解客户需求,为用户提供更优质、更个性化的服务。
例如,银行可以通过知识图谱技术构建客户画像,从而更好地了解客户需求和风险偏好。
3.3 医疗行业知识图谱技术可以帮助医生更好地诊断疾病,提高临床效率。
例如,医生可以利用知识图谱技术分析患者病史和各种检查结果,从而更好地诊断疾病并制定治疗方案。
3.4 智能家居知识图谱技术可以帮助家庭更好地管理各种智能设备,提高家庭生活质量。
例如,家庭可以利用知识图谱技术将各种设备和服务连接在一起,形成一个智能家居系统,通过一个设备控制整个家居系统,并利用知识图谱进行智能决策。
4.结语知识图谱技术是人工智能、大数据时代的重要组成部分,其应用前景非常广阔。
未来,我们相信知识图谱技术将会在更多领域得到应用,带领我们走向一个更加智能的世界。
领域应用 | 知识图谱的技术与应用本文转载自公众号:贪心科技。
领域应用 | 知识图谱的技术与应用李文哲开放知识图谱 1周前本文转载自公众号:贪心科技。
作者 | 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
它在技术领域的热度也在逐年上升。
本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。
对于读者,我们不要求有任何AI相关的背景知识。
目录:1.概论2.什么是知识图谱3.知识图谱的表示4.知识抽取5.知识图谱的存储6.金融知识图谱的搭建1.定义具体的业务问题2.数据收集 & 预处理3.知识图谱的设计4.把数据存入知识图谱5.上层应用的开发7.知识图谱在其他行业中的应用8.实践上的几点建议9.结语1. 概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。
如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。
在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。
2. 什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。
从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。
知识图谱技术在教育等领域的应用研究一、简介随着人工智能技术的快速发展,知识图谱技术成为人工智能领域研究的热门方向之一。
知识图谱是一种以知识为中心的图形化表示方式,它可以将不同领域的知识形成一个完整的知识库,并通过深度学习算法进行自我学习和优化,实现知识的智能化管理。
在教育等领域,知识图谱技术可以帮助教育机构和学校建设智能化教育管理系统,提高教育质量和教学效果。
二、知识图谱技术在教育管理中的应用1.教学资源管理知识图谱技术可以将教学资源进行分类、整合和管理,实现数据化管理。
通过建立教学资源知识图谱,教师可以根据学科和主题进行资源检索和筛选,提高了教学资源的利用率。
同时,知识图谱技术还可以对学生的学习情况进行分析和评估,实现个性化教学。
2.学生行为管理知识图谱技术可以通过分析学生的学习习惯、兴趣爱好等行为特征,为学生提供更加个性化的学习体验。
例如,提供适合学生学习的课程和学习资源,为学生量身定制个性化培养计划。
同时,还可以通过知识图谱技术进行学生行为识别和风险管理,以保证学校和教师的教学质量。
3.教师培训管理知识图谱技术可以对教师进行教学能力评估,并针对教师的不足之处进行培训和提高,实现了教师教学能力的提升。
通过知识图谱技术的智能化辅助,教师可以更加系统和高效地进行学习和培训。
三、知识图谱技术在在线教育中的应用1.教学内容推荐知识图谱技术可以根据学生的学习需求和兴趣爱好,为学生提供适合的教育内容。
通过知识图谱技术进行推荐,可以更好地匹配学生的学习需求,提高学生的学习效果。
2.在线课程设计知识图谱技术可以根据学生的学习需求和个性化特征,为学生量身定制教育课程设计。
通过知识图谱技术进行在线课程设计,可以更好地照顾到学生的个性化需求,提高学生的学习效果。
3.错题分析与反馈知识图谱技术可以对学生的做题情况进行分析和评估,并能够及时反馈学习情况,让学生更好地了解自己的学习情况。
同时,通过知识图谱技术还可以提供错题分析和辅导,为学生提供更好的帮助。
知识图谱的关键技术与应用随着人工智能技术的不断发展,知识图谱逐渐成为人工智能领域中的重要技术之一。
知识图谱不仅可以帮助机器理解语言,还可以通过知识链接和推理等功能实现类人的思维能力。
本文将介绍知识图谱的关键技术和应用。
一、知识图谱的定义知识图谱是一种人工智能技术,是一种用于描述事物之间关系的图形化表示方法。
它是一种基于实体、属性和关系的知识组织结构,可以将各种信息进行结构化、标准化和统一化处理,从而达到知识互通的目的。
二、知识图谱的关键技术1. 知识获取知识图谱的基础是知识获取,该过程涉及到信息抽取、实体识别、关系提取、实体链接等技术。
在知识获取过程中,对于不同的数据源,需要设计不同的算法模型和规则库,并通过自然语言处理、机器学习等技术在大规模语料库中自动化地提取实体和关系,并将其转化为结构化和标准化的知识形式。
2. 知识表示知识表示是指将从不同数据源中获取的知识进行统一标准的表示和存储,以实现知识的互通和可推理。
在知识表示过程中,需要考虑知识表示的粒度、表示形式和知识本体等方面。
当前最常用的知识表示技术包括RDF、OWL、RDFS等。
3. 知识推理知识推理是实现知识智能处理的核心技术之一。
知识推理通过基于本体、规则和语义等方式,进行知识关联、归纳、演绎等推理,并通过推理产生新的知识。
知识推理涉及到推理引擎、推理规则、查询语言等技术。
4. 知识查询知识查询是指在知识图谱中进行复杂的查询操作,以实现知识检索、推理以及问题解答。
知识查询技术包括SPARQL、SQL、RQL等。
三、知识图谱的应用1. 搜索引擎知识图谱可以帮助搜索引擎提供更准确的搜索结果。
例如,谷歌通过使用知识图谱,可以为用户提供更多的相关搜索结果,提高搜索精度。
2. 智能客服知识图谱可以帮助智能客服更准确地理解用户意图和问题,并给出更准确的回答。
例如,使用知识图谱可以建立机器人对话模型,实现智能对话,并提供更加便捷的客户服务。
3. 金融领域知识图谱在金融领域中也有广泛的应用。
知识图谱技术在教育领域中的应用研究近年来,随着人工智能技术的快速发展,知识图谱作为其中的一项重要技术,成为了教育领域内广受关注的热门话题。
知识图谱是一种基于语义网络的数据结构,通过对多个知识点之间的关系进行关联和整合,从而形成一个完整的知识体系。
在教育领域,知识图谱技术可以帮助学生更好地理解知识,提高学习效率,同时也可以帮助教师更好地管理和组织教学内容,提高教学质量。
一、知识图谱技术对学生学习的影响1.提高学习效率知识图谱技术可以将多个知识点之间的关系进行关联和整合,形成一个完整的知识结构。
在学生学习过程中,通过知识图谱技术,他们可以更好地理解各个知识点之间的关系,找到其中的规律和联系,从而提高学习效率。
2.帮助学生自主学习在传统的教学模式下,学生通常需要依赖教师的讲解,才能够理解和掌握知识。
而采用知识图谱技术后,学生可以通过自主学习,按照自己的兴趣和需求,选择不同的知识点进行学习,提高了学生的学习积极性和自主性。
3.促进跨学科学习知识图谱技术可以将不同学科之间的知识点进行关联和整合,形成一个跨学科的知识结构。
通过学习这样的知识结构,学生可以更好地理解不同学科之间的联系和互相依赖关系,从而促进跨学科学习。
二、知识图谱技术对教师教学的影响1.提高教学效率在传统的教学模式下,教师需要花费大量的时间和精力,组织和备课。
而采用知识图谱技术后,教师可以通过整合和关联不同的知识点,更好地组织和管理教学内容,从而提高教学效率。
2.帮助教师个性化教学在知识图谱中,每个知识点都可以与其他知识点建立关联,形成一个复杂的网络结构。
通过这样的网络结构,教师可以更好地进行个性化的教学,根据学生的不同需求和水平,选择不同的知识点进行教学,提高教学效果。
3.促进教师专业化发展采用知识图谱技术,教师需要不断更新和整合知识结构,从而将不同的知识点进行关联和整合。
这样的过程需要教师具备一定的专业知识和技能,从而促进了教师的专业化发展。
专业领域知识图谱的构建与应用一、概述随着大数据和人工智能技术的发展,知识图谱成为了一个热门话题。
知识图谱是指对于某一个领域的知识进行抽象和编码,并通过加工处理存储在图形化的平台上。
对于任何一个领域而言,构建知识图谱都有着巨大的应用前景。
本文主要介绍专业领域知识图谱的构建与应用。
二、专业领域知识图谱的构建1.数据获取:围绕着某一个领域,需要收集相关的信息、书籍、论文等。
同时,科技文献数据库、专业论坛、专业社交网络等也是不可忽略的数据源。
2.数据处理:获得的数据需要经过加工和处理,主要包括数据提取、数据清洗、数据结构化等。
通过数据处理,可以提高数据准确性和提取出对应领域的核心信息。
3.构建模型:专业领域知识图谱的构建需要考虑模型的设计、体系结构、存储模式等。
模型设计需要综合考虑领域内的知识点、概念、关系等,建立起领域内信息的本体结构。
4.图谱生成:图谱生成是专业领域知识图谱构建的核心环节,即将处理好的数据、设计好的模型进行融合。
可以通过图数据库的方式存储生成好的图谱,将模型的实体、概念等存在图上。
三、专业领域知识图谱的应用1.智能问答:搭建专业领域知识图谱支持智能问答系统的开发。
在这个系统中,用户的提问将通过问句解析生成可以在图谱中搜索的问题表达式,并返回一个领域内最佳匹配的答案信息。
2.信息检索:专业领域知识图谱可以作为支持信息检索的工具。
用户可以输入关键词联想到与该词相关的领域专业知识,增强用户在特定领域的信息检索能力。
3.知识管理:专业领域知识图谱可以辅助企业、组织管理,使得组织内部的知识点、知识标签、知识关系等形成一个完整的知识网络,提高内部知识传递的效率。
4.智能匹配:基于专业领域知识图谱的智能匹配可以对知识进行自动匹配,匹配结果反馈给用户。
例如,通过领域内岗位要求和招聘者的简历,进行智能匹配筛选。
四、专业领域知识图谱的发展趋势1.一体化:不同的数据源和语言会形成不同的学科乃至行业的分支,专业领域知识图谱的发展趋势是将这些不同领域的知识点进行融合,形成知识的一体化。
知识图谱技术的应用与发展知识图谱技术是一种人工智能技术,它能够将不同领域的知识进行智能化的整合和表达,构建出一个全面、精准的知识图谱。
随着人工智能技术的发展,知识图谱技术的应用场景不断扩大,越来越多的企业在实际业务中开始应用知识图谱技术,以提高工作效率和精准性。
一、知识图谱技术的应用场景1.内容推荐知识图谱技术能够通过分析用户的兴趣、行为等数据,对用户进行个性化推荐,提高用户对内容的精准匹配度。
以腾讯新闻推荐为例,其背后就运用了知识图谱技术。
腾讯新闻会根据用户的浏览历史、点赞、评论、分享等数据,利用知识图谱技术对不同领域的新闻进行分析和归纳,从而将用户感兴趣的内容推荐给用户。
知识图谱技术还可以应用于电商网站、音乐视频网站等,对用户进行个性化推荐,提高用户体验。
2.智能客服知识图谱技术可以通过对用户问题的分类和归纳,将用户提出的问题和最佳解决方法进行匹配,提供智能化的客服服务。
这种技术不仅能够提高客服效率,还可以提高客户满意度。
以京东客服为例,其背后也运用了知识图谱技术。
当用户在京东平台上遇到问题需要咨询客服时,京东客服会利用知识图谱来对问题进行分类和识别,从而将用户的问题快速匹配到相关的专家。
3.语义搜索知识图谱技术可以有效提高搜索引擎的搜索效率和准确性,通过语义解析和人工智能算法,实现精准的语义搜索。
以百度为例,百度知道中的问题搜索,就利用了知识图谱和语义搜索技术。
当用户输入一个问题时,百度搜索引擎能够自动进行语义分析,从而将相似内容的答案进行匹配,并将搜索结果按照相关度进行排序,提高用户体验。
4.医学诊断知识图谱技术在医学领域也有着广泛的应用。
通过对各种病例的数据进行整理和归纳,知识图谱可以形成具有完整语义结构的医学知识库,帮助医生和患者做出更准确的医学诊断。
以英迈思公司为例,其背后的医学知识图谱系统可以快速识别、组织和解析复杂医学数据,实现从现有文献到实际临床应用的知识转化,提高医学诊断的准确度。
领域应用| 知识图谱的技术与应用本文转载自公众号:贪心科技。
领域应用| 知识图谱的技术与应用李文哲开放知识图谱1周前本文转载自公众号:贪心科技。
作者| 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
它在技术领域的热度也在逐年上升。
本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。
对于读者,我们不要求有任何AI相关的背景知识。
目录:1. 概论2. 什么是知识图谱3. 知识图谱的表示4. 知识抽取5. 知识图谱的存储6. 金融知识图谱的搭建1. 定义具体的业务问题2. 数据收集& 预处理3. 知识图谱的设计4. 把数据存入知识图谱5. 上层应用的开发7. 知识图谱在其他行业中的应用8. 实践上的几点建议9. 结语1. 概论随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。
如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。
在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。
2. 什么是知识图谱?知识图谱是由Google公司在2012年提出来的一个新的概念。
从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
那什么叫多关系图呢?学过数据结构的都应该知道什么是图(Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。
但相反,多关系图一般包含多种类型的节点和多种类型的边。
比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。
这些类型由不同的颜色来标记。
在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。
实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
现实世界中的很多场景非常适合用知识图谱来表达。
比如一个社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。
人和人之间的关系可以是“朋友”,也可以是“同事”关系。
人和公司之间的关系可以是“现任职”或者“曾任职”的关系。
类似的,一个风控知识图谱可以包含“电话”、“公司”的实体,电话和电话之间的关系可以是“通话”关系,而且每个公司它也会有固定的电话。
3. 知识图谱的表示知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。
这也是为什么它可以用来回答一些搜索相关问题的原因,比如在Google搜索引擎里输入“Who is the wife of Bill Gates?”,我们直接可以得到答案-“Melinda Gates”。
这是因为我们在系统层面上已经创建好了一个包含“Bill Gates”和“Melinda Gates”的实体以及他俩之间关系的知识库。
所以,当我们执行搜索的时候,就可以通过关键词提取(”Bill Gates”, “Melinda Gates”, “wife”)以及知识库上的匹配可以直接获得最终的答案。
这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案,所以就多了一层用户自己筛选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。
当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。
下面的图表示一个简单的属性图。
李明和李飞是父子关系,并且李明拥有一个138开头的电话号,这个电话号开通时间是2018年,其中2018年就可以作为关系的属性。
类似的,李明本人也带有一些属性值比如年龄为25岁、职位是总经理等。
这种属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。
除了属性图,知识图谱也可以用RDF来表示,它是由很多的三元组(Triples)来组成。
RDF在设计上的主要特点是易于发布和分享数据,但不支持实体或关系拥有属性,如果非要加上属性,则在设计上需要做一些修改。
目前来看,RDF 主要还是用于学术的场景,在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。
感兴趣的读者可以参考RDF的相关文献,在文本里不多做解释。
4. 知识抽取知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。
对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。
前者一般只需要简单预处理即可以作为后续AI系统的输入,但后者一般需要借助于自然语言处理等技术来提取出结构化信息。
比如在上面的搜索例子里,Bill Gates和Malinda Gate的关系就可以从非结构化数据中提炼出来,比如维基百科等数据源。
信息抽取的难点在于处理非结构化数据。
在下面的图中,我们给出了一个实例。
左边是一段非结构化的英文文本,右边是从这些文本中抽取出来的实体和关系。
在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:a. 实体命名识别(Name Entity Recognition)b. 关系抽取(Relation Extraction)c. 实体统一(Entity Resolution)d. 指代消解(Coreference Resolution)下面针对每一项技术解决的问题做简单的描述,以至于这些是具体怎么实现的,不在这里一一展开,感兴趣的读者可以查阅相关资料,或者学习我的课程。
首先是实体命名识别,就是从文本里提取出实体并对每个实体做分类/打标签:比如从上述文本里,我们可以提取出实体-“NYC”,并标记实体类型为“Location”;我们也可以从中提取出“Virgil’s BBQ”,并标记实体类型为“Restarant”。
这种过程称之为实体命名识别,这是一项相对比较成熟的技术,有一些现成的工具可以用来做这件事情。
其次,我们可以通过关系抽取技术,把实体间的关系从文本中提取出来,比如实体“hotel”和“Hilton property”之间的关系为“in”;“hotel”和“Time Square”的关系为“near”等等。
另外,在实体命名识别和关系抽取过程中,有两个比较棘手的问题:一个是实体统一,也就是说有些实体写法上不一样,但其实是指向同一个实体。
比如“NYC”和“New York”表面上是不同的字符串,但其实指的都是纽约这个城市,需要合并。
实体统一不仅可以减少实体的种类,也可以降低图谱的稀疏性(Sparsity);另一个问题是指代消解,也是文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。
实体统一和指代消解问题相对于前两个问题更具有挑战性。
5. 知识图谱的存储知识图谱主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。
它们之间的区别如下图所示。
RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。
其次,RDF 以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
根据最新的统计(2018年上半年),图数据库仍然是增长最快的存储系统。
相反,关系型数据库的增长基本保持在一个稳定的水平。
同时,我们也列出了常用的图数据库系统以及他们最新使用情况的排名。
其中Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式。
相反,OrientDB和JanusGraph(原Titan)支持分布式,但这些系统相对较新,社区不如Neo4j活跃,这也就意味着使用过程当中不可避免地会遇到一些刺手的问题。
如果选择使用RDF的存储系统,Jena或许一个比较不错的选择。
6. 金融知识图谱的搭建接下来我们看一个实际的具体案例,讲解怎么一步步搭建可落地的金融风控领域的知识图谱系统。
首先需要说明的一点是,有可能不少人认为搭建一个知识图谱系统的重点在于算法和开发。
但事实并不是想象中的那样,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计,这就类似于对于一个业务系统,数据库表的设计尤其关键,而且这种设计绝对离不开对业务的深入理解以及对未来业务场景变化的预估。
当然,在这里我们先不讨论数据的重要性。
一个完整的知识图谱的构建包含以下几个步骤:1. 定义具体的业务问题 2. 数据的收集& 预处理 3. 知识图谱的设计 4. 把数据存入知识图谱 5. 上层应用的开发,以及系统的评估。
下面我们就按照这个流程来讲一下每个步骤所需要做的事情以及需要思考的问题。
6.1 定义具体的业务问题在P2P网贷环境下,最核心的问题是风控,也就是怎么去评估一个借款人的风险。
在线上的环境下,欺诈风险尤其为严重,而且很多这种风险隐藏在复杂的关系网络之中,而且知识图谱正好是为这类问题所设计的,所以我们“有可能”期待它能在欺诈,这个问题上带来一些价值。
在进入下一个话题的讨论之前,要明确的一点是,对于自身的业务问题到底需不需要知识图谱系统的支持。
因为在很多的实际场景,即使对关系的分析有一定的需求,实际上也可以利用传统数据库来完成分析的。
所以为了避免使用知识图谱而选择知识图谱,以及更好的技术选型,以下给出了几点总结,供参考。
6.2 数据收集& 预处理下一步就是要确定数据源以及做必要的数据预处理。
针对于数据源,我们需要考虑以下几点:1. 我们已经有哪些数据? 2. 虽然现在没有,但有可能拿到哪些数据?3. 其中哪部分数据可以用来降低风险? 4. 哪部分数据可以用来构建知识图谱?在这里需要说明的一点是,并不是所有跟反欺诈相关的数据都必须要进入知识图谱,对于这部分的一些决策原则在接下来的部分会有比较详细的介绍。