人工智能之知识图谱
- 格式:pdf
- 大小:7.65 MB
- 文档页数:86
利用AI技术进行知识图谱构建的方法与技巧一、引言在当今互联网时代,知识图谱作为一种强大的信息组织和搜索工具,逐渐成为了研究者关注的焦点。
它可以帮助我们更有效地理解和利用海量的数据,从而实现智能化的知识管理。
AI技术在知识图谱构建中发挥着重要作用,通过利用AI技术的方法与技巧,我们能够构建出更加准确和全面的知识图谱。
二、知识图谱构建方法1. 数据收集在构建知识图谱之前,我们首先需要收集大量的数据作为基础。
这些数据可以来自于多个来源,如互联网上的公开资料、企业内部的文档和数据库、第三方数据提供商等。
收集到的数据应该包含尽可能多的领域和主题相关信息,并且需要进行初步清洗和去重处理。
2. 实体抽取实体抽取是知识图谱构建过程中非常重要的一步。
通过人工智能技术中的实体抽取算法,我们可以从文本数据中自动地识别出各种实体。
例如,在医疗领域中,我们可以使用语义分析算法来自动抽取出疾病、药物、症状等实体。
3. 关系抽取实体抽取完毕后,我们还需要进行关系抽取的工作。
通过分析文本数据中的语义关系,我们可以自动地获取实体之间的关联信息。
例如,在电影领域中,我们可以通过解析剧情简介和演员表来获得演员与电影之间的关系。
4. 知识表示在知识图谱中,我们需要将收集到的数据以一种规范化的方式进行表示。
知识表示方法有很多种,如RDF(Resource Description Framework)、OWL(Web Ontology Language)等。
通过采用适当的知识表示方法,可以使得知识图谱更加容易被机器理解和处理。
三、AI技术在知识图谱构建中的应用1. 自然语言处理自然语言处理是AI技术中非常重要的一个分支,它可以帮助我们对文本数据进行语义分析和理解。
在知识图谱构建过程中,自然语言处理可以用于实体抽取、关系抽取等任务。
例如,在医学领域中,我们可以利用自然语言处理技术从医学论文中自动提取出疾病名称和治疗方法。
2. 图像识别图像识别是AI技术中的另一个重要分支,它可以帮助我们从图像数据中获取有用的信息。
使用AI技术进行知识图谱构建的步骤知识图谱是一种基于人工智能技术的知识表示和推理框架,它可以帮助我们将海量的知识信息有机地组织起来,并进行深层次的分析和应用。
构建一个高质量的知识图谱对于实现知识的自动化处理和智能化应用至关重要。
使用AI技术进行知识图谱构建涉及以下几个步骤:一、收集和整理数据在进行知识图谱构建之前,首先需要收集并整理相关领域的数据。
这些数据可以是结构化的数据,如数据库或表格;也可以是非结构化的文本数据,如论文、报告、新闻等。
同时,还可以利用网络爬虫技术从互联网上获取相关数据。
通过对这些数据进行清洗和预处理,去除噪声并提取出实体、属性和关系等信息。
二、实体抽取与分类在知识图谱中,实体是指一切能够被命名且具有明确语义含义的事物,如人物、地点、组织等。
为了将这些实体纳入到知识图谱中,需要先进行实体抽取与分类。
通过使用自然语言处理技术,例如命名实体识别(NER)、实体链接等,可以从文本中提取出相关实体,并对其进行分类和标注。
三、关系抽取和建模在知识图谱中,实体之间的关系表示了事物之间的联系和依赖。
为了构建知识图谱,需要通过关系抽取和建模技术来识别和提取实体之间的关系。
例如,在医疗领域的知识图谱中,可以使用自然语言处理技术解析医学文献,提取出药物治疗的适应症、剂量、不良反应等关系信息。
四、知识表示与存储在构建知识图谱时,需将收集到的数据转化为计算机可理解和处理的形式。
常见的知识表示方法包括本体(Ontology)和语义网络(Semantic Network)。
本体是一种基于逻辑形式描述概念、实体、属性及其关系的元数据规范。
语义网络则采用节点-边结构来表示概念及其关联信息。
根据具体需求选择合适的知识表示方法,并利用数据存储技术将其永久保存。
五、推理与查询构建好的知识图谱可以用于推理和查询任务。
通过利用规则推理或基于机器学习技术进行推理,在知识图谱中发现新的事实和规律。
同时,用户可以通过查询接口输入查询条件,从知识图谱中获取相关信息。
人工智能在知识图谱中的应用和前景近年来,人工智能和大数据技术的崛起都给知识图谱技术带来了很大的机遇和挑战。
知识图谱作为一种新型的知识表示和推理模型,在语义理解、信息搜素和推荐系统等领域具有重要的应用价值,而人工智能技术的不断进步则为知识图谱带来了更为广阔的发展前景。
知识图谱是由一组实体和实体之间的关系所构成的知识表示模型,可以用于描述和表达复杂的实际世界中的知识结构和规律。
而人工智能技术则可以通过对文本、图像、语音等海量数据的分析和学习,自动抽取出其中隐含的知识和规律,从而实现对智力任务的自动化处理。
将人工智能技术与知识图谱技术进行深度结合,可以形成一套强大的知识管理、知识推理和知识探索系统,为智能化文本分析和推荐系统等领域带来更为优秀的表现。
在知识图谱中,实体和关系的构建是非常重要的步骤。
因此,人工智能技术的训练数据和算法都可以被用来构建知识图谱。
例如,利用深度学习和神经网络等技术,可以对大量文本进行分析和处理,从而抽取出其中隐含的实体和关系信息,并进一步构建知识图谱。
另外,人工智能技术中的图像识别和语音识别等技术也可以被用来构建知识图谱。
通过将图像和语音数据进行处理和分析,可以识别出其中的实体和关系,然后进一步构建出知识图谱。
当然,知识图谱和人工智能技术的结合不仅仅 limited 至于获取数据。
在知识图谱的查询和推理过程中,人工智能技术也发挥着非常重要的作用。
例如,在知识图谱中,可以使用自然语言处理技术将用户的查询语句转化为机器可以理解的形式,并通过知识图谱对用户的查询进行准确的成语理解和处理。
同时,在知识图谱的推理过程中,也可以利用人工智能技术中的逻辑推理等技术,通过实体之间的关系,自动推理出实体之间的属性和关系,从而帮助用户快速寻找所需的信息。
除此之外,知识图谱和人工智能技术结合的应用领域还十分广泛。
例如,在语义搜索和分析领域中,利用知识图谱和自然语言处理技术,能够大大提升搜索引擎的智能化和效率化,从而为网民提供更加精准和便捷的搜索服务。
基于知识图谱的人工智能技术研究在当今科技飞速发展的时代,人工智能技术已经成为了推动社会进步和创新的重要力量。
其中,基于知识图谱的人工智能技术作为一种新兴的研究领域,正逐渐展现出其巨大的潜力和应用价值。
知识图谱,简单来说,就是一种将知识以结构化的形式表示出来的技术。
它将实体、关系和属性等信息组织成一个庞大的网络,使得计算机能够更好地理解和处理人类的知识。
这种结构化的知识表示方式,为人工智能的发展提供了新的思路和方法。
与传统的人工智能技术相比,基于知识图谱的人工智能具有诸多优势。
首先,它能够更好地处理语义理解问题。
通过对知识图谱中实体和关系的分析,计算机可以更准确地理解自然语言中的含义,从而提供更精准的回答和服务。
例如,当用户询问“谁是李白的好友”时,基于知识图谱的人工智能系统可以快速找到与李白有好友关系的人物,并给出准确的答案。
其次,知识图谱有助于提高人工智能的推理能力。
基于丰富的知识关联,系统可以进行逻辑推理和预测,为决策提供有力支持。
比如说,在医疗领域,通过分析患者的症状、病史以及医学知识图谱,医生可以更准确地诊断疾病并制定治疗方案。
再者,知识图谱能够实现知识的融合和共享。
不同来源、不同领域的知识可以整合到一个统一的知识图谱中,打破信息孤岛,促进知识的流通和创新。
这在跨学科研究和综合性应用中具有重要意义。
那么,基于知识图谱的人工智能技术是如何构建的呢?构建知识图谱的第一步是知识获取。
这包括从各种数据源中收集信息,如文本、数据库、网页等。
然后,需要对获取的知识进行清洗和预处理,去除噪声和错误数据。
接下来是知识抽取。
这一过程旨在从原始数据中提取出实体、关系和属性等关键信息。
例如,从一篇关于历史的文章中抽取出人物、事件、时间等实体以及它们之间的关系。
知识融合则是将来自不同来源的知识进行整合和统一,消除冲突和不一致。
这需要解决诸如同名异义、同义异名等问题。
在知识存储方面,通常采用图数据库或关系数据库来存储知识图谱,以便快速查询和更新。
图表目录图1知识工程发展历程 (3)图2 Knowledge Graph知识图谱 (9)图3知识图谱细分领域学者选取流程图 (10)图4基于离散符号的知识表示与基于连续向量的知识表示 (11)图5知识表示与建模领域全球知名学者分布图 (13)图6知识表示与建模领域全球知名学者国家分布统计 (13)图7知识表示与建模领域中国知名学者分布图 (14)图8知识表示与建模领域各国知名学者迁徙图 (14)图9知识表示与建模领域全球知名学者h-index分布图 (15)图10知识获取领域全球知名学者分布图 (23)图11知识获取领域全球知名学者分布统计 (23)图12知识获取领域中国知名学者分布图 (23)图13知识获取领域各国知名学者迁徙图 (24)图14知识获取领域全球知名学者h-index分布图 (24)图15 语义集成的常见流程 (29)图16知识融合领域全球知名学者分布图 (31)图17知识融合领域全球知名学者分布统计 (31)图18知识融合领域中国知名学者分布图 (31)图19知识融合领域各国知名学者迁徙图 (32)图20知识融合领域全球知名学者h-index分布图 (32)图21知识查询与推理领域全球知名学者分布图 (39)图22知识查询与推理领域全球知名学者分布统计 (39)图23知识查询与推理领域中国知名学者分布图 (39)图24知识表示与推理领域各国知名学者迁徙图 (40)图25知识查询与推理领域全球知名学者h-index分布图 (40)图26知识应用领域全球知名学者分布图 (46)图27知识应用领域全球知名学者分布统计 (46)图28知识应用领域中国知名学者分布图 (47)图29知识应用领域各国知名学者迁徙图 (47)图30知识应用领域全球知名学者h-index分布图 (48)图31行业知识图谱应用 (68)图32电商图谱Schema (69)图33大英博物院语义搜索 (70)图34异常关联挖掘 (70)图35最终控制人分析 (71)图36企业社交图谱 (71)图37智能问答 (72)图38生物医疗 (72)图39知识图谱领域近期热度 (75)图40知识图谱领域全局热度 (75)表1知识图谱领域顶级学术会议列表 (10)表2 知识图谱引用量前十论文 (56)表3常识知识库型指示图 (67)摘要知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应用,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
利用AI技术进行知识图谱构建的步骤与技巧一、引言知识图谱作为一种用于表示、存储和推理知识的基本结构,由于其能够提供丰富的语义信息和结构化数据,成为了解决大规模知识管理与应用的重要工具。
利用人工智能(AI)技术进行知识图谱构建已经成为了当前研究领域的热门方向。
本文将介绍利用AI技术构建知识图谱的步骤与技巧。
二、定义问题在开始构建知识图谱之前,我们首先需要明确问题定义,并确定所需的领域范围和目标。
这有助于我们集中精力并确保资源投入有效。
例如,如果我们想要构建一个医学领域的知识图谱,我们可以明确我们关注的主题范围是哪些,比如疾病、药物等。
三、获取数据数据是知识图谱构建的基础。
通过多种途径收集数据可以帮助我们完善和丰富知识图谱。
常见的数据获取方法包括:网页爬取、数据库查询、API接口调用等。
当然,在获取数据时需要注意版权和合法性问题,并遵循相关法律法规。
四、数据预处理获取到的原始数据需要经过预处理才能用于知识图谱构建。
预处理包括数据清洗、去重、标准化、实体抽取等操作。
例如,在医学领域,我们可以使用自然语言处理技术对文本进行解析和实体抽取,从而将文本信息转化为结构化的知识。
五、知识表示与存储在构建知识图谱时,我们需要确定合适的知识表示方式,并选择适当的存储形式。
一种常见的方法是使用三元组(主体-关系-客体)来表示知识,并将其存储在图数据库中。
此外,还可以利用本体语言(如OWL)对领域知识进行形式化建模,进一步提高知识图谱的表达能力。
六、实体链接与关系抽取在将数据载入到图数据库后,我们需要进行实体链接和关系抽取操作。
实体链接指的是将文本中提及的实体与知识图谱中已有的实体进行连接,从而丰富图谱;关系抽取则是通过自然语言处理和机器学习方法从文本中提取出实体之间存在的关系。
这些操作可以借助AI技术如命名实体识别、关系抽取等来辅助完成。
七、质量控制质量控制是保证知识图谱准确性和一致性的关键环节。
在构建过程中,我们需要进行数据校验、错误修正和数据合并等操作,确保知识图谱具有较高的质量。
AI技术在知识图谱中的创新发展和应用案例一、引言随着人工智能(Artificial Intelligence,简称AI)技术的迅速发展,它正在广泛地应用于各个领域,其中包括知识图谱。
知识图谱是一种结构化的知识表示形式,能够以计算机可理解的方式表达实体及其之间的关系。
本文将介绍AI技术在知识图谱中的创新发展和应用案例。
二、 AI技术在知识图谱构建中的创新发展1. 自然语言处理(Natural Language Processing,简称NLP)NLP是AI技术在知识图谱中最为关键且被广泛利用的部分之一。
通过NLP技术,计算机可以理解人类自然语言,并从文本中抽取出实体、关系等信息。
这使得构建知识图谱更加高效准确。
2. 图神经网络(Graph Neural Networks,简称GNN)GNN是一种基于图结构数据进行深度学习的方法。
它可以充分利用实体之间的关系信息,在无监督或半监督场景下对节点进行聚类、分类和链接预测等任务。
借助GNN技术,可以从大规模的数据中构建知识图谱,并发现其中隐藏的关联和模式。
3. 迁移学习(Transfer Learning)迁移学习是指将在一个领域训练好的模型或知识应用于另一个相关领域的技术。
在知识图谱构建中,迁移学习可以利用已有的知识图谱或其他相关领域的数据,帮助加速新知识图谱的搭建和生成。
通过迁移学习,不仅可以节省大量时间和资源,而且能够提高新知识图谱的质量和准确性。
三、 AI技术在知识图谱应用中的案例1. 搜索引擎优化(Search Engine Optimization,简称SEO)AI技术在搜索引擎优化中具有重要作用。
通过将AI技术应用于知识图谱构建,搜索引擎可以更好地理解用户查询意图,并为其提供准确匹配结果。
这种基于知识图谱搜索方式将改善用户体验,并提高搜索引擎结果页面的质量。
2. 企业智能决策支持(Intelligent Decision Support)AI技术与知识图谱相结合,可以帮助企业进行智能决策支持。
图表目录图1知识工程发展历程 (3)图2 Knowledge Graph知识图谱 (9)图3知识图谱细分领域学者选取流程图 (10)图4基于离散符号的知识表示与基于连续向量的知识表示 (11)图5知识表示与建模领域全球知名学者分布图 (13)图6知识表示与建模领域全球知名学者国家分布统计 (13)图7知识表示与建模领域中国知名学者分布图 (14)图8知识表示与建模领域各国知名学者迁徙图 (14)图9知识表示与建模领域全球知名学者h-index分布图 (15)图10知识获取领域全球知名学者分布图 (23)图11知识获取领域全球知名学者分布统计 (23)图12知识获取领域中国知名学者分布图 (23)图13知识获取领域各国知名学者迁徙图 (24)图14知识获取领域全球知名学者h-index分布图 (24)图15 语义集成的常见流程 (29)图16知识融合领域全球知名学者分布图 (31)图17知识融合领域全球知名学者分布统计 (31)图18知识融合领域中国知名学者分布图 (31)图19知识融合领域各国知名学者迁徙图 (32)图20知识融合领域全球知名学者h-index分布图 (32)图21知识查询与推理领域全球知名学者分布图 (39)图22知识查询与推理领域全球知名学者分布统计 (39)图23知识查询与推理领域中国知名学者分布图 (39)图24知识表示与推理领域各国知名学者迁徙图 (40)图25知识查询与推理领域全球知名学者h-index分布图 (40)图26知识应用领域全球知名学者分布图 (46)图27知识应用领域全球知名学者分布统计 (46)图28知识应用领域中国知名学者分布图 (47)图29知识应用领域各国知名学者迁徙图 (47)图30知识应用领域全球知名学者h-index分布图 (48)图31行业知识图谱应用 (68)图32电商图谱Schema (69)图33大英博物院语义搜索 (70)图34异常关联挖掘 (70)图35最终控制人分析 (71)图36企业社交图谱 (71)图37智能问答 (72)图38生物医疗 (72)图39知识图谱领域近期热度 (75)图40知识图谱领域全局热度 (75)表1知识图谱领域顶级学术会议列表 (10)表2 知识图谱引用量前十论文 (56)表3常识知识库型指示图 (67)1.概念篇1.1.知识图谱概念和分类知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。
知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等交叉研究,属人工智能重要研究领域知识工程的研究范畴。
知识图谱于2012年由谷歌提出并成功应用于搜索引擎,是建立大规模知识的一个杀手锏应用。
1.1.1.知识图谱的概念1994年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。
在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。
大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。
我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。
知识图谱在下面应用中已经凸显出越来越重要的应用价值:•知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;•语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;•问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;•大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
当前知识图谱中包含的主要几种节点有:•实体:指的是具有可区别性且独立存在的某种事物。
如某一个人、某一座城市、某一种植物、某一件商品等等。
世界万物有具体事物组成,此指实体。
实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
•概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
•属性:用于区分概念的特征,不同概念具有不同的属性。
不同的属性值类型对应于不同类型属性的边。
如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。
1.1.2.知识图谱的分类知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。
从领域上来说,知识图谱通常分为通用(领域无关)知识图谱和特定领域知识图谱:•通用知识图谱:通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。
•特定领域知识图谱:领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个“基于语义技术的行业知识库”。
其他分类方式不再一一赘述。
1.2.知识工程发展历程回顾知识工程四十年多来发展历程,总结知识工程的演进过程和技术进展,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网1.0时期,群体智能时期以及知识图谱时期,如图1所示。
●1950-1970时期:图灵测试—知识工程诞生前期人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。
这一阶段主要有两个方法:符号主义和连结主义。
符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。
这一阶段具有图1知识工程发展历程代表性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。
其中最成功应用是博弈论和机器定理证明等。
这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。
这一时代人工智能和知识工程的先驱Minsky,Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。
●1970-1990时期:专家系统—知识工程蓬勃发展期通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。
70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。
斯坦福人工智能实验室的奠基人Feigenbaum教授在1980年的一个项目报告《Knowledge Engineering:The Applied Side of Artificial Intelligence》中提出知识工程的概念,从此确立了知识工程在人工智能中的核心地位。
这一时期知识表示方法有新的演进,包括框架和脚本等。
80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。
●1990-2000时期:万维网在1990年到2000年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。
Web 1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。
W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。
这一时期在知识表示研究中还提出了本体的知识表示方法。
●2000-2006时期:群体智能在2001年,万维网发明人、2016年图灵奖获得者Tim Berners-Lee在科学美国人杂志中发表的论文《The Semantic Web》正式提出语义Web的概念,旨在对互联网内容进行结构化语义表示,利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。
W3C进一步提出万维网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言)等描述万维网内容语义的知识描述规范。
万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。
原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。
这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。
2006年至今:知识图谱—知识工程新发展时期“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。
从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。
与Cyc、WordNet 和HowNet等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。
当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。
典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。
最具代表性大规模网络知识获取的工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO,以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。
这些知识图谱遵循RDF数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义体现的客观世界的概念结构中。