知识图谱技术原理介绍
- 格式:docx
- 大小:343.76 KB
- 文档页数:17
知识图谱技术原理介绍知识图谱是一种用于描述和组织知识的图形化模型,它能够帮助机器理解人类语言和语义,从而实现更智能的信息处理和应用。
知识图谱技术的原理主要包括数据抽取、知识表示、知识融合和推理推断等几个方面。
首先,数据抽取是知识图谱技术的基础,它通过自然语言处理、信息抽取和实体识别等技术手段,从结构化和非结构化数据中提取出实体、关系和属性等知识元素。
这些知识元素可以来自于各种文本、图像、音频和视频等多媒体数据,经过抽取和清洗之后,构成了知识图谱的基本数据。
其次,知识表示是将抽取出来的知识元素进行结构化表示和编码的过程。
在知识图谱中,通常采用图的方式来表示知识,其中实体作为节点,关系和属性作为边,构成了一个复杂的图结构。
这种表示方式能够清晰地展现出知识元素之间的关联和层次关系,为后续的知识融合和推理推断提供了基础。
知识融合是指将来自不同数据源和不同领域的知识进行整合和融合,以构建一个更加完整和一致的知识图谱。
在知识融合过程中,需要解决实体对齐、关系对齐和知识冲突等问题,以确保融合后的知识图谱具有良好的一致性和准确性。
同时,知识融合还可以通过补充和丰富知识图谱,提高其覆盖范围和知识密度。
最后,推理推断是知识图谱技术的重要应用,它通过逻辑推理、概率推断和机器学习等方法,从知识图谱中挖掘出隐藏的知识和规律。
基于知识图谱的推理推断能够支持智能问答、智能推荐、智能搜索等应用,为人机交互和智能决策提供强大的支持。
总的来说,知识图谱技术的原理包括数据抽取、知识表示、知识融合和推理推断等几个方面,它为机器理解和利用知识提供了重要的技术支持,对于推动人工智能和智能化应用具有重要的意义。
随着技术的不断进步和应用场景的不断丰富,知识图谱技术将在各个领域发挥越来越重要的作用。
数据分析中的知识图谱技术随着大数据时代的到来,数据分析已成为各个行业中至关重要的一环。
而在数据分析的过程中,知识图谱技术则被广泛应用。
本文将就数据分析中的知识图谱技术进行讨论,并探索其在实际应用中的优势和挑战。
一、什么是知识图谱技术知识图谱是一种以图形化的方式组织和表示知识的技术。
它通过建立实体和关系之间的链接来呈现知识。
知识图谱技术可以将不同来源和不同类型的数据进行集成,从而构建起知识的全貌。
它通过对数据进行链接和分析,实现对知识的挖掘与应用。
知识图谱技术通常包括三个核心要素:实体、属性和关系。
实体代表一切可以被命名的事物,属性则描述了实体的特征和属性值,而关系则连接了不同的实体并描述了它们之间的关联。
二、知识图谱技术在数据分析中的应用1. 数据集成和清洗在大数据时代,数据的来源多样且复杂。
知识图谱技术可以通过将不同来源的数据进行链接和整合,实现数据集成的目标。
同时,它还可以用于数据清洗,通过挖掘实体和关系之间的模式,识别和解决数据中的错误和冗余。
2. 知识抽取与表示知识图谱技术可以通过自然语言处理和文本挖掘等技术,从非结构化的文本中提取出有用的信息,如实体和关系。
同时,为了更好地表示知识,可以对这些信息进行语义建模,将其转化为结构化的格式,便于后续的分析和应用。
3. 知识推理与发现知识图谱技术通过对实体和关系之间的链接进行分析,可以发现其中的模式和规律。
这样就能够进行推理和预测,帮助人们更好地理解和利用知识。
此外,知识图谱还可以通过结果的可视化展示,使得知识的传递和应用更加直观和易于理解。
三、知识图谱技术的优势和挑战1. 优势(1)结构化知识:知识图谱将知识以结构化的方式进行表示,能够清晰地表达实体、属性和关系之间的关联,提供了更好地可读性和可理解性。
(2)数据集成:知识图谱技术能够将不同来源和不同类型的数据进行整合和链接,实现数据的全面集成,提高数据分析的精确性和准确性。
(3)知识发现:通过对实体和关系的挖掘和分析,知识图谱技术能够发现其中的模式和规律,帮助人们更好地理解和应用知识。
知识图谱的构建和应用一、知识图谱简介知识图谱是一种基于图的全局知识表达方法,将知识以一种结构化的形式进行存储和表达,帮助人们更好地组织、理解和利用知识。
知识图谱主要由实体、属性和关系三部分组成,其中实体表示具体的事物或概念,属性表示实体的性质或特征,关系表示实体之间的连接或依赖关系。
二、知识图谱构建技术知识图谱的构建需要从多个信息源中获取知识,并将其整合成一个完整的知识体系。
常用的构建技术包括以下几种:1、实体识别和属性抽取技术。
通过对语料库进行分析和处理,自动识别文本中的实体,并抽取实体的属性信息。
2、关系抽取技术。
通过分析文本中的语法和语义信息,从文本中抽取实体之间的关系。
3、知识表示和存储技术。
将获取的知识以一种结构化的方式存储在数据库中,以便后续的查询和检索。
4、知识推理和推断技术。
通过对知识图谱进行推理和推断,从而获取新的知识和结论。
三、知识图谱应用场景知识图谱具有广泛的应用场景,以下是几个常见场景的介绍:1、智能客服。
将知识图谱应用于智能客服,可以提高客户服务效率,快速解决客户问题。
2、智能推荐。
将知识图谱应用于电商平台的商品推荐,可以根据用户的需求和历史行为,向其推荐符合其喜好的商品。
3、医疗诊断。
将知识图谱应用于医疗诊断,可以快速对疾病进行诊断和治疗,帮助医生快速确定病情并开展治疗。
4、智能交通。
将知识图谱应用于智能交通中,可以实现交通监控和管理,减少交通事故和拥堵。
四、知识图谱的挑战和未来发展知识图谱的构建和应用面临一些挑战。
首先,知识的获取和整合是一个大量工作量的任务,需要付出大量的时间和人力成本。
其次,知识图谱中的数据量非常庞大,如何有效地管理和更新也是一个重要问题。
未来,预计将出现针对知识图谱构建和应用的更加高效和精准的技术。
同时,相信将会涌现出更多的知识图谱相关的应用,推动其向着更加广阔的领域发展。
知识图谱技术原理介绍知识图谱技术是一种基于语义网络的知识表示和推理技术,它通过将各种实体和它们之间的关系表示为图的形式,从而构建了一个丰富的知识库。
知识图谱技术在人工智能、自然语言处理、搜索引擎等领域有着广泛的应用,它可以帮助计算机更好地理解和利用人类知识,从而实现更智能的应用和服务。
知识图谱技术的原理主要包括三个方面,知识表示、知识抽取和知识推理。
首先,知识表示是指将现实世界中的各种实体和它们之间的关系用一种形式进行表示。
在知识图谱技术中,常用的表示方法是使用图的结构来表示知识,其中节点表示实体,边表示实体之间的关系。
通过这种方式,知识图谱可以将各种知识以一种结构化的形式进行存储和管理,从而方便计算机进行进一步的推理和应用。
其次,知识抽取是指从各种文本、数据源中抽取出有用的知识,然后将其加入到知识图谱中。
知识抽取涉及到自然语言处理、信息抽取等多个领域的技术,它可以帮助知识图谱不断地扩充和更新,从而保持其与现实世界的同步性和准确性。
最后,知识推理是指基于知识图谱中的知识进行推理和推断,从而得出新的知识或者解决问题。
知识推理可以帮助计算机理解和利用知识图谱中的知识,从而实现更智能的应用和服务。
知识推理涉及到逻辑推理、推理机制等多个方面的技术,它可以帮助计算机更好地利用知识图谱中的知识,从而实现更多样化、更个性化的应用和服务。
综上所述,知识图谱技术是一种基于语义网络的知识表示和推理技术,它通过知识表示、知识抽取和知识推理等多个方面的技术,帮助计算机更好地理解和利用人类知识,从而实现更智能的应用和服务。
随着人工智能、自然语言处理等领域的不断发展,相信知识图谱技术会在未来发挥越来越重要的作用,为人类带来更多的便利和惊喜。
知识图谱与智能图谱的应用随着大数据时代的到来,信息的浩瀚化和碎片化越来越成为一种难以逾越的壁垒。
传统的搜索引擎虽然可以通过关键字搜索来帮助用户找到相关信息,但是却无法提供更加智能、针对性更强的推荐和建议。
知识图谱和智能图谱的应用则是在这个背景下应运而生,为用户提供更加精准、智能的搜索、推荐和建议服务。
本文将深入探讨知识图谱和智能图谱的概念、原理和应用,并对其未来发展进行展望。
一、知识图谱的概念与原理知识图谱(Knowledge Graph)是一种将各种实体和概念以及它们之间的关系进行建模、组织和表示的知识库。
有别于传统的关系型数据库,知识图谱通常采用图形结构来组织和表示知识,以实现更加灵活、复杂的关系建模和查询。
知识图谱的核心思想在于利用大数据和人工智能技术,将海量的数据和知识进行有机整合和挖掘,揭示其中的潜在关联和模式,为用户提供更加准确、丰富的知识服务。
知识图谱的表示方式主要采用语义网络图的形式,即通过节点和边来表示实体和关系。
节点通常表示某个实体或概念,如人物、地理位置、事件等,而边则表示这些实体之间的关系,如人物之间的社交关系、地理位置之间的距离关系等。
不同类型的节点和边可通过自定义的层次结构来组织和分类,从而更好地反映实体之间的本质关系。
知识图谱的构建过程一般包括以下步骤:1.确定知识域范围:即确定构建知识图谱的领域或主题,如医疗、金融等。
2.数据采集和清洗:收集原始数据,对其进行清洗、筛选和分类,消除冗余和噪声数据。
3.知识抽取和建模:通过自然语言处理和机器学习等技术抽取有用的实体和关系,并将其进行建模和组织。
4.知识推理和推荐:基于知识图谱中的关系和属性,通过推理和推荐等方式为用户提供精准、智能的信息服务。
二、智能图谱的应用知识图谱的应用范围广泛,覆盖了许多领域,如自然语言处理、智能交互、信息检索、推荐系统等。
下面我们将以智能图谱的应用为例,来探讨其在实际场景中的应用和价值。
1.智能客服传统的客服服务通常采用人工操作和基于规则的问答系统,局限性很大。
知识图谱的关键技术与应用随着人工智能技术的不断发展,知识图谱逐渐成为人工智能领域中的重要技术之一。
知识图谱不仅可以帮助机器理解语言,还可以通过知识链接和推理等功能实现类人的思维能力。
本文将介绍知识图谱的关键技术和应用。
一、知识图谱的定义知识图谱是一种人工智能技术,是一种用于描述事物之间关系的图形化表示方法。
它是一种基于实体、属性和关系的知识组织结构,可以将各种信息进行结构化、标准化和统一化处理,从而达到知识互通的目的。
二、知识图谱的关键技术1. 知识获取知识图谱的基础是知识获取,该过程涉及到信息抽取、实体识别、关系提取、实体链接等技术。
在知识获取过程中,对于不同的数据源,需要设计不同的算法模型和规则库,并通过自然语言处理、机器学习等技术在大规模语料库中自动化地提取实体和关系,并将其转化为结构化和标准化的知识形式。
2. 知识表示知识表示是指将从不同数据源中获取的知识进行统一标准的表示和存储,以实现知识的互通和可推理。
在知识表示过程中,需要考虑知识表示的粒度、表示形式和知识本体等方面。
当前最常用的知识表示技术包括RDF、OWL、RDFS等。
3. 知识推理知识推理是实现知识智能处理的核心技术之一。
知识推理通过基于本体、规则和语义等方式,进行知识关联、归纳、演绎等推理,并通过推理产生新的知识。
知识推理涉及到推理引擎、推理规则、查询语言等技术。
4. 知识查询知识查询是指在知识图谱中进行复杂的查询操作,以实现知识检索、推理以及问题解答。
知识查询技术包括SPARQL、SQL、RQL等。
三、知识图谱的应用1. 搜索引擎知识图谱可以帮助搜索引擎提供更准确的搜索结果。
例如,谷歌通过使用知识图谱,可以为用户提供更多的相关搜索结果,提高搜索精度。
2. 智能客服知识图谱可以帮助智能客服更准确地理解用户意图和问题,并给出更准确的回答。
例如,使用知识图谱可以建立机器人对话模型,实现智能对话,并提供更加便捷的客户服务。
3. 金融领域知识图谱在金融领域中也有广泛的应用。
人工智能知识图谱技术的工作原理人工智能(Artificial Intelligence, AI)是指利用计算机技术对人类智能活动的模拟和延伸,实现智能化的技术和应用。
人工智能知识图谱技术是现代人工智能领域的重要支撑技术之一,其主要聚焦于将各种各样的数据转化为更优质的知识图谱形式,以更方便、快捷、准确地支撑人工智能的各种领域应用。
下面将探讨知识图谱技术的工作原理。
一、知识图谱的定义知识图谱(Knowledge Graph, KG)是指将各种各样的数据按照一定模式建立起来的一张图,该图使用节点和边来描述不同实体之间的关系,节点代表实体,边代表实体之间的关联关系,从而形成一张完整的知识组织结构。
知识图谱不仅可以方便地表示数据之间的复杂关系,而且可以为人工智能技术提供重要的基础支撑。
二、知识图谱技术工作原理1. 数据处理知识图谱技术的第一步是基础数据的处理,以获得最初的实体和属性信息,在这一过程中可以通过各种各样的数据预处理方法,例如清洗、转换和标准化等,来使得原始数据更加适合知识图谱的建立。
2. 实体识别和分类实体识别是指通过对文本数据进行分析,从中提取出符合某一事实或概念的实体,例如地点、人名或产品名等。
该过程通常涉及到自然语言处理技术和机器学习算法,可以将数据转换为更普遍使用的结构化数据形式,如XML文件或JSON格式。
3. 关系抽取和知识抽取知识图谱技术的第三步是关系抽取和知识抽取,其目的是通过对文本数据结构的分析和挖掘,提取出该数据所表现的本质和潜在知识。
关系抽取包括同义词替换、语法分析和句子成分抽取等处理过程,可以为实体之间建立相应的关联关系。
知识抽取是指将已有的数据完成对知识的抽取,并将其纳入到知识图谱的构建当中。
4. 构建与优化知识图谱技术的第四步是图谱的构建和优化。
构建一张知识图谱的过程就是将先前所获得的实体、属性和关系组成一张完整的知识组织图谱,以便于人工智能系统使用和共享。
在构建完成后,优化过程可以进一步提高知识图谱的准确性和可用性,包括预测数据丢失、存在的一些错误或不完整的实例等,然后再根据不同的应用需求,对数据模型进行调整,以提高系统的效率和质量。
基于知识图谱的图像检索技术研究随着人工智能技术的不断发展,图像识别和检索技术也在不断更新和改进。
近年来,基于知识图谱的图像检索技术逐渐成为研究热点,取得了令人瞩目的成果。
一、知识图谱介绍知识图谱是一种语义网络,结合了本体、实体、属性、关系等要素,可以描述现实世界中的实体及其属性与关系。
简单来说,知识图谱就是将各种信息进行有机结合并形成一张庞大的网络。
这种网络可以用于包括图像检索在内的各种领域。
二、基于知识图谱的图像检索技术原理基于知识图谱的图像检索技术,主要是将图像中的特征进行提取,并将这些特征映射到知识图谱中。
这样就可以实现图像与知识图谱中实体之间的对应关系。
然后,通过对知识图谱进行查询和分析,就可以实现对图像的检索和识别。
三、基于知识图谱的图像检索技术应用基于知识图谱的图像检索技术可以广泛应用于各个领域。
例如,在医疗领域,可以利用知识图谱中的医学实体和属性对医学图像进行识别和检索;在智能家居领域,可以将各种家居物品和场景形成知识图谱,从而实现家居图像的自动识别和智能控制。
四、基于知识图谱的图像检索技术优势相比传统的图像检索技术,基于知识图谱的图像检索技术有以下优势:1. 语义更加准确知识图谱中的实体和属性都有明确的语义含义。
因此,通过将图像映射到知识图谱中,就可以实现对图像语义的更加准确的描述和识别。
2. 检索效率更高传统的图像检索技术往往需要进行全局匹配,效率比较低。
而基于知识图谱的图像检索技术,可以在知识图谱中进行局部匹配,从而提高检索效率。
3. 数据组织更加便捷知识图谱可以将各种信息进行有机结合,并形成一张庞大的网络。
这种网络可以非常便捷地管理和组织大量的数据和信息。
五、总结基于知识图谱的图像检索技术,可以实现对图像的更加准确的识别和检索,可以应用于医疗、智能家居、安防等领域,具有很高的发展前景和市场潜力。
随着人工智能技术的不断发展,相信基于知识图谱的图像检索技术也将不断完善和提升其应用效果。
知识图谱技术原理介绍知识图谱技术是一种以图结构表示和存储知识,并通过图分析和推理等方法进行知识挖掘和知识应用的技术。
它通过构建实体、属性和关系之间的关联关系,将各种有关系的知识点连接起来,形成一个具有丰富语义关联的知识网络。
知识图谱技术在信息检索、智能问答、推荐系统等领域有着广泛的应用。
1.知识表示知识图谱的基本单位是实体、属性和关系。
实体可以是具体的事物,如人、地点、组织等,也可以是抽象的概念,如学科、概念等。
属性是实体的特征或属性,如人的年龄、地点的经纬度等。
关系则表示实体与实体之间的关联关系,如人与人之间的亲属关系、地点与地点之间的距离关系等。
知识表示可以采用三元组的方式,即通过主体、谓词和宾语来表示实体、属性和关系之间的关系。
2.知识抽取和融合知识抽取是从结构化和非结构化的数据中提取出实体、属性和关系的过程。
结构化数据指的是已经具有明确字段和关系的数据,如数据库中的表格数据;非结构化数据则指的是没有明确结构和关系的数据,如文本、图片、视频等。
知识抽取可以使用自然语言处理、图像处理等技术,将非结构化数据转化为结构化数据,并通过规则、模型等方法进行实体和关系的抽取。
知识融合是将来自不同源的知识进行整合,消除重复和冲突,形成完整的知识图谱。
3.知识推理和分析知识推理是知识图谱的重要功能之一,它利用已经建立的知识图谱进行逻辑推理和语义推理。
逻辑推理是基于逻辑规则进行的推理,如基于规则推理、基于逻辑公式推理等;语义推理则是基于知识图谱中的语义关系进行的推理,如通过实体之间的关联关系进行推理、通过属性之间的关系进行推理等。
知识推理可以帮助发现知识之间的隐藏关系和规律,从而进行更深层次的知识挖掘和分析。
4.知识应用知识图谱技术的最终目的是为了知识的应用。
知识图谱可以应用于信息检索、智能问答、推荐系统等领域。
在信息检索中,通过利用知识图谱中的语义关系进行语义,可以帮助用户更准确地获取所需的信息。
在智能问答中,通过将用户提问转化为知识图谱的查询,可以实现更智能、更准确的回答。
知识图谱技术原理介绍近两年来,随着Linking Open Data1等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。
互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。
在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。
下面我将从以下几个方面来介绍知识图谱:知识图谱的表示和在搜索中的展现形式,知识图谱的构建和知识图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。
知识图谱的表示和在搜索中的展现形式正如Google的辛格博士在介绍知识图谱时提到的:“The world is not made of strings , but is made of things.”,知识图谱旨在描述真实世界中存在的各种实体或概念。
其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。
每个属性-值对(attribute-value pair,又称A VP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。
知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
上述图模型可用W3C提出的资源描述框架RDF2或属性图(property graph)3来表示。
知识图谱率先由Google提出,以提高其搜索的质量。
为了更好地理解知识图谱,我们先来看一下其在搜索中的展现形式,即知识卡片(又称Knowledge Card)。
知识卡片旨在为用户提供更多与搜索内容相关的信息。
更具体地说,知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构化摘要。
从某种意义来说,它是特定于查询(query specific)的知识图谱。
例如,当在搜索引擎中输入“姚明”作为关键词时,我们发现搜索结果页面的右侧原先用于置放广告的地方被知识卡片所取代。
广告被移至左上角,而广告下面则显示的是传统的搜索结果,即匹配关键词的文档列表。
这个布局上的微调也预示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。
图1从左到右依次是Google、百度和搜狗在搜索结果首页中所展现的与姚明相关的知识卡片。
图1. 当搜索“姚明”时,Google、百度和搜狗所展示的知识卡片虽说三大搜索引擎在知识卡片的排版和内容展现上略有不同,但是它们都列出了姚明的身高、体重、民族等属性信息。
此外,它们均包含“用户还搜索了”或“其他人还搜”的功能来展现相关的人物。
该功能允许用户去浏览其他与姚明相关的人物的详细信息。
细心的读者也发现Google在其知识卡片中也展示了很多与姚明相关的图片,以图文并茂的方式来展示姚明的方方面面。
百度则结合了百度风云榜的信息,列出了姚明的类别(体坛人物)及其百度指数(今日排名和今日搜索热度等信息)。
在搜索结果页面的左上角(在图中未给出),百度还展示了其特有的专题搜索,包含了与姚明相关的百科、图片、微博、新闻、音乐、贴吧和视频等七大类的结果,基本涵盖了用户最基本的需求。
搜狗在列出与姚明相关的百科、图片,电影和最新相关消息等专题的同时,其知识卡片额外显示了诸如“主持电视节目”、“效力篮球队”、“人物关系”等各种细粒度的语义关系。
当遇到含有歧义的用户查询时,知识卡片还会列出其他可能的查询目标对象。
在上面的例子中,搜狗还列出了一项“您是否要找”的功能,列出一位也叫姚明的一级作曲家。
该功能用于去歧义,在显示最相关实体的同时也给出其他可能的对象,达到去歧义的作用。
当搜索“李娜”或“长城”时,Google和百度也在其知识卡片下方展现了类似的功能。
除了给出着名网球运动员李娜和万里长城之外,它们还列出歌手李娜和长城汽车供用户选择和浏览。
更值得一提的是,当在搜狗知立方中输入“姚明的老婆的女儿的身高”如此复杂的查询时,其会直接返回其女儿的姓名(姚沁蕾)以及其身高(110cm),并给出推理说明“叶莉的女儿是姚沁蕾”。
如此详实的说明不仅为返回的答案提供了很好的解释,从另一个侧面也展示了知识图谱的强大,其不仅能识别出运动员姚明,也能抽取出关系“老婆”和“女儿”和属性“身高”等信息。
当我们将查询修改为“姚明的妻子的女儿的身高”时,依然返回相同的结果,这也意味着知识图谱知道“妻子”和“老婆”代表相同的含义。
通过上述的介绍,大家应该对知识图谱的表示以及其在搜索中的展现形式有了更深的了解。
接着,我将介绍知识图谱的构建以及如何在搜索中应用知识图谱返回相应的知识卡片以及答案。
知识图谱的构建1.知识图谱的规模据不完全统计,Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。
其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。
不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。
与此不同的是,百度和搜狗主要针对中文搜索推出知识图谱,其知识库中的知识也主要以中文来描述,其规模略小于Google的。
2.知识图谱的数据来源为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。
在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。
这些数据普遍质量较高,更新比较慢。
而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。
此外,通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。
相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。
这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。
a)百科类数据维基百科4,通过协同编辑,已经成为最大的在线百科全书,其质量与大英百科媲美。
可以通过以下方式来从维基百科中获取所需的内容:通过文章页面(Article Page)抽取各种实体;通过重定向页面(Redirect Page)获得这些实体的同义词(又称Synonym);通过去歧义页面(Disambiguation Page)和内链锚文本(Internal Link Anchor Text)获得它们的同音异义词(又称Homonym);通过概念页面(Category Page)获得各种概念以及其上下位(subclass)关系;通过文章页面关联的开放分类抽取实体所对应的类别;通过信息框(Infobox)抽取实体所对应的属性-值对和关系-实体对。
类似地,从百度百科和互动百科抽取各种中文知识来弥补维基百科中文数据不足的缺陷。
此外,Freebase5是另一个重要的百科类的数据源,其包含超过3900万个实体(其称为Topics)和18亿条事实,规模远大于维基百科。
对比之前提及的知识图谱的规模,我们发现仅Freebase一个数据源就构成了Google知识图谱的半壁江山。
更为重要的是,维基百科所编辑的是各种词条,这些词条以文章的形式来展现,包含各种半结构化信息,需要通过事先制定的规则来抽取知识;而Freebase则直接编辑知识,包括实体及其包含的属性和关系,以及实体所属的类型等结构化信息。
因此,不需要通过任何抽取规则即可获得高质量的知识。
虽然开发Freebase的母公司MetaWeb于2010年被Google收购,Freebase还是作为开放的知识管理平台独立运行。
所以百度和搜狗也将Freebase加入到其知识图谱中。
b)结构化数据除了百科类的数据,各大搜索引擎公司在构建知识图谱时,还考虑其他结构化数据。
其中,LOD项目在发布各种语义数据的同时,通过owl:sameAs将新发布的语义数据中涉及的实体和LOD中已有数据源所包含的潜在同一实体进行关联,从而实现了手工的实体对齐(entity alignment)。
LOD不仅包括如DBpedia6和YAGO7等通用语义数据集,还包括如MusicBrainz8和DrugBank9等特定领域的知识库。
因此,Google等通过整合LOD中的(部分)语义数据提高知识的覆盖率,尤其是垂直领域的各种知识。
此外,Web上存在大量高质量的垂直领域站点(如电商网站,点评网站等),这些站点被称为DeepWeb10。
它们通过动态网页技术将保存在数据库中的各种领域相关的结构化数据以HTML表格的形式展现给用户。
各大搜索引擎公司通过收购这些站点或购买其数据来进一步扩充其知识图谱在特定领域的知识。
这样做出于三方面原因:其一、大量爬取这些站点的数据会占据大量带宽,导致这些站点无法被正常访问;其二、爬取全站点数据可能会涉及知识产权纠纷;最后,相比静态网页的爬取,Deep Web爬虫需要通过表单填充(Form Filling)技术来获取相关内容,且解析这些页面中包含的结构化信息需要额外的自动化抽取算法,具体细节在下一节描述。
c)半结构化数据挖掘A VP虽然从Deep Web爬取数据并解析其中所包含的结构化信息面临很大的挑战,各大搜索引擎公司仍在这方面投入了大量精力。
一方面,Web上存在大量长尾的结构化站点,这些站点提供的数据与最主流的相关领域站点所提供的内容具有很强的互补性,因此对这些长尾站点进行大规模的信息抽取(尤其是实体相关的属性-值对的抽取)对于知识图谱所含内容的扩展是非常有价值的。
另一方面,中文百科类的站点(如百度百科等)的结构化程度远不如维基百科,能通过信息框获得A VP的实体非常稀少,大量属性-值对隐含在一些列表或表格中。
一个切实可行的做法是构建面向站点的包装器(Site-specific Wrapper)。
其背后的基本思想是:一个Deep Web站点中的各种页面由统一的程序动态生成,具有类似的布局和结构。
利用这一点,我们仅需从当前10相对以静态网页和超链接关联的浅层Web(Shallow Web)而言,称为深层Web。
待抽取站点采样并标注几个典型详细页面(Detailed Pages),利用这些页面通过模式学习算法(Pattern Learning)自动构建出一个或多个以类Xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现自动化的A VP抽取。
对于百科类站点,我们可以将具有相同类别的页面作为某个“虚拟”站点,并使用类似的方法进行实体A VP 的抽取。