当前位置:文档之家› 基于自然语言处理的能源领域知识图谱

基于自然语言处理的能源领域知识图谱

基于自然语言处理的能源领域知识图谱
基于自然语言处理的能源领域知识图谱

2018年第5期

55方案与应用

信息技术与信息化

基于自然语言处理的能源领域知识图谱

赵京胜* 肖 娜 高 翔

ZHAO Jing-sheng XIAO Na GAO Xiang

摘 要 为了更加有效地理解能源学科的知识、分析能源学科知识之间的联系,共享能源领域知识,使能源知识

更简单的被大部分人理解。因此,提出了基于自然语言处理的能源学科知识图谱构建方法。首先依据改进的TextRank 迭代算法得到实体的权重,然后利用共现得到实体间的关系,最后根据实体的权值和实体间的关系,利用Pajek 软件绘制知识图谱。实验结果,应用本文的方法能成功构建能源学科的知识图谱,并且该方法具有借鉴性。

关键词 知识图谱;图模型;TextRank;能源;Pajek

doi:10.3969/j.issn.1672-9528.2018.05.014

* 青岛理工大学信息与控制工程学院 山东青岛 266000

1 引言

人类社会发展至今,已经经历了从薪柴到煤炭、从煤炭到油气两次能源革命,能源一直是人类生活的重要组成部分。在能源发展过程中,形成了大量理论知识,这些理论对于今后能源学科的发展至关重要,需要专业人士对该领域的理论知识进行整理和分析,知识图谱就是这样一个工具,而目前能源领域的知识图谱几乎没有。因此,如何借助信息科学与技术来对能源领域的理论进行整理和分析,对隐含在文献中的学术思想、新型技术、新型材料进行挖掘是本文的研究重点。

知识图谱的概念由Google 率先提出,是一种由实体和实体间关系组成的语义网络,可以对现实世界的事物及关系进行结构化地描述[1],这有助于人们建立知识体系,理解各种概念以及他们的关联。针对知识图谱这一特点,本文构建了基于自然语言处理的能源领域的知识图谱。首先获取文本中实体的综合特征值,及实体间的共现度;其次,利用综合特征值和共现度加权TextRank 算法;最后,将改进的TextRank 结果作为实体的权重,将共现度作为边,绘制知识图谱。2 相关工作分析

文献[2]通过对发达国家和发展中国家的技术创新体系的分析,了解了系统功能的积累如何让影响了光伏技术的扩散,并建立了当地的太阳能光伏产业[2]。Pawan Kumar 等通过分析能源设备程序的研究和发展,以及概述了NMs 的技术优势和劣势,最后得出这种材料在锂离子电池、太阳能电池应用等方面有很高的可行性[3]。文献[4]以物质能源为例,

通过目前发展现状、已有技术的分析,对新能源技术的未来进行展望[4]。

孙镇[5]详细介绍了实体抽取的方法,主要有基于规则与词典的方法、基于统计的方法以及混合方法,本文将关键词提取的方法应用于实体抽取,1958年,Luhn 利用基于词频的统计法来获取文档关键词,从此基于词频统计的方法诞生[6]。Hulth 将句法特征及短语块识别引入关键词提取中[7]。Tur-ney 将机器学习引入关键词提取,融合C4.5决策树算法与遗传算法,建立了一个"Extraction "系统[8]。而图模型是一种完全无监督技术,也是近期关键词提取的热点。2004年,Mihalcea 和Tarau 利用特征词在共现窗格中出现的关系构造词与词的图模型,并结合Google 公词提出的PageRank 算法,提出TextRank 关键词提取算法[9]。夏天将词向量聚类加权与TextRank 算法相结合,提高了单篇文档关键词的准确率

[10]

。针对应用广泛的自动关键词抽取方法,文献[11]对其

进行了总结分析,并预测了未来自动关键词抽取的发展和将要面临的挑战[11]。

2012年,Google 率先提出知识图谱(Knowledge Graph)的概念,将知识图谱应用到搜索引擎中。运用自然语言处理提取实体和实体间的关系,并以此分别作为图谱的节点和边,构建知识图谱。知识图谱的关键技术主要有知识抽取、知识表示、知识融合以及知识推理技术等。文献[12]运用KNN 算法与条件随机场模型,对Twitter 文本数据中实体进行抽取。陈立玮等人[13]提出了一种协同训练方法,通过向传统模型中引入N-Gram 特征进行协同训练,改善了弱监督关系抽取模型的效果。Li J 等人根据给定的少量种子链接,利用概念标注方法,发现新的链接,最终实现了知识的扩充[14]。但是,知识图谱大部分工作是由人工处理的,与自然语言结合的少,而能源领域的知识图谱就更少。因此,本文选取能源学科的

相关主题
文本预览
相关文档 最新文档