当前位置：文档之家› 基于自然语言处理的能源领域知识图谱

基于自然语言处理的能源领域知识图谱

2018年第5期

55方案与应用

信息技术与信息化

基于自然语言处理的能源领域知识图谱

赵京胜* 肖娜高翔

ZHAO Jing-sheng XIAO Na GAO Xiang

摘　要为了更加有效地理解能源学科的知识、分析能源学科知识之间的联系，共享能源领域知识，使能源知识

更简单的被大部分人理解。因此，提出了基于自然语言处理的能源学科知识图谱构建方法。首先依据改进的TextRank 迭代算法得到实体的权重，然后利用共现得到实体间的关系，最后根据实体的权值和实体间的关系，利用Pajek 软件绘制知识图谱。实验结果，应用本文的方法能成功构建能源学科的知识图谱，并且该方法具有借鉴性。

关键词知识图谱；图模型；TextRank；能源；Pajek

doi：10.3969/j.issn.1672-9528.2018.05.014

* 青岛理工大学信息与控制工程学院山东青岛 266000

1 引言

人类社会发展至今，已经经历了从薪柴到煤炭、从煤炭到油气两次能源革命，能源一直是人类生活的重要组成部分。在能源发展过程中，形成了大量理论知识，这些理论对于今后能源学科的发展至关重要，需要专业人士对该领域的理论知识进行整理和分析，知识图谱就是这样一个工具，而目前能源领域的知识图谱几乎没有。因此，如何借助信息科学与技术来对能源领域的理论进行整理和分析，对隐含在文献中的学术思想、新型技术、新型材料进行挖掘是本文的研究重点。

知识图谱的概念由Google 率先提出，是一种由实体和实体间关系组成的语义网络，可以对现实世界的事物及关系进行结构化地描述[1]，这有助于人们建立知识体系，理解各种概念以及他们的关联。针对知识图谱这一特点，本文构建了基于自然语言处理的能源领域的知识图谱。首先获取文本中实体的综合特征值，及实体间的共现度；其次，利用综合特征值和共现度加权TextRank 算法；最后，将改进的TextRank 结果作为实体的权重，将共现度作为边，绘制知识图谱。2 相关工作分析

文献[2]通过对发达国家和发展中国家的技术创新体系的分析，了解了系统功能的积累如何让影响了光伏技术的扩散，并建立了当地的太阳能光伏产业[2]。Pawan Kumar 等通过分析能源设备程序的研究和发展，以及概述了NMs 的技术优势和劣势，最后得出这种材料在锂离子电池、太阳能电池应用等方面有很高的可行性[3]。文献[4]以物质能源为例，

通过目前发展现状、已有技术的分析，对新能源技术的未来进行展望[4]。

孙镇[5]详细介绍了实体抽取的方法，主要有基于规则与词典的方法、基于统计的方法以及混合方法，本文将关键词提取的方法应用于实体抽取，1958年，Luhn 利用基于词频的统计法来获取文档关键词，从此基于词频统计的方法诞生[6]。Hulth 将句法特征及短语块识别引入关键词提取中[7]。Tur-ney 将机器学习引入关键词提取，融合C4.5决策树算法与遗传算法，建立了一个＂Extraction ＂系统[8]。而图模型是一种完全无监督技术，也是近期关键词提取的热点。2004年，Mihalcea 和Tarau 利用特征词在共现窗格中出现的关系构造词与词的图模型，并结合Google 公词提出的PageRank 算法，提出TextRank 关键词提取算法[9]。夏天将词向量聚类加权与TextRank 算法相结合，提高了单篇文档关键词的准确率

[10]

。针对应用广泛的自动关键词抽取方法，文献[11]对其

进行了总结分析，并预测了未来自动关键词抽取的发展和将要面临的挑战[11]。

2012年，Google 率先提出知识图谱(Knowledge Graph)的概念，将知识图谱应用到搜索引擎中。运用自然语言处理提取实体和实体间的关系，并以此分别作为图谱的节点和边，构建知识图谱。知识图谱的关键技术主要有知识抽取、知识表示、知识融合以及知识推理技术等。文献[12]运用KNN 算法与条件随机场模型，对Twitter 文本数据中实体进行抽取。陈立玮等人[13]提出了一种协同训练方法，通过向传统模型中引入N-Gram 特征进行协同训练，改善了弱监督关系抽取模型的效果。Li J 等人根据给定的少量种子链接，利用概念标注方法，发现新的链接，最终实现了知识的扩充[14]。但是，知识图谱大部分工作是由人工处理的，与自然语言结合的少，而能源领域的知识图谱就更少。因此，本文选取能源学科的