基于知识图谱的漏洞知识库构建方法与设计方案
- 格式:pdf
- 大小:133.60 KB
- 文档页数:11
构建知识图谱的详细步骤研究方向是知识图谱,需要整理数据集,所以这里想简单分享一下构建知识图谱的完整步骤,也算记录一下我的学习进程!网上说的最多的知识图谱构建的步骤就是:知识抽取、知识融合、知识存储但是在这些步骤之前我们还要先完成“构建模式、概念本体设计” 两个步骤,所以完整的步骤就是:构建模式、概念本体设计、知识抽取、知识融合、知识存储接下来,根据上面的步骤结合我自己整理数据的经验,详细讨论一下构建知识图谱的过程1.本体构建构建模式和概念本体设计也就是本体的构建,本体的构建一般包括两种方式,有自顶向下和自底向上两种方式。
自顶向下是先设计本体构建层,再将结构化知识加入知识库中,即先模式后数据;自底向上是先从公开数据集选择一些置信度较高的信息加入知识库,然后构建本体模式层,即先数据后模式。
2. 知识抽取我们构建知识图谱最终要的就是数据集,但是结构化的数据很少,大多都是半结构化数据和非结构化数据,所以需要将这些数据转化为结构化的数据,也就是三元组(主体,关系/属性,客体)知识抽取是从非结构化文本中抽取出三元组,说白了知识抽取就是一个将非结构化数据转化为结构化数据的过程。
知识抽取一般分为两种,一种是先抽取实体后抽取关系的流水线式的方法,一种是同时抽取实体关系,简单介绍一下这两种方法。
流水线抽取方法:这种方法很简单明了,就是先完成对实体的抽取,再去抽取实体之间的关系,或者实体的属性,但是一旦实体出现错误,那对应的关系和属性也会出错,即容易产生联级错误;联合抽取方法:不再把实体抽取和关系抽取分为两个独立的子过程,用的最多的就是先抽取头实体,后同时抽取关系和尾实体。
3. 知识融合知识融合分为实体消歧和共指消解实体消歧是解决一个实体具有不同意义的问题,如“苹果”既指水果,又指“苹果”公司;共指消解是解决不同实体具有相同的意义,例如“西红柿”和“番茄”,也称实体对齐。
常用的实体对齐方法有:•基于统计机器学习方法•基于文本向量距离计算相似度•基于神经网路的方法4. 知识存储知识存储目前主要有两种:RDF和图数据库Neo4jRDF:以三元组的形式存储在关系数据库,搜索效率低,查询语言为SPARQL;Neo4j:图数据库以图的形式存储,支持高效的图查询和搜索,查询语言为Cypher。
知识图谱的构建方法知识图谱的概念,来自于语义网络,根据 W3C的解释,语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识而知识图谱技术则是实现智能化语义检索的基础和桥梁.传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率,然而,这种网页检索效率并不意味着用户能够快速准确地获取信息和知识,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选.1 知识图谱的定义与架构1.1 定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构通过知识图谱,可以实现 Web 从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而真正实现语义检索,基于知识图谱的搜索引擎,能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页,就可以准确定位和深度获取知识.定义包含3层含义1.知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达.2.知识图谱的研究价值在于,它是构建在当前 Web基础之上的一层覆盖网络,借助知识图谱,能够在Web 网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识.3.知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来1.2 知识图谱的架构知识图谱的架构,包括自身的逻辑结构和技术架构逻辑结构可分为2个层次:数据层和模式层数据层 : 知识以事实(fact)为单位存储在图数据库模式层在数据层之上,是知识图谱的核心。
知识图谱构建与应用的方法与经验总结随着大数据和人工智能等技术的迅猛发展,知识图谱作为一种有效的知识表示和获取方式,逐渐成为各行各业的研究热点。
知识图谱的构建与应用具有广泛的应用前景,可以帮助我们更好地组织、管理和利用知识。
本文将对知识图谱构建与应用的方法和经验进行总结和探讨。
一、知识图谱构建的方法与技术知识图谱的构建过程主要包括三个关键步骤:信息抽取、知识组织与表示、知识关联与推理。
对于不同领域的知识图谱构建,可以采用不同的方法和技术。
下面将介绍几种常见的知识图谱构建方法。
1.信息抽取信息抽取是知识图谱构建的第一步,其目的是从大量的文本和数据中抽取出结构化的信息。
常用的信息抽取技术包括命名实体识别(NER)、关系抽取、事件抽取等。
这些技术可以帮助实现对实体、属性和关系的自动识别和提取。
2.知识组织与表示知识组织与表示是知识图谱构建的核心环节,其目的是将抽取得到的信息进行合理的组织和表示,形成有语义丰富的知识图谱。
常用的知识组织与表示技术包括本体建模、概念分类、属性定义等。
本体建模可以帮助构建高度可扩展的知识图谱,概念分类可以帮助实现知识的层次化组织,属性定义可以帮助描述实体和关系的属性特征。
3.知识关联与推理知识关联与推理是知识图谱构建的最后一步,其目的是通过对知识图谱中的实体和关系进行关联和推理,从而构建知识之间的桥梁和逻辑关系。
常用的知识关联与推理技术包括实体关联、关系推理、逻辑推理等。
实体关联可以帮助发现实体之间的共现关系,关系推理可以帮助发现隐含的关系,逻辑推理可以帮助实现知识的推理和推断。
二、知识图谱应用的方法与经验知识图谱的应用领域非常广泛,包括搜索引擎、智能问答、智能推荐、信息推送等。
下面将介绍几种常见的知识图谱应用方法和经验。
1.搜索引擎知识图谱可以通过提供丰富的实体、属性和关系信息来改进传统搜索引擎的用户体验。
例如,在搜索结果页面显示相关实体信息和属性信息,提供更多的上下文信息和相关推荐。
知识图谱构建方法及应用案例分析知识图谱是一种用于表示和组织知识的图形化模型,它能够以计算机可读的方式捕捉和存储知识之间的关系。
知识图谱的广泛应用领域包括社交网络分析、智能推荐系统、自然语言处理和智能问答等。
本文将介绍知识图谱的构建方法,并通过分析几个实际应用案例,展示其在不同领域的应用。
一、知识图谱构建方法1.1 知识抽取知识抽取是构建知识图谱的第一步。
它涉及从结构化和非结构化数据源中提取实体、关系和属性等知识元素。
常用的知识抽取技术包括命名实体识别、关系抽取、实体链接和属性抽取等。
命名实体识别通过识别文本中的名词短语来提取实体。
关系抽取旨在提取实体之间的关联性。
实体链接将命名实体与外部知识库中的实体关联起来。
属性抽取则是提取待建立知识图谱的实体的属性值。
1.2 知识表示知识表示是将抽取得到的知识元素转换为计算机可读的形式。
常用的知识表示方法包括本体模型和图模型。
本体模型利用概念、关系和属性等元素描述领域知识,其中OWL(Web Ontology Language)是一种常用的本体语言。
图模型则通过节点和边来表示实体和关系,例如利用图数据库来存储知识图谱。
1.3 知识融合知识抽取和知识表示往往面临多源、异构的数据。
知识融合旨在将来自不同数据源的知识元素进行整合和融合。
常用的知识融合方法包括同名实体消歧、关系合并和属性值归一化等。
同名实体消歧是为了解决不同数据源中同名实体的问题,通常通过上下文信息和实体属性来判断实体是否指代同一对象。
关系合并则是将来自不同数据源的关系进行合并。
属性值归一化是将不同数据源中的相似属性值进行统一,例如统一单位和单位转换。
1.4 知识推理知识推理是根据知识图谱中的已有知识,推断出潜在的知识或发现隐藏的关联。
常用的知识推理方法包括基于规则的推理、概率推理和统计推理等。
基于规则的推理通过设定规则,推断出新的知识。
概率推理通过概率模型计算不同事件之间的概率关系。
统计推理则是利用统计模型对数据进行分析和推理。
基于知识图谱技术的电力设备缺陷记录检索方法一、本文概述在当今电力系统管理中,电力设备的缺陷记录检索对于确保电网安全、稳定运行具有至关重要的作用。
随着信息技术的发展,知识图谱技术作为一种新兴的数据管理与分析工具,正逐渐在电力设备缺陷记录检索领域展现出其独特的优势。
本文旨在探讨如何利用知识图谱技术优化电力设备缺陷记录的检索过程,提高检索的效率和准确性。
本文首先对电力设备缺陷记录检索的背景和现状进行了详细的分析,指出现有检索系统存在的主要问题,如检索效率低、准确性不高等。
随后,本文重点介绍了知识图谱技术的原理和应用,以及其在电力设备缺陷记录检索中的潜在价值。
文章进一步提出了基于知识图谱技术的电力设备缺陷记录检索方法的整体框架,包括数据预处理、知识图谱构建、查询处理和结果呈现等关键步骤。
本文还通过实验验证了所提出方法的有效性。
实验结果表明,与传统的检索方法相比,基于知识图谱技术的电力设备缺陷记录检索方法在检索效率、准确性和用户友好性方面均有显著提升。
本文的研究不仅为电力设备缺陷记录检索提供了一个新的技术途径,同时也为知识图谱技术在电力系统管理领域的应用提供了有益的参考和实践案例。
二、知识图谱技术基础知识图谱(Knowledge Graph)作为一种结构化的数据表达模型,通过实体关系属性三元组的形式来组织和存储世界上的各种事实和信息。
在电力设备缺陷记录管理领域,知识图谱技术可以将复杂的设备信息、运行状态、缺陷类型以及维修历史等多元异构数据整合成一张相互关联的知识网络。
每个电力设备被视为一个实体,其关键属性如设备型号、生产厂家、安装时间等作为实体的属性值而设备之间的关系如连接关系、依赖关系等则通过预定义的关系类型加以描述。
设备的缺陷记录则表现为实体间的特殊事件或状态变化,其中包含了缺陷发生的时间、位置、原因分析、处理措施等相关信息。
知识图谱的优势在于能够利用语义关联性提高数据检索的准确性和效率。
在电力设备缺陷记录检索场景下,基于知识图谱技术可以实现快速定位设备历史缺陷模式、关联相似故障案例,并通过推理机制预测潜在风险,从而为设备维护决策提供有力的数据支撑。
知识图谱构建方法和应用指南知识图谱是一种基于语义关联的知识表示方法,它可以将信息与概念之间的关联关系以图形化的方式展示出来,为人们建立自动化智能系统提供了有力的支持。
本文将介绍知识图谱的构建方法和应用指南。
一、知识图谱构建方法1. 数据收集与清洗在构建知识图谱之前,首先需要收集相关领域的数据,并进行数据清洗。
数据来源可以包括结构化数据、半结构化数据以及非结构化数据,如各类数据库、网页、文本文档等。
数据清洗的过程包括去重、去噪、格式转换等,确保构建的知识图谱数据质量高。
2. 实体识别与属性抽取接下来,需要对数据进行实体识别和属性抽取。
实体识别是指从文本中识别出具体的事物,如人物、地点、组织等。
属性抽取是指从文本或其他数据中提取出与实体相关的属性信息,如人物的姓名、年龄、职业等。
这一步骤可以采用自然语言处理技术,如命名实体识别、关系抽取等。
3. 关系抽取与链接知识图谱的核心是实体之间的关联关系,因此需要进行关系抽取和链接。
关系抽取是指从文本或其他数据中提取出实体之间的关联信息,如人物之间的亲属关系、地点之间的空间关系等。
关系链接是指将不同数据源中的实体进行关联,从而构建起完整的知识图谱。
4. 知识表示与存储构建完成的知识图谱需要进行知识表示和存储。
知识表示是指将知识以适合机器处理的方式进行表示,如采用图形结构、语义网络等形式。
知识存储是指将知识图谱存储在数据库或其他存储介质中,以供后续的查询和应用使用。
二、知识图谱的应用指南1. 智能问答系统知识图谱可以为智能问答系统提供基础知识库,使其能够从知识图谱中获取准确、全面的信息,为用户提供精准的答案。
通过对知识图谱的查询和推理,智能问答系统可以实现更高效、更智能的问答功能。
2. 信息检索与推荐知识图谱能够为信息检索和推荐系统提供语义关联的支持,帮助用户快速找到所需信息。
通过将搜索关键词与知识图谱中的实体和关系进行匹配,可以提高检索结果的准确性和相关性。
同时,基于知识图谱的推荐系统可以根据用户的兴趣和上下文信息,为其推荐个性化的内容。
计算机测量与控制!"#"$!%"!%"!!"#$%&'()'*+%('#',&-!",&(".!!#,%!#收稿日期 "#"%#*#"$!修回日期 "#"%#)&*%基金项目 陕西省教育厅"#""年度一般专项科研计划项目!""+^#&)%"%作者简介 杜艺帆!&)**"&女&硕士研究生&助教%丛红艳!&)',"&女&博士生&教授%引用格式 杜艺帆&丛红艳!基于知识图谱的网络安全漏洞智能检测系统设计'+(!计算机测量与控制&"#"$&%"!%"),%'#!文章编号 &,'&$()* "#"$ #%##,%#*!!-./ &#!&,(", 0!1234!&&5$'," 67!"#"$!#%!#&#!!中图分类号 89%&&!!文献标识码 :基于知识图谱的网络安全漏洞智能检测系统设计杜艺帆& 丛红艳"!&_西北大学现代学院&西安!'&#&%#$"_西安工程大学新媒体艺术学院&西安!'&##$*"摘要 网络安全漏洞智能检测需要依赖大量的真实数据来进行分析&冗余数据与异常数据的存在会导致检测准确性下降$为保障网络系统稳定运行&提出基于知识图谱的网络安全漏洞智能检测系统设计研究$从结构*逻辑模型以及运行模式%个方面设计网络安全漏洞检测器&实现网络安全漏洞智能检测系统硬件设计$系统软件设计通过网络爬虫采集安全漏洞数据&去除冗余数据与异常数据&根据属性信息识别安全漏洞实体&获取安全漏洞属性信息关系&以此为基础&定义安全漏洞知识图谱表示形式&设计安全漏洞知识图谱结构&从而实现安全漏洞知识图谱的构建与可视化$以上述网络设计结果为依据构建网络安全漏洞智能检测整体架构&制定网络安全漏洞智能检测具体流程&从而获取最终网络安全漏洞智能检测结果$实验结果表明&在不同实验工况背景条件下&设计系统应用后的网络安全漏洞漏检率最小值为&_"%i&网络安全漏洞检测[&值最大值为)_(#&网络安全漏洞检测响应时间最小值为&O L&证实了设计系统的安全漏洞检测性能更佳%关键词 网络安全$智能化$漏洞挖掘$知识图谱$漏洞检测F'+57,"1L,&'..57',&F'&'<&5",/0+&'#1"(S'&>"(T/'<%(5&0N%.,'(*;5.5&5'+P*+'8",=,">.'87'[(*$:->c4M H2&&T.D E F J2B P H2"!&_;1@J J I J M=J R A N2&D J N6@V A L6>24S A N L46P&K4j H2!'&#&%#&T@42H$"_;1@J J I J MD A V=A R4H:N6&K4j H2>24S A N L46P J M8A1@2J I J B P&K4j H2!'&##$*&T@42H"9;+&(*<&)8@A426A I I4B A26R A6A164J2J M2A6V J N3L A1G N46P S G I2A N H W4I464A L N A I4A LJ2H I H N B AH O J G26J M N A H I R H6H M J N H2H I P L4L&H2RN A5 R G2R H26H2RH W2J N O H I R H6H1H2I A H R6J H R A1N A H L A42R A6A164J2H11G N H1P!/2J N R A N6J A2L G N A6@A L6H W I A J7A N H64J2J M2A6V J N3L P L6A O L&H 2A6V J N3L A1G N46P S G I2A N H W4I46P426A I I4B A26R A6A164J2L P L6A OR A L4B2W H L A R J232J V I A R B A B N H7@4L7N J7J L A R!8@A2A6V J N3L A1G N46P S G I2A N5H W4I46P R A6A16J N M N J O6@N A A H L7A16L J M6@A L6N G16G N A&I J B41H IO J R A I&H2RJ7A N H64J2O J R A4LR A L4B2A R6JH1@4A S A6@A@H N R V H N AR A L4B2J M6@A426A I I4B A262A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J2L P L6A O!8@A L P L6A OL J M6V H N A R A L4B21J I I A16L L A1G N46P S G I2A N H W4I46P R H6H6@N J G B@ V A W1N H V I A N L&N A O J S A L N A R G2R H26R H6H H2R H W2J N O H I R H6H&4R A264M4A L L A1G N46P S G I2A N H W4I46P A26464A L H11J N R42B6J H66N4W G6A42M J N O H64J2& H2RJ W6H42L L A1G N46P S G I2A N H W4I46P H66N4W G6A42M J N O H64J2N A I H64J2L@47L!Z H L A RJ26@4L&46R A M42A L6@A N A7N A L A26H64J2M J N OJ M6@A L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@&R A L4B2L6@A L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@L6N G16G N A&H2R6@A1J2L6N G164J2H2R S4L G H I4U H64J2J M L A1G N46P S G I2A N H W4I46P32J V I A R B A B N H7@H N A N A H I4U A R$Z H L A RJ26@A H W J S A2A6V J N3R A L4B2N A L G I6L&H2J S A N H I I H N1@46A16G N A M J N426A I I4B A26 R A6A164J2J M6@A2A6V J N3L A1G N46P S G I2A N H W4I464A L4L1J2L6N G16A R6JR A S A I J76@A L7A14M417N J1A L L M J N6@A426A I I4B A26R A6A164J2J M6@A2A65 V J N3L A1G N46P S G I2A N H W4I464A L&H2RJ W6H426@A M42H I426A I I4B A26R A6A164J2N A L G I6L J M6@A2A6V J N3L A1G N46P S G I2A N H W4I464A L!8@A A Y7A N4O A25 6H I N A L G I6L L@J V6@H6G2R A NR4M M A N A26A Y7A N4O A26H I1J2R464J2L&6@AO424O G O2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J2N H6AJ M6@AR A5 L4B2A RL P L6A OH M6A N H77I41H64J24L&_"%i&6@AO H Y4O G O[&S H I G A J M6@A2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J24L)_(#&H2R6@AO4245 O G ON A L7J2L A64O A J M6@A2A6V J N3L A1G N46P S G I2A N H W4I46P R A6A164J24L&O L&1J2M4N O42B6@H66@A R A L4B2A R L P L6A O@H L H J764O H I L A1G N46P S G I2A N H W4I46P R A6A164J27A N M J N O H21A!='0>"(8+)2A6V J N3L A1G N46P$426A I I4B A21A$S G I2A N H W4I46P O4242B$32J V I A R B A B N H7@$S G I2A N H W4I46P R A6A164J2!引言网络的飞速发展为人们生产与生活带来了极大的便利&但与此同时网络病毒传播速度也随之加快&网络安全问题日益严重%安全漏洞是造成网络安全问题的关键所在&其主要来源于网络系统脆弱性%随着网络的不断发展与普及&其在人们生产与生活中占据的地位逐渐上升&网络病毒也随之快速传播&网络安全正在经受着前所未有的威胁%若是网络安全防御措施不足&就会受到非法侵入&致使网络!投稿网址 V V V!0L01I P3U!1J O!!计算机测量与控制!第%"""""""""""""""""""""""""""""""""""""""""""""""""""""卷#,$!#关键信息被篡改*偷窃等&严重会造成网络系统的瘫痪&造成较大的经济损失&威胁国家与大众的信息与财产安全%由此可见&如何保障网络安全具有至关重要的现实意义%通过调查研究发现&目前制约网络发展的最大问题就是安全问题&由于网络本质上是,无政府-的公用平台&任何人均可以自由登陆&使得网络安全保障具备较多的不确定因素!漏洞"&为黑客提供了可乘之机%网络安全问题主要来源于系统的脆弱性&主要表现在管理脆弱性*技术脆弱性与系统脆弱性%其中&管理脆弱性主要发生在网络系统安全策略制定*实施*配置与控制过程中$技术脆弱性主要发生在硬件与软件设计过程中$系统脆弱性主要发生在安全防护设备运行过程中%由于上述网络系统脆弱性的存在&使得网络具有较多的安全漏洞&使得别有用心的人可以通过安全漏洞在未授权背景下访问或者破坏网络系统&对网络安全造成极大的威胁%任何网络安全问题均是由安全漏洞引起的&对其进行精准检测是提升网络安全的根本手段%网络安全漏洞检测是一个动态的过程&并且其难度会随着网络覆盖范围的扩大而增加%相较于发达国家来看&中国对于网络安全漏洞检测的研究较晚&但也取得了一定的研究成果%文献'&(在感知网络整体安全态势的基础上&应用黑盒遗传算法进行相应的模糊测试&选取适当的目标函数与测试参数&测试停止后输出结果即为网络安全漏洞检测结果$文献'"(应用数据预处理模块与协同分析模块对网络安全漏洞信息进行预处理与分析&以此为基础&利用D 5B N H O 算法匹配漏洞信息与已知的漏洞特征&从而实现网络安全漏洞的检测$文献'%(使用被动分簇算法明确簇首与网关节点&利用:[<模糊检测工具过采样安全漏洞样本&结合前向反馈网络和支持向量机构建安全漏洞判别模型&将待检测网络运行数据代入到判别模型中&输出结果即为网络安全漏洞检测结果%上述安全漏洞检测系统虽然能够实现安全漏洞检测功能&但是由于应用手段的自身缺陷&均存在着安全漏洞检测效果较差的问题&无法满足网络系统的发展需求&故提出基于知识图谱的网络安全漏洞智能检测系统设计研究%现有安全漏洞数据库具有信息单一*数据分散*数据结构各异等缺点&这是影响安全漏洞检测效果的关键因素%知识图谱的出现可以有效解决上述问题&其能够根据海量的安全漏洞信息构建安全漏洞知识图谱&对安全漏洞信息进行聚合分析&挖掘安全漏洞关联信息&可以为安全漏洞检测提供更多的信息支撑&从而提升安全漏洞检测整体性能%@!网络安全漏洞智能检测系统硬件设计作为网络安全漏洞智能检测系统的关键硬件&检测器主要由管理器*检测单元*通信器等部件构成&为了提升网络安全漏洞检测的精准度&对检测器结构*逻辑模型与运行模式进行合理*科学地设计&具体设计过程如下所示%@B @!网络安全漏洞检测器结构设计网络安全漏洞检测器结构如图&所示%图&!网络安全漏洞检测器结构示意图如图&所示&在设计的网络安全漏洞检测器结构中&通信器主要承担着安全漏洞数据*漏洞报表*控制指令*网络邮件等的传递任务&与用户*服务器*控制器等进行直接连接&可以实时将安全漏洞检测结果传输给用户与服务器&也可以实时将用户控制指令传输给控制器&保障设计系统的通信顺畅'$(%通信器上述功能主要是在Z ;-;J 135A 6的支撑下实现的&还需要遵循一定的数据格式与传输规则&其基础运作原理为;J 13A 6:9/函数&具体调用方案需要根据实际情况来制定'((%管理器主要作用于检测单元&决定着安全漏洞检测任务执行过程中检测单元如何调度&是检测器中的核心部件%管理器功能实现的关键是配置文件&其中记录了检测单元信息*系统访问权限信息等%当网络系统安全漏洞检测单元增加时&配置文件中也需进行相应的记录%另外&管理器与通信器*检测单元均是直接连接的&用于接收用户反馈的控制指令与检测单元的安全漏洞信息%当管理器接收到通信器传输的控制指令时&先对控制指令进行解译&再以此为基础制定检测单元的控制动作',(%当管理器接收到检测单元传输的安全漏洞信息时&不需要对其进行解译与分析&只需要将其直接转发给通信器即可%检测单元是网络安全漏洞检测器的基石&是实现网络安全漏洞智能检测功能的程序实体%标准情况下&一个检测单元对应着一种网络安全漏洞的检测&检测单元之间保持着相互独立的关系%若是存在新的安全漏洞&则应该采用9`\<语言对新的检测单元进行编制与添加%单一检测单元主要由注册部分*检测部分与卸载部分构成&其管理难度较低&只需要在安装过程中向管理器配置文件进行备份即可%上述过程完成了网络安全漏洞检测器结构的设计&并对构成部件进行了详细地描述与介绍&为检测器功能的实现奠定基础%@B A !网络安全漏洞检测器逻辑模型设计逻辑模型是网络安全漏洞检测器功能实现的主要依据&故此节在用户*网络系统*漏洞检测等多方需求背景下&设计网络安全漏洞检测器逻辑模型&具体如图"所示%!投稿网址 V V V!0L 01I P3U !1J O第%期杜艺帆&等)""""""""""""""""""""""""""""""""""""""""""""""""""""基于知识图谱的网络安全漏洞智能检测系统设计#,(!#图"!网络安全漏洞检测器逻辑模型示意图如图"所示&网络安全漏洞检测器逻辑模型主要由%个部分构成&分别为用户界面部分*检测调度部分与漏洞检测部分%其中&用户界面部分秉持着简洁易用的原则&为用户提供多种类型的操作方式&满足不同用户的需求%用户可以通过浏览器查询到网络安全漏洞检测结果及其相关信息''(%与此同时&高级用户还能根据自身需求对漏洞检测程序进行更改与完善&以此来提升网络安全漏洞检测整体性能%检测调度部分主要是基于安全漏洞数据库与网关传输漏洞检测请求来确定检测目标网络及其其他需求&制定检测单元调度策略&并将其传输给漏洞检测部分&为漏洞检测提供指导作用%漏洞检测部分主要是通过分布式检测单元对目标网络系统存在的安全漏洞进行检测*识别与预警&与此同时&判定目标网络系统的脆弱性等级&给出相应风险防范措施%根据不同网络用户的需求&编制不同形式的安全漏洞检测报告&并将其反馈给网络安全管理员&其收到反馈结果后&制定相应的安全漏洞补救措施&以保证网络系统的稳定运行&为用户提供更优质的网络环境%@B C !网络安全漏洞检测器运行模式设计常规情况下&检测器运行模式主要有两种&分别为单机检测模式与T +;模式%当检测器运行模式处于单机检测模式时&只需要管理员对相关参数进行合理配置&即可实现检测器的本地运行&判定网络系统是否存在安全漏洞%需要注意的是&检测器单机检测模式不涉及与服务器的通信过程$当检测器运行模式处于T +;模式时&涉及与服务器的通信过程&只有接收到服务器检测指令后才开启漏洞检测单元&漏洞检测结果通过通信方式反馈给网络系统&并将其存储于相应文件中&为后续安全漏洞检测结果查询提供便利'*(%在漏洞检测指令完成后&继续进入监控模式&直到网络用户下线为止%上述两种运行模式优势与缺陷并存&无法为检测器的稳定运行提供支撑%因此&此研究融合两种运行模式的优势部分&设计新的网络安全漏洞检测器运行模式&具体如图%所示%图%!网络安全漏洞检测器运行模式设计图如图%所示&通过单机检测模式与T +;模式的有效结合&可以增加网络安全漏洞检测器运行的安全性以及可靠性')(%上述过程从结构*逻辑模型与运行模式%个方面出发完成了网络安全漏洞检测器的设计&为最终安全漏洞智能检测的实现提供有力的硬件支撑%A !网络安全漏洞智能检测系统软件功能实现A B @!网络安全漏洞知识图谱构建安全漏洞知识图谱可以表示安全漏洞*网络实体*相关属性等之间的复杂关联关系&对其进行构建可以为后续网络安全漏洞检测提供更多的信息支撑&具体构建过程如下所示%"_&_&!安全漏洞数据采集与预处理安全漏洞数据采集与预处理是安全漏洞知识图谱构建的首要环节'&#(&也是至关重要的环节%常规情况下&安全漏洞数据主要以非结构化文本形式存在&例如D ]-*T ]`等漏洞数据库&每个漏洞数据库存储的数据种类存在着较大的差异性'&&(&使得安全漏洞数据表现形式*存储位置较为随机&为安全漏洞数据采集带来了较大的困难'&"(%针对上述安全漏洞数据特点&此研究选取网络爬虫对安全漏洞数据进行采集&具体如图$所示%以图$所示程序对网络安全漏洞数据进行采集&并将其整合为集合形式&记为("1)&&)"&/&)>2&其中&>表示的是网络安全漏洞数据的总数量%网络爬虫在安全漏洞数据采集过程中&容易受到网络环境*恶意程序等干扰&致使安全漏洞数据存在着冗余*层次逻辑混乱*异常等现象&不利于安全漏洞知识图谱的构建&故在安全漏洞知识图谱构建之前&需要对网络安全漏洞数据进行一定的预处理'&%(%计算网络安全漏洞数据集合中任意两个数据之间的相似度&表达式为%!)*&)+"")*A )+)*B )+B &!!&"式中&%!)*&)+"表示的是安全漏洞数据)*与)+之间的相似度$)*A )+表示的是安全漏洞数据)*与)+的交集$)*B )+!投稿网址 V V V!0L 01I P3U !1J O!!计算机测量与控制!第%"""""""""""""""""""""""""""""""""""""""""""""""""""""卷#,,!#图$!基于网络爬虫的安全漏洞数据采集程序图表示的是安全漏洞数据)*与)+的并集$&!表示的是安全漏洞数据相似度计算辅助参数&取值范围为#%&&需要根据网络安全状态实际情况进行科学地设置%以公式!&"计算结果%!)*&)+"为基础&判定安全漏洞数据是否为冗余数据&判定规则如下式所示)%!)*&)+""&)*&)+为冗余数据&删除其中一个%!)*&)+">&)*&)+为正常数据&1保留两个数据!""安全漏洞异常数据检测与删除也是其预处理中的关键所在'&$(%安全漏洞异常数据检测因子计算公式为)6-")*#0)1)!%"式中&6-表示的是安全漏洞异常数据检测因子$0)表示的是安全漏洞数据的平均值$1)表示的是安全漏洞数据的标准差数值%以公式!%"计算结果6-为基础&判定安全漏洞数据是否为异常数据&判定规则如下式所示)U 6-U (&)*为异常数据U 6-U &)*1为正常数据!$"式中&U 6-U 表示的是安全漏洞异常数据检测因子6-的绝对值%将检测到的冗余数据与异常数据进行删除处理&并将剩余数据进行重新整合&即可获得预处理后的网络安全漏洞数据集合&记为(W "1)W &&)W "&/&)W G 2&其中&G 表示的是预处理后网络安全漏洞数据的总数量'&((%上述过程完成了安全漏洞数据的采集与预处理&并获得了最终的网络安全漏洞数据集合(W "1)W &&)W "&/&)W G 2&为后续安全漏洞知识图谱实体的识别奠定坚实的基础%"_&_"!安全漏洞知识图谱实体识别安全漏洞知识图谱实体识别主要是针对安全漏洞实体进行识别&是知识图谱构建的主要依据之一%在网络运行实际情况下&每个安全漏洞均具备独一无二的/-&其对应的属性信息也存在着较大的差异性%由此可见&能够根据属性信息对安全漏洞知识图谱实体进行精准识别%常规情况下&安全漏洞属性信息主要包括漏洞风险数值*漏洞文件名称*漏洞编程语言*漏洞爆发点等&为了方便后续漏洞实体的识别&对属性信息进行统计&具体如表&所示%表&!安全漏洞属性信息统计表属性名称属性排序属性描述T ]`5/-%安全漏洞/-T ];;&安全漏洞危险等级9H 6@D H O A (安全漏洞文件名称<H 2B G H B A '安全漏洞源代码编程语言Z N A H 37J 426"安全漏洞爆发点E N H 42*安全漏洞粒度`26N P&#安全漏洞入口9G W I 4L @-H 6A$安全漏洞发布时间`Y 46)安全漏洞出口-A L 1N 4764J 2,安全漏洞相关描述如表&内容所示&每个安全漏洞均是由多个属性信息构成的&以此为基础&衡量未知安全漏洞与已知安全漏洞属性信息之间的相关系数'&,(&计算公式为)$!;*&\+""%!;*&\+"=$)-!("式中&$!;*&\+"表示的是未知安全漏洞属性信息集合;*与已知安全漏洞属性信息集合\+之间的相关系数$%!;*&\+"表示的是未知安全漏洞与已知安全漏洞属性信息的相似度$=表示的是属性信息的总数量$)-表示的是误差调整项&承担着提升相关系数精度的任务%以公式!("计算结果$!;*&\+"为基础&制定安全漏洞知识图谱实体识别规则&具体如下式所示)$!;*&\+".V #;*是知识图谱实体$!;*&\+"'V #;*1非知识图谱实体!,"式中&V #表示的是安全漏洞知识图谱实体识别阈值&其需要根据安全漏洞属性信息实际情况来设置%通过上述过程完成了安全漏洞知识图谱实体的精准识别&为最终知识图谱的构建做好充足的准备工作%"_&_%!安全漏洞知识图谱关系抽取在网络实际运行过程中&安全漏洞知识图谱主要存在$种依赖关系&分别为函数调用依赖关系*控制依赖关系*声明依赖关系与数据流依赖关系&其是知识图谱构建的基础与前提之一'&'(%因此&此节对上述关系进行描述与抽取%为了方便后续安全漏洞知识图谱关系的描述以及抽取&设置安全漏洞知识图谱任意两个节点为1&与1"&具体关系抽取过程如下所示)&"函数调用依赖关系抽取)当安全漏洞知识图谱节点1&被调用至节点1"边缘时&认定两者之间关系为函数调用依赖关系&将其记为1&!投稿网址 V V V!0L 01I P3U !1J O第%期杜艺帆&等)""""""""""""""""""""""""""""""""""""""""""""""""""""基于知识图谱的网络安全漏洞智能检测系统设计#,'!#/C C C ;4A1"$""控制依赖关系抽取)当安全漏洞知识图谱节点1"隶属于节点1&&并且需要在节点1&的帮助下才能进行相关操作时&认定两者之间关系为控制依赖关系&记为1&/C 4A1"$%"声明依赖关系抽取)当声明某变量过程中均涉及了安全漏洞知识图谱节点1&与1"&则表明两者之间关系为声明依赖关系&其是一种特殊关系&记为1&/C 9A1"$$"数据流依赖关系抽取)当安全漏洞知识图谱节点1&与1"之间存在特定路径&并且节点1&与1"变量定义一致&则表明两者之间关系为数据流依赖关系&记为1&/C C C A .A1"%依据上述描述在安全漏洞知识图谱节点中进行搜索*识别与抽取&为后续安全漏洞知识图谱可视化处理提供支撑%"_&_$!安全漏洞知识图谱可视化以上述安全漏洞知识图谱实体识别结果与关系抽取结果为依据&定义安全漏洞知识图谱表示形式&设计安全漏洞知识图谱结构&从而实现安全漏洞知识图谱的构建与可视化%此研究采用三元组表示安全漏洞知识图谱&表达式为Q "!(W &;&1"!'"式中&Q 表示的是安全漏洞知识图谱三元组表示形式$(W 表示的是安全漏洞数据集合$;表示的是安全漏洞知识图谱实体集合$1表示的是安全漏洞知识图谱关系集合%安全漏洞知识图谱主要包含两大结构&分别为漏洞实体结构与其他实体结构'&*(%其中&漏洞实体结构中包含着安全漏洞属性信息*基本信息等&其他实体结构中包含着网络安防实体*网络运行程序实体等%安全漏洞知识图谱构建结果如图(所示%图(!安全漏洞知识图谱构建结果示意图上述过程完成了网络安全漏洞知识图谱的构建与可视化&为网络安全漏洞智能检测系统的实现打下坚实的基础%A B A !网络安全漏洞智能检测功能实现以上述网络安全漏洞知识图谱构建结果与网络安全漏洞检测器设计结果为依据&构建网络安全漏洞智能检测整体架构&制定网络安全漏洞智能检测具体流程!检测器软件程序"&从而获取最终网络安全漏洞智能检测结果&为网络系统的稳定运行提供保障%网络安全漏洞智能检测整体架构如图,所示%图,!网络安全漏洞智能检测整体架构图如图,所示&网络安全漏洞智能检测主要依据知识图谱子图匹配算法实现&简单地说&就是在已知安全漏洞知识图谱."!D (W &E ;&E 1"匹配同构于待检测安全漏洞知识图谱Q "!(W &;&1"的全部数据子图'&)(%从本质角度出发&知识图谱是一个有向多标签图&顶点之间存在着多条边%与普通图谱相比较&知识图谱内部结构更加稠密&包含更多的关系信息%为了提升网络安全漏洞智能检测的时间效率&提出新的知识图谱子图匹配算法000[E X 85=H 61@算法&其主要划分为两个阶段&阶段一为[E X 8索引构造&阶段二为最优匹配序列获取%基于[E X 85=H 61@算法的网络安全漏洞智能检测程序如下所示%阶段一)[E X8索引构造%[E X8索引!流图索引"主要是基于漏洞数据匹配顶点对构造而成%其中&顶点对主要描述的是待检测安全漏洞知识图谱顶点N 到已知安全漏洞知识图谱顶点:的映射函数&记为'N &:(%需要注意的是&在漏洞数据匹配顶点对应用之前&需对其是否匹配进行精准验证&验证规则如下式所示)O &!N ""O &!:"O "!N &N W ""O "!:&:W "FN W <Q "!(W &;&1"&F :W <."!D (W &E ;&E 12)*"!*"式中&O &!N "与O &!:"表示的是漏洞数据匹配顶点N 与:对应的标签函数$O "!N &N W "与O "!:&:W "表示的是漏洞数据匹配边!N &N W "与!:&:W "对应的标签函数$N W 表示的是待检测!投稿网址 V V V!0L 01I P3U !1J O。
知识图谱解决方案
知识图谱解决方案是一种基于图数据库的知识管理和检索
系统,它可以将结构化和半结构化的数据转化为图形形式,以便于对数据之间的关系进行理解和挖掘。
下面是一种常
见的知识图谱解决方案的主要步骤:
1. 数据收集和清理:收集结构化和半结构化的数据,并进
行清理和预处理,以保证数据的质量和一致性。
2. 实体识别和关系抽取:利用自然语言处理和机器学习技术,对文本数据进行实体识别和关系抽取,提取出实体和
它们之间的关系。
3. 数据建模和存储:根据实际需求,设计知识图谱的实体
和关系,并将数据存储在图数据库中,以便于快速查询和
更新。
4. 知识推理和发现:通过图数据模型和图算法,进行知识
推理和发现,挖掘出数据之间的潜在关系和规律。
5. 用户界面和应用开发:开发用户友好的界面,以便用户
可以方便地对知识图谱进行浏览、查询和分析,并根据具
体需求开发相应的应用程序。
6. 应用场景:知识图谱可以应用于多个领域,如智能问答
系统、智能推荐系统、舆情分析等,可以帮助用户快速获
取和理解大量的知识信息。
总的来说,知识图谱解决方案通过将数据转化为图形结构,以及应用图算法和推理技术,可以帮助人们更好地理解和
利用大数据,从而支持各种知识管理和智能应用的需求。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011397024.7(22)申请日 2020.12.03(71)申请人 中国电子科技网络信息安全有限公司地址 610207 四川省成都市双流区西南航空港经济开发区工业集中区内(72)发明人 和达 刘杰 王一凡 孙治 陈剑锋 (74)专利代理机构 成都九鼎天元知识产权代理有限公司 51214代理人 贾年龙(51)Int.Cl.H04L 29/06(2006.01)G06N 5/02(2006.01)(54)发明名称基于图谱的漏洞知识挖掘方法及系统(57)摘要本发明公开了基于图谱的漏洞知识挖掘方法及系统,包括步骤:S1,收集网络空间安全领域公开漏洞数据导入数据库,构建漏洞知识图谱;S2,基于构建的知识图谱进行漏洞知识挖掘等;本发明将多源异构的公开漏洞信息进行融合,形成了统一的知识表示形式;通过知识图谱的关联查询以及推导,获得产品厂商到漏洞信息到攻击方法的闭环知识;基于知识图谱的算法挖掘更多漏洞相关知识。
权利要求书2页 说明书8页 附图2页CN 112671716 A 2021.04.16C N 112671716A1.基于图谱的漏洞知识挖掘方法,其特征在于,包括步骤:S1,收集网络空间安全领域公开漏洞数据导入数据库,构建漏洞知识图谱;S2,基于构建的知识图谱进行漏洞知识挖掘。
2.根据权利要求1所述的基于图谱的漏洞知识挖掘方法,其特征在于,包括步骤:S3,基于漏洞知识挖掘结果,匹配用户的自然语言输入,形成了一个漏洞知识图谱专家系统。
3.根据权利要求1或2任一所述的基于图谱的漏洞知识挖掘方法,其特征在于,步骤S1包括:S11,构建漏洞本体作为知识图谱的骨架,明确漏洞领域内的概念,属性,术语及相互关系;S12,爬取漏洞网页,获取数据库类型的结构化漏洞数据源,从数据中抽取属性和关系信息,对多源异构数据进行实体消歧和共指消解的数据融合工作;S13,将处理后的数据导入数据库,形成漏洞知识图谱。
基于知识图谱的漏洞知识库构建方法与设计方案本技术涉及一种基于知识图谱的漏洞知识库构建方法,涉及网络安全技术领域。
本技术通过知识融合将多个数据源抽取的知识进行融合,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新,达到数据、信息、方法、经验以及攻防知识的融合,形成高质量的漏洞知识库。
在构建好基于知识图谱的漏洞知识库后,可根据用户的漏洞发现工作的具体要求,通过提供实时可视化交互接口进行展示、知识筛选、推荐漏洞发现路径等操作,实现交互式的漏洞发现。
通过该方法能够对软件系统、网络协议等进行高效的漏洞发现,具备与人之间的协同分析和自学习的能力,辅助用户更快的查找可能得安全漏洞新,实现更快更准地发现漏洞。
权利要求书1.一种基于知识图谱的漏洞知识库构建方法,其特征在于,包括以下步骤:步骤1:漏洞知识的收集;步骤2:对收集的漏洞知识进行提取和清洗;步骤3:对步骤2处理得到的漏洞数据实现知识图谱化。
2.如权利要求1所述的方法,其特征在于,步骤1具体为:从多个数据源获取计算机相关知识、网络安全相关知识、攻击规则、软件漏洞样本、网络威胁情报、攻击规则及漏洞数据;其中,攻击规则包含已经存在的攻击的详细信息,包括攻击名称、攻击类型、协议、攻击特点、攻击描述、严重性;漏洞数据包含已发现漏洞的详细信息,包括漏洞名称、漏洞描述、漏洞优先级、破坏方法、同源性特征;还使用人工标注的方法对样本软件进行漏洞标注,将漏洞存在的执行路径标记为脆弱路径,随后使用遗传算法进行脆弱路径制导测试,得到包含软件脆弱路径及测试用例的漏洞发掘样本数据。
3.如权利要求1所述的方法,其特征在于,步骤2具体为:将通过步骤1得到的数据首先进行归并、去重、归一化这些清洗处理;将分散的知识结构化为计算机可理解的知识库;还对原始数据进行的预处理和数据聚合、压缩,排序,删除重复信息、纠正存在的错误,并提供数据一致性处理。
4.如权利要求1所述的方法,其特征在于,步骤3中,将知识图谱作为最终产生的结构化知识库表现形式,将漏洞知识库中的知识看作一个五元组模型,该模型包含:概念、实例、关系、属性和规则;知识图谱用于描述真实世界中存在的各种实体或概念,其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符,每个属性-值对用于表征实体的内在特性,而关系用于连接两个实体,描述它们之间的关联。
信息系统安全测试中基于知识图谱的漏洞挖掘技术随着信息技术的迅速发展,信息系统的安全性问题变得越来越重要。
对于信息系统安全测试而言,漏洞挖掘技术起着至关重要的作用。
而基于知识图谱的漏洞挖掘技术,作为一种新兴的方法,具有独特的优势和潜力。
本文将介绍基于知识图谱的漏洞挖掘技术在信息系统安全测试中的应用,并探讨其原理和优势。
知识图谱是一种将数据和知识以图形结构形式表示的技术。
它通过将不同实体之间的关联关系进行建模,形成一张复杂的网络图。
在信息系统安全测试中,我们可以将系统的各个组件、漏洞类型、攻击方式等信息以节点的形式表示,并通过边来表示它们之间的关联关系。
这样,就形成了一个包含丰富知识的图谱,利用这个图谱可以更加高效地进行漏洞挖掘工作。
基于知识图谱的漏洞挖掘技术的关键在于建立一个全面的、准确的知识图谱。
我们需要收集并整理与漏洞挖掘相关的信息,包括已知的漏洞、攻击方式、安全漏洞报告等。
通过将这些信息进行关联和分类,构建出一个完整的知识图谱。
在这个过程中,可以利用自然语言处理、机器学习等技术来自动化地处理和整理数据,提高效率和准确性。
在建立好知识图谱之后,基于知识图谱的漏洞挖掘技术可以利用图数据库和网络分析算法来进行漏洞挖掘工作。
通过对图谱中的节点和边进行深度和广度的遍历,可以发现系统中可能存在的漏洞。
例如,可以通过追溯某个已知漏洞的关联节点,找到其他可能存在类似漏洞的组件,从而扩大漏洞挖掘的范围。
通过网络分析算法可以对系统进行拓扑分析,发现隐藏的漏洞点,并通过挖掘潜在的攻击路径,找到系统中的弱点。
基于知识图谱的漏洞挖掘技术相比传统方法具有许多优势。
它能够提供更全面、准确的漏洞信息。
通过对大量的安全数据进行整理和挖掘,可以发现更多系统中存在的漏洞,提高发现率和准确性。
它可以提供更深入的安全分析。
通过对知识图谱的遍历和分析,可以深入挖掘系统中的潜在弱点和攻击路径,有助于深层次的安全策略制定。
基于知识图谱的漏洞挖掘技术还具有良好的扩展性和自动化程度,能够适应不同系统和环境的需求。
知识图谱构建与应用平台的设计与开发随着信息和数据的爆炸式增长,如何有效地整合、管理和应用这些海量的知识和信息成为了一项重要而又具有挑战性的任务。
知识图谱作为一种基于语义的知识表示和存储方式,正在逐渐应用于各个领域,为人们提供了更加智能化、精准化的服务和决策支持。
本文将探讨知识图谱构建与应用平台的设计与开发,以解决上述问题。
1. 平台架构设计知识图谱构建与应用平台的设计需要一个合理的架构来实现对知识的表示、存储、融合和查询等功能。
典型的知识图谱平台架构包括三个主要组件:数据采集与整合、知识表示与存储、应用与查询。
在数据采集与整合阶段,我们需要从不同的数据源中获取数据,并进行数据清洗和融合,以构建一个一致性和完整性的知识图谱。
知识表示与存储阶段是核心部分,需要采用合适的语义表示方式,如RDF或OWL,将知识图谱中的实体、关系和属性进行编码存储。
应用与查询阶段则是用户与知识图谱进行交互的部分,需要设计相应的接口和工具,以支持知识的查询、检索和推理等功能。
2. 知识图谱构建知识图谱的构建是一个逐步迭代的过程,需要从多个数据源中获取并整合数据。
首先,我们需要确定构建知识图谱的领域和目标,以明确需要收集哪些数据。
其次,选择合适的数据源,并采用爬虫技术进行数据抓取。
在数据整合阶段,我们需要根据事先设计好的数据模型,将不同数据源的数据进行清洗、融合和转换,以构建知识图谱的初始版本。
在构建过程中,我们还可以利用自然语言处理和机器学习等技术进行信息抽取和知识推理,以提高知识图谱的质量和丰富度。
3. 知识图谱应用知识图谱的应用可以涵盖各个领域,如智能搜索、推荐系统、智能问答等。
在智能搜索中,知识图谱可以提供更加精准和相关的搜索结果,通过理解用户的意图,将搜索结果与知识图谱中的实体和关系进行匹配和推理,从而提供更有价值的答案。
在推荐系统中,知识图谱可以帮助理解用户的兴趣和需求,从而提供个性化的推荐服务。
在智能问答中,知识图谱可以帮助回答用户的问题,通过理解问题的语义,提取相关的知识和答案,并进行信息抽取和推理,以提供准确和完整的回答。
知识图谱技术在百科知识库构建中的应用研究随着科技的发展,人们对于知识获取的渴望也越来越强烈。
而在这个信息十分发达的时代,百科知识库显然成为了一个普及知识的载体。
而如何通过有效的方式构建百科知识库,就成为了一个广泛关注的问题,这里我们就要介绍一下知识图谱技术在百科知识库构建中的应用研究。
一、知识图谱技术的介绍知识图谱是一种以图的形式呈现的知识结构。
他不仅可以表示出概念之间的层级关系,还可以表示出实体之间的关联关系。
它通常是通过NLP(自然语言处理)及其他技术将原始数据进行转换,进而构建成为一个大型图形结构。
随着Google的发布,知识图谱技术越来越受到广泛关注。
二、百科知识库的构建百科知识库就是一个全面收集现有知识包括人文、科学、技术、地理、历史、文化等等方面的大型数据库。
它可以为用户提供广泛的知识信息和查询服务。
百科知识库的构建需要大量投入资源的人力、财力以及时间,并且需要解决语义解析、数据清理和知识表示这些问题。
三、知识图谱技术在百科知识库构建中的作用基于知识图谱技术的优势,它可以被应用于构建百科知识库中。
下面我们将具体的分别在语义解析、数据清理和知识表示这三个方面介绍知识图谱技术在百科知识库中的作用。
1. 语义解析语义解析是指将自然语言转换为可以计算机理解的形式,从而提取出其中的实体、实体属性以及关系等信息。
采用知识图谱技术可以将解析结果转化为一个向量或者标签,这样能够更方便地进行知识库数据的存储和检索。
比如,将“巴黎”这个实体转换为标注为“城市”的向量,这样可以让计算机更直接和准确地理解“巴黎是一个城市”。
2. 数据清理百科知识库有着十分复杂的数据结构和格式,同时还存在各种各样的数据质量问题(如实体缺失、重复、错误等)。
而基于知识图谱的技术,可以通过构建知识库的元数据、实体表示和关系图谱来解决这个问题。
元数据指的是对知识库中某些实体和属性的注释和说明信息,利用元数据可以让知识库更加规范和严密。
知识图谱的构建范文知识图谱的构建是一种通过将结构化的、语义化的数据整合在一起,以创建关联关系来表示各种事实和知识的方式。
它是一种利用语义网络来表示知识并进行推理和推断的方法。
知识图谱的构建可以用于多个领域,如自然语言处理、引擎、智能助理等。
本文将介绍知识图谱的构建过程以及相关技术和应用。
一、知识图谱的构建过程2.数据预处理:在将数据导入知识图谱之前,需要对数据进行预处理。
这包括对文本数据进行分词、词性标注、命名实体识别等自然语言处理技术的应用,以及对结构化数据进行清洗和转换。
3.数据建模:在数据预处理之后,需要将数据进行建模,即将数据转化为知识图谱的形式。
常用的建模方法包括本体建模和关系建模。
本体建模是指对实体进行分类和定义,并定义它们之间的层次关系和属性。
关系建模是指定义实体之间的关系和连接方式。
4. 图谱构建:在数据建模之后,可以开始构建知识图谱。
知识图谱的构建可以使用图数据库或知识图谱工具,如Neo4j、Protege等。
构建过程包括将数据导入图数据库中,并建立实体之间的关系。
5.知识推理:在知识图谱构建完成后,可以使用推理算法对知识图谱进行推理和推断。
推理可以帮助填补知识图谱中的缺失信息,发现隐藏的知识关联关系,并进行智能查询和推荐。
二、知识图谱构建的技术和方法1.自然语言处理技术:自然语言处理技术可以用于对文本数据进行分析和处理。
常用的技术包括分词、词性标注、命名实体识别、关系抽取等。
2.本体建模技术:本体建模技术是指对实体进行分类和定义,并定义它们之间的关系和属性。
常用的本体建模语言包括OWL、RDF等。
3.知识抽取和挖掘技术:知识抽取和挖掘技术可以从非结构化的文本数据中提取结构化的知识。
常用的技术包括实体抽取、关系抽取、事件抽取等。
4. 图数据库技术:图数据库是一种专门用于存储和查询图数据的数据库。
它可以高效地存储和查询实体之间的关系。
常用的图数据库包括Neo4j、TigerGraph等。
第12期2023年6月无线互联科技Wireless Internet TechnologyNo.12June,2023作者简介:行久红(1992 ),女,河南孟州人,硕士,助教;研究方向:文本挖掘,语音识别㊂基于文本挖掘的软件漏洞信息知识图谱构建方法行久红,牛保民(郑州科技学院大数据与人工智能学院,河南郑州450064)摘要:针对现阶段互联网软件中存在的漏洞问题,文章提出了基于文本挖掘的软件漏洞信息知识图谱构建方法㊂先确定软件漏洞信息知识图谱构建的基本架构,应用文本挖掘技术,完成软件漏洞信息的采集㊁预处理与特征提取,然后设计本体模型,完成软件漏洞信息的抽取与融合,最后设计存储机制,构建软件漏洞信息知识图谱㊂实验结果表明,文章所构建知识图谱的软件漏洞信息完整度均值为93.6%,构建所需时间均值为1.52s ,均优于对比方法,具有较好的应用价值㊂关键词:文本挖掘技术;互联网技术;软件漏洞信息;构建知识图谱中图分类号:TP751㊀㊀文献标志码:A0㊀引言㊀㊀随着科技的发展,互联网技术㊁通信技术等广泛应用,给人民生活㊁生产带来了便利[1],但也带来了一定危机㊂目前,网络安全问题已经成为人民最为重视的问题,信息安全漏洞严重威胁个人隐私和财产安全,如不及时处理将会给人民造成经济财产损失[2]㊂因此,如何高效地排查软件漏洞成为互联网技术领域重点研究的课题之一[3]㊂知识图谱可以通过抽取知识融合与分析计算,得到整体描述并挖掘隐藏内涵[4],可将其应用其中,提升软件漏洞的排查效果㊂基于此,本文研究了基于文本挖掘技术的软件漏洞信息知识图谱构建方法,旨在提高网络安全管理工作的可靠性,维护网络信息安全㊂1㊀确定软件漏洞信息知识图谱构建的基本架构㊀㊀知识图谱本质上是一种用来描述语义的网络结构,旨在客观地描述与反映实体与实体之间的关系[5]㊂为实现软件工程中漏洞信息的实时监测与管理,必须拥有完整的软件漏洞信息之间的关联性文本数据,结合相关的人工智能技术,达到最终目的[6]㊂基于此,综合考虑软件漏洞信息的模糊性㊁海量化等特征,本文应用文本数据挖掘技术,确定软件漏洞信息知识图谱构建流程如图1所示㊂图1㊀软件漏洞信息知识图谱构建流程㊀㊀根据上述流程,分别利用相关技术,通过不同阶段的数据分析融合处理,将软件漏洞相关的所有有效信息融合到数据库中,应用构图软件,完成软件漏洞信息知识图谱的构建㊂2㊀软件漏洞的文本挖掘分类2.1㊀软件漏洞的采集及预处理㊀㊀为获取大量㊁复杂的软件漏洞信息,本文采用文本挖掘技术采集信息,然后应用信息检索㊁人工智能学习㊁统计和数据挖掘等技术对软件漏洞信息进行采集㊁分类㊁聚类和特征提取,使其形成软件漏洞信息数据库[7]㊂再采用Python 网络爬虫技术,采集对应的漏洞信息,设真实漏洞数据为w ,采集过程如下:w =P -Ccmin <C <cmax{(1)式(1)中,C为爬虫检索出的非有效信息,cmin 为漏洞最小信息数据载量,cmax为漏洞最大信息数据载量,P为全部采集信息数据㊂得到的真实漏洞数据在于中国国家漏洞数据库中相关的安全漏洞信息核实,并存储备用㊂软件漏洞信息知识图谱包括软件信息㊁漏洞信息㊁PoC信息以及补丁信息等,需要进行预处理,如分词和清洗等提高数据信息的有效性,以此来提高构建知识图谱的准确率和效率㊂2.2㊀软件漏洞的特征提取㊀㊀为统一软件漏洞向量映射的维度,使不同长度大小㊁不同文本数量㊁不同计量单位的软件漏洞信息具有相同维度的向量表示,提高软件漏洞信息分类的准确性,本文应用文本挖掘技术中的信息增益算法,对软件漏洞信息的特征信号进行分类与提取[8]㊂根据自然语义的漏洞信息转化为数学向量形式的公式为U=ðw i=1(ψi/σ)(2)式(2)中,U表示转化后的自然语义下的漏洞信息,i表示漏洞信息的特征提取条件,ψ表示特征提取条件下的总数据,σ表示特征提取条件外的非定于数据㊂以此为基础,将其转化后,根据每段漏洞信息数学向量的出现次数确定该漏洞在整体信息集合中的权重值,提取出软件漏洞信息的特征信号,便于后续知识图谱的构建㊂3㊀构建软件漏洞信息知识图谱3.1㊀设计软件漏洞的本体模型㊀㊀为表述与反映不同软件漏洞信息之间的关联性,结合文本挖掘技术设计软件漏洞的本体模型ω,模型的目标函数表示为:ω={A,E,G,F,H,T,W,Y}(3)式(3)中,A表示软件漏洞名称;E表示软件属性;G表示情报信息;F表示评价标准;H表示PoC; T表示补丁;W表示数据当量值;Y表示模型承载量㊂将上述本体模型中的信息抽取出来,并建立关联性,以此来实现软件信息知识图谱的构建㊂3.2㊀抽取软件漏洞信息㊀㊀为提高软件漏洞信息知识图谱构建的可靠程度和效率[9],需要进行实体识别和抽取,过程如下: F1(α)=ðn iɪn,jɪn,iʂj(αi-αj)2(4)式(4)中,α表示抽取中限制参数,F1表示识别出的抽取数据,i,j表示漏洞信息知识图谱对应的漏洞信息起始数据和终止数据,n表示实际抽取数量㊂实体抽取技术使用基于规则和词典的方法,可识别并抽取出软件漏洞信息中的七大类实体数据;关系抽取技术可通过使用统计㊁规则和分类器等方法从软件漏洞信息中提取实体之间的内在关系㊂针对软件漏洞的本体模型实体属性的抽取,需要应用卷积神经网络算法进行分类和训练[10]㊂3.3㊀软件漏洞信息的数据融合㊀㊀在软件漏洞信息的处理中,可能存在错误㊁冗余信息和逻辑模糊等问题,这会影响软件漏洞信息知识图谱构建的准确性和可靠性㊂为解决以上问题,本文采用实体消歧技术,将具有歧义命名的实体映射到具体的概念,然后进行数据融合,过程如下:I=θ{(β+ε+η)λ}(5)式(5)中,I表示融合后软件漏洞数据,θ表示融合指标,β表示融合数据模式,ε表示融合工具,λ表示融合参量的权值,η表示现有的漏洞信息数据㊂这种融合方式可有效降低信息中的逻辑模糊和层次不匹配现象,并实现数据融合㊂通过概率统计和图像排序方法,实现软件漏洞信息实体链接的消歧与对齐,使漏洞信息更具体化,同时筛除冗余信息以提高准确度㊂该步骤能够有效提高软件漏洞信息知识图谱构建的准确性和可靠性㊂3.4㊀数据的存储与知识图谱的构建㊀㊀为使海量化的软件漏洞信息全面地㊁动态化地展示在同一图谱中,本文应用Neo4j图数据库存储软件漏洞信息,结合可视化技术,完成基于文本挖掘技术的软件漏洞信息知识图谱的构建,过程如下:B=(1-ϑy)ˑLˑR(6)式(6)中,B表示信息知识图谱表示当量(CVE-2022-N),y表示数据挖掘方向,ϑ表示重叠度,L表示知识图谱像元,R表示知识图谱内存量㊂其中信息知识图谱表示当量CVE-2022-N表示中国国家漏洞数据库中的软件漏洞信息及其编号㊂根据上述软件漏洞信息的本体模型,并通过相关的处理操作,构成对应的软件漏洞知识图谱,充分地为后续相关的软件漏洞安全管理工作奠定良好的数据基础㊂4㊀测试与分析4.1㊀试验准备㊀㊀为检测本文设计的基于文本挖掘的软件漏洞信息知识图谱构建方法的可行性与应用效果,结合其它方法,本文设计了仿真模拟对比试验㊂试验在JAVA 语言编程环境下搭建,搭建参数如表1所示㊂表1㊀仿真平台的搭建参数与环境配置序号项目参数(1)CPUIntel -Core -i5-7550K (2)显卡GTX1070(3)内存/固态硬盘64GB /256GB(4)操作系统CentOS9.0/Windows13.3(5)扩展包APOC /ALGO(6)数据库MySQL Server8.0(7)图像数据库Neo4jCommunity -5.1.3㊀㊀将中国国家漏洞数据库中的软件漏洞信息作为测试样本数据,存储在数字数据库与图像数据库中㊂4.2㊀漏洞信息知识图谱的完整度检测㊀㊀记录不同方法构建知识图谱中收录漏洞数量的大小,与实际有效漏洞数量进行对比分析,计算完整度,结果如图2所示㊂图2㊀不同方法知识图谱的完整度检测结果对比㊀㊀由图2可知,对于随机选取10组大小㊁漏洞种类均不同的数据组,试验组方法融合并构建的知识图谱软件漏洞信息的完整度高于对照组1㊁对照组2㊂试验组方法构建的知识图谱信息完整度均值为93.6%,分别比对照组1㊁对照组2高28.4%㊁13.8%,有效提高了对软件漏洞有效信息采集与存储的覆盖范围㊂4.4㊀漏洞信息处理效率检测㊀㊀记录不同方法从采集漏洞信息到完成知识图谱构建所用时间,对比结果如图3所示㊂图3㊀不同方法构建知识图谱所用时间对比㊀㊀由图3可知,通过对10组随机选取的不同大小和漏洞种类的数据组进行试验组方法的数据处理,发现试验组知识图谱构建时间均低于对照组1和对照组2㊂试验组方法平均构建时间为1.52s,比对照组1和2分别快6.02s和4.11s㊂这说明本文设计的软件漏洞信息知识图谱构建方法具有高效和实时的特点,能够准确而快速地完成漏洞信息的采集和预处理,为软件工程项目的安全管理提供可靠的数据基础和依据㊂5 结语㊀㊀随着科学技术与互联网技术的大范围应用,相关的软件漏洞也层出不穷,对用户的信息安全与个人财产造成了较为严重影响㊂在此背景下,本文通过应用文本挖掘技术,充分结合现代化技术手段,构建完整㊁精准的软件漏洞信息知识图谱,为软件工程安全管理与防御系统的智能化运行提供数据基础㊂本文所提方法构建时间较短㊁信息完整度更强,可有效保证软件工程项目运营过程中的安全性与可靠性,为我国网络科技市场结构的长久稳定发展,奠定良好基础㊂参考文献[1]郭军军,王乐,王正源,等.软件安全漏洞知识图谱构建方法[J].计算机工程与设计,2022(8):2137 -2145.[2]张瑞,王晓菲.基于混合深度学习模型的软件漏洞检测方法[J].电脑知识与技术,2021(18):72-73.[3]彭佳玲,周茂林,杨青.公众对上门护理服务的态度和关注点:基于网络爬虫的文本挖掘[J].护理学杂志,2023(5):110-113,116.[4]周洁,夏换.基于文本挖掘的微博用户健康信息关注热点研究[J].新媒体研究,2023(2):102-106. [5]孙宝生,敖长林,王菁霞,等.基于网络文本挖掘的生态旅游满意度评价研究[J].运筹与管理,2022 (12):165-172.[6]梁俊毅,陈静.基于双向LSTM的软件漏洞自动识别方法研究[J].信息与电脑(理论版),2021(8): 174-176.[7]蔡敏.基于混合深度学习模型的网络服务软件漏洞挖掘方法[J].宁夏师范学院学报,2020(7): 73-79.[8]王晓辉,宋学坤.基于知识图谱的网络安全漏洞类型关联分析系统设计[J].电子设计工程,2021 (17):85-89.[9]刘存,李晋.安卓平台软件漏洞挖掘与分析技术浅析[J].保密科学技术,2020(2):33-38.[10]陶耀东,贾新桐,吴云坤.一种基于知识图谱的工业互联网安全漏洞研究方法[J].信息技术与网络安全,2020(1):6-13,18.(编辑㊀李春燕)Construction method of knowledge graph of software vulnerability informationbased on text miningXing Jiuhong Niu BaominSchool of Big Data and Artificial Intelligence Zhengzhou University of Science and TechnologyZhengzhou450064 ChinaAbstract A method for constructing a knowledge graph of software vulnerability information based on text mining is proposed to address the vulnerability issues in current internet software.Firstly the basic architecture for constructing a knowledge graph of software vulnerability information is determined and text mining technology is applied to complete the collection preprocessing and feature extraction of software vulnerability information.Then an ontology model is designed to complete the extraction and fusion of software vulnerability information.Finally a storage mechanism is designed to construct a knowledge graph of software vulnerability information.The experimental results show that the average integrity of software vulnerability information in the constructed knowledge graph is93.6% and the average construction time is1.52seconds both of which are superior to the comparison method and have good application value.Key words text mining technology Internet technology software vulnerability information construction of knowledge graph。
本技术涉及一种基于知识图谱的漏洞知识库构建方法,涉及网络安全技术领域。
本技术通过知识融合将多个数据源抽取的知识进行融合,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新,达到数据、信息、方法、经验以及攻防知识的融合,形成高质量的漏洞知识库。
在构建好基于知识图谱的漏洞知识库后,可根据用户的漏洞发现工作的具体要求,通过提供实时可视化交互接口进行展示、知识筛选、推荐漏洞发现路径等操作,实现交互式的漏洞发现。
通过该方法能够对软件系统、网络协议等进行高效的漏洞发现,具备与人之间的协同分析和自学习的能力,辅助用户更快的查找可能得安全漏洞新,实现更快更准地发现漏洞。
权利要求书1.一种基于知识图谱的漏洞知识库构建方法,其特征在于,包括以下步骤:步骤1:漏洞知识的收集;步骤2:对收集的漏洞知识进行提取和清洗;步骤3:对步骤2处理得到的漏洞数据实现知识图谱化。
2.如权利要求1所述的方法,其特征在于,步骤1具体为:从多个数据源获取计算机相关知识、网络安全相关知识、攻击规则、软件漏洞样本、网络威胁情报、攻击规则及漏洞数据;其中,攻击规则包含已经存在的攻击的详细信息,包括攻击名称、攻击类型、协议、攻击特点、攻击描述、严重性;漏洞数据包含已发现漏洞的详细信息,包括漏洞名称、漏洞描述、漏洞优先级、破坏方法、同源性特征;还使用人工标注的方法对样本软件进行漏洞标注,将漏洞存在的执行路径标记为脆弱路径,随后使用遗传算法进行脆弱路径制导测试,得到包含软件脆弱路径及测试用例的漏洞发掘样本数据。
3.如权利要求1所述的方法,其特征在于,步骤2具体为:将通过步骤1得到的数据首先进行归并、去重、归一化这些清洗处理;将分散的知识结构化为计算机可理解的知识库;还对原始数据进行的预处理和数据聚合、压缩,排序,删除重复信息、纠正存在的错误,并提供数据一致性处理。
4.如权利要求1所述的方法,其特征在于,步骤3中,将知识图谱作为最终产生的结构化知识库表现形式,将漏洞知识库中的知识看作一个五元组模型,该模型包含:概念、实例、关系、属性和规则;知识图谱用于描述真实世界中存在的各种实体或概念,其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符,每个属性-值对用于表征实体的内在特性,而关系用于连接两个实体,描述它们之间的关联。
5.如权利要求4所述的方法,其特征在于,步骤3中,在知识图谱的构建中包括两个不同的阶段,第一阶段是从数据源中抽取知识的过程,称为主体抽取与属性抽取;第二阶段是将知识聚合的过程,称为关系抽取;第一阶段使用基于规则与机器学习的知识抽取方法从收集到的海量数据中抽取可用作于知识的概念信息。
6.如权利要求5所述的方法,其特征在于,所述第一阶段具体分为以下五个步骤:步骤3.1:对计算机漏洞领域的概念和概念之间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤3.2:基于步骤3.1中生成的规则对海量数据进行知识抽取,抽取出匹配概念和概念之间关系的文本,包括CVE编号、github源代码、svn信息泄漏、敏感文件、数据库配置文件、网站源码、敏感文件目录和邮箱命名规则;步骤3.3:基于步骤3.2中抽取出的匹配概念和概念之间关系的文本,对机器学习方法进行训练,从而得到更多的概念和概念之间的关系,并实时不断地抽取和生成的各种实体及实体间的关系,并提供实体下钻功能,所述实体下钻是指能够不断地以一个实体为中心,不断扩线分析出与之相关联的其他实体;步骤3.4:基于步骤3.3中得到的更多的概念和概念之间的关系,进行知识抽取,对抽取的结果进行标注,并对知识抽取时的精确率、召回率进行评判,将精确率、召回率作为评价标准;步骤3.5:重复步骤3.3和步骤3.4,直至所述评价标准达到预设的标准。
7.如权利要求5所述的方法,其特征在于,所述第二阶段的关系抽取的过程是进行实体之间关系的抽取,其中采用词序列复合核函数实现知识聚合,来最大化地利用多源信息,词序列复合核函数的思想是根据两个词序列中的公共子序列数量来衡量两者相似度子序列中可能包含间隔项,利用衰减因子为每个公共子序列设置不同的权重。
8.如权利要求1所述的方法,其特征在于,在步骤3之后还包括步骤4:提供漏洞知识库的查询支持。
9.如权利要求8所述的方法,其特征在于,步骤4具体为:对于在漏洞知识库查询的对象进行检索,并用关联图进行展示和分析,通过环形导航支持多维检索的无限不循环扩展,提供面向漏洞发现实战经验式和思维导图式的知识检索,即通过鼠标拖拽的方式,实现目标对象的知识浏览、关系分析、属性分析,结合直方图、时间轴、时间轮、数据流、网络分析,实现时间、空间、关系、网络的分析。
10.如权利要求2所述的方法,其特征在于,所述多个数据源包括各类百科网站的计算机相关词条、信息安全网站、开放Web应用安全项目、互联网自建网络安全响应中心、公开漏洞库、攻击规则库。
技术说明书一种基于知识图谱的漏洞知识库构建方法技术领域本技术涉及网络安全技术领域,具体涉及一种基于知识图谱的漏洞知识库构建方法。
背景技术安全漏洞(具体是指网络系统的安全漏洞)发现是一个涉及软件工程、信息安全、网络攻防等诸多学科领域知识的复杂工程。
安全漏洞涉及的知识种类繁多,包括涉及程序正向开发技术、设计模式、网络协议、程序调试以及攻防对抗领域等。
在漏洞知识库的构建中,从海量数据中准确识别漏洞相关的知识是关键环节,该环节方法的高效与否直接决定和影响漏洞知识库的知识质量和使用便利性。
知识图谱旨在描述真实世界中存在的各种实体或概念,以及它们之间的关联关系。
其中,每个实体或概念用一个全局唯一确定的ID来标识,用属性来描述实体的内在特性,用关系来刻画实体之间的关联。
知识图谱是人工智能的一个重要分支。
早期人工智能研究的主流是知识工程和专家系统,特别是基于规则的专家系统是研究的重点。
2012年,Google发布的知识图谱旨在实现更智能的搜索引擎,2013年以后开始在学术界和业界普及,并在智能问答、情报分析、反欺诈等应用中发挥重要作用。
知识图谱以语义网络作为理论基础,并且结合了机器学习,自然语言处理和知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。
知识图谱本质上是语义网络的知识库,从实际应用的角度出发可以简单地把知识图谱理解成多关系图,包含多种类型的节点和多种类型的边的图结构。
知识图谱用节点和关系组成图谱,为真实世界的各个场景直观地建模。
通过不同知识的关联性形成一个网状的知识结构,对机器来说就是图谱。
知识图谱对于人工智能的重要价值在于,知识是人工智能的基石,构建知识图谱这个过程的本质,就是让机器形成认知能力,去理解这个世界。
漏洞知识库中包括目标对象实体描述、漏洞成因特征库、漏洞基本信息、攻防专家知识信息、各种软件的缺陷信息等等。
比如漏洞成因特征库,主要描述每种漏洞成因特征描述方法的特点,抽象、整合不同漏洞特征的描述方式以及特征之间的相互关系,提供统一的漏洞成因特征的描述能力。
漏洞知识库还包括了专家形成的漏洞发现领域的专家知识信息,各种类型的漏洞基本信息、各种软件的缺陷信息、调试技巧信息以及攻防知识。
知识图谱的主要优势在于知识搜索、融合以及可视化展现上,为了让机器能够理解文本背后的含义,需要对可描述的事物(实体)进行建模,填充它的属性,拓展它和其他事物的联系,即构建机器的先验知识。
知识图谱的可用性依托于大数据的庞大资源以及逐步优化的搜索算法,给用户提供所需要的资源;复杂的语义环境,必然引出复杂的实体关系,在众多实体中,知识图谱会提取实体标签,比对资源语义,对实体进行分类、融合,乃至抽象,以此降低实体关联的难度,减少由于语义处理带来的混淆;知识图谱展现实体关系,为用户清晰的展现所需实体的属性及关联关系,推理用户的隐性需求,辅助进一步搜索操作。
技术内容(一)要解决的技术问题本技术要解决的技术问题是:如何实现一种面向漏洞挖掘人员的漏洞知识库构建方法。
(二)技术方案为了解决上述技术问题,本技术提供了一种基于知识图谱的漏洞知识库构建方法,包括以下步骤:步骤1:漏洞知识的收集;步骤2:对收集的漏洞知识进行提取和清洗;步骤3:对步骤2处理得到的漏洞数据实现知识图谱化。
优选地,步骤1具体为:从多个数据源获取计算机相关知识、网络安全相关知识、攻击规则、软件漏洞样本、网络威胁情报、攻击规则及漏洞数据;其中,攻击规则包含已经存在的攻击的详细信息,包括攻击名称、攻击类型、协议、攻击特点、攻击描述、严重性;漏洞数据包含已发现漏洞的详细信息,包括漏洞名称、漏洞描述、漏洞优先级、破坏方法、同源性特征;还使用人工标注的方法对样本软件进行漏洞标注,将漏洞存在的执行路径标记为脆弱路径,随后使用遗传算法进行脆弱路径制导测试,得到包含软件脆弱路径及测试用例的漏洞发掘样本数据。
优选地,步骤2具体为:将通过步骤1得到的数据首先进行归并、去重、归一化这些清洗处理;将分散的知识结构化为计算机可理解的知识库;还对原始数据进行的预处理和数据聚合、压缩,排序,删除重复信息、纠正存在的错误,并提供数据一致性处理。
优选地,步骤3中,将知识图谱作为最终产生的结构化知识库表现形式,将漏洞知识库中的知识看作一个五元组模型,该模型包含:概念、实例、关系、属性和规则;知识图谱用于描述真实世界中存在的各种实体或概念,其中,每个实体或概念用一个全局唯一确定的ID来标识,称为标识符,每个属性-值对用于表征实体的内在特性,而关系用于连接两个实体,描述它们之间的关联。
优选地,步骤3中,在知识图谱的构建中包括两个不同的阶段,第一阶段是从数据源中抽取知识的过程,称为主体抽取与属性抽取;第二阶段是将知识聚合的过程,称为关系抽取;第一阶段使用基于规则与机器学习的知识抽取方法从收集到的海量数据中抽取可用作于知识的概念信息。
优选地,所述第一阶段具体分为以下五个步骤:步骤3.1:对计算机漏洞领域的概念和概念之间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤3.2:基于步骤3.1中生成的规则对海量数据进行知识抽取,抽取出匹配概念和概念之间关系的文本,包括CVE编号、github源代码、svn信息泄漏、敏感文件、数据库配置文件、网站源码、敏感文件目录和邮箱命名规则;步骤3.3:基于步骤3.2中抽取出的匹配概念和概念之间关系的文本,对机器学习方法进行训练,从而得到更多的概念和概念之间的关系,并实时不断地抽取和生成的各种实体及实体间的关系,并提供实体下钻功能,所述实体下钻是指能够不断地以一个实体为中心,不断扩线分析出与之相关联的其他实体;步骤3.4:基于步骤3.3中得到的更多的概念和概念之间的关系,进行知识抽取,对抽取的结果进行标注,并对知识抽取时的精确率、召回率进行评判,将精确率、召回率作为评价标准;步骤3.5:重复步骤3.3和步骤3.4,直至所述评价标准达到预设的标准。