当前位置:文档之家› 基于大数据的舆情分析系统解决方案

基于大数据的舆情分析系统解决方案

基于大数据的舆情分析系统解决方

目录

1 大数据中心项目概述 (4)

1.1 建设背景 (4)

1.2 建设目标 (4)

1.3 建设原则 (4)

1.4 大数据中心优势 (6)

1.5 现状分析 (7)

1.6 总体建设需求 (7)

2 大数据中心总体规划设计 (9)

2.1 整体建设思想 (9)

2.2 整体系统结构 (9)

3 计算资源和存储资源配置估算 (11)

3.1 大数据平台系统管理支撑系统 (11)

3.2 产品定位 (12)

3.3 XX情报大数据应用 (12)

3.3.1 产品架构 (13)

3.3.2 产品数据体系 (13)

3.3.2.1 基于大数据的情报数据管理与分析系统 (14)

3.3.2.1.1 大数据平台功能框架 (15)

3.3.2.1.2 分布式计算功能 (15)

3.3.2.1.3 NoSQL功能 (15)

3.3.2.1.5 分布式协调功能 (16)

3.3.2.1.6 情报工作数据流管理功能 (17)

3.3.2.1.7 维护管理功能 (17)

3.3.2.2 情报中心分析系统架构 (17)

3.3.2.2.1 非格式数据的分类存储 (18)

3.3.2.2.2 对格式化数据的全文检索合多线索加权检索 (18)

3.3.2.3 完善的情报中心分析报表系统 (19)

3.3.2.3.1 情报形势分析 (19)

3.3.2.3.1.1 按照世界地域分析各地方情报 (19)

3.3.2.3.1.2 按照大数据技术分析情报的趋向; (20)

3.3.2.3.1.3 可以定制所关心的数据统计图 (20)

3.3.2.3.2 情报数据存储管理分析系统架构 (20)

3.3.2.3.3 数据按照信息分类趋势分析 (20)

3.4 XX大数据统一平台 (20)

3.4.1 数据采集 (22)

3.4.2 数据接入 (22)

3.4.3 规则过滤 (23)

3.4.4 数据存储 (23)

3.4.4.1 功能 (24)

3.4.4.2 组成 (25)

3.4.4.3 基本算子集 (25)

3.4.4.5 情报管理 (28)

3.4.4.6 用户权限管理 (28)

3.4.4.7 情报管理 (29)

3.4.5 大数据中心安全层规划设计 (32)

3.4.5.1 大数据平台安全建设需求 (32)

3.4.5.2 大数据平台安全建设思路 (33)

3.4.5.2.1 服务器负载均衡 (35)

3.4.5.2.2 虚拟机VM之间访问安全 (36)

3.4.5.2.3 平台层安全 (38)

3.4.5.2.4 数据层安全 (43)

3.4.6 逻辑架构 (43)

1大数据中心项目概述

1.1建设背景

情报与科技虽然在历史上就存在内在联系,但从来没有像今天这样联系紧密。当今世界,情报与科技日益相互渗透、相互促进:科技是情报发展的重要引擎,每一次科技进步都给情报发展带来革命性影响;科技成为情报收集分析的源泉。

当前,大数据引领新一轮科技创新,新的科技进步对情报的驱动作用越来越强,成为情报创新的新动力,我们越来越迫切的需要一个采用大数据架构的大数据中心,以实现全局IT资源的大整合,实现各种数据的大集中,实现数据的合理利用。促进互联网与情报的日益深度融合。

1.2建设目标

依托大数据大数据技术,为情报收集提供了绝好的契机。对情报管理、情报分析、采集、分类、入库,实行统一规划和建设。所有资源整合后在逻辑上以单一整体的形式呈现,并可按需进行动态扩展和配置。按照分阶段可升级的标准要求,为多级单位提供应用支撑基础平台服务和数据存储、备份、交换等服务,实现基础软硬件资源的统一管理、按需分配、综合利用,增强情报数据中心的可管理性,提高情报的真实性和可用性,系统的部署,提升硬件资源的利用率;

1.3建设原则

结合本项目的实际应用和发展要求,在进行大数据平台方案设计过程中,应始终坚持以下原则:

1)可扩展性原则

为了保证情报系统收集的需求,必须具有灵活的结构并留有合理的扩充余地,以便根据需要进行适当的变动和扩充;主要平台系统应采用开放的结构,符合情报分析的标准,

适应技术的发展和变化。我们把主要精力放在满足情报需求和对未来的系统扩展的支持性上,也就是需要设计成一个便于扩展的系统架构,系统应具备良好的扩展能力并能够便捷地进行扩展。

2)合理性原则

在一定的资金条件下,以适当的投入,建立性能价格比高的、先进的、完善的情报系统。所有软硬件的选型和配置要坚持性能价格比最优原则。在满足系统性能、功能以及考虑到在可预见的未来不失去先进性的条件下,尽量取得整个系统的投入合理性,以构成一个性能价格比优化的应用系统。系统架构的设计应尽可能地运用虚拟化、大数据、大数据等新技术,以符合未来的技术发展方向。这种设计方法可以最大化地利用军事情报收集上,提高军事情报效率,降低总体拥有成本,提高情报的真实度降低虚假情报信息的发生。

3)可靠性原则

系统要具有高可靠性及强大的容错能力。该系统必须保证7×24全天候不间断地工作,核心设备比如数据库服务器和存储设备具有全容错结构,并具有热插拔功能,可带电修复有关故障而不影响整个系统的工作,设计应保持一定数量的冗余以保证整体系统的高可靠性和高可用性。即便是在系统建设初期也要着重考虑系统可用性、可靠性问题,防止出现系统停顿等问题造成信息系统的中断服务。通过结合大数据等新技术,可以更好地提高系统的可靠性和可用性。

4)可管理性原则

选择基于开放的技术,采用标准化、规范化设计;同时采用先进的设备,易于日后扩展,便于向更新技术的升级与衔接,实现系统较长的生命力;保证后期在系统上进行有效的开发和使用,并为今后的发展提供一个良好的环境;

在设计、组建中心机房系统时,采用先进的、标准的设备;在选购服务器、存储和连接设备时,确保系统部件间的严密配合和无缝联接,并获得良好的售后服务和技术支持;整个系统建成后按照整理一套完整的文档资料,以便提高整个系统的可管理性与可维护性。

5)安全性原则

严格按照XX关于信息安全的规定和要求,规划和部署中心机房的情报系统和备份系统;采用安全服务器、备份还原系统、来防止内外部的网络安全威协和数据丢失窃取威胁等;

所有软硬件采用国产、自主研发的产品,从根本上保障系统的安全性。

1.4大数据中心优势

通过建立大数据中心,通过服务的方式交付对物理硬件的需求,代替传统硬件设备跟随着应有系统的增加而增加的模式,对现有应用系统进行整合,实现IT服务的快速交付,节能响应国家号召,提升情报系统安全。

1)国产硬件自主可控

数据存储硬件采用我国完全自主研发的存储服务器,硬件和软件设计完全自主可控。存储服务器采国产化架构的高可靠性硬件平台和国产睿思操作系统,从根本上保证数据的安全性。

2)海量数据高效管理

随着地理信息处理情报的增多,存数据中心存储大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。

采用的分布式存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。

3)合理利用硬件资源,减少运行消耗

大数据平台可将服务器物理资源转换成池化的可动态分配的计算单元,从大数据中心具体需求出发,在资源池中划分出适合具体情报需要的服务计算单元,不再受限于物理上的界限,从而提高资源的利用率,简化系统管理,让信息化建设对情报产业的变化更具适应力,从而构建出信息系统平台的基础。

数据平台建成后,可减少物理服务器数量至原有数量的一半以上,机房空间占用面积大大减少,机房相应配套设施建设也可能够相应减少,在实际工作中预计可节省能源达到70%以上,响应国家节能减排的要求。

4)完善应急安全机制

大平台可以自动监控资源池中计算单元和应用单元的可用性,检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上重新启动相关情报,整个过程无需人工干预。

通过大安全平台,可快速部署网络安全应用防火墙、IPS、WEB应用防火墙等。

5)提供便捷的管理运维方式。

可以通过一个统一的管理平台,来进行对平台中运行的各项功能设立不同权限的管理账号,根据工作需要设置不同的管理权限,并可通过其管理日志追溯操作过程。

1.5现状分析

目前情报信息数据和产业信息数据规模已经发展得非常庞大,信息化平台已日益变成情报运营与管理的重要支撑平台。在情报平台建设的过程中,各个应用系统的情报之间的联系非常紧密,流程自动化程度非常高。因此在信息化高速发展的形势下,急需形成统一完备的综合技术集成体系,能提供一体化的数据存储共享,应用集成和统一展现能力。随着信息化建设和应用工作的进一步深入,对信息网络传输能力,数据中心存储能力和处理能力提出了更高要求,为支撑流程集成和情报应用的深入融合,需要提供统一高效的流程处理能力,数据转换能力以及数据分析能力;需要建立和完善统一的综合技术平台体系,涵盖数据采集,存储,共享,交互和展现能力。

1.6总体建设需求

(1)建立一个统一的超过300TB的数据存储系统,能够无缝兼容现有系统设备和大数据平台;

(2)建立统一的大数据平台系统,可以快速管理、扩展、配置情报系统的各种情报服务

和数据存储服务,并能够提供相应服务冗余性;

(3)建立基于情报平台的大数据存储管理与分析系统,可以管理情报平台时实数据,并能根据数据情况和IP数据报文情况进行综合分析;

(4)建立基于情报系统的大数据情报管理与分析系统,可以方便的把全球的情报信息数据分析汇总,进行问题筛选评估,制定规范的情报产业制度;

(5)通过建立统一的情报分析管理系统,可以快速提高军方信息技术人员对所有情报资源的管理应用能力,保障情报实际的真实性、可靠性,同时也能够提高情报的分析能力。

2大数据中心总体规划设计

2.1整体建设思想

大数据中心将利用大数据相关技术,结合绿色数据中心建设的目标和需求,以战略支持型信息化建设为导向,以支持保障信息化情报发展为建设思路,构造一个功能齐全、设备先进、运行高效、使用灵活、易于扩展、高安全可靠的全局性基于情报的数据资源中心。

2.2整体系统结构

本次大数据中心解决方案将针对计算服务整体架构中的大数据服务区,通过对底层服务器硬件及存储资源实现虚拟化聚合部署,配合以大数据管理平台,实现大数据中基础架构即服务(IaaS)部分,同时该IaaS平台也为情报信息发布平台、大数据分析平台、web 发布平台等(Paas)层提供更高层次的大数据服务,通过Paas层平台提供数据汇集管理、数据处理、数据服务、数据应用功能(Saas层),最终通过统一的系统门户向最终用户提供服务,总体逻辑架构如下:

图 1-1大数据中心总体逻辑架构

大数据中心的各个关键组件及逻辑层次。

?大数据中心基础架构:提供了一个功能完整的、标准开放的方便集成的IaaS服

务层。这层提供的动态基础架构是整个大数据中心的核心支撑层,其最核心的部分包括采用了国产服务器、国产存储存储系统和虚拟化软件构建的大数据服务基础架构。该基础架构具备良好的性能、可用性和可靠性。通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的大数据情报信息系统平台。在数据中心,这些资源根据需要进行动态扩展和配置,各单位最终信息系统情报按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。

?平台层:通过大数据分析平台、情报抓取系统、情报管理系统、情报分析系统、

web平台、用户管理系统等应用,平台为上层门户提供数据采集、数据处理等功能。

?大数据服务门户:为用户提供统一的服务门户,用以支撑整个大数据中心的日常

运营。包括用户登录、服务加载、下载、审批、叠加显示、拼接请求等功能。

?大数据服务数据安全保护:通过部署大安全平台,可以帮助用户建立起一个既能

充分利用大数据优势,同时又不牺牲安全性、控制力和遵从性的环境,其为虚拟数据中心和大数据环境提供了支持虚拟化的保护,使用户可以加强应用程序和数据安全,提高可见性和控制力,以及加快整个大数据中心的遵从性举措。

?大数据服务运维管理体系:为整个大数据中心平台搭建一套长期运维管理的体系,

为大数据平台的长期有效运行提供保障。大数据运维管理体系包括组织管理模式、制度规范体系、技术支撑体系等多个层面的内容,采用大数据技术手段和大数据管理制度结合的方式保障整个情报平台的平稳运行。

?图 1-2 数据中心组件逻辑架构

?

3计算资源和存储资源配置估算

计算资源和存储资源是大中心的两大类核心资源。对计算资源和存储资源的合理估算和配置,是建设先进、高效大平台的必要条件。

以下给出我们根据大数据数据中心现有情报应用和数据资源所作出的大中心计算资源、存储资源、基础网络和安全设施的初步估算。

经详细调研计算资源需要cpu计算单元320核内存5120G存储空间300TB。拟新增10台高性能服务器,供大数据、大存储使用,新增2台高性能服务器器供大安全平台使用。

3.1大数据平台系统管理支撑系统

情报平台系统支撑系统是数据中心的核心系统,在此系统上可以快速配置和部署各种营运支持系统(情报管理系统、情报挖掘系统、情报内容系统、情报报告系统、大数据情报数据管理系统与分析系统)等;

XX情报系统面向大数据中心,提供从底层资源,到上层应用和数据管理的一体化管理平台,支持大基础架构以及各类物理资源、虚拟资源的管理,为网络应用提供安全、可靠的运行支撑环境,并面向大数据应用提供多源异构大数据的存储与处理。

●管资源:快速地构建起跨地域的大数据平台基础架构,对其中的物理资源和虚拟资源进行灵活的管理,对用户的IT需求实现快速的交付,并且支持资源弹性动态扩展。

●管应用:支撑情报应用的开发、测试、部署和维护等整个生命周期过程,并全方位监控应用的运行情况,及时对应用资源进行弹性伸缩,确保最大的应用稳定性和可靠性。

●管数据:对结构化、非结构化、半结构化数据提供统一存储,并且为应用提供相应的接口,并可以进行大数据分析和可视化展现。

●用数据:对情报系统的数据进行整合利用,形成信息资源中心,开放信息资源目录,支撑大数据应用开发。

●用软件:支持软件服务化接入,实现软件服务的上线、订购、开通、使用、下线等全生命周期管理。

3.3XX情报大数据应用

●希望以大数据的模式对信息化平台进行管理和运营的军事、情报等单位

●希望对数据中心进行大化并提供弹性大主机服务的服务商

●需要快速完成开发、测试和部署运行,简化应用开发和发布流程的软件企业

●致力于行业软件开发,并希望搭建行业SaaS大服务平台的软件服务提供商

●需要采集、存储、处理来自物联网、互联网的大数据并进行分析的企事业单位

●物理资源层。物理资源层包括支撑XX大数据系统自身运行和提供服务所需的物理基础设施,XX大系统可对分布在大数据中心的各类物理资源进行统一集中管理与运维,提供数据中心、物理资源两级资源管理,支持多数据中心管理。

●基础架构层。基础架构层是XX大系统的核心技术支撑层,由一个虚拟化管理平台、三大管理组件和四大核心引擎组成。该层的核心支撑是虚拟化管理平台,基于虚拟化管理平台,将支撑资源、数据和应用管理的核心技术封装为资源管理、大数据管理和运行平台管理三大管理组件,并将大管理平台的共性支撑技术封装为调度、服务、数据、监控四大引擎服务,为上层服务和应用提供基础支撑。

●服务层。服务层是XX大系统提供服务的核心支撑层,除资源、数据、应用三大核心服务组件外,服务层还兼容第三方服务。服务层还为支撑服务开发与管理提供了服务目录、服务封装、服务集成和服务质量组件,通过通用接口规范对外提供服务。

●应用层。应用层主要为应用开发与自动化部署提供技术支撑,包括开发、测试、生产环境的流程化定制与自动化部署,对应用运行环境的监控,对应用所需资源的弹性伸缩调度。通过应用层的技术支撑,用户可基于XX大系统平台快速开发并部署应用,同时可直接发布到XX大系统大平台提供大应用。

●门户层。门户层包括两部分:用户自服务门户和运营管理门户,用户自服务门户集成了用户所需的虚拟数据中心管理运维以及应用部署等功能;运营管理门户则集成了大平台运营所需的资源管理、服务管理以及计量计费等功能。

●平台管理体系。平台管理体系包括三部分:运维管理体系、安全体系和标准规范体系。运维管理体系针对XX大系统的资源管理架构规范了各种监控、报警、日志等日常运维管理机制;安全体系针对XX大系统提供的资源、数据和应用服务提供了一系列安全管理机制;标准规范体系则对XX大系统的资源管理、数据管理、服务管理提供了一系列开发与管理的技术规范和操作规程。

3.3.2产品数据体系

XX情报系统是一套由多个软件构成的软件套装,有多个软件或者模块组成。XX大数据采用分布式部署方式,各个软件或模块之间采用松耦合的架构进行交互,易于扩展,易于根据需求进行定制和实施。产品架构图如下图所示。

●核心架构平台。采用业内先进的大数据技术构建的自主可控的虚拟化、资源调度以及服务管理平台,支持KVM、Xen、VMware等主流虚拟化技术。

●运维管理系统。平台运维管理员使用该系统,对计算、存储、网络等各类大资源以及整个平台的基础架构进行管理,支持资源的全方位监控和应用集群的弹性伸缩。

●运营管理系统。平台运营管理员使用该系统,对平台服务进行发布、计费、受理等运营管理,对所有平台租户及其订单进行管理。

●服务管理系统。基于平台基础服务,形成整个平台的服务目录,并可按照一定的策略对服务进行组装和编排。另外对服务的使用情况进行计量;提供开放接口,支持服务集成。

●自服务系统。大数据平台租户使用该系统,申请大主机、大硬盘等各类虚拟资源,部署、运行并监控情报系统。

●大安全保障。身份认证、访问控制、容灾等,另外还包括从物理层、虚拟层到服务层、应用层的安全保障体系。

3.3.2.1基于大数据的情报数据管理与分析系统

大数据经济情报综合分析平台和大数据交易数据管理与分析系统分别是两款大数据平台软件产品,都是集成海量数据的采集、过滤、转换、存储、检索、查询、统计、分析、可视化与安全管理等全生命周期管理的综合系统,但对数的关注点和管理方式有很大的不同。

系统不仅提供了常用的数据采集,检索,分析功能,而且还提供了基本的检索,分析功能单元,可以根据各种行业应用和最终用户的需求,进行不同的组合,适应用户的不同

情报场景,完成大规模行业数据的挖掘分析和应用对接。

作为大数据分析平台,系统具有如下特点:

●软硬件国产自主可控

●多源异构数据接入

●数据关联融合、统一访问

●大规模、高性能、可扩展

●高可靠、高可用

3.3.2.1.1大数据平台功能框架

大数据平台必须是一个开放的体系,相关软件系统和硬件设备应是业界主流产品,遵循国家标准、行业标准,保证平台、设备、管理系统能够随时无障碍地进行更新和移植。大数据管理平台还应遵循统一的标准规范,充分考虑与外部系统(4A及其它网管系统、情报系统等)的接口。

支撑数据挖掘、数据实时存储和访问、ETL计算平台这三类情报应用。

3.3.2.1.2分布式计算功能

MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map 和Reduce。Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。

MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。

3.3.2.1.3NoSQL功能

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其设计目标是用来解决关系型数据库在处理海量数据时的局限性。

HBase使用场景有如下几个特点:海量数据(TB或PB级别以上);需要很高的吞吐量;需要在海量数据中实现高效的随机读取;需要很好的伸缩能力;能够同时处理结构化和非

结构化的数据;不需要完全拥有传统关系型数据库所具备的ACID特性。United Hadoop的HBase支持地理容灾、二级索引等高级特性,满足极高可靠性和开发易用性要求。

HBase适合于建立海量数据存储平台,用于数据的存储和实时访问,例如历史明细查询、详单查询等情报。

3.3.2.1.4数据仓库功能

Hive是一个建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。

Hive主要特点如下:通过HQL语言非常容易的完成数据提取、转换和加载(ETL);通过HQL完成海量结构化数据分析;灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展;Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,United Hadoop的Hive具有如下特性:基于kerberos技术的安全认证机制;数据文件加密机制;双机热备;完善的权限管理。

Hive适合于结构化数据或半结构化数据的挖掘和分析。

3.3.2.1.5分布式协调功能

ZooKeeper是一个分布式、高可用性的协调服务。在Hadoop系统中主要提供两个功能:一个功能是帮助系统避免单点故障,建立可靠的应用程序,另一个功能是提供分布式协作服务和维护配置信息。

ZooKeeper主要特点:

●顺序一致性:按照客户端发送请求的顺序更新数据。

●原子性:更新要么成功,要么失败,不会出现部分更新。

●单一性:无论客户端连接哪个server,都会看到同一个视图。

●可靠性:一旦数据更新成功,将一直保持,直到新的更新。

●及时性:客户端会在一个确定的时间内得到最新的数据。

3.3.2.1.6情报工作数据流管理功能

Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。

Oozie主要特点:支持分发、聚合、选择等工作流流程模式;与Hadoop生态系统各组件紧密结合;流程变量支持参数化;支持流程定时触发;提供了HA机制;自带一个Web Console,提供了流程查看、流程监控、日志查看等功能。

3.3.2.1.7维护管理功能

提供的维护管理功能是Hadoop平台的维护管理系统,是Hadoop系统操作和维护的统一入口,提供操作的定义和流程引导,并对于系统中的各项资源运行情况和操作进行监控记录,为系统的日常维护提供依据;

运维管理包括升级向导、日常向导、日志收集与分析、告警、监控、安装向导、配置管理、审计管理、用户管理等。

集群管理包括集群资源授权管理、数据服务封装接口、集群资源动态调度、并发控制、备份和容灾、用户和应用接入安全、集群组件HA和数据私密性。

集群管理系统负责整个系统的管理,包括北向接口、南向接口和本地管理GUI界面。北向接口包括OM类的Syslog、SNMP,以及安全管理对接接口LDAP。本地管理GUI界面提供系统中各类软硬件的图形化维护入口,包括日常维护,以及安装、升级和扩容向导等。

3.3.2.2情报中心分析系统架构

采集大数据、情报分析情报对口管理

图3-1情报中心分析系统架构图

如上图所示,作为一款综合分析平台,平台可以分为四个大的子系统。包括:采集系统、情报分析系统、情报管理系统、情报抓取系统管理。

存储分析子系统又自下而上可以分三层,情报来源方式、数据类型存储方式、关联分析模型算法以及情报跟踪与各种类型报表。

3.3.2.2.1非格式数据的分类存储

系统采用分布式文件、分布式数据库、分布式集群计算等多种分布式技术作为构建系统的基础平台,使得整个系统平台具有了高扩展、高容错、高性能、高可用的能力。

采集子系统提供多种接口,支持对不同数据源的采集,支持对多种数据类型的提取信息,同时对采集的数据进行分析提取,对数据内容进行匹配过滤,将各种类型的数据分门别类的存储到存储分析子系统中,供后者分析使用。子系统提供对多种文档类型的导入功能,包括word,ppt,execl,pdf,rtf,txt等多种文件类型;以及各种视频、图片格式的支持。

3.3.2.2.2对格式化数据的全文检索合多线索加权检索

情报管理子系统管理客户的大数据分析情报,系统提供用户权限、情报管理、数据全

文检索、情报定义等功能模块,满足客户情报分析的管理需求,通过全文检索和加权检索,可以把不同的情报内容针对一个时间、事件进行关联起来,并形成事件发展趋势的分析图表,用来提供领导层对情报项目的决策和分析。

3-3情报中心数据分析统计图

3.3.2.3完善的情报中心分析报表系统

系统运维子系统管理整个系统的设备,软件,配置等,采用统计报表、状态显示等多种方式展示系统运行状态,维护整个系统稳定运行,实现系统的高可用性,高扩展性。

存储分析子系统是整个系统的核心部分。实现海量数据的存储、检索、分析等功能。实现对目标数据、图像信息、声音信息、视频等各种文件类型的海量存储,实现对这些类型的文件的关键字快速检索结果,并形成各种形式的情报报表系统。

3.3.2.3.1情报形势分析

根据大数据中,爬虫爬到的全球情报数据和情报事件、情报轨迹、情报来源,分析每个地区的情报发展趋势;

3.3.2.3.1.1按照世界地域分析各地方情报

根据情报名称可以方便把各个地方情报趋势图、情报热点分布图分析出来;

相关主题
文本预览
相关文档 最新文档