Teradata大数据一体化平台介绍
- 格式:pptx
- 大小:4.11 MB
- 文档页数:27
国产化替代全面开花星环科技用自研创新技术说话“聚力攻坚基础软件,加速分布式数据库/混合事务分析处理数据库等产品研发推广。
”“十四五”规划明确,“强化基础组件供给,大力发展云计算/大数据/人工智能/区块链等平台软件开发框架”。
核心技术是国之重器,加速推进核心领域关键技术突破,完成核心网络中的软硬件国产替代是国家的一项长期战略。
5月26日,“向星力·未来数据技术峰会(FDTC)”在上海成功举办。
为了实现数量处理的智能化、多模态、平民化,星环科技推出众多创新产品,星环大数据基础平台TDH+星环数据云平台TDC、星环分布式交易型数据库KunDB、分析型数据库ArgoDB、分布式图数据库StellarDB、引擎 Scope、时序数据库TimeLyre、数据科学平台Sophon Base等完全满足信创要求,不但可以替换国外的商业和开源大数据平台、数据库等基础软件产品,而且拥有大量成功的应用案例,为用户创造新的价值。
1.星环TDH+TDC协同替换CDP,大数据基础平台更上一层楼星环科技自研的大数据基础平台TDH和星环数据云平台TDC联合,可以完美地替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。
新发布的星环THD9.3和TDC3.2以新一代湖仓集存储、多模型统一架构、综合性能提升、基于容器的资源管理技术、多租户等技术引领发展。
星环大数据基础平台TDH 9.3推出新一代湖仓集存储格式 Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,告别数据冗余。
新一代湖仓集统一存储 Holodesk在数集方面,支持基于Holodesk存储格式的集市分析,存储&计算双升级,分析性能大幅提升;在数仓方面,支持完整四种事务隔离级别,支持复杂批处理加工、数仓模型拉链表等,无需手工计算分桶数,自适应数据分布自动合并小文件;在数据湖方面,离线导入/实时写入,生态对接 Spark/Flink/Sqoop,时间旅行。
Teradata系统架构及特性Teradata基础知识和使用过程中应该注意的问题Teradata系统架构及特性DW项目组赵世辉2010年5月Teradata基础知识和使用过程中应该注意的问题Teradata系列培训基础培训1. 2. 3. Teradata软硬件体系架构原理Teradata数据库对象介绍Teradata工具集介绍中级培训1. Teradata数据库设计规范2. Teradata SQL规范3.数据仓库Teradata平台管理规范高级培训1. 2. 3. 4. 5.| 2Teradata工具使用方法和技巧Teradata程序设计与开发数据库高级管理数据库调优。
内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题目录Teradata软硬件体系结构Teradata数据库原理及特点Teradata 数据保护机制Teradata系统访问配置及连接方式Teradata使用中的一些问题及案例分析| 3内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata系统的硬件构成BynetBynet线光纤PLine/Sline以太网存储阵列MPP节点AWS| 4备份服务器内部资料请勿外传磁带库Teradata基础知识和使用过程中应该注意的问题Teradata主机结构MPP系统工作站集群模式批量处理优化底层并行线性扩展均衡负载高可用性热备组件RAID技术Clique技术| 5内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题AWS及备份设备收集显示主机、存储、Bynet所有模块运行信息设备管理的统一界面AWS通过TVI进行远程维护和故障通知基于LAN-BASE备份技术由备份服务器处理备份任务,减轻数据库压力备份服务器使用Netvault工具,可在AWS上的客户端操作备份恢复由机械手+磁带驱动器+磁带槽位+磁带组成根据磁带的条码自动实现磁带的拆卸和装填磁带库可远程控制,可多驱动器并行工作和交叉工作| 6内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题扩展知识:Teradata主机产品线55015502550企业入门级数据仓库或部门级的数据集市46节点140 TB5__企业级的数据仓库系统,应用于战略性和操作性的企业智能化的EDW/ADW 1024节点10 PB用途数据集市或开发测试机在极端大量数据环境中的分析扩展性(支持数据量)单节点6 TB1024节点50 PB| 7内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题建行数据仓库生产设备的演变硬件- 18(+1)个TD 5500H节点- *****双核- 144GB内存- 100TB数据库空间软件- OS: Suse Linux 9 - DB: TD V2R6.2硬件- 6个TD 5450H节点- ***** - 24GB内存- 16TB数据库空间硬件- 8个NCR 5251节点- 32C@733MHZ - 32GB内存- 4TB数据库空间软件- OS: MP-RAS 4 - DB: TD V2R5 软件- OS: MP-RAS 4 - DB: TD V2R52008年设备更新2007年设备更新2006年DW上线| 8内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题目录Teradata软硬件体系结构Teradata数据库原理及特点Teradata 数据保护机制Teradata系统访问配置及连接方式Teradata使用中的一些问题及案例分析| 9内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata数据库底层结构VPROC虚处理软件并行控制软件系统软件Applications/ Utilities (TPA)主机直连Channel Drivers Gateway Software局域网硬件| 10内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata数据库工作原理SQL请求结果返回基本读写过程解析器解析引擎PE将SQL请求拆分成各AMP的请求以便并行处理PE优化器解析器分解接收到的SQL交易请求,验证语法、权限等分发器优化器产生最优的查询方案信息传递层(MPL)分发所优化的方案到AMP数据通过表PI的HASH值均匀分布到各AMP管理的磁盘(写)AMPAMPAMPAMP信息传递层可汇总各AMP数据,将最终结果返回客户端(读)数据数据数据数据| 11内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题PE( Parsing Engine )一种VPROC,用于解释SQL请求、接收输入记录、审查数据、发送信息到AMP每个节点2个PE,每个PE能并发操作120条会话,每个会话能处理多个请求当多个用户同时访问系统时,Teradata能够通过PE在各节点间自动平衡负载,不需要人工干预可以由工具(TDQM、TDWM)控制查询的执行过程| 12内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题AMP( Access Module Processor )一种VPROC,拥有内存和CPU资源,与一个VDISK连接,管理数据库/表的部分数据每节点根据需求可划分多个AMP控制所有磁盘交互及部分数据库的操作,如读、写、转换、格式化等一个请求可以分发到所有AMP一起共同工作,每个AMP也可以同步工作于多个请求各个AMP并行处理,互不干扰,交易处理结果在信息传递层汇总后,直接返回给应用程序内部资料请勿外传| 13Teradata基础知识和使用过程中应该注意的问题Teradata数据库特点专为海量数据仓库等OLAP应用设计多节点的单一数据库系统跨多代设备线性扩展自动数据分配机制可实现多维并行内嵌分析决策功能采用SPOOL技术易于管理| 14内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题专为数据仓库等OLAP系统设计OLAP数据库VS OLTP数据库OLAP 数据库(Teradata) OLTP数据库(Oracle)数据来源典型业务数据量响应速度用户数量本身不产生数据,来源于生产系统数据在系统中产生中的操作数据基于查询的分析系统基于交易的处理系统复杂查询,经常使用多表连结、全每次交易涉及的数据量小表扫描等,涉及的数据量庞大响应时间与具体查询有很大关系对响应时间要求非常高操作特性用户数量相对较小,其用户主要是用户数量非常庞大,主要是操业务人员与管理人员作人员由于业务问题的不固定,数据库的数据库的各种操作主要基于索各种操作不能完全基于索引进行引进行内部资料请勿外传| 15Teradata基础知识和使用过程中应该注意的问题多节点的单一数据库系统可运行于单个或多个节点多个节点组成一个整体的数据库系统,每个结点有单独的IP地址,都连入系统网络各结点之间自动进行负载平衡并提供结点互为备份的高可靠性客户端可以从不同渠道以不同方式连接,连接时可自动实现负载均衡客户端访问的不是某个具体结点,而是整个数据库数据库资源无法从物理上实现完全的分割| 16内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题不同代设备的线性扩展设备型号5500H 30÷ AMP数量22 5555H 50÷30 42 5600H 80÷单节点TPerf性能每AMP性能1.41.61.9TPerf值是衡量Teradata设备性能的指标,以第一代型号设备5100性能为基准1,后续型号Tperf是与5100的性能比值AMP数量可以根据要求进行增减,但受到磁盘数、背板带宽、接口数量、CPU、内存等限制多代混存会产生资源浪费,一般最多4-5代共存| 17内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题自动数据分配机制通过对PI的哈希运算将数据记录均匀分布到各AMP; 记录RowID由行哈希值和一个32位的UV组成;AMP根据数据记录的RowID确定物理存储位置;最新TD R13提供了Non-PI表解决了传统数据库的“数据重组”问题| 18内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata的多维并行技术查询并行多个VPROC并行最终结果最终结果查询并行各AMP处理自己的数据步内并行每个VPROC中多进程求和求和多步并行SQL语句的并行任务分解JOIN JOINJOIN JOINjoin表C表C表D步内并行1. Select C 2. Select D 3. C join D表A表A多步并行| 19表B表B内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题内嵌的数据分析功能提供多种OLAP函数累计和CSUM、移动平均MAVG、移动和MSUM、移动差分MDIFF、采样SAMPLE、限定*****等所有函数在Teradata内部以并行方式来工作可以自定义函数UDF可嵌入外部厂商的产品功能SAS、MicroStrategy等BI功能SilkRoute、SAP等企业管理功能| 20内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题SPOOL技术SPOOL是未使用的且连续的数据库空间(类似虚拟内存),与Perm、Temp空间一起以AMP为单位分配,且使用不同Cylinder适合大数据量、并行处理的特点(与传统数据库在内存中处理相比)在工作量适中、无Fallback的系统中,SPOOL最少占总数据库空间的25%―30%好的调优策略可减少对SPOOL空间的占用每个用户的SPOOL的在建立时设置SPOOL的类型Volatile。
证券研究报告 | 2022年10月19日大数据系列专题(1):星环科技——企业级大数据基础软件的先行者证券分析师:熊莉S0980519030002联系人:黄浩峻行业研究 · 深度报告投资评级:超配(维持评级)证券分析师:朱松S0980520070001报告摘要l星环科技是国内领先的企业级大数据基础软件开发商。
星环科技是国内领先的企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业务应用系统,助力客户实现数字化转型。
2022年6月,公司多个产品或子产品入选Gartner发布的《中国数据库管理系统供应商识别指南》,在识别的8类数据库管理系统产品中,公司入选产品覆盖其中7类,是覆盖超过7类或以上产品的四家厂商之一,以及覆盖多模数据库的四家厂商之一。
l公司营收保持稳健增长,毛利率维持高位。
公司营收保持稳健增长,公司营业收入从2018年的1.13亿元增长到2021年的3.31亿元,复合增速43.1%,公司当前各项费用投入较大,目前仍处于亏损状态。
公司作为大数据产品型公司,2018-2021年毛利率分别为61.61%、60.69%、58.02%、58.94%,毛利率水平维持高位,此外,公司十分重视研发投入,研发费用绝对值保持稳定增长,研发费用率依旧维持高位。
从客户行业划分来看,金融、能源、政府等为公司当前主要行业。
l以大数据基础平台为核心,构建明日数据世界。
公司主要为客户提供数字化基础设施底层、中间层的基础软件和技术服务,支持客户的技术团队及合作伙伴构建数据和业务应用系统,助力客户进行数字化转型。
大数据基础软件业务为公司主营业务,营收占比超八成,主要包括大数据与云基础平台软件(TDH和TDC)、分布式关系型数据库(ArgoDB和KunDB)、数据开发与智能分析工具(TDS和Sophon)三大类。
达蒙数据使用-概述说明以及解释1.引言1.1 概述概述部分的内容可以写为:达蒙数据(Damon Data)是一家专注于数据分析和数据可视化的科技公司。
在当今信息化和数字化的时代,大数据已成为推动经济发展和社会进步的重要资源。
然而,对于一般企业和个人来说,如何高效地利用和处理这些庞大的数据量仍然是一个巨大的挑战。
达蒙数据的出现,正是为了解决这一挑战而诞生的。
该公司提供了一套完整的数据分析解决方案,涵盖了数据采集、数据清洗、数据建模、数据分析和数据可视化等多个环节。
通过专业的技术和先进的算法,达蒙数据使得企业和个人能够更加轻松地理解和利用数据的价值。
在实际应用中,达蒙数据已经显示出巨大的潜力和优势。
无论是企业管理者需要分析市场趋势、消费者行为,还是学术界研究人员需要探索各个领域的关联性,达蒙数据都能够提供定制化的解决方案,并帮助他们快速准确地获得所需的数据结果。
正因为如此,越来越多的企业和个人开始重视和采用达蒙数据。
通过对数据的深入研究和挖掘,他们能够更好地了解市场的需求,优化产品设计,改进运营策略,从而更好地满足客户的需求,提升企业的竞争力。
综上所述,达蒙数据的使用不仅可以提高数据处理的效率和准确性,还能够为企业和个人带来更多的商业机会和竞争优势。
未来,随着科技的不断进步和数据的不断膨胀,达蒙数据有望在数据领域继续发挥更大的作用,并成为推动社会进步的重要力量。
1.2 文章结构文章结构部分从整体上介绍了本文的组成和章节划分,具体可包括以下内容:文章结构部分旨在说明本文的整体组织方式和章节划分,以帮助读者快速了解文章的内容和结构。
本文分为引言、正文和结论三个部分。
引言部分主要概述了本文的主题和背景,并向读者介绍了本文的结构和目的。
正文部分是本文的核心,主要包括了四个要点的讨论。
每个要点都会详细说明其相关信息和细节,并提供相关的案例分析或实证研究。
结论部分则对全文进行了总结和分析,并对未来的展望进行了一定的探讨。
大数据的解决方案随着互联网的快速发展和技术的不断进步,大数据成为了当今社会互联网应用的重要组成部分。
大数据解决方案是处理海量数据的方法和工具,以帮助企业从数据中获得有价值的信息,进而支持决策制定和业务发展。
本文将介绍大数据解决方案的概念、应用场景以及一些常见的解决方案。
什么是大数据解决方案?大数据解决方案是指为了处理和管理大规模数据而设计的方法、工具和平台。
这些解决方案旨在帮助企业从海量数据中提取、存储、处理和分析有用的信息。
所谓大数据,是指数据量太大而无法通过传统的数据库管理系统进行处理和分析的数据。
大数据解决方案通常包括以下几个方面的内容:1.数据采集与存储:大数据解决方案应该能够高效地采集和存储海量数据,包括结构化数据(如传感器数据、数据库数据等)和非结构化数据(如文本、图像、视频等)。
2.数据处理与分析:大数据解决方案需要具备强大的数据处理和分析能力,能够对大规模数据进行高效的处理、清洗、聚合和建模,以及快速地进行数据挖掘和分析。
3.数据可视化与呈现:大数据解决方案还需要提供数据可视化和呈现的功能,将复杂的数据以图表、报表等形式展示给用户,帮助用户更直观地理解和分析数据。
4.数据安全与隐私:由于大数据涉及到大量的敏感信息,大数据解决方案也需要具备一定的数据安全保障措施,以防止数据泄露和隐私侵犯。
大数据解决方案的应用场景在各个领域,大数据解决方案都得到了广泛的应用。
以下是一些常见的应用场景:1. 金融行业金融行业是大数据解决方案的重要应用领域之一。
通过大数据解决方案,金融机构可以对海量的金融数据进行分析,以识别潜在的风险、预测市场趋势,并进行智能投资组合管理和信用风险评估。
2. 零售行业大数据解决方案在零售行业也具有重要的应用价值。
通过对顾客购买行为和偏好进行分析,零售商可以实现个性化推荐、智能定价和库存管理,提高销售额和顾客满意度。
3. 交通运输交通运输领域面临大量的数据,如智能交通系统采集的交通流量数据、车辆传感器数据等。
大数据的存储技术大数据存储技术是指用于存储和管理大数据的各种技术和方法。
随着互联网、物联网和移动互联网的快速发展,大数据的规模和复杂度越来越大,传统的存储技术已经无法满足大数据的存储需求。
因此,大数据存储技术变得越来越重要。
本文将介绍大数据存储技术的相关概念、特点和技术,以及目前主流的大数据存储技术,包括分布式文件系统、NoSQL数据库、数据仓库等。
同时,我们还将讨论大数据存储技术的应用场景和未来发展趋势。
一、大数据存储技术的相关概念和特点1.1大数据存储技术的概念大数据存储技术是指用于存储和管理大数据的各种技术和方法。
大数据存储技术与传统的数据存储技术相比,具有以下特点:1)大规模:大数据存储技术需要能够存储和处理非常庞大的数据量,通常是TB、PB甚至EB级别的数据。
2)高可扩展性:大数据存储技术需要具有良好的可扩展性,能够在不影响性能的情况下动态地扩展存储容量。
3)高性能:大数据存储技术需要具有高性能,能够快速地读写大规模的数据。
同时,还需要能够支持并发访问和复杂的数据分析操作。
4)多样性:大数据存储技术需要能够存储和管理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。
1.2大数据存储技术的特点大数据存储技术具有以下特点:1)分布式存储:大数据存储技术通常基于分布式存储架构,能够将数据存储在多台独立的服务器上,并实现数据的分布式访问和处理。
2)高可靠性:大数据存储技术需要具有高可靠性,能够在硬件故障或其他问题出现时保证数据的安全性和完整性。
3)高性能:大数据存储技术需要具有高性能,能够快速地读写大规模的数据,并支持复杂的数据处理和分析操作。
4)低成本:大数据存储技术通常以低成本的硬件和开源软件为基础,能够降低存储成本并提高存储效率。
以上是大数据存储技术的相关概念和特点,接下来我们将介绍目前主流的大数据存储技术。
二、主流的大数据存储技术大数据存储技术包括分布式文件系统、NoSQL数据库、数据仓库等多种技术和方法,下面我们将介绍这些主流的大数据存储技术。
大数据可视化分析平台一、背景与目标基于邳州市电子政务建设的基础支撑环境,以基础信息资源库(人口库、法人库、宏观经济、地理库)为基础,建设融合业务展示系统,提供综合信息查询展示、信息简报呈现、数据分析、数据开放等资源服务应用。
实现市府领导及相关委办的融合数据资源视角,实现数据信息资源融合服务与创新服务,通过系统达到及时了解本市发展的综合情况,及时掌握发展动态,为政策拟定提供依据。
充分运用云计算、大数据等信息技术,建设融合分析平台、展示平台,整合现有数据资源,结合政务大数据的分析能力与业务编排展示能力,以人口、法人、地理,人口与地理,法人与地理,实现基础展示与分析,融合公安、交通、工业、教育、旅游等重点行业的数据综合分析,为城市管理、产业升级、民生保障提供有效支撑。
二、政务大数据平台1、数据采集和交换需求:通过对各个委办局的指定业务数据进行汇聚,将分散的数据进行物理集中和整合管理,为实现对数据的分析提供数据支撑。
将为跨机构的各类业务系统之间的业务协同,提供统一和集中的数据交互共享服务。
包括数据交换、共享和ETL等功能。
2、海量数据存储管理需求:大数据平台从各个委办局的业务系统里抽取的数据量巨大,数据类型繁杂,数据需要持久化的存储和访问。
不论是结构化数据、半结构化数据,还是非结构化数据,经过数据存储引擎进行建模后,持久化保存在存储系统上。
存储系统要具备高可靠性、快速查询能力。
3、数据计算分析需求:包括海量数据的离线计算能力、高效即席数据查询需求和低时延的实时计算能力。
随着数据量的不断增加,需要数据平台具备线性扩展能力和强大的分析能力,支撑不断增长的数据量,满足未来政务各类业务工作的发展需要,确保业务系统的不间断且有效地工作。
4、数据关联集中需求:对集中存储在数据管理平台的数据,通过正确的技术手段将这些离散的数据进行数据关联,即:通过分析数据间的业务关系,建立关键数据之间的关联关系,将离散的数据串联起来形成能表达更多含义信息集合,以形成基础库、业务库、知识库等数据集。
大数据接入方案概述大数据是当今企业决策的重要支持工具,可以帮助企业从各个角度进行数据分析和预测,从而做出更明智的决策。
为了实现大数据分析,企业需要建立一套高效的大数据接入方案,以确保数据的准确性、完整性和及时性。
本文将介绍一个常见的大数据接入方案,包括数据采集、数据传输、数据存储和数据处理等环节的解决方案。
数据采集数据采集是大数据接入的第一步,它是指将各种数据源的数据进行收集和整合。
常见的数据源包括企业内部系统、传感器数据、外部数据源等。
内部系统数据采集企业内部系统是大数据分析的重要数据来源。
为了将内部系统的数据纳入大数据分析范围,可以使用以下几种方法进行数据采集:1.日志采集:对于存在日志的系统,可以通过采集系统生成的日志文件,将其中的关键信息提取出来并存储到大数据平台中。
2.数据库同步:对于数据库驱动的系统,可以利用数据库的数据同步功能,将关键数据实时或定期地同步到大数据平台。
3.API接口:如果内部系统提供了API接口,可以通过调用API接口将数据推送到大数据平台。
外部数据源采集除了内部系统数据,外部数据源也是大数据分析的重要数据来源。
外部数据源可以是公开的数据集、社交媒体数据、传感器数据等多种形式。
1.爬虫采集:对于公开的数据集或网页数据,可以使用爬虫技术进行数据采集。
通过编写爬虫程序,可以从目标网站上抓取数据,并将数据保存到大数据平台中。
2.API接口调用:一些外部数据源提供了API接口,可以通过调用接口获取数据并存储到大数据平台中。
数据传输在数据采集完成后,需要将采集到的数据传输到大数据平台进行存储和处理。
数据传输应该满足以下几个要求:1.高效性:数据传输的速度应足够快,以便及时将数据传输到大数据平台。
2.安全性:数据传输过程中应采用加密和身份验证等安全机制,以保护数据的安全性。
3.稳定性:数据传输过程中应保持稳定,避免数据丢失或传输失败。
为了满足以上要求,可以使用以下几种数据传输方案:1.消息队列:使用消息队列来进行数据传输,可以实现高效、稳定和安全的数据传输。
大数据平台在系统结构上包括数据采集系统、数据库管理系统、数据融合系统、资源服务管理系统、平台管理系统、任务调度管理系统、数据分析系统、数据可视化系统,如图所示:图:大数据平台系统结构1.1.1.1数据采集系统1)系统概述数据采集子系统通过多种方式和途径,把政府和企业各个部门的数据、物联网的数据、互联网的数据汇聚到大数据中心。
基于大容量、消息和事件的数据导入,面向不同格式的结构化、非结构化和流形式的城市数据,提供易于运营的多种数据源管理和格式转换以及原始数据的临时存储。
2)系统结构数据采集子系统通过丰富多样可供选择的采集方式,包括系统直采填写、数据导入、数据交换、网络抓取、API接口调用、感知设备对接等多种方式把政府和企业各个部门的数据汇聚到数据服务中心。
数据格式包括传统的结构化数据,或视频、录音、图片、文本等非结构化的数据,并可实现采集自动归类和预处理。
其基本原理如下图所示:图:数据采集总体架构数据采集子系统通过不同数据节点,通过数据的推拉,将政府和企业各部门的数据汇聚到数据服务中心,形成数据服务中心的基础数据资源库。
3)系统功能数据采集系统的功能包括数据源管理、指标项管理、集群管理、流程管理、流程日志、服务日志、插件管理。
(1)数据源管理:数据源管理主要解决政府各个部门、互联网爬取站点和物联网设备的数据源注册和管理,目前系统支持数据源包括:MySQL数据库、Oracle数据库、Hbase、Hive、NoSQL数据、云数据库、大文件系统、小文件系统等各种关系性数据库和非关系数据库。
数据源中存储了所有建立数据库连接的信息,就象通过指定文件名可以在文件系统中找到文件一样,通过提供正确的数据源名称,用户可以找到相应的数据库连接;能够实现多类型数据源的注册、查询和管理等功能。
(2)指标项注册:包括采集指标项注册,下发指标项注册,对需要做共享交换的数据进行登记,配置好交换数据的源和目标,这个功能就是对所有指标项做统一的管理。