当前位置:文档之家› 云计算大数据平台运维方案

云计算大数据平台运维方案

云计算大数据平台运维方案

目录

1.平台优化完善和运维方案 (4)

1.1.优化完善及运维服务工作内容 (4)

1.1.1.平台层优化完善及运维 (4)

1.1.2.数据层优化完善及运维 (18)

1.1.3.功能应用优化完善及运维 (21)

1.2.运维关键点和难点及应对方案 (35)

1.3.服务标准以及工作目标 (37)

1.4.运维服务方式 (38)

1.4.1.现场值守服务 (38)

1.4.2.现场巡检服务 (41)

1.4.3.其他服务方式 (42)

1.5.优化措施 (43)

1.5.1.安装规范优化 (43)

1.5.2.环境初始化检查 (44)

1.5.3.系统优化 (44)

1.5.4.应用优化 (45)

1.5.5.专项优化 (45)

1.5.6.环境及资源评估 (45)

1.5.7.优化报告 (46)

1.6.系统运行维护过程 (46)

1.6.1.事情预警 (46)

1.6.2.事中定位 (47)

1.6.3.事后分析 (48)

1.6.4.工具组合 (49)

1.6.5.故障处理 (50)

1.6.6.专家服务 (51)

1.6.7.故障分析报告 (51)

1.7.工作约束及交付内容 (53)

1.7.1.工作约束 (53)

1.7.2.交付内容 (53)

1.8.新增需求设计方案 (53)

1.9.新增需求实施过程 (54)

1.9.1.需求分析 (55)

1.9.2.设计开发 (56)

1.9.3.软件测试 (57)

1.9.4.版本管理 (97)

1.10.新增需求运行维护及优化方案 (97)

1.11.其他优化需求 (97)

1.平台优化完善和运维方案

1.1.优化完善及运维服务工作内容

1.1.1.平台层优化完善及运维

负责对硬件资源、云计算支撑环境和大数据支撑平台提供优化完善及运维,包括但不限于:日常巡检和监控、故障综合分析及应急处理、性能持续优化等服务,以及硬件设备、数据库、底层工具、云平台环境、云平台扩容优化完善及运维,并提供相应的高级技术支持,以保障云平台平稳运行。

1.1.1.1.平台优化完善及运维定位理解

云平台项目基于目前最新的大数据处理技术手段和理念,借助金三全面上线的有利契机,以大数据云平台为基础,集中、拓宽和整合内外部数据资源,统一规范数据应用范畴,为各需求主体提供更为全面丰富的决策和参考支持,构建开放协作的税务数据生态环境。项目定位集中体现了基础性、创新性和示范性。

云平台数据管理项目定位集中体现了基础性、创新性和示范性;

基础性:

?构建云计算硬件环境,通过搭建灵活的、可随时调用计算资源的数据云环境;

?建立数据治理体系,打造成熟完善的数据治理体系为重点,为保障数据资产质量提供支撑;

?提供基础数据和工具,为税务局自行开发应用项目提供基础数据和工具,鼓励多样性应用开发。

创新性:

?数据全国大集中,利用数据创新,遵循金税三期总体架构要求,继承金税三期前期建设成果,在保持金税三期四大应用系统总体格局不变的情况下,实现数据全国大集中;

?统一工作平台整合数据资源和管理资源;

?提供基础数据服务,体现“众包协助”。

示范性:

?为全国各省局数据开发利用提供从硬件建设、数据治理和应用开发的示范性模板,推进全原收数据利用水平提升。

1.1.1.

2.平台优化完善及运维目标理解

大数据云平台项目建设目标如下:

1.建立税务数据的资产化管理模式。整合全国的税务数据资源,充分利用第三方、互联网等外部数据资源,形成一个全覆盖、高质量的税务数据大集中环境,将数据作为一种资产进行集中的管控,为深度的数据分析、利用、监管提供基础支撑。

2.强化数据治理能力。建立完整的数据治理体系,形成相应的治理组织机构、流程制度以及配套支撑工具,对于数据的标准、模型、采集、集成、安全等方面进行统一管控,确保整体数据环境可靠、高效、安全。

3.积极拓展和有效利用第三方涉税信息。形成系统全面的工作机制,充分调动所有协税护税力量,通过在控制环节、工作步骤等方面的设计,从而提高第三方涉税信息的应用效果。一方面进一步扩大第三方涉税信息交换部门数量,同时充分考虑对互联网数据的抓取,另一方面创新第三方涉税信息利用环节。

4.有机整合大数据技术,提升分析能力。根据目前税务的数据现状,有机整合大数据技术和传统数据分析技术,建立多模式混合的数据分析支撑环境,提供包括传统OLAP分析环境、大数据分析环境、税务模型算法环境、指标体系、查询等多种机制,满足不同类型用户的分析需求。

5.以用户为核心提供差异化的数据服务。围绕、各司局、省局、外部门、社会公众等不同类型用户的数据服务需求,基于全国数据建立多层次、多类型、多渠道的数据服务体系,满足各类用户在决策、管理、执行、研究、公众服务等不同性质的工作要求。

6.在全务系统内形成开发协作的税务数据生态环境。依托建设完成的大数据云平台,为全务系统提供统一的数据服务云,建立一个开放协作式的数据生

态环境,有效吸纳和各省局在数据分析利用方面的先进经验,聚集专业人才,逐步形成一种相互促进学习的良性互动格局,有效推动全务系统在数据分析利用方面的能力提升。

7.有效支撑征管改革和税制改革。在上述目标的基础上,通过大数据平台统一的监督、分析和评价功能以及基于大数据的税收信用信息的不断完善,为前台征管业务流程优化提供决策依据,有效支撑征管改革;同时通过融合了其它相关政府部门数据的税务大数据云平台,逐步建立纳税人的财产、收入和信用监管体系,为税制改革打下坚实基础。

1.1.1.3.平台优化完善及运维技术目标

大数据云平台项目由三部分需组成,分别是平台层、数据层和应用层。下面分别对这三大部分进行分析:

1.平台层分析

平台层由laaS云、Paas云、SaaS云组成;IaaS:是Infrastructure as a Service,基础设施即服务,消费者通过Internet可以从完善的计算机基础设施获得服务;PaaS:是Platform-as-a-Service的缩写,意思是平台即服务,把服务器平台作为一种服务提供的商业模式;SaaS:是Software-as-a-service,国内通常叫做软件运营服务模式,简称为软营模式,提供的是软件服务。

2.数据层分析

数据层由数据资产管理和数据治理体系两部分组成;

数据资产管理对基础层、中间层以及挖掘层的数据进行管理,数据资产管理内容包括资产治理、资产生成、资产评估、质量保证、资产应用运行,从而使数据更加准确、应用更加高效;

数据治理贯穿前台后台系统,形成前台生产系统与后台分析系统之间的数据流转闭环管理,覆盖的应用系统包括核心征管系统、个人所得税系统、管理决策系统以及本项目建设的平台,数据治理需要采用工具进行完整的闭环管理。

3.应用层分析

应用层由主体画像、纳税人遵从分析、税收动态展示和多维数据服务组成,应用层所有应用数据均需要通过数据层获取,并且所有的应用均需通过统一工作平台进行接入集成,同时应用层的应用与金税三期系统、保留系统无缝衔接。

主体画像包括税务机关画像和纳税人画像业务,纳税人遵从分析包括自然人遵从分析、信用动态监控、票流分析线索分析、纳税人关系云图等业务,税收动态展示需要根据不同的业务分不同主题,进行税收业务数据的可视化展示(包括图形、表格、动画、地图、2D/3D等各种视觉元素),达到大数据的实时、形象和生动的展示效果。

1.1.1.4.硬件设备运行维护

定期对平台机器中磁盘、内存条、机器主板和硬盘背板等硬件进行巡检,对出现的磁盘故障、内存故障、主板故障等情况第一时间联系硬件厂商人员到机房更换,全力配合更换前的停服务、关机、下电等工作。故障解除后,重新对更换的硬件设备进行巡检。

同时定期对平台机器中的网卡、网络情况进行巡检,出现网口松动、网卡故障、网线故障、网络波动等状况等情况第一时间联系硬件厂商人员到机房更换或插拔,全力配合更换前的停服务、关机、下电等工作。故障解除后,重新对更换或插拔的机器设备进行巡检。

1.1.1.5.大数据产品运维及优化

大数据产品包括:云服务器ECS、负载均衡SLB、云数据库RDS、安全云盾、虚拟专有网络VPC、监控管理软件、对象存储OSS、数据治理DQC、数据可视化引擎DataV、服务能力开发平台CSB、BASE平台、ODPS、ADS、OTS、DTBOOST、I+、StreamSQL等产品。

云服务器(Elastic Compute Service 简称ECS)是一种简单高效,处理能力可弹性伸缩的计算服务。能快速构建更稳定、安全的应用,提升运维效率,降低IT成本。在系统运行期间,指定专门人员,对服务器的运行情况进行监控、发现故障立即进行处理,根据云服务器的使用情况进行性能优化,根据云服务器的资源申请信息对云服务器资源进行分配及回收。

负载均衡软件能对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。在系统运行期间,指定专门人员,对负载均衡软件运行情况的监控,发现故障后第一时间进行处理,根据负载均衡的使用情况进行性能优化、资源分配及回收。

关系型数据库服务(Relational Database Service)是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系,并提供专业的数据库备份、恢复及优化方案,使应用开发能够更稳定可靠。在系统运行期间,指定专门人员,对云数据库RDS运行情况的监控,发现故障后第一时间进行处理,根据云数据库RDS的使用情况进行性能优化、资源分配及回收。

云盾产品用于对流量进行安全监控,具备千万级恶意规则库,能够对黑客攻击行为进行ms级分析及处置;支持主机入侵防护,包括网站后门查杀、恶意文件基本查杀、黑客账户检测、账户异常登录保护、账户暴力破解拦截等功能。在系统运行期间,指定专门人员,对云盾使用情况进行监控、定期出具云平台安全报告、定期对云盾进行升级完善等。

VPC(Virtual Private Cloud)是自定义私有网络, 不同的专有网络之间二层逻辑隔离,云平台在专有网络内创建和管理云产品实例,比如ECS、负载均衡、RDS等。系统运行期间,指定专门人员,对虚拟专有网络软件运行情况进

行监控,在出现故障时第一时间进行处理。根据产品使用情况进行资源的分配与回收,定期对产品进行升级维护及优化等。

监控管理软件用于对云产品的统一监控和管理,并支持图形化管理界面,用户能对各种云服务资源进行统一管理和配置等。系统运行期间,指定专门人员,对监控管理软件进行日常监控,根据监控情况进行性能优化、故障处理等。定期对监控管理软件进行升级维护及优化等。

对象存储软件基于海量、安全、低成本、高可靠的云存储服务,提供高度的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。系统运行期间,指定专门人员,对对象存储软件(OSS)日常运行情况进行监控,发生故障后第一时间进行处理,根据存储情况进行资源的分配与回收,根据运行情况进行性能的优化。

数据治理套件支持离线数据质量监控,可通过配置监控规则,提供报警服务;提供数据质量评估、数据监控、数据诊断等功能;提供生产调度任务监控告警和诊断功能;支持对项目空间的生产作业运行情况、资源消耗情况、数据资产、数据流转、数据消费、数据存储、数据应用、数据价值等全局可视化展现;包含数据地图、数据血缘、数据生命周期管理、数据权限管理、基础元数据管理等数据管理功能。系统运行期间,指定专门人员,对数据治理套件(DQC)的日常运行进行监控,根据监控结果,进行治理任务的优化、对失败的治理任务进行处理,根据任务运行情况,对数据质量检查规则进行维护及配置。

数据可视化引擎用于支持文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化等,并支持可视分析的人机交互方式;针对大屏幕类的展示提供了各类模板,在视觉、色彩和特效上进行了特定的优化;支持多种表现形式图表,包括数据表、条形图、折线图、饼图、气泡图、散点图等。系统运行期间,指定专门人员,对数据可视化引擎(DATA V)的日常运行进行监控,处理故障,定期对DATA V进行软件升级维护优化等。

服务能力开放平台(CSB)是一个基于高可用分布式集群技术构建的服务API开放平台,实现跨技术平台、跨应用系统、跨组织的业务能力互通,并进

一步支持业务能力统一数字化管理和控制。系统运行期间,指定专门人员,对数据能力开放平台(CSB)的日常运行进行监控,处理故障,定期对数据能力开放平台(CSB)进行软件升级维护优化,定期对数据能力开放平台(CSB)中的各种服务新行新增、发布、删除以及相关优化等。

BASE平台是大数据开发套件,基于统一的元数据服务来提供数据资源管理视图;支持数据库对象结构导出(包含表、函数等);支持数据同步,支持各种异构数据平台之间数据迁移、转换等功能。系统运行期间,指定专门人员,对BASE平台上的18项服务、8套数据库系统进行日常运维、根据运行情况进行参数优化调整、扩容支持,保障BASE平台的平稳运行。

ODPS系统是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,将不同场景的各种计算任务统一在同一个平台之上,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。系统运行期间,指定专门人员,对云平台ODPS上所涉及的项目和服务器的CPU、内存、网络等基础环境提供资源分配、系统维护优化等管理服务;对ODPS所涉及的项目、权限、数据源、同步数据等提供技术支持,针对ODPS上的PB级的数据量进行管理;ODPS中的项目空间运维、云平台账户创建和权限管理。

ADS是分析型数据库,可针对千亿级数据进行毫秒级的多维分析透视和业务探索,以快速发现数据价值,服务税收工作。系统运行期间,指定专门人员,对ADS数据库所有建表、删表、用户管理、权限管理、数据同步任务等提供技术支持和运维;ADS数据库创建、扩容操作,ADS集群扩容服务及系统参数、建表、数据等优化工作;为ADS任务及服务报错、扩容缩容、调整优化等提供高级技术支持。

OTS(表格存储)是构建在飞天分布式系统之上的NoSQL数据存储服务,提供海量结构化数据的存储和实时访问。以实例和表的形式组织数据,通过数据分片和负载均衡技术,实现规模上的扩展。应用通过调用表格存储API / SDK 或者操作管理控制台来使用表格存储服务。系统运行期间,指定专门人员,对OTS数据库建表、数据同步、任务报错处理,云平台账户OTS相关赋权和回收权限等工作,OTS存储资源管理、回收站管理等相关工作,OTS服务器和后台多台docker多个服务运维和优化等工作。

DTBoost(大数据应用平台)具备快速支撑数据应用开发的功能,用于内部共建共享,协同开发。系统运行期间,指定专门人员,对DTBoost后台服务升级和相关服务器数据库docker虚拟机变更、运维等操作,DTBoost相关账户赋权等管理操作以及针对TBOOST系统参数进行运维优化工作。

I+关系网络分析,以OLP模型为核心,面向业务快速建模,为开发者和终端用户提供大数据关系计算引擎(含API服务)和可视化交互分析能力。系统运行期间,指定专门人员,对I+服务变更、系统升级,I+架构优化、系统参数调优,I+系统变更、升级、集成等运维工作。

StreamSQL提供分布式数据流式处理服务,采用先进的分布式增量计算框架,以SQL的形式提供流式计算服务。系统运行期间,指定专门人员,对流计算服务异常报错、架构层问题(后台服务报错、未知bug等)进行处理,在需要的情况下协调配合原厂工程师进行问题处理。根据系统运行情况,进行流计算服务参数调优。定期对系统进行系统升级、系统变更技术支持。定期检查全国副本库和表DATAHUB同步进程的运行情况,根据运行情况进行维护。指定专门人员进行云平台流计算相关账户赋权创建数据源等。

1.1.1.6.云计算支撑平台运维及优化完善

云计算支撑工具包括DTcenter、天目平台、Alimonitor平台、杜康平台、神农平台、Armory平台、DMS-AG、CMDB、罗网等多个工具,从多方位为云平台各渠道获取的数据的采集、清洗、处理、加工提供大数据计算处理服务,满足云平台业务需求。云计算支撑平台运维包括但不限于用于实现云平台所需的分布式云操作系统、安全等软件的运维。

DTcenter(云管控平台)是将分散的计算资源实现统一融合管理,构成一个统一的资源池,实现资源的按需分配,确保闲置、高性能资源得到充分利用,提高资源利用率。在系统运行期间,指定专门人员根据各个项目应用的不同需求分配合适的ECS、RDS、SLB、OSS、VPC、云盾、监控管理软件等服务器资源,并针对运维已分配的服务器资源进行监控运维,包括磁盘报警、内存报警、CPU报警以保证系统的稳定运行;针对已分配的ECS服务器制定快照备份策略及定期删除不需要的快照备份,防止系统故障导致的数据丢失;平台内监

控系统的定期巡检包括CPU、内存和磁盘的监控,并对告警信息进行处理,及时为新分配的资源添加报警规则;面向Dtcenter登录的多个账户密码权限管理与新用户分配等工作。在日常检查中,要根据RDS产品反馈的反应缓慢、数据不全、账号体系单一、快照无法定期自动删除等问题对RDS产品进行优化,解决RDS存储上限瓶颈问题,无法分配PGSQL数据库的问题,CPU、内存可供选择规格较少的问题,业务RDS查询慢等问题;对ECS产品进行优化,包括操作系统的不同版本的兼容性,分配的操作系统上rpm软件包版本的定制化,制作兼容不同版本操作系统的yum源等;对SLB产品进行优化,包括同一个实例中的一个端口无法转发后端服务器多个端口,HTTP协议配置健康检查失败等问题;对Dtcenter上的监控系统进行优化,包括监控系统数据不足,新分配资源需要手动安装监控插件,不同时间下产品监控图表失真等问题。针对Dtcenter上的账号体系目前存在的操作繁琐、无法自定义创建与授权等问题进行优化。解决当前平台随着资源分配导致访问速度明显变慢的问题,制定Dtcenter平台日常的升级优化方案并根据方案进行实施。

天目平台主要是监控云平台中的docker物理机、docker容器。在系统运行期间,指定专门人员,对docker物理机、docker容器进行日常的巡检,对巡检出的问题进行第一时间的汇报及处理,在需要的情况下,比如发现管控docker 的异常报警时,提工单咨询协调并配合原厂人员对问题进行定位、处理。定期根据业务的需求或官方变更需求对Docker容器进行的下线、扩容、上线等操作,对于资源紧张与服务不稳定的管控节点进行持续的升级与优化完善。梳理天目平台当前的问题,包括平台的前端页面显示散乱、存在部分业务项没有异常却出现告警、部分异常容器节点的查看日志功能无法提取有用信息的情况、部分管控节点状态不稳定造成对应的服务异常或者中断,针对上面问题,进行分析整理,制定优化方案,根据优化方案,安排相关人员对存在问题的管控节点进行优化扩容,以及对天目平台进行优化完善。

Alimonitor平台主要是用于监控平台上的物理机。在平台运行期间,指定专门人员,跟踪Alimonitor平台上的物理机监控项中的报警项,根据报警项第一时间进行问题处理,保障平台稳定运行。跟踪当前业务实际情况在Alimonitor平台上新增机器与产品对应的特色化、定制化的告警服务,第一时

间反应平台瓶颈问题,提出解决方案,对监控项进行适应性的参数调整,对有问题的监控项根据实际情况制定采取措施,对想应的监控项进行关闭或删除。

杜康平台是对云平台上RDS进行监控、预警及资源管理。在平台运行期间,指定专门人员,对平台对当前已分配的RDS与未来可能更多的RDS数据库的使用情况与负载压力进行监控,根据监控情况进行分析,及时采取相应的方式解决告警问题,包括使用压力告警、资源扩容、查杀SQL等方式。指定专门人员跟踪杜康平台每天凌晨设定的数据备份任务运行情况,对运行失败的任务进行原因定位,根据失败原因,制定运行失败任务的解决方案,选择对任务进行重跑或优化等操作。指定专门人员对DS集群中的服务器进行监控,在发现物理机资源使用不平衡等情况下,进行ReBalance、数据库迁移等操作,在发现当前已分配的RDS与未来可能更多的RDS数据库发生的数据不一致问题时,通过同步数据、备库重搭等方案进行问题处理。对杜康平台目前无法使用的功能,如慢SQL、大表优化、索引缺失、统计信息无法显示以及账号体系与权限管理不完备等问题,进行问题的分析,协调并配合原厂人员制定解决方案,安排人员根据解决方案对杜康平台进行升级完善。

神农平台主要是对物理服务节点服务器的CPU、内存、I/O等方面进行监控。在平台运行期间,指定专门人员跟踪神农平台对物理服务节点服务器的CPU、内存、I/O等方面的监控进行持续性监控,并在业务高峰期重点关注。在发现问题后,对相应的物理服务节点进行问题定位,问题处理,需要的情况下,提请工作单协调并配合原厂人员对问题物理服务节点进行处理。在发现高负载产品集群时,对高负载原因进行定位,指定业务人员进行业务优化,在解决问题后,对于发生过高负载的产品集群保持持续性关注,落实问题的处理情况。指定专门人员,对神农内各产品集群,持续性监控集群内各个视图指标,查看系统资源使用情况,对于高负载的产品做持续关注,分析原因,并提出解决方案。协调并配合原厂人员,对监控数据图表经常中断的情况定时重启才能获取监控数据等问题进行问题定位,分析问题原因,制定问题的解决方案,安排相关人员对神农平台的监控服务进行优化。

Armory平台主要用于集群内部物理机器方间的资源调配腾挪,在平台运行期间,指定专门人员,对采用Armory平台对集群内部物理机器之间的资源调

配腾挪、更新同步硬件变更配置信息、同步涉及到的管控节点的详细信息与对应配置数据库中的信息这几个环节存在的问题及操作不便信息。根据收集的信息进行分析及定位,制定优化方案,协调相关人员对Armory平台进行持续性优化。

DMS-AG运维主要是通过SSH连接到全平台产品和所有服务器的运维物理机进行每日严格监控。在运维期间,制定监控方案及相关问题的解决方案、优先级别。指定专门人员,严格根据监控方案,通过SSH连接到全平台产品和所有服务器的运维物理机进行每日严格监控。在发现运维机上的问题时,参照相关问题的解决方案对运维机上的问题进行解决处理。

CMDB运维主要是同步天目管控节点变更信息,根据所有管控节点的配置变更,定期在配置管理库上进行同步。在运维期间,指定专门人员定期跟踪天目管控节点变更信息的同步情况,跟踪所有管控节点的配置变更在配置管理库上的同步情况。根据收集的情况,对于CMDB运维存在的问题,进行问题定位,制定优化方案。

罗网运维主要包括罗网数据导出技术支持,FTP、WEB、REDIS等组件运维,USB-KEY连接性运维,数据库运维等。在运维期间,安排熟悉相关技术的运维人员,进行相关的运维处理。制定巡检方案,定期巡检罗网系统数据库,配合开发处理数据库问题,包括数据的查询以及数据库的优化;针对罗网爬虫爬取数据的摆渡内网指定方案,并编写数据导出、FTP上传、数据导入等脚本;定期巡检罗网系统机器,配合开发处理罗网系统出现的问题,包括数据库参数调整,FTP服务优化等工作;针对巡检或反馈的罗网VPN连接失败问题,联系南海相关人员排查原因,进行调试,解决USB-KEY的连接性问题。

在运维期间,针对平台产品的实际使用情况,在机器内部进行物理机的资源调配、产品的扩容缩容等操作;针对所有管控与服务节点定期进行配置信息搜集、配置信息比对、配置信息固化数据库的操作;针对所有管控与服务节点的网络配置新增、变更操作,以及其所在的物理宿主机的服务重启、配置优化、日志收集等工作;面向平台产品在日常使用中遇到的常见操作问题、故障问题、优化问题进行二线工单咨询与处理;面向平台产品进行定期升级官方发布的补丁升级及BUG修复的版本升级。

1.1.1.7.云平台扩容实施维护

云平台的扩容实施内容主要是新增服务器,云平台扩容实施维护指对新增硬件提供配套的管理及保障工作,主要包括:对云平台的机器进行扩容,对云平台版本进行升级和升级完成后进行功能测试等。具体内容为在平台扩容工作中配合原厂人员进行平台的升级相关工作;当前平台升级完成之后需要将新购置机器扩容到当前集群,配合原厂人员进行平台的扩容相关工作;升级扩容工作完成后将测试之前已有产品的可用性与新特性,并对新部署的相关产品工具进行测试。

对于后续进一步的云平台扩容,我公司将根据招标方要求做好相关的配套工作,保障云平台的持续发展。

1.1.1.8.云平台环境运维

云平台基础环境运维工作是指面向云平台建立全方位的巡检运维工作体系,规范云平台运维工作流程,对平台问题的处理进行全方位跟踪,高效快速解决在监控巡检过程中发现的问题及风险,保障平台内部7×24小时的稳定、高效运行。具体内容与形式如下:

1.运维咨询。通过热线电话、网络通信工具接收各司局、各省用户及各厂商提出的平台运行中的问题,提供咨询服务,对于操作问题直接进行解答,对属于常见或突发故障问题快速定位并控制影响范围,对当前无法彻底解决的问题要求统一记录归档,并持续跟踪问题情况。

2.问题处理。对接收到的各类平台问题进行问题确认、问题分析和定位,对有解决方案的问题编写详细解决方案,及时处理反馈;对暂无法解决的问题给出替代解决方案。

3.日常运维管理。接收并完成安排的其他日常运维相关工作,包括平台问题处理情况统计、平台资源统计、数据安全检查报告、编制周报、月报等。

在运维期间,我公司定期一个月对云平台进行健康检查,并根据健康检查情况提交健康检查报告,根据健康检查报告的内容,制定优化方案,安排相关人员根据优化方案进行优化处理。健康检查的内容如下:

1.容错检查,检查并分析系统运行日志及跟踪文件,发现并排除云平台及应用系统的错误隐患。

2.监控云平台性能、云计算大数据产品运行状态、运行效率、是否存在安全隐患,发现并排除云平台系统错误隐患。

3.检查云平台系统是否需要更新到新的版本、是否需要补丁升级等。

4.检查云平台资源的使用情况,协助进行云平台资源的规划管理与调整优化。

5.检查云平台数据备份情况及数据完整性,备份方式是否合理、备份数据是否可恢复、数据是否存在丢失的风险等。

健康检查步骤如下:

1.生产环境、预生产环境已上线系统日常监控

日常监控统一工作平台、查询平台、税收动态监控、数据治理平台、关系云图、风险情报、用户画像、增值税发票查询分析、票流分析、定时任务、稽查选案等应用及数据源状态。

2.生产环境、预生产环境已上线系统的环境日常运维

根据服务器应用系统后台日志和启动日志分析、定位问题,配合开发人员调试税收动态监控、货劳发票、用户画像、关系云图、风险情报等应用,负责稽查选案、单管户查询、定时任务等应用集成到云平台的相关工作,各应用系统不满足需求时进行ECS节点增加工作,新增应用系统或者应用系统扩容时对应用系统配置文档进行添加及修改工作。

3.生产环境、预生产环境已上线系统版本发布

负责三套环境的版本发布机配置,进行统一工作平台、查询平台、税收动态监控、数据治理平台、关系云图、风险情报、用户画像、增值税发票查询分析、票流分析、定时任务、稽查选案等应用版本发布工作。

4.生产环境、预生产环境新系统上线的环境部署

建立weblogic用户和组、安装JDK、修改系统配置文件、安装weblogic软件及补丁,搭建weblogic应用、新建weblogic域、配置管理服务器名称及端口号、部署应用系统,新应用系统集成至统一工作平台的参数配置工作。

5.相关文档材料的整理

编写应用部署、应用问题处理相关技术文档,编写项目组周报、月报,编写项目验收需要的各类文档,编写项目组安排的其他文档。

1.1.1.9.高级技术支持

在运维期间,收集平台涉及税务业务处理过程中遇到的技术需求、定制化改造、产品自身无法满足业务场景等问题,根据收集问题组织相关人员进行需求分析确认,对相关的问题进行分析定位,确认其产生的原因、解决的思路。根据问题分析结果制定改造方案、改造计划,组织相关人员根据改造方案、改造计划对云平台功能进行持续性优化完善。在需要的情况下,提交工作单,协调并配合原厂人员提供原厂技术支持,对平台功能进行优化完善。

在运维期间,若出现严重阻断性故障,我公司在第一时间派遣技术专家抵达现场进行故障定位、修复、预防、知识转移等工作,确保系统数据的安全,系统的可靠运行。在故障处理完成后提交故障报告,描述故障产生的原因、造成的问题、解决的过程、后续的处理等相关情况说明。

1.1.

2.数据层优化完善及运维

1.1.

2.1.基础层、中间层和模型层优化完善及运维

基础层、中间层和模型层为云平台提供统一的数据支撑,为决策支持分析应用提供数据来源,其优化完善及运维包括以下内容:

1.1.

2.1.1.强化运行监控

依照工作规范和管理流程,对各数据层数据链路、数据模型、数据处理任务和数据归集任务进行监控和巡检,解决任务运行问题,有效保障数据准确性、一致性、完整性等。

1.1.

2.1.2.加强数据核对

依照工作规范和管理流程,对各数据层的数据结果进行核对,确保数据在

相关主题
文本预览
相关文档 最新文档