达梦数据交换平台集群功能介绍
- 格式:pdf
- 大小:283.35 KB
- 文档页数:8
达梦如何冲击核心业务系统——国产数据库的产品发展之道韩朱忠达梦数据库一家国产数据库厂商愿景——坚持原始创新、实现产业报国提供丰富的数据处理产品和解决方案:•数据交换•数据管理•数据分析达梦坚持以关系数据库(DM7)为基础说到“国产数据库”——起步中国数据库国产化的努力工作,始于上世纪80年代达梦公司的前身——大学的一个课题组,同期起步重大行业核心的生产、控制和管理系统行业外围系统或中小企业信息管理系统关于“国产数据库”——缓慢前行三十年来,国产厂商大部分的努力,都是在低端市场搏杀金融、电信核心交易系统毋容置疑,从市场来看国产数据库发展的太慢低技术含量、低利润、低知名度、低品牌形象高端市场难以突破2008电力调度,生产库——核心系统三家厂商拼了近3年,首单落地——选型PK、定制开发、性能调优、驻场维保Now:90+%份额Get但仅这样,还远远不够!2012中国航信-航空电子客票2013国家工商管理总局-国家企业信用信息公示值得激动的新机遇重大行业核心的生产、控制和管理系统行业外围系统或中小企业信息管理系统金融、电信核心交易系统市场利益&社会责任民航电子客票中国民航市场2016年规模达到900余万次航班4.9亿人次出行经过三年的服务和支持达梦先后在首都航空、西藏航空、国航、东航成功投产,后续将进一步全面替代稳定&可靠——满足365*24的不间断运行性能——从容应对节假日、重大活动等出行高峰期的机票查询、预定请求快速移植——支持开发商在3个月内,完成涉及到约10万行数据库相关源码(对象定义、SQL、过程、触发器)从Oracle向DM的移植国家企业信用信息公示将服务于大量投资者、媒体、监管机构及社会公众全国上亿企业、个体从业者的登记、变更、及查询等服务向相关机构提供全国企业经营数据分析结果截至目前,已部署达梦集群实例三十余套,日检索业务1650万笔性能——满足复杂分析和并发事务处理请求运维——满足数据中心的所有DB实例集中管理要求挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能产品技术的应对——质量365*24运行,意味着产品必须有良好的代码质量常见的稳定性问题内存泄露问题内存初始化问题非法输入问题环境异常问题资源占用问题复杂负载问题……对测试水准提出更高要求执行:自动化的版本编译、执行、问题报告系统•每日冒烟测试•生成用例/场景上万个•纯文本测试脚本达到6GB•覆盖主流软硬件平台•向研发自动提交测试发现的严重问题测试覆盖面:不断扩展测试方法和内容•测试用例自动生成•静态代码分析•动态内存泄露检测•自动故障注入•系统性能剖析•仿真系统测试•……用户量以50%速度增加,而漏出缺陷在下降挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能传统意义上的高可用•实时数据复制•自动故障切换•两地三中心多活•……达梦面临高可用的第二重含义——异构双活•达梦到其他数据库•实时数据复制•故障切换高可用方案的双重含义针对部分初次接触达梦的用户——高可用方案的双重含义购买一套国产数据库把应用移过去上线应用移植完成,经过了调试优化、仿真测试,是否就可以上线?疑问:•仿真测试环境与真实生产环境等效?•万一有潜藏的功能性能问题爆发,导致业务停滞怎么办?•只能选择上线或不上线,没有第三种选择?•是否上线谁能说了算,凭什么说了算?部署方式:达梦数据库其他数据库应用系统实时数据同步DMHS效果实时同步,同时支持国外主流系统和国产系统在线数据对比,不停止在线生产系统情况下,确保两边数据完全一致其他产品为主达梦为备达梦为主其他为备达梦在线数据对比试运行/风险评估期缓解疑虑建立信任中国铁建神华集团用友政务工商管理总局国家电网海南社保中新网湖北知识产权局南方电网国家海洋局中船**河北财政厅中国航信重庆经济信息中心**审计厅……挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能与开源数据库相比商业数据库在产品技术上,核心优势在哪里?达梦在服务于行业用户、核心业务系统时,认识到了一项关键区别——复杂SQL的处理能力来看一条我们曾经经历过的SQL 的例子with“COL1" as(select"I".“XCOL1"+1 "PzPeriod" ,'0.0' "OrderNum" ,null "PzDay" ,'' "VchrNum" ,'' "DFKM" ,1 "SortOrder" ,0 "ItemOrder" ,0x00000000000000000000000000000000 "RECID",'' "Digest" ,'' "CurrencyName" ,1 "POSTFLAG" ,1 "ORIENT" ,'' "DEFAULNAME" ,sum(case when "I"."BF" is nullthen 0.0 else "I"."BF" end*case when“X"."ORIENT"=0x00000000000000000000000000000001 then 1 else -1 end) "BF",……from“Y_T" "S")"S"放进word里,达到359页;共1 3 .9千行)"N"17个inner join、557个子查询、831个or筛选、1000+个查询字段、2451个like筛选条件、2731个case when表达式达梦的SQL引擎需要有处理此类查询的能力!达梦SQL 引擎分析器Parser优化器Optimizer执行器Executor总体来说,达梦拥有一个典型的、基于代价的关系数据库SQL 引擎SELECT A,C FROM T1 WHERE B LIKE ’DM’;统计信息数据字典数据执行结果语法分析语义分析关系代数变换代价优化语法树SFW 结构关系树优化了的关系树SQL 脚本物理计划生成执行计划SQL 引擎的具体处理流程重点打磨对象为提供更强大的SQL 处理能力DM7六年来对SQL 引擎进行持续改进用集合操作取代迭代操作•外层表下压消除相关•内外层半连接(SEMIJOIN)充分考虑多种连接方案代价•计算N个最大表的连接代价•确定候选连接顺序(Catalan数)•过滤条件下放代价计算•变换Or到最外层,便于索引利用•变换Or为IN,利用子查询,成为集合操作针对大量表的Join(如:6表以上)减少Join参与表的数量,改进计划代价生成速度•满足特定条件的表,下推到子查询内•下推:筛选条件下推视图,增强过滤条件•上拉:部分情况下,直接将视图分解到上层查询•前后通配符优化为Position操作•前通配符优化为可利用REVERSE函数索引Such asOr运算符变换相关子查询变换下推探测表视图优化Like优化生成连接次序More and more✓多级分区加列✓truncate ✓删列✓删除多级分区表✓拆分split ✓新增分区✓优化后,很多操作与O 性能相当或快10-100倍✓like 表达式存在可计算函数的优化✓优化分析阶段获取表行数操作的优化,避免了每次从磁盘获取行数信息✓Top n 查询改写为rowid/pk in 子查询,减少字段解析消耗; ✓Union 分支的连接公因子提取优化;✓布尔表达式范围合并的加强;✓增加统计操作符实际返回行数的功能;✓位图连接索引的使用增强;✓in value list 在mpp 、lpq 下的motion 计划优化✓.......分区表优化器改进✓hash 表memset 优化✓分区表hash 连接的裁剪;✓水平分区表分区列的排序、分组优化✓多层嵌套的分组合并✓通过增加排序操作实现归并连接;✓嵌套循环半连接增加key 的缓存处理执行器分区表执行器优化器其他✓内存管理模式优化✓Tpcc 性能提升明显其他改进回过头来看这条SQL20分钟+1分钟以内放进word里,达到359页;共1 3 .9千行17个inner join、557个子查询、831个or筛选、1000+个查询字段、2451个like筛选条件、2731个case when表达式挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能民航客票系统,机票信息的源头接入各航空公司的官网订票系统、机票代理商、互联网出行平台……国家企业信用信息公示,开放的互联网服务平台面向社会公众,日均查询访问1650万次数据库并发性能是用户的核心关注高并发能力系统架构内核设计底层技术•多线程架构•读写分离、共享存储等集群架构•行级封锁•多版本并发控制•并行日志•事务可见性判断•Buffer&Cache 设计•异步检查点机制•……•线程同步机制•原子操作实现•异步IO 模型•用户态线程•……数据库并发设计优化是系统性的工作多版本并发控制•很多数据库实现了MVCC:Oracle、MySQL/InnoDB、PostgreSQL •PostgreSQL:未引入回滚段•各版本数据都存在数据文件,数据膨胀问题•导致大量更新后的扫描性下降•Oracle:基于块的MVCC•DM7:基于行的MVCC•更多并发更新、查询集中在一个Page的情况下•提供更好的并发能力封锁机制•Mysql/Innodb•使用一个hash表总体管理行锁•每个page的行锁使用一个bitmap表示•更新page越多,维护锁的内存开销越大•锁越多,需要进临界区的次序就越多物理实现的锁代价是高昂的•Oracle每个记录的LockBit指向Block的ITL,描述了锁信息•实现锁的消耗要小得多DM7更进一步,彻底消除行锁Mysql/Innodb行锁示结构意图•修改过的行标识对应事务的编号(唯一递增,TID)•读-写:根据本事务ID与记录TID大小判断可见性•写-写:基于页面闩+TID可见性,实现锁定效果•减少资源消耗•没有锁升级问题DM7行级锁示意图TPC-C单机压力极限测试Intel Xeon E5-2697V4*2 384GB DDR4PCI-E SSD 2TB 稳定在:1,330,000 tpmc约相当于:70万QPS (90%为增删改)TPC-C单机并发测试10Warehouse50 Session100Warehouse500 Session1000Warehouse5000Session达梦179802.75tpmc220590.48tpmc134995.45tpmc友商A162375.36tpmc208364.16tpmc46959.04tpmc友商B134974.85tpmc209131.97tpmc69196.5tpmc注:采用benchmarksql4.1.1作为测试工具Intel Xeon E5-2620v3 *296GB DDR3SAS 10K RPM 600GB*2 RAID1设备不变,并发量X100,数据量X100,DM性能损耗最小近期某项目POC测试挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能核心业务系统是国外产品的天下达梦是后来者兼容策略是成本最低的开发人员培育、项目替代方案提供达梦数据迁移工具完成数据迁移,支持数据快速装载包含几乎所有Oracle 的数据库对象,且创建语法及使用方式与Oracle 保持一致高度兼容的数据类型、PL/SQL 、动态视图等特性采用单库、单实例的架构,与Oracle 保持一致文件组织结构、并发控制特性的概念与机制接近逻辑概念相近,快速理解数据库结构Oracle 原生接口级兼容从底层到上层,完整的兼容体系•业务系统几乎没有对数据库相关代码进行修改•保证如期完成系统移植•用户的注意力得以聚焦在系统稳定性和性能•兼容Oracle 的OCCI 接口;•兼容Oracle 的DBLINK 定义和使用;•兼容Oracle 的包PACKAGE 定义和使用;•兼容Oracle 的作业JOB 的定义和实现;•兼容Oracle 的系统包(UTF_FILE 、DBMS_SQL 、DBMS_OUTPUT 、DBMS_JOB 、DBMS_LOB 等);•兼容Oracle 的DMP 文件导入和导出的逻辑备份方式;•兼容Oracle 的DUAL 伪表、ROWNUM 伪列等•兼容Oracle 语法风格的Pro C 接口•……针对民航客票系统的兼容改进•延续了开发商对Oracle 深层技术的使用习惯•实现了原oracle 50万行存储过程的平滑移植•保证了与oracle 一致的用户体验•兼容Oracle 的VPD 虚拟数据库模块;•兼容Oracle 的merge into 语法;•兼容Oracle 的正则表达语法;•兼容Oracle 的系统包、系统视图(DBMS_RANDOM 、DBMS_STATS 、DBA_OBJECTS 、DBA_JOBS 、USER_TYPES 、USER_SEGMENTS 等);•兼容Oracle 的last_value 、to_clob 、decode 等函数;•兼容Oracle 的分区表结构修改语法;•兼容Oracle 的CASE WHEN 动态拼接语法;•兼容Oracle 的序列取值范围;•……南网财务的兼容特性清单Case:VPD 兼容Case:正则语法兼容挑战简要汇总如下稳定&可靠快速移植性能运维01020304更高的产品质量Oracle 兼容高可用方案SQL 优化能力大规模部署监控维护并发性能核心业务系统在部署维护方面与相对外围的、中小规模的系统相比有很大的不同规模化集中化自动化远程化•基于WEB•对象管理•集群部署•状态监控与告警等功能支撑了用户约三十余套达梦集群实例的统一部署、监控和管理产品技术的应对——小结拿下核心系统,是由于对以下需求进行了积极响应提供建立信任的渠道(提供异构同步机制)系统稳定性有保证(充分测试,保证代码质量)性能足够良好(良好的SQL引擎与并发优化)能以较低成本、较快速度与现有应用适配(Oracle兼容)提供较好的管理运维方案(Web化运维管理平台)新进展&新计划共享存储集群•ASM 、VIP、负载均衡、TAF 等特性•已小规模上线试运行易用性•进一步完善DEM 运维管理平台•兼容性持续改进生态•得到ArcGIS 原生支持的唯一国产品牌•更多重量级ISV的合作云•公有云——阿里云市场上架•私有云——H3C 、华为、浪潮云解决方案集成服务•达梦技术支持互联网门户•“管家式、深层次”数据库服务我们梦想做最好的数据库脚踏实地、聚焦技术面对用户永远谦逊扫码微信关注达梦动态扫码加入达梦技术QQ群。
达梦数据交换平台产品白皮书【达梦数据交换平台产品白皮书】一、引言数据交换是现代信息化建设中的重要环节,数据的高效、安全、准确地交换对于企业的运营和决策具有重要意义。
为了满足企业在数据交换方面的需求,我们开发了达梦数据交换平台产品。
二、产品概述达梦数据交换平台是一款面向企业的数据交换解决方案,旨在帮助企业实现数据的高效、安全、准确的交换。
该平台具备以下核心功能:1. 数据集成:支持多种数据源的集成,包括关系型数据库、非关系型数据库、文件系统等,实现数据的统一管理和集中控制。
2. 数据转换:提供强大的数据转换引擎,支持多种数据格式的转换,包括XML、JSON、CSV等,实现不同数据源之间的数据格式转换。
3. 数据传输:支持多种数据传输方式,包括FTP、HTTP、TCP/IP等,确保数据在不同系统之间的安全传输。
4. 数据同步:支持数据的实时同步和定时同步,确保数据在不同系统之间的一致性。
5. 数据质量管理:提供数据质量管理功能,包括数据清洗、数据校验等,确保数据的准确性和完整性。
三、产品特点1. 灵活可扩展:达梦数据交换平台采用模块化设计,可以根据企业的需求进行定制开发,满足不同企业的特定需求。
2. 高性能:通过优化的算法和高效的数据处理引擎,达梦数据交换平台能够实现高速的数据处理和传输,提高数据交换的效率。
3. 安全可靠:达梦数据交换平台具备严格的权限管理和数据加密机制,确保数据在传输和存储过程中的安全性。
4. 易于使用:达梦数据交换平台提供友好的用户界面和操作流程,使用户能够快速上手并轻松完成数据交换任务。
5. 多平台支持:达梦数据交换平台支持多种操作系统和数据库平台,包括Windows、Linux、Oracle、SQL Server等,适用于不同的企业环境。
四、应用场景达梦数据交换平台适用于各种企业的数据交换需求,包括但不限于以下场景:1. 企业内部数据集成:通过达梦数据交换平台,企业可以将各个部门的数据进行集成,实现数据的共享和统一管理。
达梦数据库管理系统技术白皮书达梦数据库管理系统技术白皮书达梦数据库有限公司2013年4月目录1概述 02通用性 (1)2.1硬件平台支持 (1)2.2操作系统支持 (1)2.3应用开发支持 (2)2.4标准接口支持 (2)2.5网络协议支持 (2)2.6字符集支持 (2)2.7国际化支持 (2)3高可用性 (3)3.1快速的自动故障恢复 (3)3.2基于REDO日志的主备系统——数据守护 (3)3.3可靠的备份与恢复 (4)3.4逻辑日志 (4)3.5高级复制 (4)3.6基于共享存储的集群技术 (5)4高性能 (5)4.1查询优化 (5)4.2面向栈的虚拟机执行器 (5)4.3批量数据处理 (6)4.4查询计划重用 (6)4.5查询结果的缓存 (7)4.6多版本的并发控制 (7)4.7改进的异步检查点 (7)4.8DDL高并发技术 (7)4.9可配置的工作线程模式 (8)4.10查询内并行处理 (8)4.11系统缓冲区改进 (9)4.12分段式数据压缩 (9)5高安全性 (9)5.1安全等级 (9)5.2安全结构体系 (9)5.3双因子结合的身份鉴别 (9)5.4审计分析与实时侵害检测 (10)5.5自主访问控制 (10)5.6所有主客体的强制访问控制 (11)5.7基于SSL协议的通讯加密 (11)5.8存储加密 (11)5.9资源限制 (12)5.10加密引擎 (12)5.11客体重用 (13)6易用性 (13)6.1丰富的管理工具 (13)6.2PL/SQL调试工具 (13)6.3快速数据迁移 (13)6.4动态管理视图 (14)6.5C语法的PL/SQL (14)7兼容性 (15)7.1支持分析函数 (15)7.2支持层次查询 (15)7.3支持伪列 (15)7.4支持方差集函数 (15)7.5支持常用系统函数库 (15)7.6支持控制语句结构 (15)7.7数据类型兼容性 (16)7.8复合数据类型兼容性 (16)7.9支持外连接(+)语法 (16)7.10多列IN实现以及相关的优化 (16)7.11支持按名调用存储过程 (16)7.12支持COMMENT注释 (16)7.13支持静态数据字典视图 (16)7.14支持系统包 (16)7.15支持数组与引用游标 (17)8技术指标 (18)达梦数据库管理系统技术白皮书1概述达梦数据库有限公司是中国最早从事数据库管理系统研发、生产、销售和服务的专业公司。
达梦数据库介绍(一)引言概述:达梦数据库是中国的一种数据库管理系统,由达梦软件有限公司开发。
它是一款高性能、高可用性的数据库系统,被广泛应用于金融、电信、政府机构等行业。
本文将介绍达梦数据库的基本信息、特点以及其在各个领域的应用。
正文内容:1. 达梦数据库的基本信息- 发展历史:达梦数据库起源于上世纪90年代,经过多年的发展和成熟,已成为中国重要的数据库厂商之一。
- 数据模型:达梦数据库采用关系模型,支持SQL语言。
- 数据结构:以表格形式存储数据,具有完整的数据类型和约束支持。
- 支持平台:达梦数据库在多个操作系统平台上都有支持,包括Windows、Linux和Unix。
2. 达梦数据库的特点- 高性能:达梦数据库采用了先进的查询优化技术,可以快速处理大量的数据请求。
- 高可用性:达梦数据库具有故障切换和自动恢复功能,可以在系统故障时迅速切换到备份服务器。
- 安全性:达梦数据库提供了完善的安全机制,包括用户认证、权限管理等,以保护数据的机密性和完整性。
- 扩展性:达梦数据库支持分布式存储和水平扩展,可以满足不断增长的数据需求。
- 数据备份和恢复:达梦数据库提供了完备的备份和恢复机制,保障数据的安全性和可靠性。
3. 达梦数据库在金融行业的应用- 金融交易处理:达梦数据库可以快速处理金融交易数据,保证交易的实时性和准确性。
- 风险管理:达梦数据库提供了丰富的统计和分析功能,可以帮助金融机构进行风险管理和预测。
- 客户管理:达梦数据库可以存储和管理大量客户数据,帮助金融机构提供更好的客户服务。
- 合规性:达梦数据库具有强大的数据安全功能,可以满足金融行业的合规要求。
4. 达梦数据库在电信行业的应用- 用户管理:达梦数据库可以存储和管理海量用户数据,处理用户的认证、授权等操作。
- 信令处理:达梦数据库的高性能和可扩展性,可以处理电信网络中的大量信令数据。
- 在线账单生成:达梦数据库可以生成电信用户的在线账单,提供便捷的账务管理功能。
达梦集群实施手册目录:1. 概述1.1 达梦集群简介1.2 达梦集群优势1.3 适用范围和安装要求2. 集群环境准备2.1 选择合适的服务器硬件2.2 安装操作系统和软件环境2.3 安装达梦数据库软件3. 集群配置与管理3.1 集群拓扑结构规划3.2 配置集群节点3.3 管理集群数据存储3.4 配置网络连接4. 数据库备份与恢复4.1 备份策略与计划4.2 集群环境下的备份与恢复方法4.3 常见备份与恢复问题及解决方案5. 安全与权限管理5.1 用户账户和权限设置5.2 加密和安全认证机制5.3 安全审计和日志管理6. 故障排除与维护6.1 常见故障及解决方法6.2 集群性能优化与调整6.3 定期维护和检查7. 案例分析与实践7.1 案例一:集群环境下的数据迁移7.2 案例二:集群环境下的数据备份与恢复实践7.3 实践经验分享与建议8. 附录8.1 相关文档和资源链接8.2 常见问题和解答8.3 达梦集群社区联系方式在开始之前,请确保您已经阅读并理解了《达梦集群安装指南》和《达梦数据库管理手册》等相关文档。
在实施过程中,请遵循最佳实践,并确保所有操作符合法律法规和安全标准。
本手册旨在提供达梦集群实施的基本步骤和指导,具体实施细节可能因环境和需求而有所不同。
在实施过程中,请参考官方文档、社区论坛和其他相关资源,以获得更详细的信息和建议。
概述----达梦集群是一种分布式数据库系统,它允许多个节点协同工作,提供高可用性、可扩展性和高性能的数据存储和处理能力。
通过集群实施,企业可以获得更强大的数据处理能力和更高的可靠性,同时降低单点故障的风险。
本手册将指导您完成达梦集群的安装、配置、管理、备份与恢复、安全与权限管理以及故障排除和维护等工作。
集群环境准备------在开始实施前,请确保以下几点准备就绪:合适的服务器硬件、操作系统和软件环境,以及达梦数据库软件。
请根据您的需求选择合适的服务器硬件,并确保操作系统和软件环境符合达梦数据库的要求。
达梦数据交换平台开发手册达梦数据库有限公司2013年3月目录第1章开发流程插件 (1)1.1 概述 (1)1.2 导入依赖的插件工程 (1)1.3 开发作业插件 (5)1.3.1 概述 (5)1.3.2 步骤 (5)1.4 开发转换插件 (14)1.4.1 概述 (14)1.4.2 步骤 (14)1.5开发规则插件 (24)1.5.1 概述 (24)1.5.2 步骤 (24)第2章使用API编程 (36)2.1 概述 (36)2.2 编程示例 (38)2.2.1编程示例之一 (38)2.2.3 编程示例之二 (42)2.2.4 编程示例之三 (44)2.2.5 编程示例之四 (46)2.2.5 总结 (47)2.3 示例程序及其实现的功能列表 (47)2.4 常见问题 (49)2.4.1 Spring 包冲突问题 (49)第3章集成DMETL服务 (50)第1章开发流程插件1.1 概述DMETL采用基于OSGI架构,系统的各个模块如流程节点、转换规则、数据质量检查规则都支持插件机制,可以根据具体业务需求动态扩展。
本章将通过各种例子说明DMETL的插件的开发方法。
本章中的各种例子都采用JDK6+Eclipse3.6开发,用户界面都采用SWT / JFace 库开发,学习本章前最好先了解Eclipse插件开发的基本概念和方法。
1.2 导入依赖的插件工程开发DMETL插件之前需要先导入已有的DMETL 插件到workspace中,导入DMETL插件的方法如下:首先在eclipse中选择File->Import,如下图所示:选择Plug-ins and Fragments, 单击Next,出现下面的对话框再选择Directory路径选择DMETL的安装目录,图中的C:\dmetl\client表示DMETL安装在C盘的根目录下,选择client端的包时,目录选择C:\dmetl\client,选择server端的包时,目录选择C:\dmetl\server,选择Common包时,目录选择C:\dmetl\common,再点击Next,出现如下对话框:选择要所需要依赖的包,然后点击Add-->Finish就可以将包作为插件工程导入到workspace 中。
达梦数据共享集群DSC 技术白皮书达梦数据库有限公司2016年5月目录1 引言 (1)2 概述 (1)2.1数据共享集群架构 (1)2.2硬件架构 (2)2.3文件系统和卷管理 (3)2.4配置连接服务名 (4)3 高可用性 (4)3.1可靠性 (4)3.2可恢复性 (4)3.3错误检测 (5)3.4持续操作 (5)4 可扩展性 (5)5 负载管理 (6)5.1服务 (6)5.2连接负载均衡 (6)6 结论 (7)达梦真正应用集群技术白皮书1引言达梦数据共享集群(DSC)允许达梦数据库实现在一组集群服务器上运行任何程序包,而客户应用不必作任何更改。
这种体系提供了最高级别的可用性和最灵活的可伸缩性。
如果出现集群其中一个服务器失败,达梦会继续运行在集群中其它服务器上。
如果您需要更多的处理能力,您可以很方便地在线增加另外的服务器而不必使用户脱机。
为了保持低成本,可以将高端的系统构建在标准化的、低成本的产品上。
达梦数据共享集群是达梦企业网格计算体系的基础。
达梦DSC 技术可为低成本硬件平台提供支持,使其提供优质的服务,并达到或超出昂贵的大型 SMP 计算机所能提供的可用性和可伸缩性等级。
通过显著降低管理成本和提供出色的管理灵活性,达梦为企业网格环境提供了强有力的支持。
本白皮书作为达梦数据共享集群技术概述,强调达梦DSC能给企业应用提供最高可用性和可伸缩性的特性和功能。
2概述达梦数据共享集群是在达梦7版本中作为服务器组件首次推出,可提供横向扩展,实现超越单一服务器能力。
这使得客户可以利用低成本的普通硬件设施来降低总体成本,并且能够在可扩展计算环境中来分散应用的负载。
OLTP测试中,展现了一个面向交易的处理系统运行在集群环境下可以达到在单一SMP服务器上相同的性能,并且在集群环境下还可以提供单一SMP服务器不具备的高可用性。
2.1 数据共享集群架构一个DSC数据库就是一个集群数据库。
集群就是一组相互独立的服务器相互协作形成一个整体的,单一的系统。
达梦数据库使用手册达梦数据库(DmDB)是由达梦软件发布的高性能关系型数据库管理系统,也是我国自主研发的国产数据库产品,结合了关系数据库和对象数据库的特点,使用简便、开发效率高、运行性能优越,是一款非常好的数据库产品。
达梦数据库拥有强大的多核处理技术,高性能查询和索引机制,多层安全保护,高容错性等特点,支持多种语言编程,具有极高的处理能力。
1. 安装操作达梦数据库的安装可在多种操作系统上进行,操作系统要求遵循最新的“Server + OS + Database”的最佳实践。
在安装之前,首先利用安装前准备工具对软件进行校验,以确保正确安装达梦数据库。
需要特别指出的是,达梦数据库的安装需要用到“DmNet”网络服务器软件,该软件是达梦数据库的核心服务软件,用于实现达梦数据库的系统参数管理、客户端连接管理等操作。
2. 数据库建立达梦数据库的建立是依靠已安装的DmNet管理工具或SQL脚本进行的,可以从操作系统界面使用DmNet管理工具创建新的数据库,或者使用SQL脚本来创建数据库。
3. 表的创建达梦数据库支持使用lsql工具,脚本文件或图形界面创建数据表。
可以选择编写SQL 语句,然后使用脚本来批量创建数据表,也可以在DmNet工具中使用图形界面来创建数据表。
4. 数据表的理解数据库理解是指对存储在数据库表中信息的分析和掌握,以便能够准确地获取信息。
在理解查询、以及关系型数据库设计与编程中,数据库理解的重要性不言而喻。
理解准确的数据表结构,对开发数据库应用系统、优化系统性能都有重要的作用。
5. 编程语言达梦数据库提供多种编程语言,如SQL、PL/SQL、PHP、Java等,可以依据自身的需求,选择不同的语言来开发应用程序。
6. 查询技术达梦数据库提供了丰富的查询手段,可以根据查询条件执行Select、Join、Group By、Having、Order By、Inner Join等查询操作。
同时,达梦数据库还支持SQL语句嵌套查询,使查询操作更丰富,更精准。
华中科技大学硕士学位论文摘要数据抽取转换装载(ETL)是数据仓库的核心组成部分,负责从异构的数据源中抽取数据,对这些数据进行清洗、转化,并最终加载到数据仓库当中去。
ETL平台开发和设计的好坏直接影响了数据仓库的构建乃至整个商业智能系统的应用。
因此,对达梦数据交换平台(DMETL)进行改进以提高产品的指标具有重要意义。
在深入研究和分析了达梦数据交换平台的工作原理和机制以及该平台在设计和实现中所涉及的关键技术的基础上,找出了现有达梦数据交换平台存在的不足和缺陷,提出了两种改进方法。
其一:考虑到原有DMETL的串行工作方式不利于发挥系统的功效,将流水线技术引入到达梦数据交换平台之中。
流水线的工作方式实质上是利用多线程和缓存技术,使得ETL数据的抽取,转换和加载三个环节的执行可以抽象成流水线一样运行在不同的线程实例中,从而减少了中间环节的等待时间。
通过流水线工作方式充分的利用了计算机资源,提高了系统的吞吐率,提升了ETL 的工作效率。
第二,针对原有DMETL增量抽取方式对客户系统进行未授权操作所带来的弊端,同时考虑到实际项目中ORACLE作为数据源的应用较多,设计和实现了针对ORACLE数据源的基于日志分析的增量数据抽取方式。
利用ORACLE数据库自身的日志分析工具LOG MINER,对数据库日志文件进行解析,获取用户对数据库的变更操作。
通过分析数据库的变更操作来对数据库中的增量数据进行捕获。
该方法可以有效降低DMETL对客户系统的影响。
通过实验表明,流水线技术的引入是可以在一定程度上提高达梦数据交换平台的工作效率的,并且基于日志分析的增量捕获方式也是可以避免对客户业务系统的侵入。
此外,这项工作对达梦数据库开发并提供其数据库日志分析工具也有参考价值。
关键词:数据仓库,数据抽取转换加载,流水线,增量数据抽取,日志分析华中科技大学硕士学位论文AbstractETL is the core component of Data Warehouse, extracting data from heterogeneous sources, cleaning and transforming the data, finally loading them into Data Warehouse. The good or bad work of ETL development and design directly influences the construction of Data Warehouse and the application of the whole Business Intelligence system. Therefore, it is of great significance that we make a further improvement on the indicators of Dameng Interchange Platform.Based on in-depth study and analysis on the principle and mechanism of Dameng Data Interchange Platform, and also the key technologies involved, we found out some shortcomings and deficiencies existing in current platform. So, two improved methods were put forward. One, considering the serial working way of current platform against efficacy, so we introduced the pipeline technology into the platform.In fact, pipeline technology is essentially implemented by multi-threading and caching techniques, which can control data extraction, data transformation and data loading run synchronously in three different thread instances, working as abstract as pipeline in order to reduce the latency time for the intermediate links. Through this technology, we can make a full use of CPU resources to improve the system throughput rate, and to promote the ETL work efficiency.The other one, given the common problem all the extraction ways of current platform must confront to: the unauthorized access to the customer system. Moreover, taking into account that many Oracle data source were frequently used in the actual project.Therefore, we designed and implemented one extraction way based on analyzing log file to obtain the incremental data. We analyze the log file of database obtained by LOG MINER, one product of log file analysis provided by Oracle Database, to capture the changes to database, which were recorded in log file. Analyzing the change operations to the database, we can capture the incremental data. In this way, the influence of DMETL on client system can be effectively reduced.Finally, experiments we conduct show that the introduction of pipelining can improve to some extent Dameng Data Interchange Platform more efficient; and the way based on log analysis to capture the incremental data can also avoid the intrusion to business systems.华中科技大学硕士学位论文In addition, our work on the research above may play an important role to promoting the development of log analysis kits supplied by the database products.Key words:Data Warehouse, ETL, pipeline, incremental data extraction, log analysis独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。