GaussDB 200 存储方式和空间管理
- 格式:pdf
- 大小:1.72 MB
- 文档页数:33
华为大数据练习(试卷编号141)1.[单选题]以下关于DWS数据库透明加密的特点,错误的是:( )。
A)支持行存表数据加密,不支持列存表加密B)支持集群级别配置C)使用KMS服务加密D)加密密钥层次结构有三层答案:A解析:2.[单选题]对于 Elastic Search 描述不正确的是?()A)对 Lucene 进行了扩展B)不支持结构化数据存储C)能够水平扩展D)基于 Lucene 的全文检索服务答案:B解析:3.[单选题]以下( )文件格式为纯行式存储。
A)ORC FileB)Parquet FileC)Sequence FileD)RC File答案:C解析:4.[单选题]MVCC用于解决( )事务冲突。
A)读读B)写写C)读写D)上述都包括答案:C解析:5.[单选题]Redis 中 List 列表是什么数据结构实现的?()A)红黑树B)循环链表C)平衡二叉树D)双向链表6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?()A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计 算Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计 算Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连 接――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果答案:B解析:7.[单选题]CREATE TABLE AS创建表,后面需要添加查询语句类型是:( )。
大数据华为认证考试(习题卷3)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]ElasticSearch 存放所有关键词的地方是()A)字典B)关键词C)词典D)索引答案:C解析:2.[单选题]DWS DN的高可用架构是:( )。
A)主备从架构B)一主多备架构C)两者兼有D)其他答案:A解析:3.[单选题]关于Hive与传统数据仓库的对比,下列描述错误的是:( )。
A)Hive元数据存储独立于数据存储之外,从而解耦合元数据和数据,灵活性高,二传统数据仓库数据应用单一,灵活性低B)Hive基于HDFS存储,理论上存储可以无限扩容,而传统数据仓库存储量有上限C)由于Hive的数据存储在HDFS上,所以可以保证数据的高容错,高可靠D)由于Hive基于大数据平台,所以查询效率比传统数据仓库快答案:D解析:4.[单选题]以下哪种机制使 Flink 能够实现窗口中无序数据的有序处理?()A)检查点B)窗口C)事件时间D)有状态处理答案:C解析:5.[单选题]下面( )不是属性选择度量。
A)ID3 使用的信息增益B)C4.5 使用的增益率C)CART 使用的基尼指数D)NNM 使用的梯度下降答案:D解析:C)HDFSD)DB答案:C解析:7.[单选题]关于FusionInsight HD Streaming的Supervisor描述正确的是:( )。
A)Supervisor负责资源的分配和任务的调度B)Supervisor负责接受Nimbus分配的任务,启动停止属于自己管理的Worker进程C)Supervisor是运行具体处理逻辑的进程D)Supervisor是在Topology中接收数据然后执行处理的组件答案:B解析:8.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署( )个H Master进程,( )个Region Server进程。
gaussdb列存表原理GaussDB是华为公司自主研发的一种高性能、高可靠性的列存数据库管理系统。
它采用了列存储技术,将数据按列存储在磁盘上,相比于传统的行存储方式,具有更高的压缩比、更快的查询速度和更低的存储空间消耗。
列存储是一种将数据按列组织存储的技术。
相比于行存储,列存储具有以下优势:1. 数据冗余度低:列存储将相同列的数据存储在一起,可以大幅度减小数据的冗余度,提高存储空间的利用率。
2. 压缩比高:列存储可以对每一列的数据进行独立的压缩,不同列的数据特征差异大,因此可以选择更适合的压缩算法,提高压缩比。
3. 查询速度快:由于列存储将相同列的数据存储在一起,查询时只需要读取需要的列数据,可以避免读取不需要的数据,提高查询速度。
4. 处理高并发:列存储可以将不同列的数据分散存储在不同的磁盘上,提高了数据的并发读写能力,适合处理高并发的场景。
GaussDB列存表原理的核心是对数据进行压缩和编码。
在压缩方面,GaussDB采用了多种压缩算法,包括字典编码、位图编码、Run-length编码等。
这些压缩算法可以根据数据的特点选择最合适的压缩方法,提高压缩比。
在编码方面,GaussDB采用了独有的列存表编码方式。
每个列存表由多个数据块组成,每个数据块包含一个列存储的列数据。
数据块中的数据按照一定的编码方式进行存储,以提高查询的效率。
例如,可以将整数型数据按照字典编码方式进行存储,将字符串类型的数据按照位图编码方式进行存储。
这样可以减小存储空间的占用,提高查询速度。
GaussDB还采用了多版本并发控制(MVCC)机制,可以支持高并发的读写操作,保证数据的一致性和并发性。
GaussDB列存表在实际应用中具有广泛的适用性。
例如,在大数据分析领域,由于列存储方式具有更高的查询速度和更低的存储空间消耗,可以提高数据分析的效率和准确性。
在物联网领域,由于物联网设备产生的数据量庞大,采用列存储方式可以有效地减小存储空间的占用,降低存储成本。
云数据库 GaussDB 用户指南文档版本01发布日期2023-03-30版权所有 © 华为云计算技术有限公司 2023。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
目录1 快速入门 (1)1.1 简介 (2)1.2 登录管理控制台 (3)1.3 创建实例 (3)1.4 使用客户端连接实例 (9)1.4.1 实例连接方式介绍 (9)1.4.2 通过数据管理服务DAS连接实例 (9)1.4.3 通过内网连接实例 (10)1.5 使用驱动连接实例 (12)1.5.1 开发规范 (13)1.5.2 使用JDBC连接数据库 (13)1.5.3 使用ODBC连接数据库 (26)1.5.4 使用libpq连接数据库 (32)1.5.5 使用Psycopg连接数据库 (37)1.6 示例:使用DAS连接实例并执行SQL (38)2 用户指南 (43)2.1 登录管理控制台 (43)2.2 权限管理 (43)2.2.1 创建用户并授权使用GaussDB (43)2.2.2 自定义策略 (45)2.3 实例管理 (45)2.3.1 修改实例名称 (45)2.3.2 重启实例 (46)2.3.3 删除实例 (47)2.3.4 重置管理员密码 (47)2.3.5 节点扩容 (48)2.3.6 磁盘扩容 (53)2.3.7 查看和修改实例参数 (54)2.3.8 规格变更 (56)2.3.9 导出实例列表 (57)2.3.10 设置安全组规则 (58)2.3.11 日志管理 (59)2.3.12 节点替换 (59)2.4 连接管理 (61)2.5 参数模板管理 (62)2.5.1 创建参数模板 (62)2.5.2 编辑参数模板 (63)2.5.3 导出参数 (64)2.5.4 比较参数模板 (64)2.5.5 查看参数修改历史 (65)2.5.6 复制参数模板 (66)2.5.7 重置参数模板 (67)2.5.8 应用参数模板 (67)2.5.9 查看参数模板应用记录 (68)2.5.10 修改参数模板描述 (68)2.5.11 删除参数模板 (68)2.6 数据备份 (69)2.6.1 备份概述 (69)2.6.2 设置实例级自动备份策略 (70)2.6.3 设置表级自动备份策略 (72)2.6.4 设置跨区域备份策略 (73)2.6.5 创建实例级手动备份 (75)2.6.6 创建表级手动备份 (78)2.6.7 导出备份信息 (79)2.6.8 删除手动备份 (80)2.6.9 已删除实例备份保留策略修改 (80)2.6.10 已删除实例通过自动备份恢复 (81)2.7 数据恢复 (82)2.7.1 通过备份文件恢复实例 (82)2.7.2 通过备份文件恢复库/表 (84)2.7.3 恢复实例到指定时间点 (86)2.7.4 恢复库/表到指定时间点 (87)2.8 监控指标 (89)2.8.1 查看监控指标 (89)2.8.2 监控指标一览表 (91)2.9 配额管理 (94)2.10 配额计算 (94)2.11 任务中心 (98)2.11.1 查看任务 (98)2.11.2 删除任务 (99)2.12 服务声明 (99)2.12.1 GaussDB seccomp免责声明 (99)2.13 容灾管理 (100)2.13.1 创建容灾任务 (100)2.13.3 容灾升主 (102)2.13.4 停止灾备任务 (103)2.13.5 删除灾备任务 (103)2.13.6 主实例故障后重建灾备任务 (104)2.13.7 容灾主备关系切换 (104)2.13.8 容灾回切 (105)2.13.9 灾备实例容灾演练 (105)2.13.10 主实例日志保持 (106)2.13.11 灾备实例限制说明 (106)2.14 回收站 (110)A 创建VDC和VDC用户 (112)A.1 VDC租户模型简介 (112)A.2 登录ManageOne (113)A.3 创建租户(含管理员、默认一级VDC和企业项目) (114)A.4 为VDC租户配置网络 (115)A.5 创建资源集 (116)A.6 配置企业项目 (117)A.7 创建VDC业务员 (118)A.8 创建二级及以下VDC(含管理员和默认企业项目) (120)B 修订记录 (122)1快速入门本章指导您快速的创建、连接并使用GaussDB。
高斯db 技术指标高斯DB技术指标高斯DB(GaussDB)是华为公司自主研发的一款分布式关系型数据库管理系统(RDBMS),基于高斯分布式数据库技术。
高斯DB 技术指标是评估高斯DB数据库性能和功能的标准,它涵盖了数据库的各个方面,包括数据存储、查询性能、高可用性、安全性等。
一、数据存储高斯DB采用分布式存储架构,支持数据的水平切分和分布式存储,能够实现海量数据的高效存储和管理。
高斯DB的数据存储技术指标主要包括以下几个方面:1. 存储容量:高斯DB具有极高的存储容量,可以存储PB级数据。
它采用了数据压缩和列存储等技术,提高了存储效率。
2. 存储引擎:高斯DB支持多种存储引擎,包括传统的B树索引和现代的LSM树索引。
不同的存储引擎适用于不同的场景,可以根据实际需求选择合适的存储引擎。
3. 数据分区:高斯DB支持数据的水平切分和分布式存储,可以根据业务需求将数据划分到不同的存储节点上,提高了数据的并发读写能力和负载均衡能力。
4. 数据压缩:高斯DB支持数据的压缩存储,可以减少存储空间的占用。
它采用了行压缩和字典压缩等技术,提高了数据的存储效率。
二、查询性能高斯DB具有出色的查询性能,能够满足复杂查询和高并发读写的需求。
高斯DB的查询性能技术指标主要包括以下几个方面:1. 并发处理能力:高斯DB采用多线程处理查询请求,能够实现高并发的查询处理。
它具有良好的横向扩展性,可以根据实际需求增加节点数,提高并发处理能力。
2. 查询优化:高斯DB具有强大的查询优化功能,能够通过统计信息和索引选择等技术,优化查询计划,提高查询性能。
3. 分布式查询:高斯DB支持跨节点的分布式查询,可以通过并行查询和数据传输优化等技术,提高查询效率和响应速度。
4. 数据缓存:高斯DB采用了多级缓存机制,包括内存缓存和SSD 缓存,能够提高热数据的访问速度。
三、高可用性高斯DB具有高可用性,能够保证业务系统的连续性和数据的安全性。
【实验环境】Vmware workstation 12Centos-6.54c+16G(自己配的高配台式电脑,没有条件的公有云ECS搭建好再导出导入吧,考虑成本的话,华为云有Pass层服务可以直接买最近促销247/年,但是无法体会探索安装的快乐)1*250G 存储10.10.75.101注意:由于官方强制要求至少需要3个节点来安装,所以无法使用官方推荐的《GaussDB 200 6.5.1 配置规划工具》来安装,该excel 文件中节点数量等部分单元格是只读的,强制修改还需要输入密码!只能手动安装(参考《GaussDB 200 6.5.1 产品文档 3.8.3》)部分步骤有省略(如检查OS编码格式等)【步骤】1. 修改os参数vi /etc/sysctl.conf最后加上vm.min_free_kbytes = (free -k|grep Mem|awk '{print $2}')*5%2. 创建目录并解压文件到指定目录mkdir /GaussDB200cd /GaussDB200rz上传:o FusionInsight_Manager_6.5.1_RHEL.tar.gzo FusionInsight_BASE_6.5.1_RHEL.tar.gzo GaussDB_200_6.5.1_RHEL.tar.gzo FusionInsight_SetupTool_6.5.1.tar.gzo(可选)FusionInsight_MPPDBMonitor_6.5.1_RHEL.tar.gzcd /GaussDB200tar -zxvf FusionInsight_Manager_6.5.1_RHEL.tar.gztar -zxvf GaussDB_200_6.5.1_RHEL.tar.gz (→ FusionInsight_MPPDB_6.5.1_RHEL.tar.gz)tar -zxvf FusionInsight_SetupTool_6.5.1.tar.gzcd /GaussDB200cp FusionInsight_BASE_6.5.1_RHEL.tar.gz FusionInsight_Manager/software/packs/cp FusionInsight_MPPDB_6.5.1_RHEL.tar.gz FusionInsight_Manager/software/packs/ cp FusionInsight_MPPDBMonitor_6.5.1_RHEL.tar.gzFusionInsight_Manager/software/packs/3. 挂载操作系统镜像注意:Centos的ISO镜像每个版本都有2个文件,都要下载下来首选加在第2个iso文件,如果没有依赖包,再切换到第1个iso文件,正常来说还是会缺包,需要通过yum安装yum install -y OpenIPMI openldap openldap-clients openldap-servers perl-Perlilogprocmail python-dateutil python-dmidecode python-gudev python-simplejson pytzsdparm4. 修改/etc/hostsvi /etc/hosts127.0.0.1 localhost --一定要有这一行,否则后面运行脚本时会报错10.10.75.101 node1 --一个主机名只能对应一个IP,之前这台虚拟机上安装了RAC(7个IP需要注释6个)注意:这里跳过sh /opt/preset/preset.sh创建omm用户+配置环境变量+修改属组,因为这个步骤是安装Fusion_Insight时强制执行的,这里直接用root执行就好,安装完Fusion_Insight就自动完成这些步骤!5. 编辑FusionInsight_SetupTool相关配置文件6. 配置并检查安装环境cd /GaussDB200/FusionInsight_SetupTool./setuptool.sh preinstall –n注意:1、提示输入root密码时可以为空,直接回车后输入yes2、一定要加-n参数,setuptool.sh脚本中有解释该选项作用when the -n parameter is used,the precheck.sh script will not be executed after the preinstall.sh script is executed.不加-n会自动调用precheck.sh,因为只有一台机器,不满足官方推荐的3个节点,肯定是无法通过的,所以直接跳过!7. 编辑FusionInsight_Manager相关配置文件8. 安装FusionInsight_Manager./install.sh -f /GaussDB200/FusionInsight_Manager/software/install.ini=================================== Welcome====================================== STEP 1 Checking the parameters.=== STEP 2 Preparing for installation components. [done] === STEP 3 Installing the manager. [done] === STEP 4 Installing the packs. [done] === STEP 5 Starting the OMS.[done]=== STEP 6 Waiting for ntp to startup. [done] === STEP 7 Configuring and starting agent. [fail] ERROR:Failed to config and start nodeagent.ERROR:Installation failed. For details about the error, see the log file/var/log/Bigdata/controller/scriptlog/install.log.Please run the following script to delete useless files:/GaussDB200/app/om-server/om/inst/uninstall.sh[2020-03-15 09:48:36] ERROR File/GaussDB200/app/om-server_6.5.1/om/etc/om/omm.keytab not created in 120s.[install.sh(waitForKeytab):1817](9266)[2020-03-15 09:48:37] ERROR Waiting for controller to generate keytab failed.[install.sh(configAndStartAgent):1742](9266)ERROR:Waiting for controller to generate keytab failed.[2020-03-15 09:48:37] ERROR Failed to config and start nodeagent.[install.sh(main):2315](9266)[2020-03-15 09:48:37] ERROR Installation failed. For details about the error, see the log file /var/log/Bigdata/controller/scriptlog/install.log. [install.sh(post_install):545](9266)注意:虚拟机太卡导致等待超时,先卸载失败的步骤,修改install.sh的max_time最大时间为120秒,重新运行后成功=================================== Welcome====================================== STEP 1 Checking the parameters.=== STEP 2 Preparing for installation components. [done] === STEP 3 Installing the manager. [done] === STEP 4 Installing the packs. [done] === STEP 5 Starting the OMS.[done]=== STEP 6 Waiting for ntp to startup. [done] === STEP 7 Configuring and starting agent. [done] ============================= Install Successfully============================Please visit http://10.10.75.101:8080/web/ to continue cluster installation.Installation is successful.[root@node1 software]# netstat-nultp|grep 8080tcp 0 0 ::ffff:10.10.75.101:8080 :::*LISTEN 29011/java9. 执行单机版配置脚本(一定要用omm用户来运行!)GaussDB 200默认部署方案至少需要3个节点,如需部署单机版需要在安装集群前,运行单机版配置脚本,将各服务实例的最小配置实例数改为1。
大数据华为认证考试(习题卷2)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]Flume数据采集过程中,下列选项中能对数据进行过滤和修饰的是:( )。
A)SinkB)ChannelC)Channel SelectorD)Interceptor答案:D解析:2.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是:( )。
A)graph-fileB)binary-fileC)text-fileD)sequence-file答案:B解析:3.[单选题]下列关于存储过程中的变量说法正确的是()?A)声明变量时需要指定变量的初始值。
B)变量的作用域是全局。
C)变量必须先声明后使用。
D)声明变量时需要指定变量的数据类型。
答案:C解析:4.[单选题]Kafka 的核心架构不包含?()A)SplitB)ProducerC)ConsumerD)Broker答案:A解析:5.[单选题]YARN服务中,如果要给队列QuqueA设置容量为30%,应该配置( )参数。
A)er-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.capacityD)yarn.scheduler.capacity.root.QueueA.state答案:C解析:C)MySql SQL脚本D)MongoDB SQL脚本答案:B解析:7.[单选题]Insert事务使用的锁模式是:( )。
A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock答案:B解析:8.[单选题]Hive 数据仓库分层表的描述不准确的是?()A)DWD 层:结构和粒度与原始表保持一致,简单清晰B)ST 层:数据集市层C)DWS 层:以 DWD 为基础,进行轻度汇总D)ODS 层:原始数据层答案:B解析:9.[单选题]YARN调度器分配资源的顺序是:( )。