GaussDB 200 存储方式和空间管理

格式：pdf
大小：1.72 MB
文档页数：33

下载文档原格式

华为大数据练习(试卷编号141)

华为大数据练习(试卷编号141)1.[单选题]以下关于DWS数据库透明加密的特点，错误的是：（）。

A)支持行存表数据加密，不支持列存表加密B)支持集群级别配置C)使用KMS服务加密D)加密密钥层次结构有三层答案:A解析:2.[单选题]对于 Elastic Search 描述不正确的是?（）A)对 Lucene 进行了扩展B)不支持结构化数据存储C)能够水平扩展D)基于 Lucene 的全文检索服务答案:B解析:3.[单选题]以下（）文件格式为纯行式存储。

A)ORC FileB)Parquet FileC)Sequence FileD)RC File答案:C解析:4.[单选题]MVCC用于解决（）事务冲突。

A)读读B)写写C)读写D)上述都包括答案:C解析:5.[单选题]Redis 中 List 列表是什么数据结构实现的?()A)红黑树B)循环链表C)平衡二叉树D)双向链表6.[单选题]以下哪个选项对 Red is 数据读写流程描述是正确的?（）A)Server A 节点返回集群拓扑―一客户端选择集群任意一个 Server A 节点连接――客户端计算Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果B)客户端选择集群任意一个 Server A 节点连接――Server A 节点返回集群拓扑―一客户端计算Key 归属的槽位以及对应 Server B 节点并连接--Server B 节点返回业务操作结果C)Server A 节点返回集群拓扑--客户端计算 Key 归属的槽位以及对应 Server B 节点并连接――客户端选择集群任意一个 Server A 节点连接--Server B 节点返回业务操作结果D)客户端选择集群任意一个Server A节点连接――客户端计算Key 归属的槽位以及对应Server B 节点并连接――Server A 节点返回集群拓扑――Server B 节点返回业务操作结果答案:B解析:7.[单选题]CREATE TABLE AS创建表，后面需要添加查询语句类型是：（）。

大数据华为认证考试(习题卷3)

大数据华为认证考试(习题卷3)第1部分：单项选择题，共51题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]ElasticSearch 存放所有关键词的地方是()A)字典B)关键词C)词典D)索引答案:C解析:2.[单选题]DWS DN的高可用架构是：（）。

A)主备从架构B)一主多备架构C)两者兼有D)其他答案:A解析:3.[单选题]关于Hive与传统数据仓库的对比，下列描述错误的是:（）。

A)Hive元数据存储独立于数据存储之外，从而解耦合元数据和数据，灵活性高，二传统数据仓库数据应用单一，灵活性低B)Hive基于HDFS存储，理论上存储可以无限扩容，而传统数据仓库存储量有上限C)由于Hive的数据存储在HDFS上，所以可以保证数据的高容错，高可靠D)由于Hive基于大数据平台，所以查询效率比传统数据仓库快答案:D解析:4.[单选题]以下哪种机制使 Flink 能够实现窗口中无序数据的有序处理?（）A)检查点B)窗口C)事件时间D)有状态处理答案:C解析:5.[单选题]下面（）不是属性选择度量。

A)ID3 使用的信息增益B)C4.5 使用的增益率C)CART 使用的基尼指数D)NNM 使用的梯度下降答案:D解析:C)HDFSD)DB答案:C解析:7.[单选题]关于FusionInsight HD Streaming的Supervisor描述正确的是:（）。

A)Supervisor负责资源的分配和任务的调度B)Supervisor负责接受Nimbus分配的任务，启动停止属于自己管理的Worker进程C)Supervisor是运行具体处理逻辑的进程D)Supervisor是在Topology中接收数据然后执行处理的组件答案:B解析:8.[单选题]在有N个节点FusionInsight HD集群中部署HBase时、推荐部署（）个H Master进程，（）个Region Server进程。

GaussDB 200 数据库性能监控

“kB_rd/s”为每秒读取的kB数，“kB_wr/s”为每秒写入的kB数。分析时，请主要关注单个进程每秒读取、写入的数量。
系统资源监控-网络资源（1/2）
在所有存储节点，逐一执行sar和ifconfig命令，查看网络情况。 Sar命令， sar -n DEV 1，1为间隔时间，单位s。
“rxkB/s”为每秒接收的kB数，“txkB/s”为每秒发送的kB数。分析时，请主要关注每个网卡的传输量和是否达到传输上限。
名称 nodename
类型 text
memorytype
text
memorymbytes integer
描述
节点名称
内存类型，包括以下几种： • total_vmem（虚拟内存） • res_mem（物理内存） • shared_mem（共享内存） • prog_mem（程序text段占用内存） • mctx_peak_mem（除postmaster主线程外通过
“rMB/s”为每秒读取的MB数，“wMB/s”为每秒写入的MB数，“%util”为硬盘使用率， await表示读写请求在队列中的等待时间(ms)。分析时，请主要关注单个硬盘的I/O使用率和每秒读取、写入的数量。
系统资源监控-IO资源（2/2）
pidstat命令， pidstat -d 1 10，1为间隔时间，单位s，10表示查看占用I/O最多的Top10进程。
date echo "free memory "$free sync sysctl -w vm.drop_caches=3 fi sleep 10 date done
系统资源监控-IO资源（1/2）
在所有存储节点，逐一执行iostat和pidstat命令，查看I/O情况。 Iostat命令， iostat -xm 1，1为间隔时间，单位s。

gaussdb列存表原理

gaussdb列存表原理GaussDB是华为公司自主研发的一种高性能、高可靠性的列存数据库管理系统。

它采用了列存储技术，将数据按列存储在磁盘上，相比于传统的行存储方式，具有更高的压缩比、更快的查询速度和更低的存储空间消耗。

列存储是一种将数据按列组织存储的技术。

相比于行存储，列存储具有以下优势：1. 数据冗余度低：列存储将相同列的数据存储在一起，可以大幅度减小数据的冗余度，提高存储空间的利用率。

2. 压缩比高：列存储可以对每一列的数据进行独立的压缩，不同列的数据特征差异大，因此可以选择更适合的压缩算法，提高压缩比。

3. 查询速度快：由于列存储将相同列的数据存储在一起，查询时只需要读取需要的列数据，可以避免读取不需要的数据，提高查询速度。

4. 处理高并发：列存储可以将不同列的数据分散存储在不同的磁盘上，提高了数据的并发读写能力，适合处理高并发的场景。

GaussDB列存表原理的核心是对数据进行压缩和编码。

在压缩方面，GaussDB采用了多种压缩算法，包括字典编码、位图编码、Run-length编码等。

这些压缩算法可以根据数据的特点选择最合适的压缩方法，提高压缩比。

在编码方面，GaussDB采用了独有的列存表编码方式。

每个列存表由多个数据块组成，每个数据块包含一个列存储的列数据。

数据块中的数据按照一定的编码方式进行存储，以提高查询的效率。

例如，可以将整数型数据按照字典编码方式进行存储，将字符串类型的数据按照位图编码方式进行存储。

这样可以减小存储空间的占用，提高查询速度。

GaussDB还采用了多版本并发控制（MVCC）机制，可以支持高并发的读写操作，保证数据的一致性和并发性。

GaussDB列存表在实际应用中具有广泛的适用性。

例如，在大数据分析领域，由于列存储方式具有更高的查询速度和更低的存储空间消耗，可以提高数据分析的效率和准确性。

在物联网领域，由于物联网设备产生的数据量庞大，采用列存储方式可以有效地减小存储空间的占用，降低存储成本。

GaussDB 200 数据库设计

void delta_decode(char *buffer, int length) {
② char last = 0;
for (int i = 0; i < length; i++) { char delta = buffer[i]; buffer[i] = delta + last; last = buffer[i]; } }
Page 4
数据库范式设计
范式和反范式的对比
范式化模型反范式化模型
数据没有冗余，更新容易。
当表的数量比较多，查询设计需要很多关联模型（join）时，会导致查询性能低下。
数据冗余将带来很好的读取性能需要维护冗余数据，从目前NoSQL的发（因为不需要join很多表，而且通展可以看到，对磁盘空间的消耗是可以常反范式模型很少做更新操作）。接受的。
压缩性能比较
压缩级别
低级别压缩
特征
系统CPU使用率较高，存储磁盘空间充足。
中度压缩高级别压缩
系统CPU使用率适中，但存储磁盘空间不是特别充足。
系统CPU使用率较低，磁盘空间不充裕。
使用场景
行存或列存
行存或列存行存或列存
数据库性能瓶颈经常集中在磁盘I/O，数据压缩后，读取数据时，相对于压缩解压，减少I/O能够更好地提高性能。
GaussDB 200 数据库设计
目录
1. 数据库逻辑设计 2. 存储模式 3. 数据分布 4. 表分区 5. 索引
根据应用逻辑设计数据库
根据业务逻辑，抽象出表定义，表其实就是描述第1步了实体的各个属性。
根据业务逻辑，判断表在数据库中的存储方式。
第2步
优化表定义和查询语句。

华为云 GaussDB 用户指南说明书

保留一切权利。

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。

除非合同另有约定，华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。

除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

目录1 快速入门 (1)1.1 简介 (2)1.2 登录管理控制台 (3)1.3 创建实例 (3)1.4 使用客户端连接实例 (9)1.4.1 实例连接方式介绍 (9)1.4.2 通过数据管理服务DAS连接实例 (9)1.4.3 通过内网连接实例 (10)1.5 使用驱动连接实例 (12)1.5.1 开发规范 (13)1.5.2 使用JDBC连接数据库 (13)1.5.3 使用ODBC连接数据库 (26)1.5.4 使用libpq连接数据库 (32)1.5.5 使用Psycopg连接数据库 (37)1.6 示例：使用DAS连接实例并执行SQL (38)2 用户指南 (43)2.1 登录管理控制台 (43)2.2 权限管理 (43)2.2.1 创建用户并授权使用GaussDB (43)2.2.2 自定义策略 (45)2.3 实例管理 (45)2.3.1 修改实例名称 (45)2.3.2 重启实例 (46)2.3.3 删除实例 (47)2.3.4 重置管理员密码 (47)2.3.5 节点扩容 (48)2.3.6 磁盘扩容 (53)2.3.7 查看和修改实例参数 (54)2.3.8 规格变更 (56)2.3.9 导出实例列表 (57)2.3.10 设置安全组规则 (58)2.3.11 日志管理 (59)2.3.12 节点替换 (59)2.4 连接管理 (61)2.5 参数模板管理 (62)2.5.1 创建参数模板 (62)2.5.2 编辑参数模板 (63)2.5.3 导出参数 (64)2.5.4 比较参数模板 (64)2.5.5 查看参数修改历史 (65)2.5.6 复制参数模板 (66)2.5.7 重置参数模板 (67)2.5.8 应用参数模板 (67)2.5.9 查看参数模板应用记录 (68)2.5.10 修改参数模板描述 (68)2.5.11 删除参数模板 (68)2.6 数据备份 (69)2.6.1 备份概述 (69)2.6.2 设置实例级自动备份策略 (70)2.6.3 设置表级自动备份策略 (72)2.6.4 设置跨区域备份策略 (73)2.6.5 创建实例级手动备份 (75)2.6.6 创建表级手动备份 (78)2.6.7 导出备份信息 (79)2.6.8 删除手动备份 (80)2.6.9 已删除实例备份保留策略修改 (80)2.6.10 已删除实例通过自动备份恢复 (81)2.7 数据恢复 (82)2.7.1 通过备份文件恢复实例 (82)2.7.2 通过备份文件恢复库/表 (84)2.7.3 恢复实例到指定时间点 (86)2.7.4 恢复库/表到指定时间点 (87)2.8 监控指标 (89)2.8.1 查看监控指标 (89)2.8.2 监控指标一览表 (91)2.9 配额管理 (94)2.10 配额计算 (94)2.11 任务中心 (98)2.11.1 查看任务 (98)2.11.2 删除任务 (99)2.12 服务声明 (99)2.12.1 GaussDB seccomp免责声明 (99)2.13 容灾管理 (100)2.13.1 创建容灾任务 (100)2.13.3 容灾升主 (102)2.13.4 停止灾备任务 (103)2.13.5 删除灾备任务 (103)2.13.6 主实例故障后重建灾备任务 (104)2.13.7 容灾主备关系切换 (104)2.13.8 容灾回切 (105)2.13.9 灾备实例容灾演练 (105)2.13.10 主实例日志保持 (106)2.13.11 灾备实例限制说明 (106)2.14 回收站 (110)A 创建VDC和VDC用户 (112)A.1 VDC租户模型简介 (112)A.2 登录ManageOne (113)A.3 创建租户（含管理员、默认一级VDC和企业项目） (114)A.4 为VDC租户配置网络 (115)A.5 创建资源集 (116)A.6 配置企业项目 (117)A.7 创建VDC业务员 (118)A.8 创建二级及以下VDC（含管理员和默认企业项目） (120)B 修订记录 (122)1快速入门本章指导您快速的创建、连接并使用GaussDB。

GaussDB200 并发控制

I - Isolation 隔离性事务执行是隔离的，4个隔离级别
D – Durability 持久性事务的结果是持久的
示例: 从A账户转账50元到B账户 begin 1.read(A) 2. A := A – 50 3.write(A) 4.read(B) 5.B := B + 50 6.wri能优化
特性设计：
1. 事务同步等待的目的是防止查询的tuple正在进行第二阶段提交导致不可见，如果新的事务和本地正在进行第二阶段事务无关的话其实没有必要等待，基于这个思想，那么可以把事务等待机制挪到判断tuple可见性的地方，这样可以减少大部分的冲突，不阻塞集群后续业务。
2. 两阶段提交时，在two-phase文件持久化过程中，目前是将two-phase文件内容写入到xlog 日志中，并在磁盘上创建two-phase文件并用write方式写入，在checkpoint过程中对twophase文件做fsync。
两阶段事务性能优化
技术对比：
读外部一致性：不会读到一个两阶段事务的中间状态。即系统写入什么，读出来就是什么，真正保证事务的原子性。
产品中间件 GoldenDB OceanBase GTS Oracle Spanner GaussDB
对比不保证外部一致性不保证delete操作和聚焦查询的读外部一致性正在构筑读外部一致性 2PC，不保证读外部一致性已经提供了读外部一致性已经提供了读外部一致性提供读外部一致性
节点涉及残留事务（DDL），若不降低隔离级别，现在系统可能会阻塞操作避免出现数据不一致现象。此时若想使用，可以考虑降低隔离级别为Read Uncommitted。语句：SET TRANSACTION ISOLATION LEVEL READ COMMITTED | READ UNCOMMITTED. 注意：

高斯db 技术指标

高斯db 技术指标高斯DB技术指标高斯DB（GaussDB）是华为公司自主研发的一款分布式关系型数据库管理系统（RDBMS），基于高斯分布式数据库技术。

高斯DB 技术指标是评估高斯DB数据库性能和功能的标准，它涵盖了数据库的各个方面，包括数据存储、查询性能、高可用性、安全性等。

一、数据存储高斯DB采用分布式存储架构，支持数据的水平切分和分布式存储，能够实现海量数据的高效存储和管理。

高斯DB的数据存储技术指标主要包括以下几个方面：1. 存储容量：高斯DB具有极高的存储容量，可以存储PB级数据。

它采用了数据压缩和列存储等技术，提高了存储效率。

2. 存储引擎：高斯DB支持多种存储引擎，包括传统的B树索引和现代的LSM树索引。

不同的存储引擎适用于不同的场景，可以根据实际需求选择合适的存储引擎。

3. 数据分区：高斯DB支持数据的水平切分和分布式存储，可以根据业务需求将数据划分到不同的存储节点上，提高了数据的并发读写能力和负载均衡能力。

4. 数据压缩：高斯DB支持数据的压缩存储，可以减少存储空间的占用。

它采用了行压缩和字典压缩等技术，提高了数据的存储效率。

二、查询性能高斯DB具有出色的查询性能，能够满足复杂查询和高并发读写的需求。

高斯DB的查询性能技术指标主要包括以下几个方面：1. 并发处理能力：高斯DB采用多线程处理查询请求，能够实现高并发的查询处理。

它具有良好的横向扩展性，可以根据实际需求增加节点数，提高并发处理能力。

2. 查询优化：高斯DB具有强大的查询优化功能，能够通过统计信息和索引选择等技术，优化查询计划，提高查询性能。

3. 分布式查询：高斯DB支持跨节点的分布式查询，可以通过并行查询和数据传输优化等技术，提高查询效率和响应速度。

4. 数据缓存：高斯DB采用了多级缓存机制，包括内存缓存和SSD 缓存，能够提高热数据的访问速度。

三、高可用性高斯DB具有高可用性，能够保证业务系统的连续性和数据的安全性。

GaussDB 200 单节点安装(Vmware workstation)

【实验环境】Vmware workstation 12Centos-6.54c+16G（自己配的高配台式电脑，没有条件的公有云ECS搭建好再导出导入吧，考虑成本的话，华为云有Pass层服务可以直接买最近促销247/年，但是无法体会探索安装的快乐）1*250G 存储10.10.75.101注意：由于官方强制要求至少需要3个节点来安装，所以无法使用官方推荐的《GaussDB 200 6.5.1 配置规划工具》来安装，该excel 文件中节点数量等部分单元格是只读的，强制修改还需要输入密码！只能手动安装（参考《GaussDB 200 6.5.1 产品文档 3.8.3》）部分步骤有省略（如检查OS编码格式等）【步骤】1. 修改os参数vi /etc/sysctl.conf最后加上vm.min_free_kbytes = (free -k|grep Mem|awk '{print $2}')*5%2. 创建目录并解压文件到指定目录mkdir /GaussDB200cd /GaussDB200rz上传：o FusionInsight_Manager_6.5.1_RHEL.tar.gzo FusionInsight_BASE_6.5.1_RHEL.tar.gzo GaussDB_200_6.5.1_RHEL.tar.gzo FusionInsight_SetupTool_6.5.1.tar.gzo（可选）FusionInsight_MPPDBMonitor_6.5.1_RHEL.tar.gzcd /GaussDB200tar -zxvf FusionInsight_Manager_6.5.1_RHEL.tar.gztar -zxvf GaussDB_200_6.5.1_RHEL.tar.gz （→ FusionInsight_MPPDB_6.5.1_RHEL.tar.gz）tar -zxvf FusionInsight_SetupTool_6.5.1.tar.gzcd /GaussDB200cp FusionInsight_BASE_6.5.1_RHEL.tar.gz FusionInsight_Manager/software/packs/cp FusionInsight_MPPDB_6.5.1_RHEL.tar.gz FusionInsight_Manager/software/packs/ cp FusionInsight_MPPDBMonitor_6.5.1_RHEL.tar.gzFusionInsight_Manager/software/packs/3. 挂载操作系统镜像注意：Centos的ISO镜像每个版本都有2个文件，都要下载下来首选加在第2个iso文件，如果没有依赖包，再切换到第1个iso文件，正常来说还是会缺包，需要通过yum安装yum install -y OpenIPMI openldap openldap-clients openldap-servers perl-Perlilogprocmail python-dateutil python-dmidecode python-gudev python-simplejson pytzsdparm4. 修改/etc/hostsvi /etc/hosts127.0.0.1 localhost --一定要有这一行，否则后面运行脚本时会报错10.10.75.101 node1 --一个主机名只能对应一个IP，之前这台虚拟机上安装了RAC（7个IP需要注释6个）注意：这里跳过sh /opt/preset/preset.sh创建omm用户+配置环境变量+修改属组，因为这个步骤是安装Fusion_Insight时强制执行的，这里直接用root执行就好，安装完Fusion_Insight就自动完成这些步骤！5. 编辑FusionInsight_SetupTool相关配置文件6. 配置并检查安装环境cd /GaussDB200/FusionInsight_SetupTool./setuptool.sh preinstall –n注意：1、提示输入root密码时可以为空，直接回车后输入yes2、一定要加-n参数，setuptool.sh脚本中有解释该选项作用when the -n parameter is used,the precheck.sh script will not be executed after the preinstall.sh script is executed.不加-n会自动调用precheck.sh，因为只有一台机器，不满足官方推荐的3个节点，肯定是无法通过的，所以直接跳过！7. 编辑FusionInsight_Manager相关配置文件8. 安装FusionInsight_Manager./install.sh -f /GaussDB200/FusionInsight_Manager/software/install.ini=================================== Welcome====================================== STEP 1 Checking the parameters.=== STEP 2 Preparing for installation components. [done] === STEP 3 Installing the manager. [done] === STEP 4 Installing the packs. [done] === STEP 5 Starting the OMS.[done]=== STEP 6 Waiting for ntp to startup. [done] === STEP 7 Configuring and starting agent. [fail] ERROR:Failed to config and start nodeagent.ERROR:Installation failed. For details about the error, see the log file/var/log/Bigdata/controller/scriptlog/install.log.Please run the following script to delete useless files:/GaussDB200/app/om-server/om/inst/uninstall.sh[2020-03-15 09:48:36] ERROR File/GaussDB200/app/om-server_6.5.1/om/etc/om/omm.keytab not created in 120s.[install.sh(waitForKeytab):1817](9266)[2020-03-15 09:48:37] ERROR Waiting for controller to generate keytab failed.[install.sh(configAndStartAgent):1742](9266)ERROR:Waiting for controller to generate keytab failed.[2020-03-15 09:48:37] ERROR Failed to config and start nodeagent.[install.sh(main):2315](9266)[2020-03-15 09:48:37] ERROR Installation failed. For details about the error, see the log file /var/log/Bigdata/controller/scriptlog/install.log. [install.sh(post_install):545](9266)注意：虚拟机太卡导致等待超时，先卸载失败的步骤，修改install.sh的max_time最大时间为120秒，重新运行后成功=================================== Welcome====================================== STEP 1 Checking the parameters.=== STEP 2 Preparing for installation components. [done] === STEP 3 Installing the manager. [done] === STEP 4 Installing the packs. [done] === STEP 5 Starting the OMS.[done]=== STEP 6 Waiting for ntp to startup. [done] === STEP 7 Configuring and starting agent. [done] ============================= Install Successfully============================Please visit http://10.10.75.101:8080/web/ to continue cluster installation.Installation is successful.[root@node1 software]# netstat-nultp|grep 8080tcp 0 0 ::ffff:10.10.75.101:8080 :::*LISTEN 29011/java9. 执行单机版配置脚本（一定要用omm用户来运行！）GaussDB 200默认部署方案至少需要3个节点，如需部署单机版需要在安装集群前，运行单机版配置脚本，将各服务实例的最小配置实例数改为1。

大数据华为认证考试(习题卷2)

大数据华为认证考试(习题卷2)第1部分：单项选择题，共51题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]Flume数据采集过程中，下列选项中能对数据进行过滤和修饰的是:（）。

A)SinkB)ChannelC)Channel SelectorD)Interceptor答案:D解析:2.[单选题]FusionInsight HD中Loader从SFTP服务器导入文件时，不需要做编码转换和数据转换且速度最快的文件类型是:（）。

A)graph-fileB)binary-fileC)text-fileD)sequence-file答案:B解析:3.[单选题]下列关于存储过程中的变量说法正确的是()?A)声明变量时需要指定变量的初始值。

B)变量的作用域是全局。

C)变量必须先声明后使用。

D)声明变量时需要指定变量的数据类型。

答案:C解析:4.[单选题]Kafka 的核心架构不包含?（）A)SplitB)ProducerC)ConsumerD)Broker答案:A解析:5.[单选题]YARN服务中，如果要给队列QuqueA设置容量为30%，应该配置（）参数。

A)er-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.capacityD)yarn.scheduler.capacity.root.QueueA.state答案:C解析:C)MySql SQL脚本D)MongoDB SQL脚本答案:B解析:7.[单选题]Insert事务使用的锁模式是：（）。

A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock答案:B解析:8.[单选题]Hive 数据仓库分层表的描述不准确的是？()A)DWD 层：结构和粒度与原始表保持一致，简单清晰B)ST 层：数据集市层C)DWS 层：以 DWD 为基础，进行轻度汇总D)ODS 层：原始数据层答案:B解析:9.[单选题]YARN调度器分配资源的顺序是:（）。

高斯计算内存设置

高斯计算内存设置高斯计算内存设置是指在使用高斯计算程序进行计算时，合理地设置计算所需的内存空间。

高斯计算程序是用于计算量子化学问题的一种常用软件，它需要使用大量的内存来存储和处理计算中涉及的分子结构、基组、计算参数等信息。

合理地设置高斯计算内存可以提高计算的效率和精度，避免内存溢出或计算失败的问题。

在进行高斯计算时，根据计算所需的精度和分子体系的大小，我们需要根据以下几个方面来设置内存：1.分子体系的大小：首先要考虑的是分子体系的大小，即分子中包含的原子数目。

一般而言，分子体系越大，所需的内存空间也就越大。

因为大分子包含更多的原子和电子，计算所涉及的信息量也更大，需要更多的内存来存储和处理。

例如，当计算较小的分子时，通常只需要几百兆字节的内存即可满足要求；而当计算大型蛋白质或聚合物等复杂体系时，可能需要多达几十或上百个GB的内存。

2.计算所需的精度：高斯计算可以通过调整一些参数来控制计算的精度，如基组的大小、积分网格的精度等。

精度越高，计算所需的内存也就越大。

例如，如果我们希望计算一个非常精确的电子结构或振动频率，就需要更大的内存来保证计算的准确性。

3.计算方法的选择：高斯计算程序提供了多种计算方法，如密度泛函理论（DFT）、哈特里-福克方法（HF）等。

不同的计算方法对内存的需求也不同。

一般来说，DFT方法相对而言需要更多的内存，因为它需要存储和处理更多的信息量。

因此，如果使用DFT计算方法，需要相应增加所需的内存空间。

4.使用计算集群或超级计算机：如果使用计算集群或超级计算机进行计算，通常可以利用其并行计算的优势来加速计算速度。

在这种情况下，还需要考虑每个计算节点的内存大小和计算节点的数量。

每个计算节点需要足够的内存来存储和处理计算所需的信息，而计算节点的数量决定了整个计算任务可以同时进行的进程数目。

总结起来，高斯计算内存设置需要根据分子体系的大小、计算精度、计算方法和计算机设备等方面来考虑。

大数据开发基础(习题卷19)

大数据开发基础(习题卷19)第1部分：单项选择题，共57题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]下列关于智能物流的描述错误的是（）。

A)是利用智能化技术，使物流技术能模仿人的智能，具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力B)实现物流资源优化配置和有效调度，并且提示物流系统效率C)智能物流概念源于2010年IBM发布的研究报告《智慧的未来供应链》D)提高了物流活动的一体化，增加了物流的复杂性答案:D解析:2.[单选题]业务中台方面，以业务为导向，优先建设( )。

A)电网资源业务中台和客户服务业务中台B)电网资源业务中台和账务结算业务中台C)统一数据业务中台和客户服务业务中台D)统一数据业务中台和账务结算业务中台答案:A解析:3.[单选题]机器学习中L1正则化和 L2正则化的区别是()。

A)使用L1可以得到稀疏的权值,使用 L2可以得到平滑的权值B)使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C)使用L1 可以得到平滑的权值,使用L2可以得到稀疏的权值D)使用L1 可以得到稀疏的权值,使用L2可以得到稀疏的权值答案:A解析:使用 L1可以得到稀疏的权值,使用L2可以得到平滑的权值。

4.[单选题]数据恢复必须坚持审批登记制。

需要恢复数据时，报批准后方可进行；恢复数据必须坚持()，一人操作，一人监督，并详细登记；恢复过程中若有异常情况，应及时与有关技术人员联系，不得任意处理；若恢复异常对业务造成重大影响，必须向主管领导汇报，并组织实施补救。

A)双人制B)复核制C)AA制D)单人制答案:A解析:5.[单选题]关于GaussDB 200的数据导入导出下列说法正确的是（）?A)GDs在数据导入时可以做预处理,比如非法字符詟换密错处理教据聚合等。

B)COPY方式使用简单,一般用在大量数据的导入导出中。

C)INSERT数据写入适合数据量不大,并发度不高的场景D)使用gsq元命令和cOPY命令在使用和用法上是样的。

GaussDB 200基本组件简介

数据节点，负责存储业务数据（支持行存、列存、混合存储）、执行数据查询任务以及向CN 返回执行结果。服务器的本地存储资源，持久化存储数据。
目录
1. GaussDB 200 逻辑架构 2. GaussDB 200 物理架构 3. GaussDB 200 数据库对象
GaussDB 200组网
GaussDB 200物理架构
节点1 CPU、内存
本地磁盘
对外网络
私有网络
节点2 CPU、内存
本地磁盘
节点n CPU、内存
本地磁盘
计算靠近数据，避免了大量的数据搬迁，可以获得更高的性能。
无共享架构相比共享存储的架构，具备更好的扩展性。
GaussDB 200简介
FusionInsight解决方案由2个子产品FusionInsight HD、GaussDB 200和1个操作运维系统 FusionInsight Manager构成。
内部高速网络，集群内部数据交换，集群管理通信业务网络，对外提供数据库服务
业务网络
应用服务器
内部高速网络物理节点
配置要求
支持的硬件平台
GaussDB 200支持运行在通用服务器上：支持基于x86_64架构的通用服务器。支持华为TaiShan ARM服务器。支持本地存储（SATA、SAS、SSD）。支持SSD、Flash存储介质作为二级I/O 缓存。支持千兆、万兆Ethernet网络。
Coordinator
gaussdb，接受客户端或应用连接，分解调度SQL在各DN上执行，返回执行结果，多个 CN对等无主备之分。
Datanode
gaussdb，存储业务数据，执行CN分发的查询任务并向CN返回查询结果。

GaussDB 200 软硬件配置设计

全环 4. 单个Raid组不能有2个（或以上）来着同一节点的备份
使用机柜数做环大小
使用小于机柜数的环
使用不同配置的多个环
目录
1. 硬件组网规划
1.1 服务器选型 1.2 组网设计
2. 集群规模
2.1 根据容量估算 2.2 根据性能需求估算
3. 集群规划
3.1 Raid规划 3.2 实例规划 3.3 安全环
2.2 性能估算
性能估算线性比接近1的场景估算基准：CPU2.0GHz 集群能力=单DN能力 * 单节点DN数(m) * 节点总数(n) 记录数( r ) = 表大小(T) / 表宽度 (W)
性能估算 – 入库性能
基准及估算 • 行存单DN消耗1.2个CPU线程，入库效率8~16MB/s • 列存单DN资源消耗1.5个CPU线程，入库效率12~24MB/s 集群行存入库能力 = m * n * (8~12) 集群列存入库能力 = m * n * (12~24)
性能估算-分组统计
基准及估算
• 分组字段的重复度较大 • 单DN每秒处理100万~200万记录分组统计耗时 t = r / m / n / (100w~200w)
影响因素 • 分组字段为分布列，计算更快 • 分组字段越多，计算越慢 • 分组数越少，计算越快 • 分组数量多，内存不足导致下盘
性能估算-并发点查询
1 ~ N-1
N-1
IO能力7
6 5 4 3 2 1 0
0
Raid5磁盘数和整体IO能力曲线：
1
2
3
4
5
6
7
8
磁盘数
9
10
3.2 集群规划—实例
集群规模
小规模中等规模大规模超大规模

GaussDB 200安全管理

1.3 客户端连接方法
登录所使用的用户名
登录服务器端得IP地址
gsql -d postgres -U gaussdba -W ‘gauss@123’ -h 10.127.138.24 -p 8000 -r
请求登录的数据库
对应用户名的密码
服务器端端口号
触发事件
登录方式
用户级别
连接配置
登录期望
客户端登录数据库
通常使用ROLE来组织权限，使用用户进行实际用户操作。
角色之间的权限可以继承，用户组的所有用户自动继承角色的权限。
数据库中用户权限金字塔
2.2 创建、修改和删除角色
Create Role Statement：
主要功能描述：
在数据库中添加一个新角色；
创建角色的用户必须具备CREATE ROLE的权限或者是系统管理员。
本地登录远程登录
初始化用户
非初始化用户
初始化用户/ 非初始化用户
trust连接非trust连接 trust/非trust连接 trust连接非trust连接
无需身份验证可登录通过身份验证后可登录通过身份验证后可登录禁止远程trust登录通过身份验证后可登录
GaussDB 200中除支持gsql客户端外，还支持使用JDBC/ODBC连接数据库，具体使用方法参见《产品文档》中“应用程序开发教程”章节。
该命令会在集群中所有CN对应的pg_hba.conf文件中，增加如下信息，表示允许 10.10.0.50/24网段的客户端以ssl认证方式连接到GaussDB 200服务器：
hostssl all all 10.10.0.50/24 sha256
3. 配置SSL认证相关的数字证书参数。 4. 配置服务器端参数。

HCIA-大数据试题与答案

HCIA- 大数据试题与答案1. 下列选项中无法通过大数据技术实现的是？（）* [单选题] *A. 商业模式发现B. 信用评估C. 商品推荐D. 运营分析（正确答案）2. FusionInsight Manager 的主要功能有以下哪些？（）* [ 单选题] *A. 数据集成B. 系统管理C. 安全管理（正确答案）D. 服务治理（正确答案）（正确答案）3. 假设每个用户最低资源保障设置为yarn ，scheduler ，capacity ，root ，QueueA.minimum-user-limit-percent=24。

则以下说法错误的是？（）* [ 单选A. 第3 个用户提交任务时，每个用户最多获得33.33%的资源B. 第2 个用户提交任务时，每个用户最多获得50%的资源C. 第4 个用户提交任务时，每个用户最多获得25%的资源D. 第5 个用户提交任务时，每个用户最多获得20%的资源（正确答案）4. 华为大数据解决方案中平台架构包括以下哪些组成部分？（）A. Hadoop 层B. FusioInght Manager（正确答案）C. GaussDB 200D. DataFram（正确答案）（正确答案）5. Spark 自带的资源管理框架是？（）* ［单选题］A. StandaloneB. MesosC. YARND. Docker（正确答案）6. 关于RDD，下列说法错误的是？（）* ［单选题］ *A. RDD 具有血统机制（Lineage）B. RDD 默认存储在磁盘C. RDD 是一个只读的，可分区的分布式数据集D. RDD 是Spark 对基础数据的抽象（正确答案）7. 关于Spark SQL&Hive 区别与联系，下列说法正确的是？（）A. Spark SQL 依赖Hive 的元数据B. Spark SQL 的执行引擎为Spark core，Hive 默认执行引擎为MapReduceC. Spark SQL 不可以使用Hive 的自定义函数（正确答案）D. Spark SQL 兼容绝大部分Hive 的语法和函数（正确答案）（正确答案）8. 在FusionInsight 集群中，Spark 主要与以下哪些组件进行交互？A. HDFSB. YARN（正确答案）［单选题］［单选题］）* ［单选题］D. ZooKeeper（正确答案）（正确答案）9. 关于Hive 在FusionInsight HD 中的架构描述错误的是？（）* [ 单选题] *A. 只要有一个HiveServer 不可用，整个Hive 集群便不可用B. MotaStore 用于提供元数据服务，依赖于DBServiceC. 在同一时间点，HiveServer 只要一个处于Active 状态，另一个则处于Standby 状态D. HiveServer 负责接收客户端请求.解析.执行HQL 命令并返回查询结果（正确答案）10. 通常情况下，Hive 以文本文件存储的表会以回车作为其行分隔符，在华为FusionInsight Hive 中，可以指定表数据的输入和输出格式处理。

gaussdb动态内存的计算公式

gaussdb动态内存的计算公式
GaussDB是华为推出的一款关系型数据库产品，它的动态内存计算公式涉及数据库系统的内存管理和性能优化。

动态内存是指在程序运行期间动态分配和释放内存，以满足程序运行时对内存的需求。

动态内存的计算公式通常涉及到以下几个方面：
1. 数据库实例的内存需求，数据库实例的内存需求包括了实例进程的内存占用、系统缓冲池的内存占用、排序区内存、临时表空间内存等。

这些内存需求通常会根据数据库的规模、并发访问量、查询复杂度等因素进行估算。

2. 系统参数的影响，动态内存的计算公式还需要考虑数据库系统的参数设置，比如shared_buffers、work_mem等参数的设置会影响动态内存的分配和使用。

3. 系统负载的影响，数据库系统的动态内存计算公式还需要考虑系统的负载情况，比如当前的并发连接数、查询的复杂度、数据量等因素都会影响动态内存的分配和释放。

总的来说，动态内存的计算公式是一个复杂的计算过程，需要考虑到多个因素的影响。

在实际应用中，需要根据具体的数据库实例的情况来进行动态内存的计算和优化，以达到更好的性能和稳定性。

因此，动态内存的计算公式并不是一个固定的公式，而是需要根据具体情况进行动态调整和优化的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Page Header Item Item Item Item
插入
Tuple
Tuple
Tuple
Special
Tuple
Tuple
Tuple
Tuple
Special
删除
更新
Page Header Item Item Item
Page Header Item Item Item
在Tuple头部打上删除标记
Tuple
Tuple
Tuple
在Tuple头部打上删除标记
Tuple
Tuple
Tuple
Tuple
Page 10
TOAST机制介绍
TOAST技术将大的字段值压缩和/或打碎成多个物理行进行存储的技术。该项技术支持符合以下条件的数据类型：
• 变长 (varlena)表现形式的数据类型。 • 只有向表中存储超过2KB（1/4页）的字段时才会触发。 • 最大存储1GB（ 230 - 1字节）的数据类型。
滚机制，保证扩容能回退到数据一致性状态。 ● 扩容完成后，数据重分布过程采用一致性Hash技术使得需要迁移的数据量最小。 ● 数据重分布完成后，会删除Node Group1。扩容过程中查询访问Node Group 1，扩容结束后查询访问Node
Group 2，保证扩容重分布过程中的业务持续性。
扩容完成前
GaussDB 200 存储方式和空间管理
课程概述
本课程主要介绍
行列式存储文件结构、TOAST、自由空间映射、可见性映射、数据库分页、文件读写机制、数据库日志介绍
面向对象：
华为IT大数据产品相关渠道合作伙伴售前、实施人员及客户
ቤተ መጻሕፍቲ ባይዱ完本课程后，您将能够：
了解GaussDB 200的HASH机制了解GaussDB 200数据存储结构了解GaussDB 200表空间管理了解GaussDB 200 HA机制
Create table test (id int, name string); Insert into test values (1001, lottu); Insert into test values (1002, rax); Insert into test values (1003, xuan); Insert into test values (1004, li0924);
(0,1): 表示该元组在表test的第一个数据块的第一个偏移位置上
CTID
ID
NAME
(0,1)
1001
lottu
(0,2)
1002
rax
(0,3)
1003
xuan
(0,4)
1004
li0924
系统插入隐藏列
Page 9
记录插入、删除、更新对页面的影响
Page Header Item Item Item
base ：包含每个数据库对应的子目录。 global ：包含集群中表的子目录。 pg_tblspc：包含指向表空间的符号链接。
Page 7
行存表的存储结构
数据文件所在目录：$tablespace/DatabaseOID/tableOID …/tableOID.1 …/tableOID.2 …/tableOID_fsm …/tableOID_fsm.1 …/tableOID_fsm.2 …/tableOID_vm …/tableOID_vm.1 …/tableOID_vm.2
扩容完成后
Node Group 1 ……
主机主机
Node Group 2
……
主机扩容主机扩容主机
Page 5
目录
1. 哈希机制 2. 数据存储结构 3. 表空间管理 4. 日志管理
Page 6
存储系统概述——系统目录结构介绍
$XCDATA/coordinator (the same as data_node directory tree) ../data_node |_ /base |_ /OIDxxx (table name oid) |_ /OIDyyy (table name oid) |_ /pg_tblspc |_ /OIDxxx (tablespce link) |_ /OIDyyy (tablespce link) |_ /global
语法结构
VACUUM [ ( { FULL | FREEZE | VERBOSE | ANALYZE } [, ...] ) ] [ table_name [ (column_name [, ...] ) ] ]
数据文件，以1GB为单位切割文件
Freespace映射文件
VFS
数据可见性文件
ext3
ext4
……
XFS
文件名：tableOID.1，1 GB
Page 1: 8 kB Page 2
……
Page n
Page 1: 8 kB
文件系统负责块映射
……
……
Page
Page
……
Page xxx
Page 8
如何识别记录——ctid的组成
valuen
分布表
col1 col2,… data1
H
data2
A
T2 data3
S
……
H
datan
Hash code 32位二进制值
Hashkey 一列或多列
Page 4
扩容数据重分布
● 扩容前的节点标记为Node Group 1，扩容后的节点标记为Node Group 2。 ● 扩容过程中采用事务语义，当故障（网络，磁盘等硬件故障，及人为取消扩容等）发生时，利用数据库的事务回
varchar2 int BLOB date number ……
head
chunk_id
chunk_seq
chunk_data1
chunk_data2
…
Page 11
VACUUM介绍（1/2）
VACUUM -- 垃圾收集以及可选地分析一个数据库。
VACUUM回收死行占据的存储空间。那些已经DELETE的行或者被UPDATE 过后过时的行并没有从它们所属的表中物理删除；在完成VACUUM之前它们仍然存在。因此有必要周期地运行VACUUM，特别是在经常更新的表上。
Page 2
目录
1. 哈希机制 2. 数据存储结构 3. 表空间管理 4. 日志管理
Page 3
数据Hash机制
DN1 T1 T2.p1
DN2 T1 T2.p2
DN3 T1 T2.p3 …… T1 T2.p...
DNn T1 T2.pn
映射映射映射映射映射
value1 value2 value3 ……