数据工程师培训题库一.doc
- 格式:doc
- 大小:40.88 KB
- 文档页数:8
《数据库系统工程师》课程试卷A适用专业: 考试日期: 闭卷所需时间:120分钟 总分:100分一、 填空题:(共8小题,每空1分,共18分)1. 对于十进制数字143,它的二进制表示是 ,八进制表示是 ,十六进制表示是 ,BCD 码是 ;十六进制数3CF 对应的十进制是 。
2. 若指令流水线把一条指令分为取指、分析和执行3部分,且3部分的时间分别是ns t 2=取指,ns t 2=分析,ns t 1=执行。
则100条指令全部执行完毕需 ns 。
3. 对现实世界进行第一层抽象的模型,称为 模型;对现实世界进行第二层抽象的模型,称为 模型。
4. 层次模型的数据结构是 结构;网状模型的数据结构是 结构;关系模型的数据结构是 结构。
5. 在数据库技术中,编写应用程序的语言仍然是C 一类的高级语言,这些语言被称为 语言。
6. 要使数据库具有可恢复性,在平时要做好两件事: 和 。
7. 封锁能避免错误的发生,但会引起 问题。
8. 能激活触发器执行的操作是 、 和 。
二、 选择题:(共18小题,每空1分,共24分)1. 是指按内容访问的存储器。
A.相联存储器B.虚拟存储器C.高速缓存(Cache)D.随机访问存储器2. 内存按字节编址,地址从A4000H 到CBFFFH ,共有 (1) 。
若用存储容量为32K ×8b 的存储芯片构成该内存,至少需要 (2) 。
(1)A .80KB B.96KB C.160KB D.192KB (2)A.2 B.5 C.8 D.103. Internet 提供的服务有通信、远程登录、浏览和检索等。
(1) 直接用于个人之间的通信方式, (2) 用于远程登录。
(1)A .Telnet B. E-Mail C.URL D.PPP(2)A .Telnet B. URL C.P2P D.PPP 4. 软件测式的目的是 。
A.表明软件的正确性B.评价软件质量C.尽可能发现软件中的错误D.判定软件是否合格5. 是面向对象程序设计语言中的一种机制,此种机制实现了方法的定义与具体的对象无关,而对方法的调用则可关联于具体的对象。
数据库工程师-数据库应用系统生命周期(总分62, 做题时间90分钟)一、选择题1.数据库应用系统的物理设计包括______。
①数据库物理结构设计②数据库事务详细设计③数据库功能设计④应用程序详细设计SSS_SINGLE_SELA ①③④B ①②④C ②③④D ①②③④分值: 1答案:B[解析] 数据库应用系统的物理设计包括数据库物理结构设计、数据库事务详细设计、应用程序详细设计,所以本题的答案为B。
2.根据数据库应用系统生命周期模型,定义模块交互流程的阶段是______。
SSS_SINGLE_SELA 需求分析B 概念没计C 逻辑设计D 物理设计分值: 1答案:C[解析] 数据库应用程序概要设计(Ⅱ),在应用软件结构设计基础上,按照逐步求精、信息隐藏和功能细化原则,进一步划分为子模块,组成应用软件的系统-子系统-模块-子模块层次结构,其中直接访问数据库的模块/子模块抽象为数据库事务;确定各模块的功能和输入输出数据,设计模块使用的数据结构,定义模块交互的接口关系和交互流程。
而数据库应用程序概要设计(Ⅱ)是逻辑设计内容。
所以本题的答案为C。
3.以下关于DBAS模型说法错误的是______。
SSS_SINGLE_SELA DBAS模型定义了数据库应用系统设计、开发和运行维护整体框架B DBAS的生命周期由项目规划、需求分析、系统设计、实现与部署、运行管理与维护5个基本活动组成C 将快速原型模型和增量模型的开发思路引入DBAS生命周期模型,允许渐进、迭代地开发DBASD 将DBAS设计阶段细分为逻辑设计和物理设计两个步骤分值: 1答案:D[解析] 将DBAS设计阶段细分为概念设计、逻辑设计、物理设计3个步骤,每一步的设计内容又涵盖了3条设计主线。
因此本题答案为D。
4.数据字典包括______。
①数据项②数据结构③数据流④数据存储⑤处理过程SSS_SINGLE_SELA ①②④⑤B ①②③⑤C ②③④⑤D ①②③④⑤分值: 1答案:D[解析] 数据字典包括数据项、数据结构、数据流、数据存储和处理过程5个部分。
数据库系统工程师-关系数据库基本理论(一)(总分:66.00,做题时间:90分钟)一、单项选择题(总题数:33,分数:51.00)1.在关系代数表达式的查询优化中,不正确的叙述是______。
A.尽可能早地执行连接B.尽可能早地执行选择C.尽可能早地执行投影D.把笛卡儿积和随后的选择合并成连接运算(分数:1.00)A. √B.C.D.解析:关系模式R(U,F),其中U=(W,X,Y,Z),F=WX→Y,W→X,X→Z,Y→W。
关系模式R的候选码是(1) ,(2) 是无损连接并保持函数依赖的分解。
(分数:2.00)(1).A.W和Y B.WY C.WX D.WZ(分数:1.00)A. √B.C.D.解析:(2).A.ρ={R1(WY),R2(XZ)} B.ρ={R1(WZ),R2(XY)}C.ρ{R1(WXY),R2(XZ)) D.ρ={R1(WX),R2(YZ))(分数:1.00)A.B.C. √D.解析:2.下列公式中一定成立的是______。
A.πA1,A2 (σF(E))≡σF (πA1,A2 (E))B.σF(E1×E2)≡σF(E1)×σF (E2)C.σF (E1-E2)≡σF (E1)-σF (E2)D.πA1,A2,B1,B2 (E E)≡πA1,A2πB1,B2 (E)(分数:1.00)A.B.C. √D.解析:3.在元组关系演算中,与公式(s)(P1(s))等价的公式是______。
A.┐(s)(P1(s)) B.(s)( ┐P l(s))C.┐(s)( ┐P1(s)) D s)( ┐P1(s))(分数:1.00)A.B.C.D. √解析:4.关系规范化中的删除操作异常是指______。
A.不该删除的数据被删除 B.不该删除的关键码被删除C.应该删除的数据未被删除 D.应该删除的关键码未被删除(分数:1.00)A. √B.C.D.解析:5.在元组关系演算中,与公式P1=>P2等价的公式是______。
计算机数据库工程师-101(总分82, 做题时间90分钟)一、选择题1.下列哪一项不属于概念模型所具备的性质?______A) 易于变动B) 易于交流和理解C) 易于向数据模型转换D) 在计算机中实现的效率高SSS_SIMPLE_SINA B C D分值: 1答案:D[解析] 概念模型的优点有:①概念模型应真实、充分地反映现实世界中事物和事物之间的联系,有丰富的语义表达能力,能表达用户的各种需求,包括描述现实世界中各种对象及其复杂的联系、用户对数据对象的处理要求和手段。
②概念模型应简洁、明晰、独立于机器、容易理解。
方便数据设计人员与应用人员交换意见,使用户能积极参与数据库的设计工作。
所以B项属于概念模型所具备的性质。
③概念模型应易于变动。
当应用环境和应用要求改变时,容易对概念模型修改和补充。
所以A项属于概念模型所具备的性质。
④概念模型应很容易向关系、层次或网状等各种数据模型转换。
易于从概念模式导出与DBMS有关的逻辑模式。
所以C项属于概念模型所具备的性质。
2.数据库管理系统的体系结构是______。
A) 三级模式结构和一级映像B) 三级模式结构C) 三级模式结构和二级映像D) 三级模式结构和三级映像SSS_SIMPLE_SINA B C D分值: 1答案:C[解析] 数据库管理系统的体系结构是三级模式结构和二级映像。
所以本题的答案为C。
3.以下关于数据模型要求错误的是______。
A) 能够比较真实地模拟现实世界B) 容易为人们所理解C) 便于在计算机上实现D) 目前大部分数据模型能够很好地同时满足这三方面的要求A B C D分值: 1答案:D[解析] 数据模型应满足三方面要求:能够比较真实地模拟现实世界,容易为人们所理解,便于在计算机上实现。
目前还没有一种数据模型能够很好地同时满足这三方面的要求。
所以本题的答案为D。
4.如果子女实体集中的每一个实例都能被唯一地确认而无需了解与之相关联系的双亲实体集的实例,则这个关系就被称着______。
2024年软件资格考试数据库系统工程师(基础知识、应用技术)合卷(中级)复习试题(答案在后面)一、基础知识(客观选择题,75题,每题1分,共75分)1、题干:以下关于数据库系统概念的正确描述是:A. 数据库系统是一种软件,用于管理数据B. 数据库系统是一个用于存储和检索数据的结构化集合C. 数据库系统是一个独立于操作系统的软件组件D. 数据库系统只包含数据,不包含与之相关的应用程序2、题干:以下关于数据库范式(Normalization)的说法,不正确的是:A. 第一范式(1NF)要求表中的所有字段都是原子性的B. 第二范式(2NF)要求满足第一范式,且非主属性完全依赖于主键C. 第三范式(3NF)要求满足第二范式,且非主属性不依赖于其他非主属性D. 第四范式(4NF)要求满足第三范式,且消除所有传递依赖3、在关系型数据库管理系统中,下列不属于关系模型优点的是:A. 数据结构简单,清晰易懂B. 数据独立性高C. 查询效率依赖于索引的使用D. 支持多种数据类型4、数据库的完整性是指数据的正确性和相容性,下面哪一个不是实现完整性的措施?A. 定义主键约束B. 设置外键来维护表之间的关系C. 使用视图来隐藏敏感数据D. 检查约束条件5、题目:以下哪项不是数据库管理系统的功能?A. 数据定义B. 数据操作C. 系统维护D. 网络通信6、题目:在数据库系统中,以下哪种数据模型被称为“半结构化数据模型”?A. 层次模型B. 网状模型C. 关系模型D. 对象模型7、在数据库设计的过程中,以下哪个阶段会确定数据的存储结构和存取方法?A. 需求分析B. 概念结构设计C. 逻辑结构设计D. 物理结构设计8、事务处理中,哪一项特性确保了即使系统崩溃或出现故障后也能恢复到一个一致的状态?A. 原子性B. 一致性C. 隔离性D. 持久性9、在数据库系统中,以下哪种数据模型主要用于表示实体之间的联系?A. 层次模型B. 网状模型C. 关系模型D. 函数模型 10、在SQL语言中,用于创建新表的命令是?A. CREATE TABLEB. INSERT INTOC. SELECTD. UPDATE11、关于关系数据库的特点,下列说法错误的是:A. 数据结构化B. 数据独立性高C. 数据冗余小D. 操作不方便12、在SQL语言中,用来修改表结构的语句关键字是:A. CREATE TABLEB. ALTER TABLEC. UPDATE TABLED. MODIFY TABLE13、数据库系统中,索引的主要作用是什么?14、在关系数据库中,哪些操作会导致事务的回滚?15、在关系数据库中,以下哪一项描述了“实体完整性”约束?A. 确保每个实体的主键字段都不为空B. 确保每个实体的每个字段都不为空C. 确保实体的主键字段唯一D. 确保实体的外键字段唯一16、在数据库设计中,以下哪个概念描述了“范式”?A. 一个数据库中所有数据项都符合一定的规范B. 数据库中表之间通过外键关联C. 数据库中每个表都只包含一个实体类型的数据D. 数据库中所有数据项都遵循相同的结构17、题目:在数据库设计中,ER图(实体-联系图)主要用于:A. 表示数据库中数据项的类型B. 描述数据库中数据项之间的关系C. 定义数据库中数据的存储结构D. 描述数据库中数据的完整性约束18、题目:在SQL语言中,用于创建数据库的命令是:A. CREATE TABLEB. CREATE DATABASEC. INSERT INTOD. SELECT19、以下哪个选项不是数据库系统中的数据模型?A. 关系型模型B. 网状模型D. 层次模型 20、在数据库设计过程中,以下哪个阶段是确保数据库系统稳定性和性能的关键阶段?A. 需求分析B. 概念结构设计C. 逻辑结构设计D. 物理设计21、在关系数据库系统中,以下哪种查询是SQL语言中定义的DML操作?A. SELECTB. INSERTC. UPDATED. ALL22、在数据库设计中,以下哪种范式是确保数据完整性、避免数据冗余和更新异常的最基本要求?A. 第一范式(1NF)B. 第二范式(2NF)C. 第三范式(3NF)D. 第四范式(4NF)23、在数据库系统中,以下哪种数据模型主要用于描述数据间的关系?A. 层次模型B. 网状模型C. 关系模型24、在SQL语言中,用于查询满足特定条件的记录的命令是:A. INSERTB. UPDATEC. DELETED. SELECT25、在关系数据库中,以下哪一项不是数据完整性约束的类型?A. 实体完整性B. 引用完整性C. 用户定义完整性D. 逻辑完整性26、以下哪个SQL语句可以实现查询名为“Employee”的表中,名为“Department”字段的值为“Sales”的记录?A. SELECT * FROM Employee WHERE Department=‘Sales’B. SELECT * FROM Employee WHERE =‘Sales’C. SELECT * FROM Employee WHERE Department=‘Sales’ AND=‘Sales’D. SELECT * FROM Employee WHERE Department.ID=‘Sales’27、在数据库系统中,什么是事务,事务具有哪些特性?28、简述关系数据库的规范化理论及其作用。
试题某工厂的信息管理数据库的部分关系模式如下所示:职工(职工号,姓名,年龄,月工资,部门号,电话,办公室)部门(部门号,部门名,负责人代码,任职时间)问题1]解答(a)PRIMARY KEY(b)FOREIGN KEY (负责人代码) REFERENCES职工(c)FOREIGN KEY (部门号) REFERENCES部门(d)月工资>=500 AND<月工资=5000,或月工资BETWEEN 500 AND 5000(e)count(*),Sum (月工资),Avg (月工资)(f)GrOup by部门号[问题2]解答(1)该行不能插入“职工”关系,它违反了实体完整性中主码必须惟一区分关系中的每一个属性。
(2)该行可以插入“职工”关系,尽管部门号、电话和办公室为空,但是它表示该雇员没有分配到某个部门。
(3)该行不能插入“职32'’关系,它违反了参照完整性。
因为6在关系“部门”中不存在。
[问题3]解答(1)和(2)都不能更新,因为使用分组合聚集函数定义的视图是不可更新的。
(3)不一定,视子查询的返回值而定,(4)和(5)允许查询。
[问题4]解答(1)对于外层的职工关系E中的每一个元组,都要对内层的整个职工关系M进行检索,因此查询效率不高。
(2)Select 职工号from 职工,(Select Max (月工资) as 最高工资,部门号Group by 部门号)as depMax where 月工资=最高工资and 职工.部门号=depMax.部门号[问题5]解答Select 姓名,年龄,月工资from 职工where 年龄>45;Union Select 姓名,年龄,月工资from 职工where 年龄月工资<1000;试题某仓储超市采用POS(Point of Sale)收银机负责前台的销售收款,为及时掌握销售信息,并依此指导进货,拟建立商品进、销、存数据库管理系统。
该系统的需求分析已经基本完成,下面将进入概念模型的设计。
第一章数据库系统工程师2009年上午试题试题(60)视图设计属于数据库设计的(60)阶段。
A.需求分析B.概念设计C.逻辑设计D.物理设计试题(60)分析本题考查对数据库设计相关概念的掌握。
视图设计是指在确定了基本表的情况下,根据处理需求,确定增加相应的视图,以便应用程序的编写和安全性要求,应属于逻辑结构设计阶段要完成的任务。
参考答案(60)C第三章数据库系统工程师2010年上午试题试题(28)数据库的视图、基本&和存储文件的结构分别对应(28)A.模式、内模式、外模式B.外模式、模式、内模式C.模式、外模式、内模式D.外模式、内模式、模式试题(28)分析本题考查数据库系统的基本概念。
数据库通常采用三级模式结构,其中:视图对应外模式、基本表对应模式、存储文件对应内模式。
参考答案(28)B试题(47)关于视图的叙述、错误的是(47)。
A、视图不存储数据,但可以通过视图访问数据B、视图提供了一种数据安全机制C、视图可以实现数据的逻辑独立性D、视图能够提高对数据的访问效率试题(47)分析本题考查对视图的理解。
视图是数据库系统中的一个重要机制。
视图构建于基本表或视图之上,为用户提供。
一个虚表,与实际存储数据的基本表之间建立一种映射关系,用户可以像基本表一样对视图进行操作(有些视图的更新操作是受限的),所有通过视图对数据的操作最终都转换为对基本表的操作来实现。
可以通过建立视图,将视图授权给指定用户,则用户只能访问通过视图可见的数据,对视图外的数据起到保护作用,用户无法访问。
运行中的数据库,出于对性能的要求,可能要对已有的基本表进行分解或合并,即数据库重构。
此时,数据库的模式发生改变,可以重建或修改已有的视图,保持视图中的数据项与原有视图或基本表中的数据项一致,并映射到修改后的基本表上,即修改模式外模式映像,保持外模式(视图中的数据项)不变,从而应用程序不用再改变。
即实现数据的逻辑独立性。
对视图操作与直接对视图对应的基本表操作,在编写程序方面可能会简化。
【说明】姓名:_______________ 分数:____________a) 客观题30 题,每题2 分,总计60 分b) 主观题4 题,每题10 分,总计40 分c) 满分100 分。
【不定项选择题(每题 2 分共60 分)】1、在HDFS 服务中,为了保证Name Node 高可用性的角色不包括( )A . Data NodeB . Journal NodeC . ZKFCD . Zookeeper2 、Namenode 在启动时自动进入安全模式,在安全模式阶段,说法错误的是( )A .安全模式目的是在系统启动时对数据有效性进行检查B .根据策略对数据块进行必要的复制或者删除C .当数据块的上报数达到阈值时,会自动退出安全模式D .允许用户对文件系统进行读写操作3、在集群中配置HDFS 的副本数为3,设置数据块大小为128M,此时我们上传一份64M 的数据文件,该数据文件占用HDFS 空间大小为( )A . 64MB . 128MC . 384MD . 192M6、下列计算框架中不属于分布式计算框架的是( )A . MapReduceB . MATLABC . SPARKD . Tez7、以下关于外表和托管表描述正确的是( )A、外表的数据存储在本地,托管表的数据存储在hdfs 上B、删除托管表只会删除Inceptor 上的元数据不会删除数据文件,删除外表两者都会被删除C、删除外表只会删除Inceptor 上的元数据不会删除数据文件,删除托管表两者都会被删除D 、删除托管表或者外表,incepotr 上的元数据和数据文件都会被删除8、以下对分桶表的描述正确的是( )A、分桶表通过改变数据的存储分布,对查询起到一定的优化作用B、分桶键不能是表中的列C、分桶数应为素数D、事物表必须制定分桶,分桶字段可以被更新9、以下关于inceptor excutor 资源配置的说法正确的有( )A 、Excutor 资源配置fixed 和ratio 两种模式B 、Excutor 内核数配置的是每一个excutor 所使用的逻辑core 数量C 、Excutor 内核数和内存配置比例普通为1 core:2G memoryD 、Excutor 分布可以指定每一个节点运行的excutor 数量或者executor 在集群上运行的B. CREATE TABLE EmployeeTBLPROPERTIES ('cache' = 'RAM','holodesk.index' = 'Sex, Region''holodesk.dimension' = 'Department')C. CREATE TABLE EmployeeTBLPROPERTIES ('cache' = ''Department'','holodesk.index' = 'Department','holodesk.dimension' = 'Sex, Region')D. CREATE TABLE EmployeeTBLPROPERTIES ('cache' = 'RAM','holodesk.index' = 'Department','holodesk.dimension' = 'Sex')11、关于Hyperbase 全局索引的描述,哪些是正确的?( )A.核心是倒排表B.全局索引概念是对应Rowkey 这个“一级”索引C.全局索引使用平衡二叉树D.全局索引使用B+树检索数据12、以下为Hyperbase 分布式存储的最小单元的是( )A 、Region serverB 、RegionC 、StoreFileD 、Store15、某交通部门通过使用流监控全市过往24 小时各个卡口数据,要求每分钟更新一次,原始流为org_stream,以下实现正确的是( )A. CREATE STREAMWINDOW traffic_stream AS SELECT * FROM original_streamSTREAM w1 AS (length '1' minute slide '24' hour);B. CREATE STREAM traffic_stream AS SELECT * FROM original_streamSTREAMWINDOW w1 AS (length '1' minute slide '24' hour);C. CREATE STREAM traffic_stream AS SELECT * FROM original_streamSTREAMWINDOW w1 AS (length '24' hour slide '1' minute);D. CREATE STREAM traffic_stream AS SELECT * FROM original_stream AS (length '24'second slide '1' minute);16、以下不是Zookeeper 的功能是( )A .配置管理B .集群管理C .分布式锁D .存储大量数据17、以下服务需要与zookeeper 进行通信的是( )A. HMasterB. Active NameNodeC. InceptorSQLD. Active ResourceManager18、下列是关于flume 和sqoop 对照的描述,不正确的是( )A . flume 主要用来采集日志而sqoop 主要用来做数据迁移B . flume 主要采集流式数据而sqoop 主要用来迁移规范化数据C . flume 和sqoop 都是分布式处理任务21、下列有关flume 的描述不正确的是( )A . flume 是Apache 的一个子项目B . flume 主要是一个日志采集,传输系统C . flume 和sqoop 功能相似,因此可以相互替代D . flume 可以同时采集集群内部和集群外部的日志数据22、下列sink 中哪些是flume 不支持的sink ( )A . HDFS sinkB . kafka sinkC . memory sinkD . file roll sink23、以下对ElasticSearch 描述不正确的是( )A .ElasticSearch 是分布式全文搜索引擎B .ElasticSearch 集群中分master 和data 节点C .ElasticSearch 数据存储在HDFS 上D .ElasticSearch 数据可以按Shard 分布在不同的节点上24、下列不属于kafka 应用场景的是( )A . 常规的消息采集B . 网站活动性跟踪C . 日志采集D . 关系型数据库和大数据平台之间的数据迁移25 、TDH 提供哪几种认证模式?( )28、以下对Hadoop 组件的应用场景描述正确的是( )A. Hive 主要用于构建大数据数仓,主要做批处理、统计分析型业务B. Hbase 主要用于检索查询的OLTP 业务C. ElasticSearch 主要用于全文检索的关键字查询业务D. Spark Streaming 主要用于实时数据的业务场景29、以下不属于管理角色的是( )A . Name NodeB . HMasterC . Resource ManagerD . Node Manager30、下面哪些工作不属于集群预安装工作( )A . 为集群中每一个节点的安装操作系统B . 选一个节点作为管理节点,修改其/etc/hosts 文件C . 安装Transwarp Manager 管理界面D . 配置集群安全模式【客观简答题(每题10 分,共40 分)】1 、集群有8 个节点,每一个节点有8 块硬盘 (默认3 副本)。
软件水平考试(中级)数据库系统工程师上午(基础知识)试题-试卷1(总分184, 做题时间90分钟)1. 选择题选择题()下列各题A、B、C、D四个选项中,只有一个选项是正确的,请将此选项涂写在答题卡相应位置上,答在试卷上不得分。
1.对属性值域的约束也称为( )。
SSS_SINGLE_SELA 静态完整性规则B 动态完整性规则C 域完整性规则D 值完整性规则2.SQL语言的中文名称为( )。
SSS_SINGLE_SELA 结构化语言B 程序语言C 查询语言D 结构化查询语言3.如果关系R是第一范式,且每一个属性都不传递依赖于R的侯选码,则称R是( )。
SSS_SINGLE_SELA 1NFB 2NFC BCNFD 4NF4.在基于Web的电子商务应用中,业务对象常用的数据库访问方式之一是(4)。
SSS_SINGLE_SELA JDBCB COMC CGID XML5.对于数据库恢复,下列描述正确的是(13)。
SSS_SINGLE_SELA 介质故障的恢复不需要DBA的参与,由DBMS自动完成B 日志文件严格按照事务的请求时间顺序进行记录C 事务故障恢复时需要逆向扫描日志对未完成事务进行UNDO操作D 检查点时刻的数据库一定是处于一致性状态的6.关于事务的故障与恢复,下列描述正确的是(2)。
SSS_SINGLE_SELA 事务日志用来记录事务执行的频度B 采用增量备份,数据的恢复可以不使用事务日志文件C 系统故障的恢复只需进行重做(Redo)操作D 对日志文件设立检查点目的是为了提高故障恢复的效率7.关系的度(degree)是指关系中(18)。
SSS_SINGLE_SELA 属性的个数B 元组的个数C 不同域的个数D 相同域的个数8.如果两名以上的申请人分别就同样的发明创造申请专利,专利权应授予(6)。
SSS_SINGLE_SELA 最先发明的人B 最先申请的人C 所有申请人D 协商后的申请人9.刘先生在参加希赛网软考学院系统分析师考试辅导时,获取了希赛网张教授编制的模拟试卷,之后将该套试卷收入其编写的《模拟试卷及分析》,并将该《模拟试卷及分析》出版,则刘先生(10)。
数据据工程师高频练习试卷1(题后含答案及解析) 题型有:1. 选择题 2. 简答题 3. 设计题选择题(1-20每题1分,21-30每题2分,共40分)下列各题A、B、C、D四个选项中,只有一个选项是正确的,请将此选项涂写在答题卡相应位置上,答在试卷上不得分。
1.数据模型定义了数据库中数据的组织、描述、存储和操作规范,可以分为概念模型、数据结构模型和物理模型三大类。
概念模型的典型代表是______。
A.实体一联系模型B.关系模型C.面向对象模型D.网状模型正确答案:A 涉及知识点:数据据工程师高频2.关于数据视图与三级模式,下列说法错误的是______。
A.数据视图是指用户从某个角度看到的客观世界数据对象的特征B.外模式是数据库用户能使用的局部数据,描述外模式时,通常需要给出其物理结构C.概念模式以数据模型的形式描述数据D.三级模式结构实现了数据的独立性正确答案:B解析:外模式是对数据库用户能够看见和使用的局部数据的逻辑结构和特征的描述,是与某一应用有关的数据的逻辑表示,所以描述外模式时不需要给出其物理结构。
知识模块:数据据工程师高频3.关于数据模型和模式结构,有下列说法:Ⅰ.数据库系统的开发者利用数据模型描述数据库的结构和语义,通过现实世界到信息世界再到机器世界的抽象和转换,构建数据库Ⅱ.数据结构模型是按用户的观点对数据进行建模,是现实世界到信息世界的第一层抽象,强调语义表达功能,易于用户理解,是用户与数据库设计人员交流的工具Ⅲ.在数据模型中有“型”和“值”的概念,其中值是对某一类数据的结构和属性的说明Ⅳ.在三级模式结构中,概念模式是对数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图上述说法正确的是______。
A.Ⅰ和ⅣB.Ⅱ、Ⅲ和ⅣC.Ⅰ和ⅡD.Ⅱ和Ⅳ正确答案:A解析:数据模型是数据库系统的形式框架,是用来描述数据的一组概念和定义。
包括描述数据、数据联系、数据操作、数据语义以及数据一致性的概念工具。
TDH数据平台认证工程师试题姓名:_______________ 分数:____________【说明】a)客观题30题,每题2分,总计60分b)主观题4题,每题10分,总计40分c)满分100分。
【不定项选择题(每题2分共60分)】1、在HDFS服务中,为了保证Name Node高可用性的角色不包括()A . Data NodeB . Journal NodeC . ZKFCD . Zookeeper2、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是()A.安全模式目的是在系统启动时对数据有效性进行检查B.根据策略对数据块进行必要的复制或删除C.当数据块的上报数达到阈值时,会自动退出安全模式D.允许用户对文件系统进行读写操作3、在集群中配置HDFS的副本数为3,设置数据块大小为128M,此时我们上传一份64M 的数据文件,该数据文件占用HDFS空间大小为()A . 64MB . 128MC . 384MD . 192M4、下列对YARN角色在集群中的作用描述正确的是()A . 集群资源管理B . 集群任务调度与管理C . 存储部分HDFS上的数据块D . 以上都正确5、在Yarn服务中,不包含以下哪种角色()A . ResourceManagerB . NodeManagerC . ApplicationMasterD . Contianer6、下列计算框架中不属于分布式计算框架的是()A . MapReduceB . MATLABC . SPARKD . Tez7、以下关于外表和托管表描述正确的是()A、外表的数据存储在本地,托管表的数据存储在hdfs上B、删除托管表只会删除Inceptor上的元数据不会删除数据文件,删除外表两者都会被删除C、删除外表只会删除Inceptor上的元数据不会删除数据文件,删除托管表两者都会被删除D、删除托管表或外表,incepotr上的元数据和数据文件都会被删除8、以下对分桶表的描述正确的是()A、分桶表通过改变数据的存储分布,对查询起到一定的优化作用B、分桶键不能是表中的列C、分桶数应为素数D、事物表必须制定分桶,分桶字段可以被更新9、以下关于inceptor excutor资源配置的说法正确的有()A、Excutor资源配置fixed和ratio两种模式B、Excutor内核数配置的是每个excutor所使用的逻辑core数量C、Excutor内核数和内存配置比例一般为1 core:2G memoryD、Excutor分布可以指定每个节点运行的excutor数量或executor在集群上运行的总数量,但是不能指定运行的节点10、假设使用场景中有如下查询语句SELECT Sex, Region, COUNT(ID), AVG (Salary)FROM EmployeeWHERE Department = 'IT'GROUP BY Sex, RegionORDER BY Sex, Region;通过holodesk的cube和index手段对这种过滤率和聚合率高的业务进行优化,以下建表正确的是()A.CREATE TABLE EmployeeTBLPROPERTIES ('cache' = 'RAM','holodesk.index' = 'Department','holodesk.dimension' = 'Sex, Region')B.CREATE TABLE EmployeeTBLPROPERTIES ('cache' = 'RAM','holodesk.index' = 'Sex, Region''holodesk.dimension' = 'Department')C.CREATE TABLE EmployeeTBLPROPERTIES ('cache' = ''Department'','holodesk.index' = 'Department','holodesk.dimension' = 'Sex, Region')D.CREATE TABLE EmployeeTBLPROPERTIES ('cache' = 'RAM','holodesk.index' = 'Department','holodesk.dimension' = 'Sex')11、关于Hyperbase全局索引的描述,哪些是正确的?()A.核心是倒排表B.全局索引概念是对应Rowkey这个“一级”索引C.全局索引使用平衡二叉树D.全局索引使用B+树检索数据12、以下为Hyperbase分布式存储的最小单元的是()A、Region serverB、RegionC、StoreFileD、Store13、以下有关Hyperbase说法正确的是()A、数据类型丰富,支持String、Int、Char等类型B、Key/value系统,key由Row,Column Family,Column Qualifier组成C、Hyperbase表中rowkey有序,按字典序降序排列D、以上说法都不正确14、以下关于StreamSQL的概念描述正确的是()A.Stream是数据流B.Streamjob是对一个或多个stream进行计算并将结果写进一个流的任务C.Application是一个或多个streamjob的集合D.以上说法都不正确15、某交通部门通过使用流监控全市过往24小时各个卡口数据,要求每分钟更新一次,原始流为org_stream,以下实现正确的是()A.CREATE STREAMWINDOW traffic_stream AS SELECT * FROM original_streamSTREAM w1 AS (length '1' minute slide '24' hour);B.CREATE STREAM traffic_stream AS SELECT * FROM original_streamSTREAMWINDOW w1 AS (length '1' minute slide '24' hour);C.CREATE STREAM traffic_stream AS SELECT * FROM original_streamSTREAMWINDOW w1 AS (length '24' hour slide '1' minute);D.CREATE STREAM traffic_stream AS SELECT * FROM original_stream AS (length '24'second slide '1' minute);16、以下不是Zookeeper的功能是()A.配置管理B.集群管理C.分布式锁D.存储大量数据17、以下服务需要与zookeeper进行通信的是()A.HMasterB.Active NameNodeC.InceptorSQLD.Active ResourceManager18、下列是关于flume和sqoop对比的描述,不正确的是()A . flume主要用来采集日志而sqoop主要用来做数据迁移B . flume主要采集流式数据而sqoop主要用来迁移规范化数据C . flume和sqoop都是分布式处理任务D . flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据19、有关使用sqoop抽取数据的原理的描述不正确的是()A . sqoop在抽取数据的时候可以指定map的个数,map的个数决定在hdfs生成的数据文件的个数B . sqoop抽取数据是个多节点并行抽取的过程,因此map的个数设置的越多性能越好C . sqoop任务的切分是根据split字段的(最大值-最小值)/map数D . sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作20、sqoop抽取数据时需要做一些数据转换的工作,下面说法不正确的是()A . --fields-terminated-by ‘\\01’ 用来设置在hdfs生成的文件的分割符B . --hive-drop-import-delims 用来设置在hdfs生成的文件的存储形式为列存储C . --null-string '\\N' 用来把所有的String类型的空值转换成hive的NULL值D . --null-non-string '\\N' 用来把非String类型的空值转换成hive的NULL 值21、下列有关flume的描述不正确的是()A . flume是Apache的一个子项目B . flume主要是一个日志采集,传输系统C . flume和sqoop功能相似,因此可以相互替代D . flume可以同时采集集群内部和集群外部的日志数据22、下列sink中哪些是flume不支持的sink()A . HDFS sinkB . kafka sinkC . memory sinkD . file roll sink23、以下对ElasticSearch描述不正确的是()A.ElasticSearch是分布式全文搜索引擎B.ElasticSearch集群中分master和data节点C.ElasticSearch数据存储在HDFS上D.ElasticSearch数据可以按Shard分布在不同的节点上24、下列不属于kafka应用场景的是()A . 常规的消息收集B . 网站活动性跟踪C . 日志收集D . 关系型数据库和大数据平台之间的数据迁移25、TDH提供哪几种认证模式?()A.所有服务使用简单认证模式——所有服务都无需认证即可互相访问B.所有服务都启用Kerberos认证,用户要提供Kerberos principal和密码(或者keytab)来访问各个服务C.所有服务都启用Kerberos同时Inceptor启用LDAP认证D.所有服务都启用LDAP认证26、以下对各组件的运维页面描述不正确的是()A.通过Name Node的50070页面对HDFS进行监控B.通过Resource Manager的8180对YARN上运行的任务进行监控C.通过HMaster的60010对HBase进行监控D.通过Hue Server的8888页面登入Hue27、Inceptor server服务无法启动时,该如何查看日志是()A.查看TDH manager所在节点/var/log/inceptorsql*/目录下的hive-server2.log日志B.查看Inceptor server所在节点/var/log/inceptorsql*/目录下的hive-server2.log日志C.查看Resource Manager所在节点/var/log/Yarn*/目录下的yarn-yarn-resourcemanager-poc-node1.log日志D.查看任意节点/var/log/inceptorsql*/目录下的hive-server2.log日志28、以下对Hadoop组件的应用场景描述正确的是()A.Hive主要用于构建大数据数仓,主要做批处理、统计分析型业务B.Hbase主要用于检索查询的OLTP业务C.ElasticSearch主要用于全文检索的关键字查询业务D.Spark Streaming主要用于实时数据的业务场景29、以下不属于管理角色的是()A . Name NodeB . HMasterC . Resource ManagerD . Node Manager30、下面哪些工作不属于集群预安装工作()A . 为集群中每个节点的安装操作系统B . 选一个节点作为管理节点,修改其/etc/hosts文件C . 安装Transwarp Manager管理界面D . 配置集群安全模式【客观简答题(每题10分,共40分)】1、集群有8个节点,每个节点有8块硬盘(默认3副本)。