BI基础知识测试
- 格式:doc
- 大小:119.50 KB
- 文档页数:12
招聘BI工程师笔试题与参考答案(某大型集团公司)一、单项选择题(本大题有10小题,每小题2分,共20分)1、在商务智能(BI)领域中,数据仓库的主要目的是什么?A. 存储原始交易数据B. 提供实时数据分析C. 集成不同源的数据以便于分析D. 直接支持前端应用程序答案:C解析:数据仓库是一个中心化的数据库,用于报告和数据分析,它从各种不同的操作数据源收集并整合数据,以便企业能够进行更高效、准确的业务分析和决策支持。
虽然数据仓库可以存储大量数据,并且可能支持某些形式的实时分析,但它主要不是为了直接支持前端应用程序或者作为原始交易数据的简单存储库。
2、以下哪一项不是ETL(抽取、转换、加载)过程的一部分?A. 从各种源系统抽取数据B. 清洗和转换数据以适应目标模型C. 将处理后的数据加载到数据仓库D. 在数据仓库中实时生成报告答案:D解析: ETL过程包括三个主要步骤:首先从不同的源系统中抽取数据;然后对这些数据进行清洗、转换,使其符合数据仓库的目标模型;最后将转换好的数据加载到数据仓库中。
而选项D描述的是数据仓库的一个用途——生成报告,但这并不是ETL流程的一部分。
报告生成通常是由BI工具根据数据仓库中的数据来完成的。
3、题干:在数据可视化中,以下哪种图表适合展示时间序列数据?A. 折线图B. 雷达图C. 散点图D. 柱状图答案:A解析:折线图适合展示时间序列数据,因为它能够清晰地展示数据随时间的变化趋势。
雷达图主要用于比较多个变量之间的关系,散点图适合展示两个变量之间的关系,柱状图适合展示不同类别数据的比较。
4、题干:在数据仓库中,以下哪个术语表示将数据从源系统中提取、转换并加载到数据仓库的过程?A. 数据清洗B. 数据集成C. 数据建模D. 数据挖掘答案:B解析:数据集成(Data Integration)是指将来自不同源的数据合并为一个统一的数据视图的过程。
在这个过程中,数据被提取(ETL中的E),转换(ETL中的T),然后加载(ETL中的L)到数据仓库中。
制造中心BI 星级学员培训试题(第一期)基本信息:[矩阵文本题] *FineBI 是_____软件有限公司推出的一款产品 [单选题] *A微软B华软C中软D帆软(正确答案)BI 的全称是____. [单选题] *A Book IntelligenceB Business Intelligence(正确答案)C Business InformationD Book Information以下哪项不是自助BI 的优点? [单选题] *A只能由IT 人员进行开发(正确答案)B快速拖拽,所见及所得C可视化界面便于交互分析D接入多种数据以下哪项不是BI 定义的数据类型? [单选题] *A数值类型B文本类型C日期类型D字符串类型(正确答案)对于明细展示,基础表在预览界面默认显示_____行数据 [单选题] *A 1000B 2000C 5000(正确答案)D 10000在FineBi中,年周粒度的周计算逻辑采用 iso 标准,每周开始的第一天为____。
[单选题] *A周一B周五C周六D周日(正确答案)FineBI 自助分析以____为方向,通过便携的数据处理和管控,提供自由的探索分析。
[单选题] *A 业务需求(正确答案)B IT 需求C 系统结构D用户习惯FineBI 数据分析全流程:数据准备数据加工_____仪表板分享仪表板查看[单选题] *A可视化分析(正确答案)B制作表格C制作图表D制作组件以下哪项不属于仪表板分享关键步骤? [单选题] *A仪表板直接分享B仪表板发送(正确答案)C仪表板公共链接分享D仪表板挂出分享在BI 数据准备界面中,以下哪些不属于管理基础表操作选项? [单选题] * A 移动B重命名C删除D复制(正确答案)传统BI的缺点包含以下哪些? *A只能由IT 人员进行开发(正确答案)B开发新需求耗时长(正确答案)C固定格式图表,不灵活(正确答案)D接入多种数据仪表板查看关键步骤主要是指? *A仪表板浏览(正确答案)B仪表板另存为(正确答案)C仪表板分享D仪表板导出(正确答案)在数据集编辑界面,基础表操作可分为 *A字符类型转换(正确答案)B字段设置(正确答案)C行列转换(正确答案)D自循环列(正确答案)表数据在预览的时候可以有两种查看方式,分别是: * A明细展示(正确答案)B图形展示C图片展示D表结构展示(正确答案)文本字段过滤可选条件包含 *A属于(正确答案)B不属于(正确答案)C最大的N个D开头是(正确答案)数值字段过滤可选条件包含 *A等于(正确答案)B不等于(正确答案)C不介于(正确答案)D非空(正确答案)时间字段过滤可选条件包含 *A最大的N个B日期最早的N个(正确答案)C等于(正确答案)D不属于(正确答案)“新增列-公式函数”操作界面支持使用_、_、_、_计算 *A加(正确答案)B减(正确答案)C乘(正确答案)D除(正确答案)FineBI更新Excel 的两种模式分别是 *A合并数据B追加数据(正确答案)C替换数据(正确答案)D粘贴数据“新增列-时间差”操作界面中选择需要计算时间差的两个时间,用户可___作为得到的时间差单位 *A年(正确答案)B月(正确答案)C天(正确答案)D秒(正确答案)在数据准备步骤中,用户本地保存的excel表格字段列越多越好 [判断题] *对错(正确答案)当数据表处于编辑状态时,不可以对该数据表进行重命名,移动或者删除 [判断题] *对(正确答案)错在删除之前请确认清楚该数据表是否不再需要使用,删除后将不能恢复 [判断题] *对(正确答案)错在上传到BI 的报表中,用户需要检查是否存在合并单元格,避免上传失败 [判断题] *对(正确答案)错在可视化图表编辑界面,文本类型和日期类型是不能拖入到“指标”区域 [判断题] *对(正确答案)错。
笔试题(只写关键点或思路即可):1.线程、进程区别。
线程间通信方式、进程间通信方式?进程和线程都是由操作系统所体会的程序运行的基本单元,系统利用该基本单元实现系统对应用的并发性。
进程和线程的区别在于:简而言之,一个程序至少有一个进程,一个进程至少有一个线程.1.1数据库中各种组件、触发器、索引、容器?2.删除一张表中全部数据,都有哪些方法?最快的是哪种?为什么?SQL:1. 删除表中所有内容:delete from table_nametable_name是表名2. 删除所有的表:请问你用的哪个数据库?这里给出oracle的方法(A,B两种):oracle不能删除所有的表,只能删除所有用户下的表,所有的表都删了,数据库就完蛋了(有一些系统表)方法A select 'drop table ' || table_name || ' cascade ;' from user_tables 该语句的查询结果是N个删除语句,将其复制,然后在sql窗口运行即可~方法B drop user 用户名cascade 这句话一下搞定,连用户也没了(一次只能删除一个用户下所有的表)oracle :TRUNCATE TABLE tableNametableName是要删除全部行的表的表名TRUNCATE TABLE 虽然与不带 WHERE 的 DELETE 语句相同但 TRUNCATE TABLE 速度更快而且占资源少速度快TRUNCATE TABLE 不记录日志所以不能激活触发器TRUNCATE TABLE 不能用于参与了索引视图的表TRUNCATE TABLE dzjc.dzjc_yhmc;TRUNCATE TABLE dzjc.dzjc_yhmc;3.往数据库中加载1000万的数据,有哪些方法?最快的是哪种?为什么?对正常的数据库比如sql server 或oracle, 1000w 不是太多问题。
1. 您需要在包含默认SQL Server 2005 实例的现有服务器上,为新应用程序安装SQL Server 2008 实例。
您需要确保两个数据库实例均可用于其各自认证通过的第三方应用程序。
实现此目的时,必须满足以下限制条件:·数据库管理工作量最小。
·现有的应用程序环境保持不变。
您应该如何操作?A. 将SQL Server 2005 应用程序升级为使用SQL Server 2008。
B. 将SQL Server 2005 实例升级为SQL Server 2008 实例。
C. 以命名实例的形式安装SQL Server 2008,并将新应用程序配置为使用新实例。
D. 以默认实例的形式安装SQL Server 2008,并将新应用程序配置为使用默认实例。
2. 您管理一个SQL Server 2008 实例。
您需要配置该实例,为预计执行开销小于3 的查询使用单线程。
您应该设置哪个sp_configure 配置选项?A. 优先级提升B. 预计算级别C. 最大工作线程数D. 查询调控器开销限制E. 并行的开销阈值3. 您管理多个SQL Server 2008 实例。
您需要确保所有SQL Server 实例都在以下方面进行统一配置:·命名约定·安全设置·强制索引创建·避免数据碎片您应该如何操作?A. 使用数据库引擎优化顾问。
B. 使用SQL Server 配置管理器。
C. 在Microsoft SQL Server Management Studio 中创建策略。
D. 在Microsoft SQL Server Management Studio 中创建维护计划。
4. 您维护一个默认SQL Server 2008 实例。
您计划配置FILESTREAM 数据以满足下列要求:·启用FILESTREAM 以实现文件I/O 流访问。
·允许远程客户端计算机具有对FILESTREAM 数据的流访问权限。
2024年招聘BI工程师笔试题及解答(某世界500强集团)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、以下哪个工具通常用于数据仓库的ETL(提取、转换、加载)过程?A. ExcelB. TableauC. TalendD. PowerPoint2、在BI(商业智能)项目中,以下哪个阶段通常不涉及数据分析工作?A. 数据采集B. 数据清洗C. 数据建模D. 数据报告3、以下哪个工具通常用于数据可视化?()A. ExcelB. TableauC. SQLD. Python4、在BI项目中,以下哪个阶段通常负责数据清洗和预处理?()A. 数据采集B. 数据建模C. 数据分析D. 数据展示5、某世界500强集团在分析销售数据时,发现以下数据分布:•销售额低于10万元的占比30%•销售额在10-20万元之间的占比40%•销售额在20-30万元之间的占比20%•销售额高于30万元的占比10%请问,该集团销售额的集中趋势最接近于以下哪个指标?A. 平均销售额B. 中位数C. 标准差D. 最大销售额6、在BI工具中,以下哪个功能不属于数据可视化的一部分?A. 条形图B. 折线图C. 地图D. 数据透视表7、以下哪种工具被广泛用于数据可视化,并且支持多种编程语言进行扩展?A. TableauB. Power BIC. QlikViewD. Python8、在数据仓库设计中,以下哪项不是数据仓库的常见数据模型?A. 星型模型B. 雪花模型C. 物化视图D. 冒烟测试9、某公司使用BI工具进行数据分析,以下哪种数据源最适合用于构建实时报表?A. 数据库B. 数据仓库C. 云存储D. Excel文件 10、在BI工具中,以下哪个功能不属于数据建模的范畴?A. 关联数据表B. 创建数据透视表C. 设计数据立方体D. 定义数据规则二、多项选择题(本大题有10小题,每小题4分,共40分)1、以下哪些技术是商业智能(BI)工程师在开发数据可视化和分析时常用的工具或技术?()A、SQLB、TableauC、Power BID、Python的Pandas库E、Excel2、在BI项目中,以下哪些是数据治理的关键方面?()A、数据质量管理B、数据安全性C、数据一致性D、数据标准化E、数据生命周期管理3、以下哪些工具或技术是数据可视化领域中常用的?()A、TableauB、Power BIC、Python的Matplotlib库D、ExcelE、Google Analytics4、以下哪些是BI工程师在工作中需要具备的技能?()A、数据清洗和预处理B、SQL数据库查询和操作C、数据仓库设计和实施D、数据分析和挖掘E、团队协作和项目管理5、以下哪些是数据仓库中常用的数据模型?()A、星型模型B、雪花模型C、事实表D、维度表6、以下哪些工具通常用于数据清洗和预处理?()A、PandasB、NumPyC、Spark SQLD、Tableau7、以下哪些工具或技术是BI(商业智能)工程师在数据分析和报告过程中常用的?A. ExcelB. SQLC. TableauD. PythonE. R8、在BI项目中,以下哪些角色或职责是关键的?A. 数据分析师B. 数据库管理员C. 业务用户D. 技术支持工程师E. 项目经理9、在进行数据可视化时,以下哪些图表类型适合用来展示时间序列数据?(多选)A. 折线图B. 饼图C. 条形图D. 热力图E. 散点图 10、关于数据仓库和数据湖的区别,下列哪项描述是正确的?(多选)A. 数据湖存储原始数据,而数据仓库主要存储处理过的数据。
2025年招聘BI工程师笔试题及解答(某大型央企)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、在BI(商业智能)领域中,以下哪个工具通常用于数据仓库的构建?A、ExcelB、TableauC、Oracle BI EED、MySQL2、在ETL(提取、转换、加载)过程中,以下哪个步骤是对数据进行清洗和转换的过程?A、Extract(提取)B、Transform(转换)C、Load(加载)D、Data Quality(数据质量)3、在数据仓库设计中,以下哪个阶段主要负责数据从源头到数据仓库的抽取、转换和加载(ETL)?A. ETL阶段B. 数据建模阶段C. 数据集成阶段D. 数据访问阶段4、在BI(商业智能)系统中,以下哪种技术通常用于实现数据可视化?A. SQL查询B. Excel图表C. OLAP多维分析D. ETL工具5、以下关于大数据技术在企业中的应用,说法错误的是:A. 大数据可以帮助企业进行市场分析,了解消费者行为B. 大数据可以用于优化生产流程,提高生产效率C. 大数据可以用于人力资源管理,提升员工绩效D. 大数据可以用于网络安全,防止企业数据泄露6、以下关于BI(商业智能)工具的特点,描述不正确的是:A. BI工具可以提供实时数据分析和可视化B. BI工具支持多种数据源接入,包括数据库、日志文件等C. BI工具适用于不同规模的企业,具有灵活性D. BI工具可以自动生成报告,提高工作效率7、以下关于数据仓库的设计原则,哪项是错误的?A、数据仓库的设计应遵循第三范式,避免数据冗余。
B、数据仓库的数据通常是历史数据,因此可以存储在普通的数据库中。
C、数据仓库的设计应注重数据的一致性和完整性。
D、数据仓库的查询性能应优先考虑。
8、在BI(商业智能)系统实施过程中,以下哪个步骤不属于数据质量管理的范畴?A、数据清洗B、数据验证C、数据标准化D、数据可视化9、在数据仓库中,以下哪个是用于存储数据的底层逻辑结构?A、数据库管理系统(DBMS)B、星型模式(Star Schema)C、雪花模式(Snowflake Schema)D、数据立方体(Data Cube) 10、在BI(商业智能)项目中,以下哪个不是常见的ETL(提取、转换、加载)过程中的任务?A、数据清洗B、数据集成C、数据挖掘D、数据展示二、多项选择题(本大题有10小题,每小题4分,共40分)1、以下哪些是BI(商业智能)系统常用的数据源类型?()A、关系型数据库B、非关系型数据库C、数据仓库D、日志文件E、实时数据流2、在BI项目的实施过程中,以下哪些步骤是正确的数据集成流程?()A、数据抽取B、数据清洗C、数据转换D、数据加载E、数据验证3、以下哪些工具或技术是BI(商业智能)工程师在数据分析过程中常用的?()A. SQLB. PythonC. TableauD. ExcelE. Hadoop4、在BI项目实施过程中,以下哪些角色是必不可少的?()A. 数据分析师B. 数据库管理员C. 业务分析师D. 技术支持工程师E. 项目经理5、以下哪些是数据仓库设计中的常见架构模式?()A. 星型模式B. 雪花模式C. 事实表-维度表模式D. 线性模式6、以下关于数据可视化技术的描述,正确的是哪些?()A. 数据可视化可以帮助用户更好地理解和分析数据B. 数据可视化可以提高数据的可读性和交互性C. 数据可视化技术适用于所有类型的数据D. 数据可视化技术可以自动生成报告7、以下哪些工具或技术通常被用于数据仓库和商业智能(BI)项目中?()A. ETL工具(Extract, Transform, Load)B. SQL数据库C. NoSQL数据库D. TableauE. Python数据分析库8、在BI项目中,以下哪些活动属于数据准备阶段?()A. 数据清洗B. 数据建模C. 数据集成D. 数据治理E. 数据可视化9、以下哪些是数据仓库的主要特征?A. 面向主题的B. 集成的C. 不可更新的D. 随时间变化的 10、以下哪种技术或工具主要用于ETL(抽取、转换、加载)过程?A. SQL Server Integration Services (SSIS)B. TableauC. Apache HadoopD. Oracle GoldenGate三、判断题(本大题有10小题,每小题2分,共20分)1、BI工程师在数据仓库设计时,通常不需要考虑数据的实时性。
第1章选择及填空题第1章1.1.对分组聚合的结果集要进行过滤应使用()。
A) WHERE子句B) HA VING子句C) 算数比较符D) 逻辑比较符参考答案:B1.2.关系数据库中数据库的()最不可能为空值。
A) 非主属性B) 编号C) 主键D) 外键参考答案:C1.3.在结果集中过滤掉重复的记录使用关键字()。
A) UNIQUEB) IDENTITYC) DISTINCTD) ONLY参考答案:C1.4.使用SQL命令将教师表teacher中工资salary字段的值增加200,应该使用的命令是()。
A) Replace salary with salary+200B) Update teacher salary with salary+200C) Update set salary with salary+200D) Update teacher set salary=salary+200参考答案:D1.5.查询city列的值为空的记录,在where子句中的条件应写为()。
A) city=nullB) city='null'C) city is nullD) city is 'null'参考答案:C1.6.设有图书管理数据库图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2)) 读者(借书证号C(4),单位C(8),姓名C(6),性别C(2),职称C(6),地址C(20))借阅(借书证号C(4),总编号C(6),借书日期D(8))对于图书管理数据库,求CIE单位借阅图书的读者的人数。
下面SQL语句正确的是()。
SELECT ___1___ FROM 借阅WHERE 借书证号___2___A) COUNT (DISTINCT 借书证号) ,IN (SELECT 借书证号FROM 读者WHERE 单位=’CIE’)B) COUNT (DISTINCT 借书证号) ,IN (SELECT 借书证号FROM 借阅WHERE 单位=’CIE’)C) SUM (DISTINCT 借书证号) ,IN (SELECT 借书证号FROM 读者WHERE 单位=’CIE’)D) SUM (DISTINCT 借书证号) ,IN (SELECT 借书证号FOR 借阅WHERE 单位=’CIE’)参考答案:A1.7.查询结果根据价格从大到小排序,使用的order by子句为()。
bi 面试题BI面试题现如今,随着信息技术的快速发展和大数据的普及应用,数据分析和商业智能(Business Intelligence,简称BI)的重要性愈发凸显。
越来越多的企业开始重视BI专业人才的招聘,因此BI面试题也备受关注。
本文将针对BI面试题进行探讨,旨在帮助应聘者更好地应对面试。
一、基础知识篇在BI面试中,基础知识的掌握是最为重要的部分。
下面将介绍一些常见的BI基础知识问题。
1. 什么是BI?BI是指通过对企业内部和外部的数据进行收集、清洗、加工、分析和展现,帮助企业决策者更好地了解业务状态、市场趋势和客户需求的一门技术和方法。
2. BI的主要应用领域有哪些?BI可以应用于各个领域,比如销售分析、市场营销、客户关系管理、供应链管理等。
3. 数据仓库与数据集市有什么区别?数据仓库是指将不同系统的数据进行整合存储,用于支持复杂的分析和决策。
而数据集市是数据仓库的子集,主要服务于特定的业务需求。
4. OLAP和OLTP的区别是什么?OLAP(在线分析处理)是一种面向决策分析的技术,目的是通过多维数据分析实现对数据的多角度、多维度的查询和分析。
OLTP(在线事务处理)是指对事务性数据进行高效处理和管理的技术。
二、技术工具篇除了基础知识,BI面试中还常会涉及到一些技术工具的应用和操作。
下面将介绍一些常见的BI技术工具问题。
1. 你熟悉哪些BI工具?回答时可以根据自己的实际经验罗列一些常见的BI工具,比如Tableau、Power BI、Cognos等,并介绍自己在这些工具的应用经验和项目经验。
2. Tableau和Power BI有什么区别?Tableau和Power BI都是常见的数据可视化工具,但Tableau在可视化和交互性方面表现出色,适用于复杂的数据分析需求;而PowerBI则更注重与Microsoft产品的整合和易用性。
3. 如何进行数据清洗?数据清洗是BI过程中非常关键的一步。
可以介绍常用的数据清洗技术,比如去重、填充缺失值、异常值处理等,并结合具体场景进行说明。
铋基础知识一、铋的性质:银白色或微红色,有金属光泽,性脆,导电和导热性都较差。
铋是逆磁性最强的金属,在磁场作用下电阻率增大而热导率降低。
铋及其合金具有热电效应。
铋在凝固时体积增大,膨胀率为3.3%。
铋的硒化物和碲化物具有半导体性质。
室温下,铋不与氧气或水反应,在空气中稳定,加热到熔点以上时能燃烧,发出淡蓝色的火焰,生成三氧化二铋,铋在红热时也可与硫、卤素化合。
铋粉在氯气内着火。
铋不溶于水,不溶于非氧化性的酸(如盐酸),使浓硫酸和浓盐酸,也只是在共热时才稍有反应,但能溶于王水和浓硝酸。
由于铋的熔点低,因此用炭等可以将它从它的天然矿石中还原出来。
所以铋早被古代人们取得,但由于铋性脆而硬,缺乏延展性,因而古代人们得到它后,没有找到它的应用,只是把它留在合金中。
铋是银白色金属,密度9.8,熔点271.3℃,沸点 1560℃,性脆,导电和导热性都比较差。
铋是逆磁性最强的金属,在磁场作用下电阻率增大而热导率降低。
铋及其合金具有热电效应。
二、铋的分布:全球铋金属储量为33万吨,储量基础为68万吨。
铋资源主要分布在中国、澳大利亚、秘鲁、墨西哥、玻利维亚、美国、加拿大和日本。
中国的铋储量居世界第一,储量大约为24万吨,占世界总储量的75%;储量基础约为47万吨,占世界的69%。
我国目前已有铋矿70多处,铋金属储量在1万吨以上的大中型矿区有6处,储量占全国总储量的78%。
其中5万吨以上金属储量的大型矿区2处,储量占全国总储量的66%。
我国铋资源分布在13个省市自治区。
其中储量最大的是湖南、广东和江西,这三个省的储量占全国总储量的85%左右;其次分布在云南、内蒙古、福建、广西和甘肃等省。
三、铋的来源:铋的主要矿物有自然铋(Bi)、辉铋矿(Bi2S3)、铋华(Bi2O3)、以及菱铋矿(nBi2O3·mCO2·H2O)、铜铋矿(3Cu2S·4Bi2S3)等,其中以辉铋矿与铋华为最重要。
铋的矿物大都与钨、钼、铅、锡、铜等金属矿物共生,很少形成有单独开采价值的矿床,所以需在其它主金属选矿过程中分离出铋精矿。
BI 基础知识测试一、填空题:每空1分,共40分1、商业智能技术(Business Intelligence),以、、为核心技术,同时融合了和技术。
2、数据抽取在技术上主要涉及互连、、、、、监控以及等方面。
3、业界主要的数据抽取工具有、、DataStage和Sagent等4、业界主要的OLAP Server有:、等5、业界主要的前端工具:、、、BI.Office等6、是OLAP的核心,其组织形式包括模型,模型。
7、维度分类包括:、、。
8、数据仓库基本元素包括:、数据源、、、9、多维模型设计基本元素:维度(、成员)、、、、和安全机制10、项目的具体的实施步骤:1). 项目前期准备;2). 需求分析;3). 逻辑数据模型设计;4). ;5). 物理数据库设计;6). ;7). ;8)、;9)、解决方案集成(测试验收与试运行)11、数据挖掘的模式,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。
在实际应用中,往往根据模式的实际作用细分为以下6 种:1)、2)、3)、4)、5)、关联模式6)、序列模式二、问答题:共60分。
12、(6分)请说明BI技术体系之间是如何实现互补的?13、(9分)请简述一下数据仓库系统的显著特征。
14、(8分)数据仓库设计的原则是什么?15、(12分)在ETL阶段,应注意一些什么问题?16、(10分)常用的增量抽取方法有哪些?每种方法都有些什么样的问题?17、(10分)请简述一下三种OLAP存储方式的优缺点各是什么?18、(5分)在项目实施过程中,逻辑模型设计和物理模型设计各自的任务是什么?参考答案(每空1分)1、数据仓库、在线分析、数据挖掘、关系数据库、在线事务处2、复制、增量、转换、调度、数据安全性3、Microsoft DTS、PowerCenter4、IBM OLAP Server、SQL Server Analysis 20005、Cognos、Brio、BO6、关系型数据库、事实表、维表、索引7、多维数据结构、星型、雪花8、普通维、雪花维、父子维9、级别、度量值(指标)、计算值(计算成员)、存储方式、角色权限10、系统体系结构设计、数据转换加载ETL、前端应用开发、数据仓库管理(处理流程与操作)11、分类模式、回归模式、时间序列模式、聚类模式12、互补性(每点2分,共6分)▪数据仓库技术:数据整合集成各系统的历史数据,建立面向主题的企业数据中心▪在线分析处理技术:数据分析灵活、动态、快速的多维分析、随机查询、即席报表▪数据挖掘技术:知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策13、数据仓库系统的显著特征一、频繁的变化(3分,以下每点1分)数据仓库系统在任何企业信息系统中都是最不稳定的环节,对数据仓库各个部分的调整和修改十分频繁。
这是由数据仓库系统的功能和结构决定的。
数据仓库系统的目的是为企业中不同的用户提供信息支持,用户的信息需求随着市场的变化随时可能发生变化,所以数据仓库系统也必须不断变化适应新的需求。
从技术层面看,数据仓库的数据不是由自身产生,而是由业务系统数据库获得,因此数据仓库系统必须随着业务系统的变化进行修改和调整,这也是造成数据仓库经常变化的重要原因二、面向企业中不同业务和用户(2分)大规模企业信息系统通常由多种应用系统负责处理不同的业务,但数据仓库系统是企业信息的提供平台,它存在的主要目的之一是为企业提供统一的、正确的信息,所以它必须支持不同的业务、不同部门、不同用户的需求三、少量大事务处理vs 大量小事务处理(2分)从技术层面考虑,业务系统的应用特点是大量用户产生大量的事务,每一个事务占用的资源和运行的时间都很少。
而数据仓库系统经常需要对庞大的历史信息进行查询和分析,每个事务都涉及大量的数据,事务的数量相对业务系统要小得多。
这样的特点要求数据仓库系统和业务处理系统采用不一样的设计方法和处理技术四、独立的系统(2分)由于数据仓库系统与普通业务处理系统存在的显著区别,出于性能和运行的考虑,通常它会采用完全独立的主机、数据库和应用服务器,而成为一个独立的系统14、数据仓库设计的原则(每点1分,共8分)⏹模型构架尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。
⏹设计方法将常识规范化方法应用于维度表设计。
例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。
⏹维表设计设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。
⏹事实表设计不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。
⏹数据存储方式在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。
⏹索引在关键字段上创建索引,以提高处理多维数据集的性能。
⏹特殊要求根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。
⏹增量更新必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。
15、在ETL阶段,有几个重要的问题是非常值得注意的:一.数据的有效性检查(2分)为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。
如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。
源系统专家包括具有技术专业知识和非技术知识的人士。
二.数据的清洗和转换(4分)由于数据抽取中的数据是来源于业务系统中的业务数据,难免会存在各种原因所导致的脏数据,例如数据不在给定的界限之内或对于实际业务来说毫无意义的数据。
这些数据就是数据清洗的对象。
清除数据包括对那些在给定范围之外的数据采取纠正和舍去等措施。
同样,由于数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统的,又或者是属于不同的业务系统。
因而这些数据的存储格式各不相同,或者相同的数据具有不同业务含义。
而数据的转换正是为了解决这一问题而必须进行的数据抽取步骤。
三.数据的聚合与分割(4分)粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。
细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。
由于数据仓库中数据的来源是不同的业务系统数据,而各个系统对数据存储的粒度各不相同。
而数据仓库中同一分析主题中数据的粒度必须是统一的,所以,为了保证数据粒度的一致性,必须对原有数据进行聚合(汇总)或分割(细化)。
四.数据安全性(2分)在数据抽取中还会涉及的一个重要问题就是数据的安全性。
数据的抽取必非一个完全的技术问题,往往牵涉整个企业中各个不同部门中数据的共享。
那么数据共享中的权限等安全问题也就是数据抽取中必须要认真对待的问题。
如何保证数据抽取中和数据集中后的限制与共享往往需要业务人员的配合和介入,不能将该问题当作单纯的技术问题来对待,而必须进行周密的考虑和计划。
16、常用的增量抽取方法有(每个2分,共10分):一.时间戳如果在原始数据中含有时标,对新插入或更新的数据有标记或是数据在更新时有时间戳,那么只需根据时标进行判断即可。
但并非所有的数据源中都会含有时标设计。
二.增量文件它是由应用生成的,记录了应用所改变的所有内容。
利用增量文件效率很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。
此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。
但应用成千上万,且修改代码十分繁琐,同时涉及业务应用,所以这种方法很难实现。
三.数据快照在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。
它占用大量资源,对性能影响极大,因此并无多大实际意义。
四.日志文件最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。
同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。
当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。
比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。
但比较而言,日志文件仍然是最可行的一种选择。
五.业务逻辑在进行增量抽取时也可以利用实际业务应用中提供的逻辑来进行增量抽取,但是使用该方法必须对应用逻辑十分了解,并且受应用的牵制较多,并非最佳选择。
由于数据增量抽取的复杂性,以上各种方法的应用往往是结合使用的,并且在必要的时候可能需要人工的干预,而怎样才能使增量抽取达到最大的自动化也仍然是一个正在摸索中的难题。
17、存储方式优缺点一.多维存储方式(MOLAP)(4分)MOLAP在服务器上对数据立方体数组及其管理技术的实现,可以所有的信息查询都从MOLAP 服务器上获得。
⏹优势☐性能好、响应速度快;☐支持高性能的决策支持计算;☐复杂的跨维计算;☐多用户的读写操作。
⏹缺点☐占用的存储空间较大☐难以达到TB 级数据量;☐需要进行预计算,可能导致数据爆炸;☐无法支持维的动态变化;☐缺乏数据模型和数据访问的标准。
二.关系数据库存储方式(ROLAP)(4分)ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。
⏹优势☐没有大小限制;现有的关系数据库的技术可以沿用;☐可以通过SQL实现详细数据与概要数据的储存;☐现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度;☐查询性能较不如MOLAP方式。
☐占用的存储空间较少⏹缺点☐一般比MDD响应速度慢;☐SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。
三.混合存储方式(HOLAP)(2分)将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存储方式。
⏹特点☐查询性能介于以上两种方式之间☐占用的存储空间介于以上两种方式之间☐适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集18、逻辑模型设计(2.5分,每个0.5分)主要任务:–进行原始数据分析–建立实体模型–建立实体间依赖关系–完善并填入所有属性–建立数据库逻辑模型物理模型设计(2.5分,每个0.5分)主要任务:–转换逻辑数据模型(LDM)为物理数据模型–定义主索引、次索引–数据库建立–设计优化–数据库功能测试。