当前位置:文档之家› 数据仓库工程师Data Warehouse Developer

数据仓库工程师Data Warehouse Developer

数据仓库工程师Data Warehouse Developer
数据仓库工程师Data Warehouse Developer

数据仓库工程师Data Warehouse Developer 若干(此职位已经停止招聘)

工作性质:全职截止日期:2009-09-29

招聘人数:若干月薪范围:面议

工作经验:2年学历:不限

工作地点:塘沽

职位描述及要求

职位描述:

? 开发并实施数据管理解决方案,用于企业级商业数据分析与报表需求。

? 在高速发展的企业环境中,与内/外部用户、客户及管理层紧密沟通,收集业务需求,分析数据并开发报表,确保项目的成功实施。

? 设计开发数据仓库系统,包括数据仓库多维模型设计,ETL数据抽取、转换和装载过程设计以及前台的分析展示设计。

? 对来自商业运营及商业分析需要的各种报表需求提供技术支持, 逐步扩展商业智能业务的应

用范畴,从而提高整体的商业运营及商业分析水平。

? 参与数据库与数据仓库系统的日常运行维护,确保公司生产数据库与数据仓库系统的24x7无间断运行。

Responsibilities:

? Work with a team responsible for the development and implementation of enterprise data management solutions for analytics and reporting of various business areas.

? Interface with internal and external users, clients and managements to gather business requirements, perform data analysis and deliver reports in a fast paced environment.

? De velop a data warehouse system including schema design, ETL and BI programming.

? Support reporting needs for operations and business intelligence, and identify new areas where the data warehouse and BI software can be utilized to better drive operation and business results.

? Participate in the 24*7 support for the mission critical OLTP and Warehouse production environment

? 计算机或相关专业大学本科以上学历。

? 精通数据模型的逻辑与物理设计,具有数据仓库星形模式设计的实际经验。

? 至少2年以上数据仓库开发经验。

? 具备ORACLE Warehouse Builder工作经验者优先。

? 至少2年以上的报表开发经验,熟悉Oracle Business Intelligence Enterprise Edition 者优先。? 至少2年以上Oracle数据库开发与管理经验。

? 具有Oracle数据库编程经验,熟练使用SQL、PL/SQL编写存储过程。

? 熟悉Linux系统管理及shell编程者优先。

? 具有很强的逻辑分析, 独立解决问题的能力以及良好的学习能力。

? 能胜任在多项目多任务的环境中工作,具有优良的团队合作能力。

? 拥有良好的英语听说读写能力。

职位要求:

Experience:

? Excellent kno wledge and skills in both logical and physical data modeling and data warehouse star schema design

? Minimum of 2 to 3 years of experience as a data warehouse developer or report writer. ? Working experience with Oracle Warehouse Builder is strongly desir ed

? Two years of experience in programming reports in a BI environment; any exposure to Oracle Business Intelligence Enterprise Edition a plus.

? Two or more years experience in Oracle database development and administration

? Experience in database code development including writing stored procedures/functions using SQL and PL/SQL.

? Familiarity with Linux administration and shell scripting is preferred

? Strong analytical and problem solving skills, and excellent learning abilities

? Advanced multitaskin g capabilities and a strong team player

? Excellent oral and written communication in English is a must

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么 简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

2012下半年系统架构设计师下午试题Ⅱ分析与解答

2012年下半年系统架构设计师下午试题Ⅱ分析与解答 (总分75, 考试时间120分钟) 试题一论基于架构的软件设计方法及应用 基于架构的软件设计(Architecture-Based Software Design,ABSD)方法以构成软件架构的商业、质量和功能需求等要素来驱动整个软件开发过程。ABSD是一个自顶向下,递归细化的软件开发方法,它以软件系统功能的分解为基础,通过选择架构风格实现质量和商业需求,并强调在架构设计过程中使用软件架构模板。采用ABSD方法,设计活动可以从项目总体功能框架明确后就开始,因此该方法特别适用于开发一些不能预先决定所有需求的软件系统,如软件产品线系统或长生命周期系统等,也可为需求不能在短时间内明确的软件项目提供指导。 请围绕“基于架构的软件开发方法及应用”论题,依次从以下三个方面进行论述。 1.概要叙述你参与开发的、采用ABSD方法的软件项目以及你在其中所承担的主要工作。 2.结合项目实际,详细说明采用ABSD方法进行软件开发时,需要经历哪些开发阶段?每个阶段包括哪些主要活动? 3.阐述你在软件开发的过程中都遇到了哪些实际问题及解决方法。 试题一写作要点 一、论文中要具体介绍项目的背景与总体需求、系统所采用的技术路线以及你所承担的实际工作。 二、采用ABSD方法进行软件开发时,需要经历架构需求、架构设计、架构文档化、架构复审、架构实现和架构演化六个阶段。 1.架构需求阶段需要明确用户对目标软件系统在功能、行为、性能、设计约束等方面的期望。其主要活动包括需求获取、标识构件和架构评审。 (1)需求获取活动需要定义开发人员必须实现的软件功能,使得用户能够完成他们的任务,从而满足功能需求。与此同时,还要获得软件质量属性,满足一些非功能性需求。 (2)标识构件活动首先需要获得系统的基本结构,然后对基本结构进行分组,最后将基本结构进行打包成构件。 (3)架构需求评审活动组织一个由系统涉众(用户、系统分析师、架构师、设计实现人员等)组成的小组,对架构需求及相关构件进行审查。审查的主要内容包括所获取的需求是否真实反映了用户需求,构件合并是否合理等。 2.架构设计阶段是一个迭代过程,利用架构需求生成并调整架构决策。主要活动包括提出架构模型、将己标识的构件映射到架构中、分析构件之间的相互作用、产生系统架构和架构设计评审。 3.架构文档化的主要活动是对架构设计进行分析与整理,生成架构规格说明书和测试架构需求的质量设计说明书。 4.在一个主版本的软件架构分析之后,需要安排一次由外部人员(客户代表和领域专家)参加的架构复审。架构复审需要评价架构是否能够满足需求,质量属性需求是否

数据仓库设计指南

数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。GV1 =p}` 在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。M)_m= }d 根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。_R)tJ Ro ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。4\&P~kI 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:#:1< R\H6m 1)在业务系统和数据仓库之间形成一个隔离层。[t"C/;S! 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,8mPV{U KU 2)转移一部分业务系统细节查询的功能 Cr

数据库和数据仓库的区别

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、

2011年软考系统架构设计师(高级)学习笔记

2011年软考系统架构设计师学习笔记第一章 1.1.1 系统架构师的概念 现代信息系统“架构”三要素:构件、模式、规划;规划是架构的基石,也是这三个贡献中最重要的。 架构本质上存在两个层次:概念层,物理层。 1.2.1 系统架构师的定义 负责理解、管理并最终确认和评估非功能性系统需求,给出开发规范,搭建系统实现的核心架构,对整个软件架构、关键构建、接口进行总体设计并澄清关键技术细节。 主要着眼于系统的“技术实现”,同时还要考虑系统的“组织协调”。 要对所属的开发团队有足够的了解,能够评估该开发团队实现特定的功能需求目标和资源代价。 1.2.2 系统架构师技术素质 对软件工程标准规范有良好的把握。 1.2.3 系统架构师管理素质 系统架构师是一个高效工作团队的创建者,必须尽可能使所有团队成员的想法一致,为一个项目订制清晰的、强制性的、有元件的目标作为整个团队的动力; 必须提供特定的方法和模型作为理想的技术解决方案; 必须避免犹豫,必须具备及时解决技术问题的紧迫感和自信心。 1.2.4 系统架构师与其他团队角色的协调 系统分析师,需求分析,技术实现 系统架构师,系统设计,基于环境和资源的系统技术实现 项目管理师,资源组织,资源实现 由于职位角度出发产生冲突制约,不可能很好地给出开发规范,搭建系统实现的核心架构,并澄清技术细节,扫清主要难点。 所以把架构师定位在项目管理师与系统分析师之间,为团队规划清晰的目标。 对于大型企业或项目,如果一人承担多个角色,往往容易发生顾此失彼的现象。 1.3 系统架构师知识结构 需要从大量互相冲突的系统方法和工具中区分出哪些是有效的,那些是无效的。 1.4 从开发人员到架构师 总结自己的架构模式,深入行业总结规律。 几天的培训不太可能培养出合格的软件架构师,厂商的培训和认证,最终目的是培养自己的市场,培养一批忠诚的用户或产品代言人,而不是为中国培养软件架构师。

《数据仓库与数据挖掘技术》第1章:数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库 数据仓库的作用 建立数据仓库的好处

1.1.2 什么是数据仓库 1.数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库 是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最 后,数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库与数据挖掘

数据仓库与数据挖掘 摘要 数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology,the research about it is developing flourishing.In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.The data warehouse supports the mass data on the further handling and recycling.The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management. It helps the hospital to make decisions positively 关键字:数据仓库;数据挖掘;医院信息系统 Key words:Data Warehouse;Data Mine;Hospital information system

数据仓库-系统设计说明书

归一大数据平台 数据仓库 系统设计说明书受控不受控

修改变更记录:

目录 1引言 (5) 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计 (7) 2.1软件体系结构 (7) 2.2系统运行体系......................................................................... 错误!未定义书签。 2.2.1运行体系图..................................................................... 错误!未定义书签。 2.2.2程序/模块对应表............................................................ 错误!未定义书签。 2.3系统物理结构 (7) 2.4技术路线 (8) 3系统接口设计 (8) 3.1用户接口 (8) 4子系统/模块设计 (8) 4.1数据仓库 (8) 4.1.1ODL(操作数据)层设计 (8) 4.1.2BDL(数据仓库)层设计 (10) 4.1.3IDL(宽表)层设计 (11) 4.1.4PDL(应用)层设计 (12) 4.1.5PUB(维度)层设计 (15) 4.1.6数据导出设计 (16) 5数据结构与数据库设计 (17) 6外部存储结构设计 (17) 7故障处理说明 (17) 8尚需解决的问题 (18)

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不

数据仓库技术在医院信息系统中的应用

数据仓库技术在医院信息系统中的应用 本文介绍了数据仓库技术的发展历程及特点,对数据仓库技术在医院信息管理平台的应用进行了分析,并对医院信息平台使用数据仓库技术提出了建议,为数据仓库技术在医院的建设及使用提供了一定有价值的参考。 标签:数据仓库;医院信息;应用 数据仓库可为所有类型的数据起到支持与集合作用,也是企业发展过程中对决策定制必须要用到的。数据仓库作为独立的数据存储,对企业业务报告进行分析以及作出决策等提供一定支持,对业务流程、所花费成本以及质量等进行控制的一种系统。 1 数据仓库技术 数据仓库由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累積的大量资料,透过数据仓库理论所特有的资料储存架构,有系统的进行分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,有利于决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)[1]。数据仓库技术主要对数据库中获得的信息进行研究和分析,以找出解决方法,因此,数据仓库最大的特点就是具有集成性、稳定性和实时性。 2 数据仓库的特点 数据仓库最大的特点就是可以在数据库存储大量数据的情况下,还可以对数据进行深度挖掘,以对企业在决策问题上提供支持。数据仓库同其他系统大型数据库不同,数据仓库存在的最主要目的就是为企业所得数据进行分析与查询,以为企业提供数据依靠,所以在所用的存储量上较多。数据仓库为了能为企业提供更多前端应用服务,在其实际应用过程中还存在以下几点特点: 2.1对数据仓库要求效率过高数据库对数据进行分析也是有其规律的,分别按照年、季、月、周、日为周期对数据进行分析。以日周期为例,对数据仓库的要求上尤其高,要求其分析数据的频率能够在客户所要求的时间内得出结果。但对于大型企业来说,每天企业所涉及的数据量非常多,如果数据仓库使用不恰当则会延误客户的需求,进而给企业造成影响。 2.2对数据质量要求严格数据仓库所收集到的各种信息必须保证准确,如果在某一数据或者某一代码中出现错误,那么往往就会造成部分数据失真。在数据仓库实际使用过程中所涉及环节较多,且内容复杂,因此,在为客户所提供的数据信息上仍会有错误数据存在,使客户作出错误的判断,进而对企业造成损失。

数据挖掘试题

For personal use only in study and research; not for commercial use 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法:(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是:(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息;

互联网大数据与传统数据仓库技术比较研究

互联网大数据与传统数据仓库技术比较研究 韩路 1.Hadoop技术简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是目前全世界最主流的大数据应用平台。以分布式文件系统(HDFS)和MapReduce为核心的Hadoop,目前已整合了其他重要组件如Hive、HBase、Spark,以及统一资源调度管理组件Yarn,形成了一个完成的Hadoop产品生态圈。 1.1.HDFS HDFS是一个分布式文件系统,可设计部署在低成本硬件上。它可以通过提供高吞吐率支持大量数据的批量处理,同时支持应用程序流式访问系统数据。 1.2.MapReduce MapReduce是一种编程模型,用于大规模数据机的并行运算。MapReduce可以将一个任务分发到Hadoop平台各个节点上并以一种可靠容错的方式并行处理大量数据集,实现Hadoop的并行任务处理功能。 1.3.Hive Hive是用于对Hadoop中文件进行数据整理、特殊查询和分析储存的工具。Hive提供了一种结构化数据的机制,支持类似传统结构化数据库中SQL元的查询语言,帮助熟悉SQL的用户查询HDFS中数据。 1.4.HBase HBase是一个分布式的、列式储存的开源数据库。HBase不同于传统关系型数据库,适合非结构化数据储存,同时可以为一个数据行定义不同的列。HBase 主要用于需要随机访问、实时读写的大数据。 1.5.Spark Spark是基于内存计算的分布式计算框架。Spark提出了RDD概念,弥补了MapReduce在并行计算各个阶段无法进行有效数据共享的缺陷。同时,Spark形成了自己的生态系统:SparkSQL、SparkStreaming、MLlib,并完全兼容Hadoop 生态系统。

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录 一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律: (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓

十大架构师谈服务器选型 ——证券行业篇

十大架构师谈服务器选型——证券行业篇 证券企业一般在全国范围内经营业务,网络庞大、结构复杂,典型业务模式有柜台交易、自助委托、电话委托、网上委托等。各证券营业部和总部通过网络将交易所、证券公司与交易者三方连接在一起,共同完成证券交易,并实现行情、交易、结算、办公等各环节的自动化。证券企业网络一般由四部分组成:总部网络、营业部网络、银证交易系统和网站系统。 证券集中业务体系解决方案 作为支撑业务运转的基础平台,证券公司总部、区域总部成为证券营业业务的处理核心,证券营业部、服务部、支持部等分支机构成为业务服务单位。 营业部、服务部等分支机构实现了各分支机构的基本工作职能,它侧重于本地IT系统建设,其通信服务功能模块只起到辅助作用。 利用集中式交易系统, 具有相当规模的证券公司将远距离控制多个分支机构和为远程 大户提供服务,相应业务范围和工作模式都会有很大改变,因此需要一个强有力的IT体系解决方案来支撑证券业务集中业务和其他相关增值业 证券集中系统解决方案 采用集中交易模式,券商总部就成为整个交易体系的核心,所有分支机构的交易请求等业务均由券商总部中心进行处理,各分支机构只保留行情服务系统、客户服务接入平台、通讯中间层等前端处理平台;这样有利于统一公司对外服务形象和服务品牌,符合数据仓库、CRM的建设发展趋势,还可以大大降低运营成本。实行集中交易后,总部的重要性显而易见,在使用集中式交易模式,在建设的同时建立至少一个灾难备份中心,起到数据备份和灾难恢复的重要作用。 采取集中交易模式后,整个网络体系结构由两个中心(数据中心和灾备中心)、分支机构等构成,所有分支机构直接接入总部中心。 证券集中交易解决方案 根据券商集中交易的规模(营业部数量、股民数量等),数据中心和灾备中心的主机和数据库系统选型:

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言 数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。 国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。 本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求 业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。 1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。 1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据架构师岗位职责

数据架构师岗位职责 篇一:数据仓库架构师的岗位职责和岗位要求】 数据仓库架构师的岗位职责和岗位要求 根据网络招聘的资料合成的,不过好像听起来好像和项目经理的角色区别不大,呵呵!而且好像都是要全能的上将![@more@] 岗位职责 1. 制定数据仓库建设方案 2. 数据仓库的设计和开发 3. 数据仓库应用方案设计和推广 岗位要求 1 、熟悉大型企业商业智能整体运作模式和系统框架,深刻理解商业智能对业务运营的杠杆作用,能够应用bi 工具指导和帮助业务过程的改进。 2、5 年以上oracle 或者sqlserver 数据库管理经验,熟练使用unix 和linux ,深刻理解数据仓库应用设计原理和实践; 3 、精通数据库索引和sql 语句的优化,和服务器的性能参数调整,有perl, 4 、熟练一种以上主流etl 工具和bi 工具,如informatica,owb,dts 5 、能根据业务需求设计数据仓库模型,有3 年以上数据仓库开发实施经验,掌握多种数据仓库开发,多维分析相关技术和olap 前端展现工具; 6 、有相关行业数据分析经验者及互联网点击流数据分析经验者优先;有数据挖掘应用和开发经验优先; 7 、强烈责任心,开放的性格,良好的沟通能力;较强的分析问题、解决问题能力,良好的沟通能力、团队精神。 8 、熟悉erwin 或powerdesigner 建模工具; 9 、有一个以上企业级数据仓库项目设计经验,精通数据仓库架构,熟悉数据仓库项目的实施流程; 【篇二:数据架构师岗位职责】 1. 制定面向产品的数据设计规范和流程,制定数据设计所需的各种文档模板; 2. 负责数据仓库建模、数据库优化、数据部署,数据抽取等etl 的设计,编写专业的系统设计文档; 3. 对于it 系统应对大数据量和大并发所要求的性能指标从数据模型和部署等方面给出设计和持续的优化支持; 4. 参与产品架构设计文档和详细设计文档的评审; 5. 完成上级领导安排的其他任务。

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术 传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。其体系结构如下: 业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。 模型设计的过程如下:

数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。具体的说,OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁,通过OLAP服务器用户可以很方便的浏览信息,进行决策!按照数据的存储方式进行分类,OLAP分为MOLAP,ROLAP,HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析;切片和切块并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询底层的细节数据,在观察区域中选转,进行不同维之间的比较,在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降,变量是从现实系统中抽象出来的,用于描述数据的实际含义;维是观察者观察数据的特定角度;维的层次是数据的某个维还可以存在细节程度不同的多个描述方面,称为维的层次;维成员是维的一个取值。如果一个维是多层次的,那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次,分别在年、月、目上各取一个值组合起来,就得到了时间维的一个维成员,如:2005年6月6日;多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。 0LAP使用三层的体系结构:数据库服务器、0LAP服务器和客户端工具。 第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,完成企业级数据一致和数据共享的工作。 第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种动作,并使用数据仓库中的数据完成这些动作。

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》 期末考试题型 一、单项选择题(每小题2分,共20分) 二、填空题(每空1分,共20分) 三、简答题(每题6分,共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场!!! 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用 项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

相关主题
文本预览
相关文档 最新文档