Teradata数据仓库介绍

格式：ppt
大小：6.05 MB
文档页数：72

下载文档原格式

Teradata数据仓库产品介绍v1.0

最优性能 = CPU 和 I/O 带宽的平衡
只增加CPU: 没有足够的磁盘保证 CPU得到充分利用
CPU处理能力增强
当前系统
只增加磁盘: 没有足够的 CPU来充分利用这些磁盘
磁盘个数
Teradata 的推荐配置
Balanced Price/Performance Configuration
• 推荐配置需要找到节点CPU和内存、磁盘阵列的I/O（磁盘的多少）之间一种平衡
• 目标就是为系统提供一种性价比合理的配置
CPU Utilization
100%
I/O
Constrained
80%
60%
Balanced System
Super Saturated
40%
20%
Increase in number of drives
I/O = Number Disk Drives and Controllers
F
SOLARIS
ORACLE DBMS
8
10
15
13
10
8
17
14
11.9
4
5 IBM BLADECENTER
B
AIX
DB2
11
9
11
12
10
9
17
14
11.6
5
6 IBM SYSTEM z9
F
ZOS
DB2
11
14
10
8
10
9
17
14
11.5
6
7 HP BLADESYSTEM
B
HP-UX
ORACLE DBMS
数据仓库系统不是简单的主机、存储、数据库的堆积

Teradata数据性能调优

Teradata数据性能调优作者：郑曜来源：《硅谷》2009年第24期[摘要]简要介绍Teradata的vproc结构,自动分配和并行能力处理的特点,并根据Teradata的工作原理对SQL进行优化处理。

[关键词]TeradataSQL调优中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220068-01一、引言Teradata是专门针对决策支持应用而设计的,早在1983年就推出了世界上第一个基于海量并行处理技术(MPP)的商用系统。

它是一个关系数据库管理系统,采用标准的SQL查询语言,独特的内部结构特别适合处理复杂查询的数据仓库应用。

其良好的扩展性能够随着业务的发展而发展,从GB级扩展到100TB以上。

二、Teradata数据库系统(一)Teradata的基本结构。

Teradata采用了一种先进的虚拟处理器技术,称为VPROC(Virtual ProCessor)。

VPROC有两种,即PE(Parsing EngIne,分析引擎,负责与外部的接口、查询的优化、任务调度等)和AMP(Access Module Processor,存取模块处理器,负责完成数据处理操作)。

(二)Teradata的基本特点。

1.数据自动分配。

Teradata中只有一种基于HASH算法的数据分配机制,当要插入一条记录时,根据主索引计算出相应的AMP,该条记录即通过此AMP存到其对应的磁盘上。

由于主索引值的不同,一个表的各条记录将通过各AMP均匀地分布到各个磁盘上。

2.强大的并行处理能力和复杂查询处理能力。

提供查询并行,步内并行和多步并行。

三、Teradata性能分析数据性能调优:Teradata系统性能包括管理数据采集,cpu性能,I/O性能,负载性能,网络性能,存储性能等。

其中数据采集是性能调优的关键。

造成数据库系统性能下降的原因很多,但是由于SQL书写不当,而造成的系统性能下降情况也较为普遍。

NCR Teradata数据仓库

灵活的,可扩展的
+
Teradata CLDM包括:7 个主题域, 328个主实体,905 个属性和460个业务关系
公司主要产品
基于CLDM建立集中的业务模型,使业务人员能够轻松分析:
谁是我们最有价值的客户… 按在网时间,消费金额,收入,年龄,地域,业务规模... 按产品使用情况 (国内,国际,接线员服务,呼叫卡,全部) 在我们最好的客户中,谁最有可能流失? 我们的基站有问题吗? 我们可以将流失模式与用户的家庭关系或一个呼叫频繁的基站对应起来吗? 按欺诈类型划分的欺诈模式? 我们的网络使用峰值占总使用的百分比? 我们应该向谁推销新产品或服务? 那些客户我们应该让给我们的竞争对手? 针对一个选定的用户群体,最赢利的产品/服务组合是什么? 吸引某一类用户的最恰当的消息,媒体,和渠道是什么? ……
在移动信息化领域提供完整的数据仓库解决方案h增值应用和服务基本应用基础设施系统集成项目实施客户分析收入分析高级应用opensystemwindow2000mppsmpdwplatformteradatardbms客户流失模型commldm欺诈管理fraud50产品服务分析市场份额分析服务质量分析市场促销分析etl业务系统源系统cdrtapdecode客户价值模型营销计划预演rps20客户关系管理crm40客户信用模型价格敏感度模型产品亲和度模型绩效管理pmm30催收管理collection40olapmdsdiskarrayopensystemncrunixbardatamining数据仓库在移动行业的基本应用基本应用客户分析收入分析产品服务分析市场份额分析服务质量分析市场促销分析客户分析收入分析产品服务分析?客户分群?客户总量多维分析?新增流失客户多维分析?客户通话行为多维分析?客户缴费行为多维分析?高风险高额客户多维分析?客户转网多维分析?各网元客户数及通信情况多维分析?特定时段通信时长最大前100名客户报表?特定时段通信费用最高前100名客户报表?互转客户统计报表?大客户特征多维分析?大客户业务量多维分析?前100名集团大客户报表?前100名个人大客户报表?高额客户前100名客户报表?各网元客户数及通信情况同期比较报表?收入总量多维分析?arpu多维分析?收入结构多维分析?网络多维分析?预付费多维分析?客户缴费多维分析?客户欠费多维分析?新增客户缴费欠费多维分析?业务量多维分析?业务资源使用特征多维分析?网络流向和流量特征多维分析?热点小区多维分析?业务量报表依业务种类?各类卡资源统计报表?号码资源统计报表?各基站交换机负载统计报表?各网元通信情况同期比较比报表数据仓库在移动行业的基本应用客户分析收入分析产品服务分析市场份额分析服务质量分析市场促销分析市场份额分析服务质量分析市场促销分析?市场占有率多维分析?竞争对手发展情况多维分析?供应商市场行为特征多维分析?合作商市场行为特征多维分析?各竞争对手市场占有率报表?同类设备供应商对比报表?合作商代收费报表?客户服务质量多维分析?客户服务时限多维分析?客户咨询查询焦点多维分析?客户投诉焦点多维分析?客户满意度多维分析?客户投诉状况报表?营销渠道多维分析?代理商客户发展多维分析?代理商业务发展多维分析?宣传促销多维分析?营销人员素质多维分析?最佳促销活动报表基本

Teradata基础教程

Teradata基础教程1. 数据仓库(Data Warehouse)：Teradata是一种专门用于构建和管理数据仓库的系统。

数据仓库是一个集成、主题导向、可变和持续的数据集，用于支持企业的决策制定过程。

2. 分布式架构：Teradata采用分布式架构，将数据存储在多个节点上，使得数据的访问和处理更加高效和可扩展。

3. AMP(Access Module Processor)：AMP是Teradata的核心组件，负责存储和处理数据。

每个节点上都有多个AMP，它们负责将数据分片存储在磁盘上，并处理查询请求。

4. Vantage：Vantage是Teradata的最新版本，提供了集成分析引擎、存储、数据管理和高级分析功能。

1. 创建数据库：使用CREATE DATABASE语句可以创建数据库。

例如，CREATE DATABASE mydatabase;2. 创建表格：使用CREATE TABLE语句可以创建表格。

例如，CREATE TABLE mytable (column1 INT, column2 VARCHAR(100));3. 插入数据：使用INSERT INTO语句可以插入数据到表格中。

例如，INSERT INTO mytable VALUES (1, 'data1');4. 查询数据：使用SELECT语句可以查询数据。

例如，SELECT * FROM mytable;5. 更新数据：使用UPDATE语句可以更新表格中的数据。

例如，UPDATE mytable SET column1 = 2 WHERE column2 = 'data1';6. 删除数据：使用DELETE语句可以删除表格中的数据。

例如，DELETE FROM mytable WHERE column1 = 2;7. 删除表格：使用DROP TABLE语句可以删除表格。

例如，DROP TABLE mytable;1. 数据分区：可以根据特定的列将数据进行分区存储，以提高查询性能。

美国联合太平洋铁路公司 - MBA智库百科

无论白天或晚上都可以随时方便地访问大量数据
系统对查询的响应速度
UP system map 在该公司实施由Teradata（NCR
的一个部门）提供的Teradata数据仓库之前，公司中的每个系统都拥有自己所收集的数据集。各个系统之间并不进行实际的相互沟通。要将来自不同主题区域和系统的数据进行对照非常困难，甚至根本不可能。这样一来，公司就无法获得富有价值的企业全局客户信息，而这对于在竞争激烈的运输行业中提供卓越服务是不可缺少的。
3万6千英里。它的目标是为客户提供世界级的优质运输，确保高质量每天24小时的运输服务，任何运输延迟都必须被避免或者立即得以解决。作为一个企业，太平洋联合铁路公司所面临的挑战也是其数据仓库所必须面对的挑战：
数据的及时性
将来自许多不同功能和系统的数据收集到同一位置
Directors of the Union Pacific Railroad gather on the 100th meridian, which
later became Cozad, Nebraska, approximately 250 miles (400km) west of Omaha,
除了上面所说的修正决策过程，再加上其他许多类似做法，1985～1990年，UPRR的准时交货率从约40%提高到约70%。对于若干特定的大客户，准时交货率从85%提高到95%。事实上，像丰田等公司，准时率经常达999%；以现代述语来说，叫做“及时交货”。运输量增加了18%，营业收入增加约25%；员工数从45
UPRR年营业额超过50亿美元，不论何时都得好好处理铁轨上的18万节车厢。目前担任服务可靠性行动小组助理副总裁的莱佛·戴特曼补充说，1985年的UPRR“一点也不可靠，客户忍无可忍，只好另寻他法”。

Teradata案例分析

话费流失预防系统 5.报表管理子系统(FraudSentry*Reporter) 提供一些预定义的统计和管理报表，提供欺诈记录及客户信息。这些表报是用OLAP动态报表工具实现的。如主叫号码通话报警统计、最可疑的前100个通话、按通话类型分析报警情况、可疑事件详细报表、可疑事件分析与处理、欺诈事件统计表、反欺诈小组处理事件统计等等。
话费流失预防系统介绍
话费流失预防系统(FraudSENTRY)是通过对大量的客户档案和通话历史数据的分析从而获取客户的通话行为信息，采用传统的基于规则的侦测方法和现代先进的神经网络智能技术为综合分析手段，建立一个通话行为智能库，可以侦测漫游、客户欺诈、代理商欺诈、利用盗窃手机通话等几类欺诈行为，当通话记录或交易出现在正常模式以外时，系统能马上识别，实时地现场侦测、追踪潜在的恶意盗打电话者，和预测可能会恶意盗打电话的客户，防盗打小组在电信公司的经营政策为指导的原则下，对违反规定的客户采取必要的措施，以追回损失、降低电信公司经营风险和防止资产流失的决策支持系统。
7.预测模型子系统(FraudSentry*Predictor)
8.客户分析子系统(CustomerBI)
话费流失预防系统
1.维护界面子系统(FraudSentry*Profiler)
结构
是客户端的交互窗口。Profiler主要用于设置和修改报警和界限。报警设置将侦测识别所有通话记录中的各类欺诈行为，知道侦测什么和如何侦测。正常情况下，报警参数仅在第一次安装时设置一次。
案例：远传电信(FarEasTone)
降低经营成本相互矛相盾互矛盾
提高客户满意度案例分析解决？如何解决？
案例：远传电信(FarEasTone) 降低经营成本

Teradata数据库介绍

SMP 体系架构
Multi-Node MPP
NCR Rack-Based Cabinets
NCR MPP系统的一些特性
Teradata数据库软件:它允许多个SMP运行在Teradata数据库上，并扮演单个实例角色．
可升级的BYNET连接:当增加节点时，相应的增加了带宽．并行可升级性：通过安装/升级多个SMPs 实现软件的并行安装和升级． AWS（Administration Workstation） :单点操作控制及升级服务管理． SMP：SMP只需要负责管理各自资源还有一些冗余的组件：两个BYNET,在一个磁盘组中有两个磁盘控制器,又模
Network-Attached client software Overview
CLI提供对Teradata最大限度的连接和访问性，ODBC作为业内标准是更多的应用程序可以连接到Teradata
Micro Teradata Director Program (MTDP) 是Teradata 提供的网络连接环境下的TDP实现，它和渠道连接下的TDP功能基本一致，唯一的区别是它不负责session在多个PEs之间的分配，此功能由运行在Teradata系统上的Connect and Assign Servers 实现
据集成的企业范围的数据库，保证数据的一致性高可用性并行装载及卸数处理
强大的并行装载，load与unload工具可升级性，这些工具如：Fastload、 Multiload、TPump、and FastExport
主题
What is Teradata? Teradata数据库竞争优势 Teradata RDBMS 架构 Teradata 系统架构 Teradata 数据库与数据库用户的比较数据存储和访问

Teradata理论

1、数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。

数据仓库是一个综合的解决方案，主要用来帮助企业有关主管部门和业务人员做出更符合业务发展规律的决策。

决策支持系统也是数据仓库的代名词。

2 、OLTP（联机事务处理）系统即生产系统，是时间驱动、面向应用的。

OLTP基本特点：数据在系统中产生基于交易的处理系统每次交易牵涉的数据量很小对响应时间要求非常高用户数量非常庞大，主要是操作人员数据库的各种操作主要基于索引进行3、OLAP(联机分析处理)是基于数据仓库的信息分析处理过程，是数据仓库的用户接口部分。

OLAP特点：本身不产生数据，其基础数据来源于生产系统中的操作数据基于查询的分析系统复杂查询，经常使用多表连接、全表扫描等，牵涉的数据量往往十分庞大响应时间与具体查询有很大关系用户数量相对较少，其用户主要是业务人员与管理人员由于业务问题的不固定，数据库的各种操作不能完全基于索引进行4 、数据仓库中的详细数据和小结数据为什么要有小结数据：数据仓库的引擎—数据库系统—不适合处理大量的数据---出现小结数据，但是详细数据不能删除。

降低存储系统投资降低MIPS投资5、数据仓库和数据集市数据仓库是企业级的，能为整个企业各个部门的运行提供决策支持手段数据集市是部门级的，一般只能为某个局部范围内的管理人员服务，也称之为部门级数据仓库6、数据集市分为独立的数据集市和从属的数据集市7、衡量数据仓库引擎国际上标准的计算机系统的测试组织是TPC，它定义了专门针对决策支持系统（数据仓库）的基准测试指标。

TPC（transaction processing performance council）是一个非赢利的国际组织，专门定义交易处理和数据库的测试标准8、测试标准TCP-D是早期衡量决策支持系统的测试指标，主要考虑三方面的指标QppD（Query Processing Power D）描述了系统的复杂查询处理能力。

数据仓库的工具

数据仓库的工具数据仓库是一个用于集中存储、管理和分析大量数据的系统。

为了有效地构建和维护数据仓库，许多工具和技术已被开发出来。

这些工具可以帮助企业在提供高性能数据存储和处理能力的同时，实现对数据的高效管理和分析。

下面是一些常用的数据仓库工具的简介：1. ETL工具：ETL（抽取、转换和加载）工具用于从各种数据源抽取数据并将其加载到数据仓库中。

这些工具不仅可以确保数据的有效传输和处理，还可以进行数据清洗、转换和整合，以使其符合数据仓库的要求。

常见的ETL工具包括Informatica PowerCenter、IBM InfoSphere DataStage和Microsoft SSIS（SQL Server Integration Services）等。

2. 数据仓库管理工具：数据仓库管理工具用于管理数据仓库的各种操作和维护任务。

它们可以提供数据仓库的配置、监控、备份和恢复等功能。

这些工具还可以帮助管理员监控数据仓库的性能，并提供报告和分析功能。

常见的数据仓库管理工具包括Teradata Viewpoint、Oracle Enterprise Manager和Microsoft SQL Server Management Studio等。

3. 数据挖掘工具：数据挖掘工具用于从数据仓库中发现隐藏的模式和信息。

它们使用各种算法和技术来分析大量的数据，以提取有用的信息和洞察。

数据挖掘工具可以帮助企业预测趋势、识别关联性和制定智能决策。

常见的数据挖掘工具包括IBM SPSS Modeler、SAS Enterprise Miner和RapidMiner等。

4. 可视化工具：可视化工具用于将数据仓库中的数据转化为易于理解和解释的图形和图表。

这些工具帮助用户直观地理解数据关系、趋势和模式，并提供交互式的数据探索和筛选功能。

常见的可视化工具包括Tableau、QlikView和Power BI等。

5. 查询和报告工具：查询和报告工具用于从数据仓库中提取数据并生成定制的报告和查询结果。

Teradata数据库的架构组成

Teradata数据库的架构组成Teradata在整体上是按Shared Nothing 架构体系进行组织的(关于Shared Nothing及其它并行数据库体系结构请参考我的另一篇文章“并行数据库的基本体系结构”)，由于Teradata通常被用于OLAP应用，因此单机的Teradata系统很少见，即使是单机系统，Teradata也建议使用SMP结构以尽可能地提供更好的数据库性能，我在后面的介绍中，都是按多机系统进行说明的。

根据Shared Nothing的组成结构特点，在物理布局上，Teradata系统主要包括三个部分:处理节点(Node)、用于节点间通信的内部高速互联(InterConnection)和数据存储介质(通常是磁盘阵列)。

每个节点都是SMP结构的单机，节点的物理和逻辑结构如图2所示，多个节点一起构成一个MPP系统，多个节点之间的内部高速互联是通过一种被称为BYNET的硬件来实现的，整个系统的组成如图1所示。

单个节点的硬件结构Teradata系统中的每个节点在物理上都是一个SMP处理单元，事实上就是一台多CPU或多核的计算机。

节点硬件包括CPU、内存、用于安装操作系统和应用软件的本地磁盘、与外界交互的网卡及BYNET端口。

节点的网卡根据具体的网络环境而不同，通常包括两种，一种是与IBM MainFrame连接的Channel Adapter，另一种就是我们熟悉的局域网网卡。

通常情况下，一个节点上只会使用一种网卡，但会有多块网卡，分别用于不同的连接和冗余。

单个节点的软件结构在软件结构上，每个节点自下向上包括操作系统软件(OS)、Teradata并行数据库扩展(PDE)和相关应用程序，其中PDE的主要职责是管理和运行虚拟处理器，其中主要包括PE和AMPs。

(1)Teradata并行数据库扩展(PDE，Parallel Database Extensions)，是直接架构在操作系统之上的一个接口层，用于为Teradata提供并行环境，并保证这个并行环境的可运行性和健壮性。

大数据的存储技术

大数据的存储技术大数据存储技术是指用于存储和管理大数据的各种技术和方法。

随着互联网、物联网和移动互联网的快速发展，大数据的规模和复杂度越来越大，传统的存储技术已经无法满足大数据的存储需求。

因此，大数据存储技术变得越来越重要。

本文将介绍大数据存储技术的相关概念、特点和技术，以及目前主流的大数据存储技术，包括分布式文件系统、NoSQL数据库、数据仓库等。

同时，我们还将讨论大数据存储技术的应用场景和未来发展趋势。

一、大数据存储技术的相关概念和特点1.1大数据存储技术的概念大数据存储技术是指用于存储和管理大数据的各种技术和方法。

大数据存储技术与传统的数据存储技术相比，具有以下特点：1)大规模：大数据存储技术需要能够存储和处理非常庞大的数据量，通常是TB、PB甚至EB级别的数据。

2)高可扩展性：大数据存储技术需要具有良好的可扩展性，能够在不影响性能的情况下动态地扩展存储容量。

3)高性能：大数据存储技术需要具有高性能，能够快速地读写大规模的数据。

同时，还需要能够支持并发访问和复杂的数据分析操作。

4)多样性：大数据存储技术需要能够存储和管理各种类型的数据，包括结构化数据、半结构化数据和非结构化数据。

1.2大数据存储技术的特点大数据存储技术具有以下特点：1)分布式存储：大数据存储技术通常基于分布式存储架构，能够将数据存储在多台独立的服务器上，并实现数据的分布式访问和处理。

2)高可靠性：大数据存储技术需要具有高可靠性，能够在硬件故障或其他问题出现时保证数据的安全性和完整性。

3)高性能：大数据存储技术需要具有高性能，能够快速地读写大规模的数据，并支持复杂的数据处理和分析操作。

4)低成本：大数据存储技术通常以低成本的硬件和开源软件为基础，能够降低存储成本并提高存储效率。

以上是大数据存储技术的相关概念和特点，接下来我们将介绍目前主流的大数据存储技术。

二、主流的大数据存储技术大数据存储技术包括分布式文件系统、NoSQL数据库、数据仓库等多种技术和方法，下面我们将介绍这些主流的大数据存储技术。

teradata数据仓库简介

案例二：某电商公司的数据仓库应用
总结词
智能的数据分析
详细描述
某电商公司利用Teradata数据仓库进行智能的数据分析。通过数据仓库，电商公司能够全面了解用户行为、产品趋势和市场动态。基于数据分析结果，电商公司优化了产品推荐、库存管理和物流配送，提升了用户体验和业务效益。
案例三：某政府机构的数据仓库实践
数据仓库优化
为了平衡大规模数据处理和查询性能，出现了新型数据仓库技术，如列式存储、向量化计算等，以提高数据处理和查询效率。
03
CATALOGUE
Teradata数据仓库简介
Teradata公司简介
成立时间
Teradata成立于1979年，是全球领先的数据仓库和数据分析解决方案提供商。
总部位置
Teradata总部位于美国，在全球范围内拥有广泛的客户和合作伙伴。
产品与服务
Teradata提供数据仓库、大数据解决方案、云计算和人工智能等服务，帮助企业实现数据驱动的决策。
Teradata数据仓库的特点
高效性能
Teradata数据仓库采用高性能的硬件和软件架构，支持大规模数据的快速查询
和处理。
模块化架构
Teradata数据仓库采用模块化架构，将数据仓库划分为多个模块，包括数据集成模块、数据存储模块、数据查询模块等。这种设计可以提高系统的可扩展性和灵活性。
数据存储技术
列式存储
Teradata采用列式存储技术，将数据按照列进行存储，而不是传统的行式存储。列式存储可以提高数据压缩比和查询效率，尤其适用于大量数据的分析查询。
阐述本报告的目的和主要内容，为后续章节提供概述。
分析企业对于数据仓库的需求，以及 Teradata数据仓库如何满足这些需求。

Teradata分析

1、 Teradata 优势，能否打数据并发 1）优势以下是部分Teradata 客户数据仓库管理的内容，可说明Teradata 系统的强大处理能力： •多达千亿行数据的数据库表格 •每天数据加载超过30亿条记录 •每天捕获3000万笔客户交易 •每天为消费者在线提供150万种个性化产品和服务 •每小时处理100万次数据库查询 •每天响应1万个并发数据仓库用户 • 业务查询响应时间仅为40-50毫秒2）并发问题：机制：Teradata 巨表数据存放机制好像是每个节点均匀分布表中一部分数据，当查询的时候每个节点并行查询，结果汇总到某个节点反馈给查询者。

这个复杂查询的实例形象地说明了Teradata 的多维并行处理机制。

Multi-Step 并行并行作2. 搜索 Orders3. 联接 Lineitem & Orders 并行同时与各自相关据图8-16 Teradata 内部并行处理机制说明这里假设系统配置有4个虚拟处理器(VPROC)，某个复杂查询被优化器分解成了7个步骤，图中SUPPLIERS、PARTS、PARTSUPP等为数据库中表的名字。

在每个步骤执行时，4个VPROC 同时处理与各自相关的数据块，例如搜索SUPPLIERS表，该表的记录是通过HASH算法均匀分布在四个VPROC各自负责的磁盘中的，搜索时4个VPROC将同时进行，把相关的记录搜索出来，这就是所谓的查询并行。

例子：例如：使用NCR 5300服务器，2个节点，存储为2TB，RAID1，在业务高峰期，系统并发查询用户在300个以上，最高到1000个，此时系统响应速度有些缓慢大概业务查询响应时间30秒，峰值过后速度就加快了。

主要进行的操作就是表之间的关联查询，4张表，每张6-7千万条记录，ETL加载的数据量不算太大。

2、Teradata内外部集建立原则针对实际的应用，采用内外部集市可以有效的发挥起各自的优势：1）松耦合原则介于要将整个系统划分为数据和应用层，相互存在很多密切关联，在设计库表时要充分考虑数据和应用的相互影响，做到应用不影响到数据的处理，数据处理不直接针对应用的松耦合技术架构2）任务明确原则数据处理层和应用层在处理具体业务时，必然存在既可以在数据层处理有可以在应用层处理的问题，需要在设计时充分讨论业务需求，做到责任明确，任务单一，各负其责。

数据仓库(Teradata)

服务被销售给客户 / 参与人使用和管理服务
服务使用的财务信息 / 财务记录产品的成本和付款
OFFER （服务）
产品产生事件 / 事件包括产品类
定位网络/ 网络支持的位置
NETWORK （网络）
服务通过网络实现 / 网络支持服务
网络产生事件 / 事件包括网络类
广告针对特定产品 /
产品通过广告实现营销
cLDM – 核心主题
ETL服务器
AT&T
中央数据库
Fload Mload Fexport TPump Access Module
End Users
Teradata电信业cLDM的商业价值
使你能够轻松回答下列业务问题…
▪ 谁是我们最有价值的客户… ▪ 按在网时间、消费金额、收入、年龄、地域、业务规模... ▪ 按产品使用情况 (国内、国际、接线员服务、呼叫卡、全部)
▪ 在我们最好的客户中，谁最有可能流失？ ▪ 我们的基站有问题吗？我们可以将流失模式与用户的家庭关系或一个呼叫
Teradata数据仓库
Dr. Zhang Jian Senior Technical Consultant TD China, Apr., 2009
公司介绍
NCR公司介绍
▪ 创建于1884年，120年历史 ▪ 包括三大部门
– 数据仓库事业部 / Teradata – 金融服务 / ATM – 零售服务 / POS
•LDM逻辑数据模型 •详细交易数据 •面向主题 •3NF
•数据清洗／转换／加载 •文本文件
结算
•数据转换／压缩/传输 •文本文件 •标准数据接口
•面向业务流程其他 •3NF
Teradata电信业cLDM
ADVERTISEMENT （广告）

数据仓库的发展历程简述v0.1

数据仓库的发展历程简述v0.1数据仓库发展历程及相关概念1.1 概述数据仓库的概念可能⽐⼀般⼈想像的都要早⼀些，中间也经历⽐较曲折的过程。

其最初的⽬标是为了实现全企业的集成（Enterprise Integration），但是在发展过程中却退⽽求其次：建⽴战术性的数据集市（Data Marts）。

到⽬前为⽌，还有很多分歧、论争，很多概念模棱两可甚⾄是彻底的让⼈迷惑。

本⽂试图从数据仓库的发展历史中看到⼀些发展的脉络，了解数据仓库应该是怎么样的，并展望⼀下未来的数据仓库发展⽅向。

同时，由于新应⽤的不断出现，出现了很多新的概念和新的应⽤，这些新的应⽤如何统⼀现成完整的企业BI应⽤⽅案还存在很多争论。

本⽂试图对这些概念做⼀些简要的阐述，让⼤家对此有初步的了解。

1.2 粗略发展过程1.2.1 开始阶段（1978-1988）数据仓库最早的概念可以追溯到20世纪70年代MIT的⼀项研究，该研究致⼒于开发⼀种优化的技术架构并提出这些架构的指导性意见。

第⼀次，MIT的研究员将业务系统和分析系统分开，将业务处理和分析处理分成不同的层次，并采⽤单独的数据存储和完全不同的设计准则。

同时，MIT的研究成果与80年代提出的信息中⼼（Information Center）相吻合：即把那些新出现的、不可以预测的、但是⼤量存在的分析型的负载从业务处理系统中剥离出来。

但是限于当时的信息处理和数据存储能⼒，该研究只是确⽴了⼀个论点：这两种信息处理的⽅式差别如此之⼤，以⾄于它们只能采⽤完全不同的架构和设计⽅法。

之后，在80年代中后期，作为当时技术最先进的公司，DEC已经开始采⽤分布式⽹络架构来⽀持其业务应⽤，并且DEC公司⾸先将业务系统移植到其⾃⾝的RDBMS产品：RdB。

并且，DEC公司从⼯程部、销售部、财务部以及信息技术部抽调了不同的⼈员组建了新的⼩组，不仅研究新的分析系统架构，并要求将其应⽤到其全球的财务系统中。

该⼩组结合MIT的研究结论，建⽴了TA2（Technical Architecture 2）规范，该规范定义了分析系统的四个组成部分：数据获取、数据访问、⽬录、⽤户服务其中的数据获取和数据访问⽬前⼤家都很清楚，⽽⽬录服务是⽤于帮助⽤户在⽹络中找到他们想要的信息，类似于业务元数据管理；⽤户服务⽤以⽀持对数据的直接交互，包含了其他服务的所有⼈机交互界⾯，这是系统架构的⼀个⾮常⼤的转变，第⼀次将交互界⾯作为单独的组件提出来。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– I/O, Buffers, Locking, Logging, Dictionary – Nothing centralized – Nothing in the way of linear scalability
Logs
AMPs
Locks
Buffers
I/O
23 > 4/2/2021
Shared Nothing Software
Disk Storage
Cache Memory
Disk Storage
CPU(s)
Cache
Large SMP/NUMA
• 专为事务处理应用设计 • 对小型系统或小数据量的系统性能会比较有优势 • 随CPU的增加，会由于对资源的争夺而使性能增加幅度大
幅降低
BYNET Fabrics
CPU(s) Cache Memory Disk Storage
22 > 4/2/2021
Shared Nothing Software
• Basis of Teradata scalability
> Divide the work evenly among many processing units > No single point of control for any operation
• 存储
> 独立的 I/O 通道 > 每节点单独管理
• 节点间连通性
> 充分可扩展 > 通道 – ESCON/FICON > 连接方式:以太网、光纤等
• 管理服务器
> 监控整个系统的控制台 > 通过AWS统一管理
SMP 节点1
CPU1 CPU2 Memory
双重BYNET连接
SMP 节点2
CPU1 CPU2 Memory
•上海证券交易所
•中国证券中央登记结算公司
航空业
•中国证券中央登记结算公司上海分公司 •中国民航信息中心 •原中国网通集团
6 > 4/2/2021
目录
1 Teradata 公司 2 Teradata 数据仓库引擎 3 Teradata 数据仓库特点 4 Teradata 数据仓库产品线
7 > 4/2/2021
CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage CPU(s) Cache Memory Disk Storage
CPU(s) Cache Memory Disk Storage
Loading
AMP2的数据 AMP1的数据
Backup & Recovery
Teradata并行处理架构
V-PE
V-PE
BY-Net
• PARSING ENGINE (PE) •SQL Parser & Optimizer •Query Step Dispatcher
• Network Distribution
SMP 节点3
CPU1 CPU2 Memory
SMP 节点4
CPU1 CPU2 Memory
管理服务器
18 > 4/2/2021
Teradata MPP
• 扩展性-性能线性增长 • 高可用性-无单点故障 • 易管理–单一操作视图 • 技术性–高性能 • 投资保护 • 混合负载管理
19 > 4/2/2021
Teradata－众多行业领袖的选择
90% 全球前10名电信运营商
70% 全球前10名航空公司
70% 全球前10名物流运输公司
50% 全球前10名零售商
FORTUNE Global Rankings, July 2007 5 > 4/2/2021
50% 全球前10名银行
• 重点行业
> 银行/金融服务 > 政府 > 保险与保健 > 制造业 > 零售业 > 通信业 > 运输物流业 > 旅游业 > 媒体/娱乐业
• 客户遍布全球
> 超过100 个国家
Teradata的内地主要客户
银行业
•中国银行总行卡部 •国家邮政总局 •中国移动集团
• 浙江电信
•工商银行总行 •建设银行总行 •农业银行广东分行 •交通银行总行 •民生银行总行 •光大银行总行 •浦东发展银行总行 •兴业银行总行
证券业
•山东邮局
•内蒙古移动
> 超过24年的数据仓库实施顾问经验
3 > 4/2/2021
Teradata连续9年被Gartner评为数据仓库的领导者
Figure 1. Magic Quadrant for Data Warehouse Database Management Systems
2010年1月28日Gartner公司发布了题为“Magic Quadrant
10 > 4/2/2021
Data Management
• 传统的数据分配方式，数据的增加、更新和删除都将影响数据分配策略，相应的，查询的性能会降低，而且要求数据的重组。在数据重组过程中，数据必须卸载再重新装载到新的分区中去，这需要花费大量的时间。
11 > 4/2/2021
Time to reorg again.
Teradata数据仓库平台
Teradata（中国） 2010-05
目录
1 data 公司 2 Teradata 数据仓库引擎 3 Teradata 数据仓库特点 4 Teradata 数据仓库产品线
2 > 4/2/2021
Teradata公司概况
• Teradata公司-2007年10月1日正式从NCR公司一个事业部门分拆出来，成为独立上市公司
Teradata RDBMS- 数据仓库的专用引擎
Data Distribution
• 为了优化数据库系统性能，数据分配应该是随机和均匀的分布，以便能以最简洁的路径访问到。
均衡分布，很难实现
• 为了实现数据均匀分布，很多数据库厂商都采用数据分配机制，必须由数据库管理员建立相应的维护过程。
> How should I partition the data? > How large should I make the partitions? > Where do I have data contention? > How are users accessing the data?
• 提供线性的扩展能力，最大化SMP的资源利用率
Degree of Parallelism
• 任务执行时，并行数越多，系统的性能越好。 • 许多产品都声称“parallel”，其实只有在执行过程中某一个或某些任务实现了并行。 • Teradata的MPP体系结构从系统的设计阶段就保证了所有的任务都是并行执行。
Other DBs
Teradata
16 > 4/2/2021
12 > 4/2/2021
Teradata并行的基础
每个并行单元只管理自己的数据
13 > 4/2/2021
AMP AMP AMP AMP1
Reading Writing
Sorting
AAMgPgr4eg的at数ing据
Building Indexes
Row LockinAgMP3的数据TJroaunrsnaaclitziionng
V-AMP V-AMP V-AMP V-AMP
• Access Module Processors (AMP)
• Disk Partitions
14 > 4/2/2021
Optimizer Intelligence
真正意义上的并行
• Teradata的优化提供了一种高性能的动态和复杂查询的性能。
9 > 4/2/2021
Data Distribution
• Teradata的唯一的数据分配机制：HASH算法。 • 当要插入一条记录时，根据主索引计算出相应的AMP，该条记录即通过此AMP存到其对应
的磁盘上。由于主索引值的不同，一个表的各条记录将通过各AMP均匀地分布到各个磁盘上。 • 分配过程完全自动进行，不需要DBA干预，这一点和其它OLTP DBMS有很大的区别。 • 当重新配置AMP数时，只需要变动HASH MAP，相应的数据分自动重新分配到新的AMP中去。
for Data Warehouse DBMS,
2010”的报告中，Teradata被评为领导者。
Source: Gartner (January 2010)
Gartner：全球最具权威的IT研究与顾问咨询公司。20年以来，Gartner的研究与咨询服务一直被认为是客观技术思想领导的权威来源。
4 > 4/2/2021
可扩展性 – 性线扩展
• 随着业务应用的发展及数据的积累,对系统的容量及处理能力必将提出更高的要求 • 下图所示的线性扩展能力能很好地满足这种要求 • 线性增长的最佳状态就是斜率=1 • 预期的容量和吞吐量的增长需要满足商业的需要
20 > 4/2/2021
完美的线性扩展能力
架构决定扩展能力(一)
•江苏邮局 •上海邮局 •浙江邮局 •福建邮局 •广东邮局 •湖北邮局
•河北移动 •山西移动 •陕西移动 •云南移动 •贵州移动 •广西移动 •广东移动
制造业
•福建移动
•中国石油天然气集团公司
• 湖南电信 • 湖北电信 • 新疆电信 • 广东电信 • 甘肃电信 • 云南电信 • 江苏电信 • 辽宁电信 • 山东电信 • 天津电信