Teradata数据仓库介绍
- 格式:ppt
- 大小:6.05 MB
- 文档页数:72
Teradata数据性能调优作者:郑曜来源:《硅谷》2009年第24期[摘要]简要介绍Teradata的vproc结构,自动分配和并行能力处理的特点,并根据Teradata的工作原理对SQL进行优化处理。
[关键词]TeradataSQL调优中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1220068-01一、引言Teradata是专门针对决策支持应用而设计的,早在1983年就推出了世界上第一个基于海量并行处理技术(MPP)的商用系统。
它是一个关系数据库管理系统,采用标准的SQL查询语言,独特的内部结构特别适合处理复杂查询的数据仓库应用。
其良好的扩展性能够随着业务的发展而发展,从GB级扩展到100TB以上。
二、Teradata数据库系统(一)Teradata的基本结构。
Teradata采用了一种先进的虚拟处理器技术,称为VPROC(Virtual ProCessor)。
VPROC有两种,即PE(Parsing EngIne,分析引擎,负责与外部的接口、查询的优化、任务调度等)和AMP(Access Module Processor,存取模块处理器,负责完成数据处理操作)。
(二)Teradata的基本特点。
1.数据自动分配。
Teradata中只有一种基于HASH算法的数据分配机制,当要插入一条记录时,根据主索引计算出相应的AMP,该条记录即通过此AMP存到其对应的磁盘上。
由于主索引值的不同,一个表的各条记录将通过各AMP均匀地分布到各个磁盘上。
2.强大的并行处理能力和复杂查询处理能力。
提供查询并行,步内并行和多步并行。
三、Teradata性能分析数据性能调优:Teradata系统性能包括管理数据采集,cpu性能,I/O性能,负载性能,网络性能,存储性能等。
其中数据采集是性能调优的关键。
造成数据库系统性能下降的原因很多,但是由于SQL书写不当,而造成的系统性能下降情况也较为普遍。
Teradata基础教程1. 数据仓库(Data Warehouse):Teradata是一种专门用于构建和管理数据仓库的系统。
数据仓库是一个集成、主题导向、可变和持续的数据集,用于支持企业的决策制定过程。
2. 分布式架构:Teradata采用分布式架构,将数据存储在多个节点上,使得数据的访问和处理更加高效和可扩展。
3. AMP(Access Module Processor):AMP是Teradata的核心组件,负责存储和处理数据。
每个节点上都有多个AMP,它们负责将数据分片存储在磁盘上,并处理查询请求。
4. Vantage:Vantage是Teradata的最新版本,提供了集成分析引擎、存储、数据管理和高级分析功能。
1. 创建数据库:使用CREATE DATABASE语句可以创建数据库。
例如,CREATE DATABASE mydatabase;2. 创建表格:使用CREATE TABLE语句可以创建表格。
例如,CREATE TABLE mytable (column1 INT, column2 VARCHAR(100));3. 插入数据:使用INSERT INTO语句可以插入数据到表格中。
例如,INSERT INTO mytable VALUES (1, 'data1');4. 查询数据:使用SELECT语句可以查询数据。
例如,SELECT * FROM mytable;5. 更新数据:使用UPDATE语句可以更新表格中的数据。
例如,UPDATE mytable SET column1 = 2 WHERE column2 = 'data1';6. 删除数据:使用DELETE语句可以删除表格中的数据。
例如,DELETE FROM mytable WHERE column1 = 2;7. 删除表格:使用DROP TABLE语句可以删除表格。
例如,DROP TABLE mytable;1. 数据分区:可以根据特定的列将数据进行分区存储,以提高查询性能。
1、数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
数据仓库是一个综合的解决方案,主要用来帮助企业有关主管部门和业务人员做出更符合业务发展规律的决策。
决策支持系统也是数据仓库的代名词。
2 、OLTP(联机事务处理)系统即生产系统,是时间驱动、面向应用的。
OLTP基本特点:数据在系统中产生基于交易的处理系统每次交易牵涉的数据量很小对响应时间要求非常高用户数量非常庞大,主要是操作人员数据库的各种操作主要基于索引进行3、OLAP(联机分析处理)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。
OLAP特点:本身不产生数据,其基础数据来源于生产系统中的操作数据基于查询的分析系统复杂查询,经常使用多表连接、全表扫描等,牵涉的数据量往往十分庞大响应时间与具体查询有很大关系用户数量相对较少,其用户主要是业务人员与管理人员由于业务问题的不固定,数据库的各种操作不能完全基于索引进行4 、数据仓库中的详细数据和小结数据为什么要有小结数据:数据仓库的引擎—数据库系统—不适合处理大量的数据---出现小结数据,但是详细数据不能删除。
降低存储系统投资降低MIPS投资5、数据仓库和数据集市数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段数据集市是部门级的,一般只能为某个局部范围内的管理人员服务,也称之为部门级数据仓库6、数据集市分为独立的数据集市和从属的数据集市7、衡量数据仓库引擎国际上标准的计算机系统的测试组织是TPC,它定义了专门针对决策支持系统(数据仓库)的基准测试指标。
TPC(transaction processing performance council)是一个非赢利的国际组织,专门定义交易处理和数据库的测试标准8、测试标准TCP-D是早期衡量决策支持系统的测试指标,主要考虑三方面的指标QppD(Query Processing Power D)描述了系统的复杂查询处理能力。
数据仓库的工具数据仓库是一个用于集中存储、管理和分析大量数据的系统。
为了有效地构建和维护数据仓库,许多工具和技术已被开发出来。
这些工具可以帮助企业在提供高性能数据存储和处理能力的同时,实现对数据的高效管理和分析。
下面是一些常用的数据仓库工具的简介:1. ETL工具:ETL(抽取、转换和加载)工具用于从各种数据源抽取数据并将其加载到数据仓库中。
这些工具不仅可以确保数据的有效传输和处理,还可以进行数据清洗、转换和整合,以使其符合数据仓库的要求。
常见的ETL工具包括Informatica PowerCenter、IBM InfoSphere DataStage和Microsoft SSIS(SQL Server Integration Services)等。
2. 数据仓库管理工具:数据仓库管理工具用于管理数据仓库的各种操作和维护任务。
它们可以提供数据仓库的配置、监控、备份和恢复等功能。
这些工具还可以帮助管理员监控数据仓库的性能,并提供报告和分析功能。
常见的数据仓库管理工具包括Teradata Viewpoint、Oracle Enterprise Manager和Microsoft SQL Server Management Studio等。
3. 数据挖掘工具:数据挖掘工具用于从数据仓库中发现隐藏的模式和信息。
它们使用各种算法和技术来分析大量的数据,以提取有用的信息和洞察。
数据挖掘工具可以帮助企业预测趋势、识别关联性和制定智能决策。
常见的数据挖掘工具包括IBM SPSS Modeler、SAS Enterprise Miner和RapidMiner等。
4. 可视化工具:可视化工具用于将数据仓库中的数据转化为易于理解和解释的图形和图表。
这些工具帮助用户直观地理解数据关系、趋势和模式,并提供交互式的数据探索和筛选功能。
常见的可视化工具包括Tableau、QlikView和Power BI等。
5. 查询和报告工具:查询和报告工具用于从数据仓库中提取数据并生成定制的报告和查询结果。
Teradata数据库的架构组成Teradata在整体上是按Shared Nothing 架构体系进行组织的(关于Shared Nothing及其它并行数据库体系结构请参考我的另一篇文章“并行数据库的基本体系结构”),由于Teradata通常被用于OLAP应用,因此单机的Teradata系统很少见,即使是单机系统,Teradata也建议使用SMP结构以尽可能地提供更好的数据库性能,我在后面的介绍中,都是按多机系统进行说明的。
根据Shared Nothing的组成结构特点,在物理布局上,Teradata系统主要包括三个部分:处理节点(Node)、用于节点间通信的内部高速互联(InterConnection)和数据存储介质(通常是磁盘阵列)。
每个节点都是SMP结构的单机,节点的物理和逻辑结构如图2所示,多个节点一起构成一个MPP系统,多个节点之间的内部高速互联是通过一种被称为BYNET的硬件来实现的,整个系统的组成如图1所示。
单个节点的硬件结构Teradata系统中的每个节点在物理上都是一个SMP处理单元,事实上就是一台多CPU或多核的计算机。
节点硬件包括CPU、内存、用于安装操作系统和应用软件的本地磁盘、与外界交互的网卡及BYNET端口。
节点的网卡根据具体的网络环境而不同,通常包括两种,一种是与IBM MainFrame连接的Channel Adapter,另一种就是我们熟悉的局域网网卡。
通常情况下,一个节点上只会使用一种网卡,但会有多块网卡,分别用于不同的连接和冗余。
单个节点的软件结构在软件结构上,每个节点自下向上包括操作系统软件(OS)、Teradata并行数据库扩展(PDE)和相关应用程序,其中PDE的主要职责是管理和运行虚拟处理器,其中主要包括PE和AMPs。
(1)Teradata并行数据库扩展(PDE,Parallel Database Extensions),是直接架构在操作系统之上的一个接口层,用于为Teradata提供并行环境,并保证这个并行环境的可运行性和健壮性。