【讲义】田锴:亚马逊AWS云计算研讨会之云中的大数据解决方案
- 格式:pdf
- 大小:3.75 MB
- 文档页数:32
aws 数据库双活原理AWS 数据库双活原理引言随着云计算技术的发展,企业对于高可用性和容灾能力的需求越来越高。
AWS(Amazon Web Services)作为全球领先的云计算服务提供商之一,为用户提供了多种高可用性和容灾解决方案。
其中,AWS数据库双活是一种广泛应用于数据库领域的解决方案,为用户提供了高可用性和容灾保护。
本文将围绕AWS数据库双活原理进行详细说明。
1. 数据库双活概述数据库双活是一种在多个区域或数据中心中同时部署数据库的架构。
它的目标是保证数据在多个地理区域之间的同步性和一致性,以提供高可用性和容灾能力。
AWS数据库双活基于AWS全球基础设施,通过多个AWS 区域来实现数据库的双活部署。
2. AWS数据库双活架构AWS数据库双活架构由主数据库和辅助数据库组成。
主数据库用于处理读写请求,而辅助数据库用于实时复制主数据库的数据,并用于灾难恢复。
主数据库和辅助数据库之间通过AWS提供的数据库复制技术进行数据同步。
3. 数据同步技术AWS提供了多种数据同步技术,以实现主数据库和辅助数据库之间的数据同步。
其中,AWS数据库复制(AWS Database Replication)是较为常用的一种技术。
它使用异步数据复制方式,通过在主数据库上捕获日志,将日志传送到辅助数据库并应用,从而实现数据的同步。
4. 数据同步延迟由于数据在主数据库和辅助数据库之间的同步是异步进行的,因此存在数据同步延迟的问题。
AWS提供了一些方法来监控和减少数据同步延迟,包括使用AWS CloudWatch监控同步延迟指标,调整复制实例规格以提高同步性能等。
5. 主辅助切换当主数据库发生故障或不可用时,AWS数据库双活架构可以实现主辅助切换,以确保系统的连续性。
在发生主数据库故障时,辅助数据库会自动接管主数据库的读写请求,并成为新的主数据库。
当主数据库恢复后,可以将其重新配置为辅助数据库,并从新的主数据库同步数据。
亚马逊AWS云计算平台的介绍云计算是一种新的计算模式,其核心思想是将计算设备、数据和应用程序都存储在互联网上,使得用户可以在任何时间、任何地点通过网络访问这些服务。
目前,亚马逊AWS云计算平台已经成为了全球领先的云计算服务提供商之一。
本文就对亚马逊AWS 云计算平台做一个简单的介绍。
一、亚马逊AWS云计算平台的历史和发展亚马逊AWS云计算平台是由亚马逊公司于2006年推出的,它最初是为了满足亚马逊自身的业务需求而开发的。
1998年,亚马逊公司的规模开始急剧扩张,当时传统的客户端服务器架构已经无法满足公司的业务需求。
于是,亚马逊公司开始探索新的计算模式,最终决定采用云计算模式,即将计算设备、数据和应用程序都存储在互联网上,以便随时随地访问。
随着亚马逊AWS云计算平台的不断发展和壮大,越来越多的企业和机构开始意识到云计算的重要性,并开始采用亚马逊AWS 云计算平台来提供各种IT服务。
目前,亚马逊AWS云计算平台已经成为全球领先的云计算服务提供商之一,其用户包括了众多知名企业和机构,如NASA、Netflix、Airbnb、Dropbox、Spotify 等。
二、亚马逊AWS云计算平台的服务和应用亚马逊AWS云计算平台提供了包括计算、存储、数据库、安全、开发工具、人工智能、物联网等在内的各种服务和应用程序。
以下是亚马逊AWS云计算平台的一些主要服务和应用的介绍:1.计算服务计算服务是亚马逊AWS云计算平台的核心服务之一。
它包括了EC2、Lambda、Batch等多个服务。
其中,EC2是一种弹性计算服务,它可以让用户在亚马逊的基础设施上租用虚拟计算机实例,并以每小时收费的方式,按需使用计算资源。
Lambda是一种无服务器计算服务,它可以让用户编写和运行代码,而无需担心基础设施的管理和维护。
Batch是一种批处理服务,它可以让用户轻松地在亚马逊的基础设施上运行批处理作业。
2.存储服务存储服务是亚马逊AWS云计算平台中另一个核心服务。
亚马逊AWS云服务分析作者:杜忠岩张伟强鲁华伟来源:《中国新通信》 2015年第17期杜忠岩张伟强鲁华伟中讯邮电咨询设计院有限公司【摘要】本文首先对云计算及其服务类型进行了简单描述,之后主要针对亚马逊所提供的云服务进行归类整理分析,并对其中使用率最高的几种服务进行了相关分析,最后提出了 AWS服务的相关应用场景。
【关键字】云计算云服务 AWS一、引言云计算、云服务经过近几年的发展,已不再是一个高大上的名词,而是已经应用到寻常百姓家的技术。
如果你每天和互联网打交道,那么或多或少都会和云扯上关系。
gmail、github、网盘,网络笔记等各种服务都属于云服务的范畴。
2013 年底,亚马逊公有云服务AWS(AmazonWebServices)宣布即将推出中国云计算平台,同期公布在宁夏建设其全球第十个数据中心的计划。
此举意味着亚马逊ASW正式在中国落地。
中国是AWS在亚太地区的第4个区域,全球的第10个区域。
截止目前,AWS已开放了有限预览版本,并邀请小米、360等互联网企业成为中国地区AWS云的首批使用者。
本文主要针对亚马逊所提供的云服务进行归类整理分析,并提出其相关应用场景。
二、云计算云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
从该图中可以看出,云计算提供的服务可以分为三层,第一层是基础设施(Infrastructure),第二层是平台(Platform),第三层是应用软件(Application)。
基础设置的服务包括虚拟或实体计算机、块级存储、网络设施(如负载均衡,内容交付网络,DNS 解析)等,平台的服务包括对象存储、认证服务和访问服务、各种程序的运行时、队列服务、数据库服务等,而应用软件的服务则包括的多了,比如邮件服务、代码托管服务等等。
AWS大数据分析与机器学习曹玮祺博士解决方案架构师团队高级主管AWS中国weiqicao@1个实例算1,000小时=1,000个实例算1小时弹性数据中心用于分析的应用数据和日志放到Amazon Elastic MapReduce name node 用于控制分析NMapReduceElastic DataCenterN增加成百上千的节点N 作业完成后释放资源将分析结果放回你的系统多样(Variety)高速(Velocity)价值(Value)大数据多样大数据VarietyS3Kinesis DynamoDB RDS (Aurora)AWS LambdaKCL AppsEMR RedshiftMachine采集处理分析存储数据采集和存储数据处理事件处理数据分析数据结果结构化–简单查询NoSQLAmazon DynamoDB CacheAmazon ElastiCache 结构化–复杂查询SQLAmazon RDS SearchAmazon CloudSearch非结构化Cloud StorageAmazon S3数据结构复杂程度查询结构复杂程度热数据温数据冷数据容量MB–GB GB–TB PB项的大小B–KB KB–MB KB–TB 延迟毫秒毫秒, 秒分钟, 小时持久性低–高高非常高请求率非常高高低花费/GB$$-$$-¢¢¢Amazon RDS请求率高低花费/GB 高低延迟低高低高Amazon GlacierAmazon CloudSearch结构低高Amazon DynamoDBAmazon ElastiCacheAmazon ElastiCache AmazonDynamoDBAmazonRDSAmazonCloudSearchAmazon S3Amazon Glacier平均延迟毫秒毫秒毫秒, 秒毫秒,秒毫秒,秒,分钟(~ 大小)小时数据量GB GB–TBs(无限制)GB–TB(最大3TB)GB–TB GB–PB(无限制)GB–PB(无限制)项的大小B-KB KB(最大400 KB)KB(~行大小)KB(最大1 MB)KB-GB(最大5 TB)GB(最大40 TB)请求率非常高非常高高高低–非常高(无限制)非常低(无限制)存储花费$/GB/month$$¢¢¢¢$¢¢持久性低–中非常高高高非常高非常高Amazon Kinesis•分离生产者和消费者•临时缓冲区•保持客户端顺序•流式MapReduce44332211432143214321432144332211生产者1Shard 1Shard 2消费者1Count of Red = 4Count of Violet = 4消费者2Count of Blue = 4Count of Green = 4生产者2生产者3生产者NKey = RedKey = Green云端大数据最佳服务大数据实时大数据Velocity原始模式AWS LambdaKCL Apps采集处理分析存储数据采集和存储Amazon EMR•实时–在数据流中对事件实时应答–相对简单的数据计算(聚类, 过滤, 滑动窗口)•Micro-batching (近实时)–数据流中的小批量事件的近实时操作–标准处理和查询引擎分析•端到端低延迟•高可扩展性,弹性•持久性和容错•专注写分析逻辑事件处理框架KinesisAWS LambdaClientLibraryAmazon EMR使用KCL的实时监控Amazon Kinesis Kinesis-enabled ApplicationProducer on Amazon EC2AmazonDynamoDBDashboard onAmazon EC2 2秒点击流数据滑动窗口分析Amazon Kinesis 连接器•Amazon S3–批处理文件写入S3–基于序列的文件命名•Amazon Redshift–支持微批量加载至Redshift–用户自定义消息转换•Amazon DynamoDB–批量追加至表–用户自定义消息转换•Elasticsearch–上传至Elasticsearch集群–用户自定义消息转换S3Dynamo DB RedshiftKinesisData 驱动: Amazon S3Amazon S3 桶事件AWS Lambda原始映像缩略图映像123数据驱动: Amazon DynamoDBAWS LambdaAmazon DynamoDB表和流发送Amazon SNS通知更新另一个表AWS Lambda 从Kinesis读Amazon EMR 整合直接读取数据进入Hive, Pig, Streaming 和Cascading•面向批处理系统的实时源•多应用支持Amazon EMR 整合: HiveCREATE TABLE call_data_records(start_time bigint,end_time bigint,phone_number STRING,carrier STRING,recorded_duration bigint,calculated_duration bigint,lat double,long double)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ","STORED BY'com.amazon.emr.kinesis.hive.KinesisStorageHandler' TBLPROPERTIES(""=”MyTestStream");•高级抽象的离散流:Dstreams •表示为RDDs 序列DStreamRDD@T1RDD@T2消息接收者Spark 流–基本概念/docs/latest/streaming-kinesis-integration.html处理Amazon Kinesis 流AmazonKinesisSpark-Streaming实时:基于事件的处理KinesisStormSpoutProducerAmazonKinesisApache StormElastiCacheClient(D3)/bigdata/post/Tx36LYSCY2R0A9B/Implement-a-Real-time-Sliding-Window-Application-Using-Amazon-Kinesis-and-Apache云端大数据最佳服务大数据机器学习Value机器学习经典算法推荐聚类分类协同过滤CF(基于用户、基于项目)斜坡算法SVD++矩阵分解(Matrix Factorization w/ ALS)聚类算法(Canopy 、K-Means)模糊流式光谱分析决策树(Decision Trees)线性回归(Linear Regression)逻辑回归(Logistic Regression)贝叶斯模型(Naïve Bayes)随机森林算法(Random Forest)隐马尔可夫模型(Hidden Markov Models)多层感知器(Multilayer Perceptron)AWS 平台上的机器学习存储可视化&分析R Octave Matlab ExcelDAS SPSSGraphlab Mahout Spark MLlibH200xData Hbase HDFS Radoop Prediction.IORDBMS SAN/NAS BigMLKNIME WEKA Python Kits 单节点大数据机器学习的弹性伸缩•用正确的工具做正确的事情Amazon ML介绍为开发人员打造的,简单易用的机器学习服务●通过直观而强大的服务控制台来发现和建构学习模型●通过全功能的API和SDK来完成模型生命周期的自动化管理-Java, Python, .NET, JavaScript, Ruby, Javascript●通过AWS Mobile SDK快速建构iOS ,Android智能应用基于Amazon内部系统的,健壮的,强大的机器学习技术●基于Amazon内部众多经过实战考验的系统●不仅仅是算法:智能数据转换、输入数据的质量警告以及模型的质量警告、内置的业界最佳实践●和AWS的数据生态系统完美集成:S3、Amazon Redshift、RDS MySQL、IAM完全托管的模型和预测服务●端到端的服务,不需要对底层服务器进行管理●预测模型一键部署●可以通过程序获得模型的元数据,使数据获取流程自动化成为可能●可以通过Amazon CloudWatch监控预测使用模式按使用量付费,非常便宜●数据分析,模型训练和校验: $0.42/实例小时●批量预测: $0.10/1000条●实时预测: $0.10/1000条日志存储提取转换加载ETL建模打分用户网关服务层用户推荐引擎NRT情感处理社交媒体源其它源(信号灯)的在线机器学习平台用户媒资平台手机Web 日志(Amazon CloudWatch)Web 日志ETL (AmazonElastic MapReduce)机器学习推荐引擎(EMR)Model Updates查询播放购买比率AWS ElasticBeanstalk推荐AmazonCloudSearch流媒体事件社会媒体活动社会信号处理Amazon S3Amazon S3Amazon CloudFront Netflix基于AWS的在线机器学习平台大数据参考架构应用设备日志框架摄入存储处理可视化热数据温数据热数据冷数据热数据快快快慢快Hadoop全系列与Spark全系列完美支持使用AWS做大数据的行业无线/有线电信石油和天然气工业生产零售/消费娱乐生命科学探索金融服务媒体广告在线媒体社交网络游戏Sling 使用AWS存储和分析TB 级的数据通过使用AWS, 我们对于新功能的决定又快又容易.•需要平衡TB级的数据使用来了解用户需求同时主动占领市场份额。
amazon jianson解析-回复Amazon Jianson 解析: 大数据技术的新宠在当今数字化时代,数据正在成为世界上最宝贵的资源之一。
企业和组织纷纷意识到,通过有效利用和分析大数据,可以取得巨大的竞争优势。
Amazon Jianson,作为一种新兴的大数据处理技术,正在迅速崭露头角。
本文将一步一步回答关于Amazon Jianson的问题,并探讨其对大数据技术的影响。
什么是Amazon Jianson?Amazon Jianson是一种基于云服务的大数据管理和分析工具。
它可以处理大量的非结构化数据,例如日志文件、文本数据、传感器数据等,并通过简单的查询和分析工具进行处理。
Jianson对于使用拆分和分布式计算资源的复杂查询任务非常有效,使得数据科学家和分析师能够更好地掌握分析数据和发现隐藏信息的能力。
Amazon Jianson的特点是什么?Amazon Jianson有几个显著特点,使其成为大数据处理的新宠。
首先,它是一个高度可伸缩的解决方案,可以根据需求动态扩展和缩小计算和存储资源。
其次,Jianson提供了快速和实时的数据查询和分析功能,使用户能够更快地了解数据并做出决策。
此外,Jianson还具有内置的安全性和数据保护机制,确保用户的数据得到保护和安全。
Amazon Jianson的工作原理是什么?Amazon Jianson基于分布式计算和并行处理技术,可以将大量数据分解成小块,然后并行处理这些数据块。
它通过将数据分布在多个节点和分区上,实现了快速的查询和分析功能。
此外,Jianson还提供了一个灵活的查询语言,使用户可以通过简单的命令和语句来查询和分析数据。
Amazon Jianson的使用场景有哪些?Amazon Jianson可以在许多不同的领域和行业中发挥重要作用。
它可以用于日志分析,帮助企业监控和诊断各种技术和系统问题。
它还可以用于用户行为分析,帮助企业了解用户的偏好和行为模式。
AWS大数据解决方案
AWS大数据解决方案是使用AWS服务来处理大数据应用的方案。
处理
大数据应用时,许多组织和个人面临着技术与物理层面上的挑战。
这意味
着你需要很多容量,和高的可用性,抗拒各种类型的威胁,以及持续可用
的可靠服务和快速的扩展。
AWS服务易于使用,可以使组织和个人处理大
数据应用,并且可以节省时间和成本。
AWS大数据解决方案是使用专业的AWS服务来满足大数据应用的更苛
刻的要求。
AWS提供的服务包括Amazon S3、Amazon Redshift、Amazon Kinesis、Amazon DynamoDB、Amazon Elasticsearch,以及更多的服务,
它们可以建立可靠的大数据应用,并为客户提供更强大的支持服务。
Amazon S3,这是一个流行的云存储服务,它可以存储和访问大量数据。
它可以提供高可靠性的服务,同时具有高可伸缩性,可以满足大数据
应用的需求。
Amazon S3可以存储数据,并根据客户的需求提供文件上传,文档服务,备份和安全服务。
Amazon Redshift是AWS的一种数据仓库服务,它可以轻松处理大量
复杂的数据。
Amazon Redshift使用了强大的分布式架构,支持海量数据,可以实时分析,以及快速的查询处理。
他可以支持高达多百万每秒的行的
查询,满足任何业务需求。
同时,Amazon Redshift可以帮助组织从结构
化的到非结构化的数据进行分析,从而获取新的经验和洞察力。
八问AWS大数据作者:容永康来源:《软件和集成电路》2016年第12期1.亚马逊AWS是全球云计算领导者,能否介绍一下大数据和云计算的关系?大数据和云计算是一对孪生兄弟,如影随行。
数字化转型将产生大量新的数据源,这些数据源将持续产生史无前例的海量数据,如果企业当前的数据架构存在大量的数据孤岛,数据流错综复杂,那么这些新型的数据源将创造新的数据孤岛。
如果企业缺乏一个能随需应变的基础设施架构的话,这些海量数据将很快成为“历史”数据,而得不到任何处理和分析。
大数据依赖于云计算提供的弹性、灵活的计算平台,高效、低成本地为各个业务板块提供数据分析所需的所有数据。
而大数据又进一步为企业深入理解客户和市场提供了可能,为数字化运营,数字化供应链等数字化转型举措提供了精细化管理的手段。
2.大数据能给企业带来什么好处?尽管关于大数据的宣传无处不在,许多组织仍然没有意识到他们正面临大数据问题,或者根本没有从大数据的角度思考自己面临的问题。
一般而言,如果组织现有的数据库和应用程序已无法再扩展以应对数据量、数据多样性和数据速度方面需求的激增,那么该组织很可能会通过采用大数据技术而获益。
若未能正确解决大数据难题,则会导致成本不断上升,工作效率和竞争力不断下降。
而合理的大数据策略则能够迁移现有的繁重工作负载,交由大数据技术处理,并部署新应用程序以利用新的商机,从而帮助组织降低成本并提高运营效率。
3.大数据的工作原理是什么?大数据技术提供了可满足整个数据管理周期所需的新工具,因此具有技术上和经济上的可行性,不仅能够收集并存储更大的数据集,还能对其进行分析,以发掘有价值的新见解。
在大多数情况下,大数据处理包含一种常见的数据流—从收集原始数据到使用可付诸行动的信息。
收集。
收集原始数据(事务、日志、移动设备等)是众多组织在应对大数据时所面临的第一个难题。
优秀的大数据平台可使这一步事半功倍,让开发人员能够以任意速度(从实时处理到批处理)摄取多种数据(从结构化数据到非结构化数据)。
云端数据仓库,让您聚焦数据业务AWS Redshift 介绍田锴分析存储Import/ExportDirect Connect采集Amazon KinesisAmazonGlacierS3DynamoDBAmazon AuroraAWS大数据产品组合CloudSearchEMR EC2AmazonRedshiftMachineLearning关系型数据仓库大规模并行计算MPP , PB 级完全托管 硬盘 (HDD) 和 固态硬盘 (SSD) 存储$1,000/TB/年; $0.25/小时起Amazon Redshift 更快 更简单 更便宜Amazon Redshift•Amazon Redshift是一种快速开通、托管的PB级数据仓库•企业级关系型数据库系统•支持多种的客户端连接•列式存储的OLAP数据库引擎•基于PostgreSQL实现•使用本地裸磁盘达到最高的性能对数据仓库的传统认识…大公司使用集中IT建设需持续的投入多年的部署数百万美元的交易形成了“黑暗”数据 (dark data) 这是一个狭隘的观点 小公司也有大数据 (手机,社交,游戏,广告, 物联网) 周期长, 成本高, 管理复杂抑制了创新2004006008001000 1200 Enterprise Data Data in WarehouseAWS Redshift 数据仓库便宜 10x 倍 容易开通 提升DBA 生产力 速度快10x 倍不需要编程,全托管方便使用BI 工具、Hadoop 、机器学习和流数据 在线分析程序 按使用量付费,根据需要弹性增长可用性 & 容灾企业 大数据SaaSAWS Redshift 的部分客户Redshift 可以和已有分析工具配合使用JDBC/ODBCAmazon Redshift数据导入选项并行上传至S3AWS Direct Connect AWS Import/Export Amazon Kinesis数据及系统集成数据集成系统集成商Amazon Redshift 架构头节点简单的 SQL端点 存储元数据 优化查询计划 协同查询执行JDBC/ODBC计算节点本地、列式存储 并行/分布式的执行查询、加载、 备份、修复、调整大小 从S3/DynamoDB/SSH导入数据10 GigE (HPC)仅仅 $0.25/时起价, 可增长到 2 PB (被压缩的)DC1: SSD; 160 GB ~326 TB DS2: HDD; 2 TB ~ 2 PBIngestion/Backup Backup Restore优点 #1: Amazon Redshift 更快显著减少I/O列式存储analyze compression listing; Table | Column | Encoding ---------+----------------+---------listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw 10数据压缩区域地图(Zone maps) 直接连接存储设备 1M大数据块10 | 13 | 14 | 26 |… … | 100 | 245 | 324324375 623 637 959375 | 393 | 417… … 512 | 549 | 623 637 | 712 | 809 …… | 834 | 921 | 959优点 #1: Amazon Redshift 快排序键和区域地图SELECT COUNT(*) FROM LOGS WHERE DATE = ‘09-JUNE-2013’未排序表MIN: 01-JUNE-2013 MAX: 20-JUNE-2013 MIN: 08-JUNE-2013按日期排序MIN: 01-JUNE-2013 MAX: 06-JUNE-2013 MIN: 07-JUNE-2013 MAX: 12-JUNE-2013 MIN: 13-JUNE-2013 MAX: 18-JUNE-2013 MIN: 19-JUNE-2013 MAX: 24-JUNE-2013MAX: 30-JUNE-2013MIN: 12-JUNE-2013 MAX: 20-JUNE-2013 MIN: 02-JUNE-2013 MAX: 25-JUNE-2013优点 #1: Amazon Redshift 快并行、分布式:查询 (Query)负载 (Load)输出 (Export) 备份 (Backup) 恢复 (Restore) 调整大小 (Resize)优点 #1: Amazon Redshift 快分布类型及Sort KeysID 1 2 3Name John Smith Jane Jones Peter Black45 6Pat PartridgeSarah Cyan Brian Snail1 4John Smith Pat Partridge2 5Jane Jones Sarah Cyan3 6Peter Black Brian Snail优点 #1: Amazon Redshift 快H/W 优化对于I/O密集型工作负载, 4GB/秒/节点增强网络,可选择的存储类型均超过1M Packets/秒/节点,可选择存储类型和实例大小通过常规的自动补丁提升优化 Example: 我们新的存储密集型实例(HDD) 内存提高2倍, 计算提高 2倍, 磁盘吞吐量提高 1.5倍 成本: 同上一代!优点 #2: Amazon Redshift 廉价DS2 (HDD)按需1 年 预留 3 年 预留每小时的价格 DW1.XL 单节点 压缩后每TB年度价格$ 0.850$ 0.500 $ 0.228每小时的价格 DW2.L单节点$ 3,725$ 2,190 $ 999DC1 (SSD)按需 1 年 预留 3 年 预留压缩后每TB年度价格$ 0.250 $ 0.161 $ 0.100$ 13,690 $ 8,795 $ 5,500定价简单 节点数据 x 价格/时 头节点免费 没有预先的成本 按需付费优点 #3: Amazon Redshift 全托管连续/增量备份集群内多份拷贝 持续/增量备份到S3 备份跨区域区域1Amazon S3区域2Amazon S3优点 #3: Amazon Redshift 全托管容错磁盘故障Disk failures 节点故障Node failures网络故障Network failuresAmazon S3Region 1地区性以及可用区性的故障Region 2Amazon S3优点 #4: 安全性是内置的• • S3存储加密 在传输中通过SSL来保护数据• ECDHE 完美远期加密Customer VPCJDBC/ODBC••Amazon VPC进行网络隔离数据存储加密• 磁盘上的所有块 及 Amazon S3 中加密Internal VPC10 GigE (HPC)••Block key, Cluster key, Master Key(AES-256)本地 HSM & AWS CloudHSM 支持Ingestion Backup Restore•审计日志记录和AWS CloudTrail集成•SOC 1/2/3, PCI-DSS, FedRAMP, BAA优点 #5: 我们快速创新自从发布以来,Redshift 新增的服务特性超过100个 每两周发布一个Automatic patchingService Launch (2/14)PDX (4/2)Temp Credentials (4/11) SOC1/2/3 (5/8)Unload Encrypted FilesNRT (6/5)JDBC Fetch Size (6/27)SHA1 Builtin (7/15)4 byte UTF-8 (7/18)Sharing snapshots (7/18) Statement Timeout (7/22)Timezone, Epoch, Autoformat (7/25)WLM Timeout/Wildcards (8/1)CRC32 Builtin, CSV, Restore Progress(8/9) Resource Level IAM (8/9) PCI (8/22)UTF-8 Substitution (8/29)JSON, Regex, Cursors (9/10) Split_part, Audit tables (10/3) HSM Support (11/11)Kinesis EMR/HDFS/SSH copy, Distributed Tables, AuditLogging/CloudTrail, Concurrency, Resize Perf., Approximate Count Distinct, SNS Alerts, Cross Region Backup (11/13)Distributed Tables, Single Node Cursor Support, Maximum Connections to 500EIP Support for VPC Clusters (12/28)New query monitoring system tables anddiststyle all (1/13)Redshift on DW2 (SSD) Nodes (1/23)Compression for COPY from SSH, Fetch size support for single node clusters, newsystem tables with commit stats, row_number(), strotol() and querytermination (2/13)Resize progress indicator & ClusterVersion (3/21)Regex_Substr, COPY from JSON (3/25)3 new regex features, Unload to singlefile, FedRAMP(5/6)Rename Cluster (6/2)Copy from multiple regions,percentile_cont, percentile_disc (6/30)Free Trial (7/1) pg_last_unload_count (9/15) AES-128 S3 encryption (9/29)UTF-16 support (9/29)优点 #6: Amazon Redshift 是强大的•近似函数 (Approximate functions)•用户自定义函数 (User definedfunctions)Amazon ML •机器学习 (Machine Learning)•数据科学 (Data Science)优点 #7: Amazon Redshift 拥有完整的生态系统数据集成系统集成商业智能优点 #8: 面向服务的体系结构DynamoDBEMRS3 EC2/SSHRDS/AuroraAmazon RedshiftAmazon KinesisMachine LearningData PipelineCloudSearchMobile Analytics使用案例 –网站日志分析进行日志分析1PB+ 工作负载, 2TB/天, 年增长67%最大的表: 400 TB客户行为分析方案传统的数据仓库–查询在 1 week/小时.Hadoop –查询在 1 month/小时.14分钟内完成15个月数据查询量(1PB ) 10分钟内加载 5B 行21B 行 与 10B 行 – 3 天 (Hive) 到 2 小时负载管道: 90 小时 (Oracle) 到 8 小时64 个集群800 个节点13PB 预配置存储 2 个DBA数据仓库可以即便宜又强大Sushiro –物联网的实时流分析Sushiro –物联网的实时流分析Amazon Kinesis对实时数据进行摄入,Amazon Redshif进行分析380 家商店里,寿司的实时数据流近乎实时的库存信息以及消费信息Amazon存储需求的预测, 更少食物的浪费,效率的提高大数据并不一定是批量•可以流数据 •近乎实时的处理•快速的响应需求您可以进行混合和匹配•传统数据中心和云混合(On premises and cloud ) •定制开发和管理服务•可管理的、安全的基础设施数据仓库 支持实时数据总结Amazon Redshift:花费时间精力在您的数据上,而不是数据仓库上。