AWS技术峰会2018PPT幻灯片课件
- 格式:ppt
- 大小:11.05 MB
- 文档页数:15
AWS大数据分析与机器学习曹玮祺博士解决方案架构师团队高级主管AWS中国weiqicao@1个实例算1,000小时=1,000个实例算1小时弹性数据中心用于分析的应用数据和日志放到Amazon Elastic MapReduce name node 用于控制分析NMapReduceElastic DataCenterN增加成百上千的节点N 作业完成后释放资源将分析结果放回你的系统多样(Variety)高速(Velocity)价值(Value)大数据多样大数据VarietyS3Kinesis DynamoDB RDS (Aurora)AWS LambdaKCL AppsEMR RedshiftMachine采集处理分析存储数据采集和存储数据处理事件处理数据分析数据结果结构化–简单查询NoSQLAmazon DynamoDB CacheAmazon ElastiCache 结构化–复杂查询SQLAmazon RDS SearchAmazon CloudSearch非结构化Cloud StorageAmazon S3数据结构复杂程度查询结构复杂程度热数据温数据冷数据容量MB–GB GB–TB PB项的大小B–KB KB–MB KB–TB 延迟毫秒毫秒, 秒分钟, 小时持久性低–高高非常高请求率非常高高低花费/GB$$-$$-¢¢¢Amazon RDS请求率高低花费/GB 高低延迟低高低高Amazon GlacierAmazon CloudSearch结构低高Amazon DynamoDBAmazon ElastiCacheAmazon ElastiCache AmazonDynamoDBAmazonRDSAmazonCloudSearchAmazon S3Amazon Glacier平均延迟毫秒毫秒毫秒, 秒毫秒,秒毫秒,秒,分钟(~ 大小)小时数据量GB GB–TBs(无限制)GB–TB(最大3TB)GB–TB GB–PB(无限制)GB–PB(无限制)项的大小B-KB KB(最大400 KB)KB(~行大小)KB(最大1 MB)KB-GB(最大5 TB)GB(最大40 TB)请求率非常高非常高高高低–非常高(无限制)非常低(无限制)存储花费$/GB/month$$¢¢¢¢$¢¢持久性低–中非常高高高非常高非常高Amazon Kinesis•分离生产者和消费者•临时缓冲区•保持客户端顺序•流式MapReduce44332211432143214321432144332211生产者1Shard 1Shard 2消费者1Count of Red = 4Count of Violet = 4消费者2Count of Blue = 4Count of Green = 4生产者2生产者3生产者NKey = RedKey = Green云端大数据最佳服务大数据实时大数据Velocity原始模式AWS LambdaKCL Apps采集处理分析存储数据采集和存储Amazon EMR•实时–在数据流中对事件实时应答–相对简单的数据计算(聚类, 过滤, 滑动窗口)•Micro-batching (近实时)–数据流中的小批量事件的近实时操作–标准处理和查询引擎分析•端到端低延迟•高可扩展性,弹性•持久性和容错•专注写分析逻辑事件处理框架KinesisAWS LambdaClientLibraryAmazon EMR使用KCL的实时监控Amazon Kinesis Kinesis-enabled ApplicationProducer on Amazon EC2AmazonDynamoDBDashboard onAmazon EC2 2秒点击流数据滑动窗口分析Amazon Kinesis 连接器•Amazon S3–批处理文件写入S3–基于序列的文件命名•Amazon Redshift–支持微批量加载至Redshift–用户自定义消息转换•Amazon DynamoDB–批量追加至表–用户自定义消息转换•Elasticsearch–上传至Elasticsearch集群–用户自定义消息转换S3Dynamo DB RedshiftKinesisData 驱动: Amazon S3Amazon S3 桶事件AWS Lambda原始映像缩略图映像123数据驱动: Amazon DynamoDBAWS LambdaAmazon DynamoDB表和流发送Amazon SNS通知更新另一个表AWS Lambda 从Kinesis读Amazon EMR 整合直接读取数据进入Hive, Pig, Streaming 和Cascading•面向批处理系统的实时源•多应用支持Amazon EMR 整合: HiveCREATE TABLE call_data_records(start_time bigint,end_time bigint,phone_number STRING,carrier STRING,recorded_duration bigint,calculated_duration bigint,lat double,long double)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ","STORED BY'com.amazon.emr.kinesis.hive.KinesisStorageHandler' TBLPROPERTIES(""=”MyTestStream");•高级抽象的离散流:Dstreams •表示为RDDs 序列DStreamRDD@T1RDD@T2消息接收者Spark 流–基本概念/docs/latest/streaming-kinesis-integration.html处理Amazon Kinesis 流AmazonKinesisSpark-Streaming实时:基于事件的处理KinesisStormSpoutProducerAmazonKinesisApache StormElastiCacheClient(D3)/bigdata/post/Tx36LYSCY2R0A9B/Implement-a-Real-time-Sliding-Window-Application-Using-Amazon-Kinesis-and-Apache云端大数据最佳服务大数据机器学习Value机器学习经典算法推荐聚类分类协同过滤CF(基于用户、基于项目)斜坡算法SVD++矩阵分解(Matrix Factorization w/ ALS)聚类算法(Canopy 、K-Means)模糊流式光谱分析决策树(Decision Trees)线性回归(Linear Regression)逻辑回归(Logistic Regression)贝叶斯模型(Naïve Bayes)随机森林算法(Random Forest)隐马尔可夫模型(Hidden Markov Models)多层感知器(Multilayer Perceptron)AWS 平台上的机器学习存储可视化&分析R Octave Matlab ExcelDAS SPSSGraphlab Mahout Spark MLlibH200xData Hbase HDFS Radoop Prediction.IORDBMS SAN/NAS BigMLKNIME WEKA Python Kits 单节点大数据机器学习的弹性伸缩•用正确的工具做正确的事情Amazon ML介绍为开发人员打造的,简单易用的机器学习服务●通过直观而强大的服务控制台来发现和建构学习模型●通过全功能的API和SDK来完成模型生命周期的自动化管理-Java, Python, .NET, JavaScript, Ruby, Javascript●通过AWS Mobile SDK快速建构iOS ,Android智能应用基于Amazon内部系统的,健壮的,强大的机器学习技术●基于Amazon内部众多经过实战考验的系统●不仅仅是算法:智能数据转换、输入数据的质量警告以及模型的质量警告、内置的业界最佳实践●和AWS的数据生态系统完美集成:S3、Amazon Redshift、RDS MySQL、IAM完全托管的模型和预测服务●端到端的服务,不需要对底层服务器进行管理●预测模型一键部署●可以通过程序获得模型的元数据,使数据获取流程自动化成为可能●可以通过Amazon CloudWatch监控预测使用模式按使用量付费,非常便宜●数据分析,模型训练和校验: $0.42/实例小时●批量预测: $0.10/1000条●实时预测: $0.10/1000条日志存储提取转换加载ETL建模打分用户网关服务层用户推荐引擎NRT情感处理社交媒体源其它源(信号灯)的在线机器学习平台用户媒资平台手机Web 日志(Amazon CloudWatch)Web 日志ETL (AmazonElastic MapReduce)机器学习推荐引擎(EMR)Model Updates查询播放购买比率AWS ElasticBeanstalk推荐AmazonCloudSearch流媒体事件社会媒体活动社会信号处理Amazon S3Amazon S3Amazon CloudFront Netflix基于AWS的在线机器学习平台大数据参考架构应用设备日志框架摄入存储处理可视化热数据温数据热数据冷数据热数据快快快慢快Hadoop全系列与Spark全系列完美支持使用AWS做大数据的行业无线/有线电信石油和天然气工业生产零售/消费娱乐生命科学探索金融服务媒体广告在线媒体社交网络游戏Sling 使用AWS存储和分析TB 级的数据通过使用AWS, 我们对于新功能的决定又快又容易.•需要平衡TB级的数据使用来了解用户需求同时主动占领市场份额。