- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
何为大?—数Βιβλιοθήκη 度量• 1Byte = 8 Bit • 1KB = 1,024 Bytes • 1MB = 1,024 KB = 1,048,576 Bytes • 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes • 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes • 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes • 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes • 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes • 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
approximations
6
业务发展-DAAS模式精髓IT比业务反应更快!
批准&部署研究 • 优先级问题 • 错过截止日期 • 与市场脱节
实时自动调节
BI,分析&多变量测试 • 太多噪音数据 • 事后诸葛 • 依靠猜测
系统自动升级
开发&QA • 太多项目 • 茅盾的优先级 • 昂贵
少量IT参与
重-设计 重-发布 新-平台
大数据基础概念
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
每年 每季 每月
使用群体智慧
调整、商品化&it优化,业务改进 • 手动&高成本 • 仅提供前5%最热门内容 • 专家偏见
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据是一种方法(HOW) 7. 大数据有哪些潜在价值(Value) 8. 大数据有哪些关键的技术(Tachnology)
阿里巴巴云梯一 数据规模(2012)
集群容量
–约3200台服务器
–物理CPU ~30000核 –内存 ~100TB –磁盘 ~36000块 –存储容量 ~60PB
集群负载 –每天Job数 150,000+道 –每天hive query数 6,000+
–每天扫描数据量 ~7.5PB
–每天扫描文件数 ~4亿 –存储利用率 ~80% –CPU利用率~65% 峰值80%
农业社会
• 土地 人口
工业时代
• 资本、技术,机器,能源
信息时代
• 用户、数据
4
4
UGC时代到来
❖在web 2.0的时代,人们从信息的被动接受者变成了主动创造者
❖全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… ❖每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… ❖推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… ❖每天亚马逊上将产生 6.3 百万笔订单… ❖每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… ❖Google 上每天需要处理24PB 的数据…
阿里巴巴是数据信息流制造业
目录
用5W1H了解大数据
1. 为什么要研究大数据(WHY) 2. 什么是大数据(WHAT) 3. 哪里有大数据(WHERE) 4. 大数据现在什么阶段(WHEN) 5. 谁在做大数据(WHO) 6. 大数据能做什么方法(HOW) 7. 大数据有哪些潜在价值 8. 大数据有哪些关键的技术
2
商业模式驱动
数据竞争的压力
能力向消费者转移
大数据的激增
“数据现在就像新型石油。数据就像原油一样,非常宝贵, 但是如果未进行优化则毫无用处。” – 专家
“我们的经济是基于一种不仅可再生并且会自我生成 的资源。用完不是问题,被淹没才是问题。”– John Naisbitt
3
社会在发生变革
• 书在读你 • 数据是一种资产,成为商品构成成分、是一种资源
大数据的“大“
• 《红楼梦》含标点87万字(不含标点853509字) • 每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes • 1GB 约等于671部红楼梦 • 1TB 约等于631,903 部 • 1PB 约等于647,068,911部 • 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB ) • 中国国家图书馆:2631万册 • 1EB = 4000倍美国国会图书馆存储的信息量 • 600美元的硬盘就可以存储全世界所有的歌曲 • MGI估计,全球企业2010 年在硬盘上存储了超过7EB(1EB 等于10 亿GB) • 的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB 新数据
to respond
* Truthfulness, accuracy or precision, correctness
Data in many forms
Structured, unstructured, text, multimedia
Data in doubt
Uncertainty due to data inconsistency & incompleteness, ambiguities, latency, deception, model
5
全新的计算时代
Volume多
Velocity快
Variety杂
Veracity垃圾*
Data at rest
Data in motion
Terabytes to exabytes of existing data to process
Streaming data, milliseconds to seconds