Availability
A
Consistency
C
CAP 理论
Partition Tolerance
P
分布式计算是一门计算机科学,它研 究如何把一个需要非常巨大的计算能 力才能解决的问题分成许多小的部分, 然后把这些部分分配给许多计算机进 行处理,最后把这些计算结果综合起 来得到最终的结果。
一个分布式系统不可能满足一致性、可用性和分区容错性这 三个需求,最多只能同时满足两个 ——Eric Brewer
Big Table
为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千 台服务器。
数据模型 Key-Value映射:
(row:string, column:string, time:int64)→string Bigtable的表会根据行键自动划分为片(tablet), 片是负载均衡的单元。
NoSQL
NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一 些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库, 叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数 据管理上。
•NoSQL运动两个核心理论基础:
什么是Big Data技术
企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从 这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合
大数据技术将被设计用于 在成本可承受(economic ally)的条件下,通过非常 快速(velocity)的采集、 发现和分析,从大量化(v olumes)、多类别(vari ety)的数据中提取价值 (value),将是IT 领域新 一代的技术与架构