5.1 引例
分布式存储
对于第一类存储问题,若能将多台机器硬盘以某种方式连接到一起,则问题迎刃 而解。取机器cSlave0,cSlave1和cMaster0,采用客户-服务器模式构建分布式 存储集群,让cMaster0管理cSlave0,cSlave1。
cMaster0 统一管理cSlave0~N
存储空间
<cstor,1> <cstor,2>
计算后 得结果
结果存至DFS
<china,3>
计算后 得结果
<cstor,3>
结果存至DFS
分布式存储
本地计算shuffle 洗牌 shuffle
汇总计算Reduce
分布式计算
20
存结果
冗余存储与冗余计算
只要保证存于cSlave0上的数据,同 时还存在于别的机器上,即使 cSlave0宕机,数据依旧不会丢失。
第二类问题,计算。
问题③:在问题①下,统计file0和file1这两个文件里每个单词出现的次数。
第三类问题,可靠性。
问题④:假设用于解决上述问题的机器宕机了,问如何保证数据不丢失。
4
5.1 引例
5.1.1 问题概述 5.1.2 常规解决方案 5.1.3 分布式下的解决方案 5.1.4 小结
5.1 引例
5.1 引例 冗余存储与冗余计算
存储时 计算时
引入新机器cSlave2和cSlave3,将存于cSlave0的file0同 样存储于cSlave2,存于cSlave1的file1同样存一份于 cSlave3。
cSlave0~3的计算任务统一由cMaster1指派。 cMaster1选中先结束的那台机器的计算结果,并停止另一 台机器里还在计算的进程