大数据平台技术框架选型
- 格式:docx
- 大小:23.68 KB
- 文档页数:6
大数据技术架构与应用开发手册第1章大数据技术概述 (4)1.1 大数据概念与特点 (4)1.2 大数据技术发展历程 (4)1.3 大数据技术架构概述 (4)第2章数据采集与存储 (4)2.1 数据采集技术 (4)2.2 数据存储技术 (4)2.3 分布式文件系统 (4)2.4 数据仓库与数据湖 (4)第3章数据处理与分析 (4)3.1 批处理技术 (4)3.2 流处理技术 (4)3.3 数据挖掘与机器学习 (4)3.4 数据可视化与分析工具 (4)第4章大数据计算框架 (4)4.1 Hadoop计算框架 (4)4.2 Spark计算框架 (4)4.3 Flink计算框架 (4)4.4 其他计算框架 (4)第5章大数据安全与隐私保护 (4)5.1 数据安全策略 (4)5.2 数据加密与解密 (4)5.3 数据隐私保护技术 (4)5.4 安全审计与合规性 (4)第6章大数据质量管理 (4)6.1 数据质量评估 (4)6.2 数据清洗与预处理 (4)6.3 数据质量管理策略 (5)6.4 数据质量管理工具 (5)第7章大数据应用开发 (5)7.1 应用开发流程 (5)7.2 应用开发框架 (5)7.3 应用开发工具与库 (5)7.4 应用功能优化 (5)第8章大数据平台建设与管理 (5)8.1 平台架构设计 (5)8.2 平台运维管理 (5)8.3 平台监控与故障排查 (5)8.4 平台功能优化 (5)第9章大数据行业应用案例 (5)9.1 金融行业应用案例 (5)9.3 医疗行业应用案例 (5)9.4 智能制造行业应用案例 (5)第10章大数据技术发展趋势 (5)10.1 人工智能与大数据 (5)10.2 云计算与大数据 (5)10.3 物联网与大数据 (5)10.4 区块链与大数据 (5)第11章大数据人才培养与团队建设 (5)11.1 人才培养模式 (5)11.2 团队建设策略 (5)11.3 技术交流与合作 (5)11.4 大数据职业规划 (5)第12章大数据政策与法规 (5)12.1 国际大数据政策概述 (5)12.2 我国大数据政策解析 (6)12.3 数据安全与隐私保护法规 (6)12.4 大数据行业合规性要求 (6)第1章大数据技术概述 (6)1.1 大数据概念与特点 (6)1.1.1 大数据概念 (6)1.1.2 大数据特点 (6)1.2 大数据技术发展历程 (6)1.2.1 数据积累阶段 (6)1.2.2 数据存储与管理阶段 (6)1.2.3 数据分析与挖掘阶段 (7)1.2.4 大数据应用阶段 (7)1.3 大数据技术架构概述 (7)1.3.1 数据源层 (7)1.3.2 数据存储层 (7)1.3.3 数据处理层 (7)1.3.4 数据分析与应用层 (7)1.3.5 数据安全与隐私保护层 (7)第2章数据采集与存储 (7)2.1 数据采集技术 (8)2.2 数据存储技术 (8)2.3 分布式文件系统 (8)2.4 数据仓库与数据湖 (9)第3章数据处理与分析 (9)3.1 批处理技术 (9)3.2 流处理技术 (10)3.3 数据挖掘与机器学习 (10)3.4 数据可视化与分析工具 (10)第4章大数据计算框架 (11)4.2 Spark计算框架 (11)4.3 Flink计算框架 (12)4.4 其他计算框架 (12)第5章大数据安全与隐私保护 (12)5.1 数据安全策略 (13)5.2 数据加密与解密 (13)5.3 数据隐私保护技术 (13)5.4 安全审计与合规性 (14)第6章大数据质量管理 (14)6.1 数据质量评估 (14)6.2 数据清洗与预处理 (15)6.3 数据质量管理策略 (15)6.4 数据质量管理工具 (15)第7章大数据应用开发 (16)7.1 应用开发流程 (16)7.2 应用开发框架 (16)7.3 应用开发工具与库 (17)7.4 应用功能优化 (17)第8章大数据平台建设与管理 (18)8.1 平台架构设计 (18)8.2 平台运维管理 (18)8.3 平台监控与故障排查 (19)8.4 平台功能优化 (19)第9章大数据行业应用案例 (19)9.1 金融行业应用案例 (19)9.2 电商行业应用案例 (20)9.3 医疗行业应用案例 (20)9.4 智能制造行业应用案例 (21)第10章大数据技术发展趋势 (21)10.1 人工智能与大数据 (21)10.2 云计算与大数据 (21)10.3 物联网与大数据 (22)10.4 区块链与大数据 (22)第11章大数据人才培养与团队建设 (22)11.1 人才培养模式 (23)11.2 团队建设策略 (23)11.3 技术交流与合作 (23)11.4 大数据职业规划 (24)第12章大数据政策与法规 (24)12.1 国际大数据政策概述 (24)12.2 我国大数据政策解析 (25)12.3 数据安全与隐私保护法规 (25)12.4 大数据行业合规性要求 (26)第1章大数据技术概述1.1 大数据概念与特点1.2 大数据技术发展历程1.3 大数据技术架构概述第2章数据采集与存储2.1 数据采集技术2.2 数据存储技术2.3 分布式文件系统2.4 数据仓库与数据湖第3章数据处理与分析3.1 批处理技术3.2 流处理技术3.3 数据挖掘与机器学习3.4 数据可视化与分析工具第4章大数据计算框架4.1 Hadoop计算框架4.2 Spark计算框架4.3 Flink计算框架4.4 其他计算框架第5章大数据安全与隐私保护5.1 数据安全策略5.2 数据加密与解密5.3 数据隐私保护技术5.4 安全审计与合规性第6章大数据质量管理6.1 数据质量评估6.2 数据清洗与预处理6.3 数据质量管理策略6.4 数据质量管理工具第7章大数据应用开发7.1 应用开发流程7.2 应用开发框架7.3 应用开发工具与库7.4 应用功能优化第8章大数据平台建设与管理8.1 平台架构设计8.2 平台运维管理8.3 平台监控与故障排查8.4 平台功能优化第9章大数据行业应用案例9.1 金融行业应用案例9.2 电商行业应用案例9.3 医疗行业应用案例9.4 智能制造行业应用案例第10章大数据技术发展趋势10.1 人工智能与大数据10.2 云计算与大数据10.3 物联网与大数据10.4 区块链与大数据第11章大数据人才培养与团队建设11.1 人才培养模式11.2 团队建设策略11.3 技术交流与合作11.4 大数据职业规划第12章大数据政策与法规12.1 国际大数据政策概述12.2 我国大数据政策解析12.3 数据安全与隐私保护法规12.4 大数据行业合规性要求第1章大数据技术概述信息技术的飞速发展,大数据作为一种新兴的信息资源,正日益成为推动社会进步的重要力量。
大数据平台技术在当今这个信息爆炸的时代,大数据平台技术已经成为了企业和组织获取竞争优势的关键工具。
大数据平台是指一种集成了多种数据处理和分析工具的系统,它能够处理和分析海量数据,帮助用户从数据中提取有价值的信息和洞察。
以下是对大数据平台技术的详细介绍。
首先,大数据平台的核心在于其能够处理大规模数据集的能力。
这些数据集通常包括结构化数据、半结构化数据和非结构化数据。
结构化数据是指那些存储在关系数据库中的表格数据,而非结构化数据则包括文本、图片、视频等多种形式。
半结构化数据则介于两者之间,如JSON或XML格式的数据。
其次,大数据平台通常包含以下几个关键组件:1. 数据存储:这是大数据平台的基础,它需要能够存储海量数据。
常见的存储技术包括分布式文件系统(如Hadoop的HDFS)和NoSQL数据库(如Cassandra或MongoDB)。
2. 数据处理:大数据平台需要能够对存储的数据进行高效的处理。
这通常涉及到数据的清洗、转换和加载(ETL)过程,以及使用如Apache Spark或Hadoop MapReduce等框架进行的复杂数据处理任务。
3. 数据分析:分析是大数据平台的核心功能之一。
它涉及到使用统计方法、机器学习算法和数据挖掘技术来从数据中提取有价值的信息。
这些分析结果可以帮助企业做出更明智的决策。
4. 数据可视化:将分析结果以图形或图表的形式展示出来,可以帮助用户更直观地理解数据。
大数据平台通常集成了数据可视化工具,如Tableau或Power BI。
5. 数据安全与隐私:随着数据量的增加,数据安全和隐私保护变得越来越重要。
大数据平台需要提供数据加密、访问控制和审计日志等安全功能,以确保数据的安全和合规性。
此外,大数据平台还需要具备良好的可扩展性和灵活性,以适应不断变化的业务需求和数据环境。
这通常意味着平台需要支持多种数据源、处理框架和分析工具,以及能够轻松地添加或移除资源。
在实施大数据平台时,企业需要考虑以下几个方面:1. 明确业务目标:在构建大数据平台之前,企业应该明确他们希望通过平台实现的业务目标,如提高运营效率、增强客户洞察力或优化产品推荐。
技术选型tb的描述-回复技术选型是指在项目或产品开发过程中,根据特定的需求、目标和条件,选择最适合的技术框架或工具。
本文将围绕着“技术选型tb的描述”这个主题展开讨论,重点侧重于tb(淘宝)这一电商平台的技术选型及相关方面的介绍。
一、淘宝的背景与介绍淘宝是中国最大的综合性电子商务平台,于2003年由阿里巴巴集团创立。
淘宝以C2C模式为基础,打造了一个拥有数亿用户的购物平台。
随着互联网的快速发展和消费行为的改变,淘宝不断优化和升级自身的技术架构,以应对日益增长和复杂化的业务需求。
二、技术选型的重要性技术选型在电商平台的开发和运营中扮演着重要的角色。
通过合理的技术选型,可以提高系统的性能和稳定性,降低系统的开发和运维成本,优化用户体验以及提升系统的可扩展性。
三、淘宝的技术架构1. 分布式架构:淘宝采用了分布式架构来应对高并发的访问量和海量的数据处理需求。
通过将业务按照不同的功能分解成独立的模块,并采用分布式计算和存储的方式,使得系统能够快速扩展和横向伸缩。
2. 高可用性和容错性:淘宝通过引入容灾机制和高可用性设计来保证系统的稳定运行。
例如,采用分布式缓存和负载均衡等技术,以及多活数据中心部署和数据冗余备份策略等,确保了系统在单点故障或数据中心级别故障时的高可用性和容错性。
3. 数据挖掘和智能推荐:淘宝依托阿里巴巴集团强大的技术能力,构建了一套完整的数据挖掘和智能推荐系统。
通过大数据分析和机器学习算法,淘宝能够根据用户的历史行为和偏好,提供个性化的商品推荐和搜索结果排序。
4. 移动化支持:随着移动互联网的普及,淘宝将移动化作为重点发展方向。
淘宝借助大数据和云计算等技术手段,构建了移动端的技术架构,包括手机客户端和移动Web应用等,以提供便捷的购物体验和丰富的移动服务。
四、技术选型的考虑因素在进行技术选型时,淘宝考虑了以下几个重要因素:1. 可扩展性:淘宝需要能够应对数亿用户的同时访问需求,因此选用的技术框架必须具备良好的可扩展性,能够支持大规模并发和海量数据处理。
政务大数据平台总体架构方案政务大数据平台是政府部门的一个重要项目,其目标是在政府机构、企业和公众之间建立一个稳定、高效、安全和可靠的数据资源共享平台,从而提高政府决策的科学性和精准度,为政府和社会各界提供更好的公共服务。
政务大数据平台总体架构方案是政务大数据平台建设的关键要素之一,其涉及到政务大数据平台的技术、业务和数据资源方面的考虑,因此必须使用合适的技术手段和方法来设计和实现。
一、架构设计政务大数据平台总体框架包括四大模块,分别是数据采集、数据存储、数据处理和数据应用。
这个框架在实现政务数据管理和共享方面非常有效,可以适应各种数据类型和处理需求,具有良好的可扩展性和可维护性。
二、数据采集政务大数据平台的数据采集主要包括两个步骤,即数据源识别和数据收集。
在“数据源识别”方面,需要分析政府各个部门、公共机构、企业和个人所涉及的数据资源类型、范围和格式,找出每个数据资源的具体属性和元数据,为后续的数据收集、数据清洗和数据处理提供基础数据。
在“数据收集”方面,需要使用相应的技术手段和方法,收集政府机构、企业和公众所提供的数据,进行整合和分类,确定数据质量标准和评价指标。
三、数据存储政务大数据平台的数据存储主要考虑数据安全和数据管理两个方面,要求数据的存储必须满足数据的完整性、一致性和可靠性。
数据存储采用分布式操作的方式,将数据存储在多个服务器上,避免故障或需要维护或升级服务时,数据的丢失或泄露。
同时,采用了多层次、多种类型的数据存储方式,确保在不同的应用场景下数据可以快速高效地访问。
四、数据处理政务大数据平台的数据处理主要包括数据清洗、数据分析、数据挖掘和数据建模四个步骤,确保数据资源得到充分利用。
具体要通过数据集成、数据统计、数据抽象和数据推理等多种技术手段和方法来实现。
五、数据应用政务大数据平台的数据应用主要是将处理后的数据呈现给用户,以实现数据信息化和可视化。
同时支持一系列数据查询、检索和分析的功能,以满足不同用户的数据需要。
基于大数据的多平台数据融合系统一、引言随着信息技术的快速发展,大数据已经成为了各个行业的重要资源。
然而,不同平台上的数据格式和存储方式各不相同,给数据的整合和分析带来了很大的困难。
因此,建立一个基于大数据的多平台数据融合系统是非常必要的。
本文将详细介绍这个系统的设计和实现。
二、系统设计1. 系统目标本系统的目标是将来自不同平台的数据进行整合和融合,以提供更加全面和准确的数据支持。
系统需要具备以下特点:- 支持多种数据源:系统应该能够接入各种不同平台上的数据源,包括关系型数据库、非关系型数据库、日志文件等。
- 数据清洗和整合:系统应该具备数据清洗和整合的能力,以保证数据的质量和一致性。
- 高效的数据存储和查询:系统应该能够高效地存储和查询大规模的数据,以满足用户的实时查询需求。
- 数据安全和隐私保护:系统应该具备数据安全和隐私保护的能力,以保证用户的数据不被泄露或滥用。
2. 系统架构本系统采用分布式架构,包括以下几个核心组件:- 数据接入模块:负责从不同平台上的数据源中获取数据,并进行初步的清洗和整合。
- 数据存储模块:负责将清洗和整合后的数据存储到分布式文件系统或分布式数据库中,以支持高效的数据查询。
- 数据处理模块:负责对存储在系统中的数据进行进一步的处理和分析,以提供更加有价值的信息。
- 数据查询模块:负责接收用户的查询请求,并将查询结果返回给用户。
- 安全与隐私模块:负责对数据进行加密和权限控制,以保证数据的安全性和隐私性。
3. 数据整合和清洗数据整合和清洗是系统的核心功能之一。
在数据接入模块中,系统会对来自不同平台的数据进行格式转换和字段映射,以保证数据的一致性。
同时,系统还会对数据进行去重、去噪和纠错等处理,以提高数据的质量。
4. 数据存储和查询系统采用分布式文件系统或分布式数据库来存储数据。
这样可以提高数据的存储和查询效率,并且能够支持大规模数据的存储和查询需求。
同时,系统还可以根据数据的特点和访问模式,进行数据的分区和索引,以进一步提高查询效率。
大数据分析平台设计方案一、引言在当今信息爆炸的时代,大数据已经成为各个行业中不可忽视的重要资源。
随着数据量的不断增长,传统的数据分析方法已经无法满足企业对数据深度挖掘的需求。
因此,构建一套高效、可靠的大数据分析平台迫在眉睫。
本文将重点介绍一种基于云计算、并行计算和机器学习等技术的大数据分析平台设计方案。
二、背景分析随着互联网和物联网的快速发展,海量数据持续涌现。
传统的数据分析方法,如关系型数据库和数据仓库,面临着数据量过大、处理速度慢、数据结构复杂等问题。
因此,开发一套新型的大数据分析平台,能够高效处理和分析海量数据,对于企业决策和业务优化具有重要意义。
三、设计原则1. 横向扩展性:平台应具备良好的横向扩展性,能够根据数据规模的增长进行动态的资源分配和负载均衡。
2. 高可用性和容错性:平台应具备高可用性和容错性,能够保证数据分析的稳定运行,避免单点故障。
3. 高性能:平台应具备高性能的数据处理和计算能力,以实现实时、快速的数据分析与挖掘。
4. 灵活的数据模型:平台应支持多种数据模型,如关系型数据、非关系型数据和图数据等,以满足不同业务需求。
四、系统架构基于上述的设计原则,我们提出以下大数据分析平台的系统架构:1. 数据收集与预处理数据收集和预处理是大数据分析的首要环节。
在该阶段,数据可以通过各种方式进行采集,如日志记录、传感器数据等。
然后对采集到的数据进行清洗、过滤和转换,并对数据进行初步的统计分析,以便后续的深入挖掘。
2. 分布式存储与管理在大数据分析平台中,分布式存储系统是核心基础设施之一。
我们可以选择使用Hadoop分布式文件系统(HDFS)或类似的开源分布式存储系统。
通过数据切分、冗余备份和分布式管理,来确保数据的可靠存储和高效访问。
3. 数据处理与计算数据处理与计算模块是大数据分析平台的核心功能之一。
这里我们可以采用并行计算框架,如Apache Spark或Hadoop MapReduce,以实现分布式的数据处理和计算。
大数据平台建设方案随着信息技术的不断发展,大数据已经成为了各行各业发展中不可或缺的一部分。
大数据的处理能力与分析能力可以帮助企业更好地理解数据,挖掘出其中蕴藏的商机,提升决策效率。
因此,建设一个合适的大数据平台对于企业的发展至关重要。
本文将就大数据平台建设方案进行探讨。
一、基础架构设计在建设大数据平台时,首先需要设计一个稳定可靠的基础架构。
这包括硬件设备的选择、网络环境的配置等。
在硬件设备方面,需要考虑到数据存储、处理速度等因素,可以选择高性能的服务器、存储设备等。
同时,为了保证数据的传输和处理效率,需要构建高速、稳定的网络环境。
二、数据采集与清洗建设大数据平台的第二步是数据的采集与清洗。
在这一步,需要设计数据采集的方式和规则,确保所采集的数据准确完整。
同时,对于原始数据的清洗也是至关重要的一步,可以采用数据清洗软件或自行编写程序来清洗数据,以确保数据的质量。
三、数据存储与处理建设大数据平台的第三步是数据的存储与处理。
数据存储的方式有很多种,可以选择分布式数据库、云存储等方式。
在数据处理方面,可以利用分布式计算框架对数据进行处理,提高数据处理效率。
同时,还可以利用机器学习算法、数据挖掘技术等对数据进行分析,挖掘出其中的规律和价值。
四、数据可视化与应用建设大数据平台的最后一步是数据的可视化与应用。
数据可视化可以帮助用户更直观地了解数据,发现数据之间的关联性和规律,提升数据分析效率。
同时,可以开发相应的应用程序,将数据应用到实际业务中,为企业的发展提供更多的支持。
综上所述,建设一个合适的大数据平台需要考虑到基础架构设计、数据采集与清洗、数据存储与处理、数据可视化与应用等方面。
只有综合考虑这些因素,才能建设一个稳定可靠、高效率的大数据平台,为企业的发展提供更多的支持。
希望本文所述内容对大数据平台的建设有所启发,并能为读者带来一些帮助。
大数据平台框架选型分析 一、需求 城市大数据平台,首先是作为一个数据管理平台,核心需求是数据的存和取,然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力,有了技术能力就需要纵深挖掘附加价值更好的服务,如信息统计、分析挖掘、全文检索等,考虑到面向的客户对象有的是上层的应用集成商,所以要考虑灵活的数据接口服务来支撑。 二、平台产品业务流程 三、选型思路 必要技术组件服务: ETL > 非/关系数据仓储 > 大数据处理引擎 > 服务协调 > 分析BI > 平台监管 四、选型要求
1.需要满足我们平台的几大核心功能需求,子功能不设局限性。如不满足全部,需要对未满足的其它核心功能的开放使用服务支持 2.国内外资料及社区尽量丰富,包括组件服务的成熟度流行度较高 3.需要对选型平台自身所包含的核心功能有较为深入的理解,易用其API或基于源码开发 4.商业服务性价比高,并有空间脱离第三方商业技术服务 5.一些非功能性需求的条件标准清晰,如承载的集群节点、处理数据量及安全机制等 五、选型需要考虑 简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。 广泛性:是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统,还有通过SOAP和REST web服务的数据集成等等。它是否开源,并能根据你的特定问题易于改变或扩展?是否存在一个含有文档、论坛、博客和交流会的大社区? 特性:是否支持所有需要的特性?Hadoop的发行版本(如果你已经使用了某一个)?你想要使用的Hadoop生态系统的所有部分?你想要集成的所有接口、技术、产品?请注意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性? 陷阱:请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(“数据税”),也就是说,你得为自己处理的每个数据行付费。因为我们是在谈论大数据,所以这会变得非常昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码,通常要在每个Hadoop集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop用于ETL来填充数据至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或Hadoop集群上的大数据分析。ETL仅是Apache Hadoop和其生态系统的一种使用情形。 六、方案分析 自建套件 hortonworks 国内类exadoop TDW+fineBI 成本 100%开源 培训服务3k/人 授权支持100K
性能 单集群最大规模达到5600台,处理数据量可达百P级 功能 按需整合 HDFS和YARN数据管理 从各种引擎访问数据 根据策略加载和管理数据 身份验证、授权和数据保护 大规模配置、管理、监控和运营 Hadoop 群集 与您的数据分析工具集成 跨平台配置部署
易操作性 安装复杂,操作需要专业培训。 图形设计界面,参数配置,易上手。 应用成熟度 国外大客户较多
文档/社区支持 文档较多,社区一般,相关专业培训较多。 官方社区比较活跃(英文)中文社区有1个文档较少,多为英文文档 文档较少,无商用服务,无任何技术支持 扩展性 开源开放 开源开放 开源开放 移植性 支持多操作系统 支持多操作系统 支持多操作系统 支持多操作系统 监控 监控功能强大Armbri 元 无 优势 1、跟随产品阶段逐步完善整合自定义套件 2、自选流行组件,资料丰富 1、开源强大支持的开源套件 2、配套商业服务支持 1、国产套件 2、交流支持方便 3、商业服务较灵活 1、开源中文支持 2、基于大数据处理核心,灵活组合其它组件来适应不同产品阶段及项目 劣势 整合周期不可控 商业成本较高 依赖于打包服务公司的支持 半定制套件,预学现用
七、相关资料 HDP (hortonworks) A Complete Enterprise Hadoop Data Platform 开源工具汇总整理
类别 名称 备注
查询引擎 Phoenix Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写
Stinger 原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架 Presto Facebook开源 Shark Spark上的SQL执行引擎 Pig 基于Hadoop MapReduce的脚本语言
Cloudera Impala 参照Google Dremel实现,能运行在HDFS或HBase上,使用C++开发 Apache Drill 参照Google Dremel实现 Apache Tajo 一个运行在YARN上支持SQL的分布式数据仓库 Hive 基于Hadoop MapReduce的SQL查询引擎
流式计算 Facebook Puma 实时数据流分析 Twitter Rainbird 分布式实时统计系统,如网站的点击统计
Yahoo S4 Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统 Twitter Storm 使用Java和Clojure实现
迭代计算 Apache Hama 建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。 Apache Giraph 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop 迭代的MapReduce Twister 迭代的MapReduce
离线计算 Hadoop MapReduce 经典的大数据批处理系统 Berkeley Spark 使用Scala语言实现,和MapReduce有较大的竞争关系,性能强于MapReduce DataTorrent 基于Hadoop2.X构建的实时流式处理和分析平台,每秒可以处理超过10亿个实时事件
键值存储 LevelDB Google开源的高效KV编程库,注意它只是个库 RocksDB Facebook开源的,基于Google的LevelDB,但提高了扩展性可以运行在多核处理器上 HyperDex 下一代KV存储系统,支持strings、integers、floats、lists、maps和sets等丰富的数据类型 TokyoCabinet 日本人Mikio Hirabayashi(平林干雄)开发的一款DBM数据库,注意它只是个库(大名鼎鼎的DBM数据库qdbm就是Mikio Hirabayashi开发的),读写非常快 Voldemort 一个分布式键值存储系统,是Amazon Dynamo的一个开源克隆,LinkedIn开源 Amazon Dynamo 亚马逊的KV模式的存储平台,无主架构
Tair 淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统,专为小文件优化,并提供简单易用的接口(类似Map),Tair支持Java和C版本的客户端
Apache Accumulo 一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统,参照Google Bigtable而设计,建立在Hadoop、Thrift和Zookeeper之上。
Redis 使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起,Redis的开发工作由VMware主持
OceanBase 支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务 Amazon SimpleDB 一个可大规模伸缩、用 Erlang 编写的高可用数据存储
Vertica 惠普2011收购Vertica,Vertica是传统的关系型数据库,基于列存储,同时支持MPP,使用标准的SQL查询,可以和Hadoop/MapReduce进行集成
Cassandra Hadoop成员,Facebook于2008将Cassandra开源,基于O(1)DHT的完全P2P架构 HyperTable 搜索引擎公司Zvents针对Bigtable的C++开源实现
FoundationDB 支持ACID事务处理的NoSQL数据库,提供非常好的性能、数据一致性和操作弹性 HBase Bigtable在Hadoop中的实现,最初是Powerset公司为了处理自然语言搜索产生的海量数据而开展的项目
文件存储 CouchDB 面向文档的数据存储 MongoDB 文档数据库 Tachyon 加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon,它从底层重构了Hadoop平台。 KFS GFS的C++开源版本 HDFS GFS在Hadoop中的实现
资源管理 Twitter Mesos Google Borg的翻版 Hadoop Yarn 类似于Mesos
日志收集系统
Facebook Scribe Facebook开源的日志收集系统,能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理,常与Hadoop结合使用,Scribe用于向HDFS中Push日志 Cloudera Flume Cloudera提供的日志收集系统,支持对日志的实时性收集
logstash 日志管理、分析和传输工具,可配合kibana、ElasticSearch组建成日志查询系统
kibana 为日志提供友好的Web查询页面
消息系统 StormMQ ZeroMQ 很底层的高性能网络库 RabbitMQ 在AMQP基础上完整的,可复用的企业消息系统 Apache ActiveMQ 能力强劲的开源消息总线
Jafka 开源的、高性能的、跨语言分布式消息系统,最早是由Apache孵化的Kafka(由LinkedIn捐助给Apache)克隆而来
Apache Kafka Linkedin于2010年12月份开源的分布式消息系统,它主要用于处理活跃的流式数据,由Scala写成 分布式服务 ZooKeeper 分布式锁服务,PoxOS算法的实现,对应Google的Chubby