当前位置:文档之家› 网易视频云:Kudu,支持快速分析的新型Hadoop存储系统

网易视频云:Kudu,支持快速分析的新型Hadoop存储系统

网易视频云:Kudu,支持快速分析的新型Hadoop存储系统
网易视频云:Kudu,支持快速分析的新型Hadoop存储系统

https://www.doczj.com/doc/234223098.html,

网易视频云:Kudu,支持快速分析的新型

Hadoop存储系统

网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在在线音视频平台。

Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。

背景——功能上的空白

Hadoop生态系统有很多组件,每一个组件有不同的功能。在现实场景中,用户往往需要同时部署很多Hadoop工具来解决同一个问题,这种架构称为混合架构(hybrid architecture)。比如,用户需要利用Hbase的快速插入、快读random access的特性来导入数据,HBase也允许用户对数据进行修改,HBase对于大量小规模查询也非常迅速。同时,用户使用HDFS/Parquet + Impala/Hive来对超大的数据集进行查询分析,对于这类场景,Parquet这种列式存储文件格式具有极大的优势。

https://www.doczj.com/doc/234223098.html,

很多公司都成功地部署了HDFS/Parquet + HBase混合架构,然而这种架构较为复杂,而且在维护上也十分困难。首先,用户用Flume或Kafka等数据Ingest工具将数据导入HBase,用户可能在HBase上对数据做一些修改。然后每隔一段时间(每天或每周)将数据从Hbase中导入到Parquet文件,作为一个新的partition放在HDFS上,最后使用Impala等计算引擎进行查询,生成最终报表。

这样一条工具链繁琐而复杂,而且还存在很多问题,比如:

? 如何处理某一过程出现失败?

? 从HBase将数据导出到文件,多久的频率比较合适?

? 当生成最终报表时,最近的数据并无法体现在最终查询结果上。

? 维护集群时,如何保证关键任务不失败?

? Parquet是immutable,因此当HBase中删改某些历史数据时,往往需要人工干预进行同步。

https://www.doczj.com/doc/234223098.html,

这时候,用户就希望能够有一种优雅的存储解决方案,来应付不同类型的工作流,并保持高性能的计算能力。Cloudera很早就意识到这个问题,在2012年就开始计划开发Kudu这个存储系统,终于在2015年发布并开源出来。Kudu是对HDFS和HBase功能上的补充,能提供快速的分析和实时计算能力,并且充分利用CPU和I/O资源,支持数据原地修改,支持简单的、可扩展的数据模型。

背景——新的硬件设备

RAM的技术发展非常快,它变得越来越便宜,容量也越来越大。Cloudera的客户数据显示,他们的客户所部署的服务器,2012年每个节点仅有32GB RAM,现如今增长到每个节点有128GB或256GB RAM。存储设备上更新也非常快,在很多普通服务器中部署SSD 也是屡见不鲜。HBase、HDFS、以及其他的Hadoop工具都在不断自我完善,从而适应硬件上的升级换代。然而,从根本上,HDFS基于03年GFS,HBase基于05年BigTable,在当时系统瓶颈主要取决于底层磁盘速度。当磁盘速度较慢时,CPU利用率不足的根本原因是磁盘速度导致的瓶颈,当磁盘速度提高了之后,CPU利用率提高,这时候CPU往往成为系统的瓶颈。HBase、HDFS由于年代久远,已经很难从基本架构上进行修改,而Kudu 是基于全新的设计,因此可以更充分地利用RAM、I/O资源,并优化CPU利用率。我们可以理解为,Kudu相比与以往的系统,CPU使用降低了,I/O的使用提高了,RAM的利用更充分了。

简介

https://www.doczj.com/doc/234223098.html,

Kudu设计之初,是为了解决一下问题:

? 对数据扫描(scan)和随机访问(random access)同时具有高性能,简化用户复杂的混合架构

? 高CPU效率,使用户购买的先进处理器的的花费得到最大回报

? 高IO性能,充分利用先进存储介质

? 支持数据的原地更新,避免额外的数据处理、数据移动

? 支持跨数据中心replication

Kudu的很多特性跟HBase很像,它支持索引键的查询和修改。Cloudera曾经想过基于Hbase进行修改,然而结论是对HBase的改动非常大,Kudu的数据模型和磁盘存储都与Hbase不同。HBase本身成功的适用于大量的其它场景,因此修改HBase很可能吃力不讨好。最后Cloudera决定开发一个全新的存储系统。

https://www.doczj.com/doc/234223098.html,

Kudu的定位是提供”fast analytics on fast data”,也就是在快速更新的数据上进行快速的查询。它定位OLAP和少量的OLTP工作流,如果有大量的random accesses,官方建议还是使用HBase最为合适。

架构与设计

1.基本框架

Kudu是用于存储结构化(structured)的表(Table)。表有预定义的带类型的列(Columns),每张表有一个主键(primary key)。主键带有唯一性(uniqueness)限制,可作为索引用来支持快速的random access。

类似于BigTable,Kudu的表是由很多数据子集构成的,表被水平拆分成多个Tablets. Kudu 用以每个tablet为一个单元来实现数据的durability。Tablet有多个副本,同时在多个节点上进行持久化。

Kudu有两种类型的组件,Master Server和Tablet Server。Master负责管理元数据。这些元数据包括talbet的基本信息,位置信息。Master还作为负载均衡服务器,监听Tablet Server的健康状态。对于副本数过低的Tablet,Master会在起replication任务来提高其副本数。Master的所有信息都在内存中cache,因此速度非常快。每次查询都在百毫秒级别。Kudu支持多个Master,不过只有一个active Master,其余只是作为灾备,不提供服务。

https://www.doczj.com/doc/234223098.html,

Tablet Server上存了10~100个Tablets,每个Tablet有3(或5)个副本存放在不同的Tablet Server上,每个Tablet同时只有一个leader副本,这个副本对用户提供修改操作,然后将修改结果同步给follower。Follower只提供读服务,不提供修改服务。副本之间使用raft协议来实现High Availability,当leader所在的节点发生故障时,followers 会重新选举leader。根据官方的数据,其MTTR约为5秒,对client端几乎没有影响。Raft 协议的另一个作用是实现Consistency。Client对leader的修改操作,需要同步到N/2+1个节点上,该操作才算成功。

Kudu采用了类似log-structured存储系统的方式,增删改操作都放在内存中的buffer,然后才merge到持久化的列式存储中。Kudu还是用了WALs来对内存中的buffer 进行灾备。

2.列式存储

https://www.doczj.com/doc/234223098.html,

持久化的列式存储存储,与HBase完全不同,而是使用了类似Parquet的方式,同一个列在磁盘上是作为一个连续的块进行存放的。例如,图中左边是twitter保存推文的一张表,而图中的右边表示了表在磁盘中的的存储方式,也就是将同一个列放在一起存放。这样做的第一个好处是,对于一些聚合和join语句,我们可以尽可能地减少磁盘的访问。例如,我们要用户名为newsycbot

的推文数量,使用查询语句:

SELECT COUNT(*) FROM tweets WHERE user_name = ‘newsycbot’;

我们只需要查询User_name这个block即可。同一个列的数据是集中的,而且是相同格式的,Kudu可以对数据进行编码,例如字典编码,行长编码,bitshuffle等。通过这种方式可以很大的减少数据在磁盘上的大小,提高吞吐率。除此之外,用户可以选择使用通用的压缩格式对数据进行压缩,如LZ4, gzip, 或bzip2。这是可选的,用户可以根据业务

https://www.doczj.com/doc/234223098.html,

场景,在数据大小和CPU效率上进行权衡。这一部分的实现上,Kudu很大部分借鉴了Parquet的代码。

HBase支持snappy存储,然而因为它的LSM的数据存储方式,使得它很难对数据进行特殊编码,这也是Kudu声称具有很快的scan速度的一个很重要的原因。不过,因为列式编码后的数据很难再进行修改,因此当这写数据写入磁盘后,是不可变的,这部分数据称之为base数据。Kudu用MVCC(多版本并发控制)来实现数据的删改功能。更新、删除操作需要记录到特殊的数据结构里,保存在内存中的DeltaMemStore或磁盘上的DeltaFIle里面。DeltaMemStore是B-Tree实现的,因此速度快,而且可修改。磁盘上的DeltaFIle是二进制的列式的块,和base数据一样都是不可修改的。因此当数据频繁删改的时候,磁盘上会有大量的DeltaFiles文件,Kudu借鉴了Hbase的方式,会定期对这些文件进行合并。

3.对外接口

Kudu提供C++和JAVA API,可以进行单条或批量的数据读写,schema的创建修改。除此之外,Kudu还将与hadoop生态圈的其它工具进行整合。目前,kudu beta版

https://www.doczj.com/doc/234223098.html,

本对Impala支持较为完善,支持用Impala进行创建表、删改数据等大部分操作。Kudu 还实现了KuduTableInputFormat和KuduTableOutputFormat,从而支持Mapreduce 的读写操作。同时支持数据的locality。目前对spark的支持还不够完善,spark只能进行数据的读操作。

使用案例——小米

小米是Hbase的重度用户,他们每天有约50亿条用户记录。小米目前使用的也是HDFS + HBase这样的混合架构。可见该流水线相对比较复杂,其数据存储分为SequenceFile,Hbase和Parquet。

在使用Kudu以后,Kudu作为统一的数据仓库,可以同时支持离线分析和实时交互分析。

https://www.doczj.com/doc/234223098.html,

性能测试

1. 和parquet的比较

https://www.doczj.com/doc/234223098.html,

图是官方给出的用Impala跑TPC-H的测试,对比Parquet和Kudu的计算速度。从图中我们可以发现,Kudu的速度和parquet的速度差距不大,甚至有些Query比parquet还快。然而,由于这些数据都是在内存缓存过的,因此该测试结果不具备参考价值。

2.和Hbase的比较

图是官方给出的另一组测试结果,从图中我们可以看出,在scan和range查询上,kudu和parquet比HBase快很多,而random access则比HBase稍慢。然而数据集只有60亿行数据,所以很可能这些数据也是可以全部缓存在内存的。对于从内存查询,除了random access比HBase慢之外,kudu的速度基本要优于HBase。

3.超大数据集的查询性能

Kudu的定位不是in-memory database。因为它希望HDFS/Parquet这种存储,因此大量的数据都是存储在磁盘上。如果我们想要拿它代替HDFS/Parquet + HBase,那么

https://www.doczj.com/doc/234223098.html,

超大数据集的查询性能就至关重要,这也是Kudu的最初目的。然而,官方没有给出这方面的相关数据。由于条件限制,网易暂时未能完成该测试。下一步,我们将计划搭建10台Kudu + Impala服务器,并用tpc-ds生成超大数据,来完成该对比测验。

更多技术分享,请关注网易视频云官方网站或者网易视频云官方微信(vcloud163)进行交流与咨询

Hadoop云计算实验报告

Hadoop云计算实验报告

Hadoop云计算实验报告 1实验目的 在虚拟机Ubuntu上安装Hadoop单机模式和集群; 编写一个用Hadoop处理数据的程序,在单机和集群上运行程序。 2实验环境 虚拟机:VMware 9 操作系统:ubuntu-12.04-server-x64(服务器版),ubuntu-14.10-desktop-amd64(桌面版)Hadoop版本:hadoop 1.2.1 Jdk版本:jdk-7u80-linux-x64 Eclipse版本:eclipse-jee-luna-SR2-linux-gtk-x86_64 Hadoop集群:一台namenode主机master,一台datanode主机salve, master主机IP为10.5.110.223,slave主机IP为10.5.110.207。 3实验设计说明 3.1主要设计思路 在ubuntu操作系统下,安装必要软件和环境搭建,使用eclipse编写程序代码。实现大数据的统计。本次实验是统计软件代理系统操作人员处理的信息量,即每个操作人员出现的次数。程序设计完成后,在集成环境下运行该程序并查看结果。 3.2算法设计 该算法首先将输入文件都包含进来,然后交由map程序处理,map程序将输入读入后切出其中的用户名,并标记它的数目为1,形成的形式,然后交由reduce处理,reduce 将相同key值(也就是word)的value值收集起来,形成的形式,之后再将这些1值加起来,即为用户名出现的个数,最后将这个对以TextOutputFormat 的形式输出到HDFS中。 3.3程序说明 1) UserNameCountMap类继承了org.apache.hadoop.mapreduce.Mapper,4个泛型类 型分别是map函数输入key的类型,输入value的类型,输出key的类型,输出value 的类型。 2) UserNameCountReduce类继承了org.apache.hadoop.mapreduce.Reducer,4个泛 型类型含义与map类相同。 3) main函数通过addInputPath将数据文件引入该类,在通过setOutputPath将生成 结果转为一个文件,实现生成结果,即统计结果的查看。 FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); 程序具体代码如附件中源程序。

最新网易视频云:流媒体服务器原理和架构解析

网易视频云:流媒体服务器原理和架构解析 一个完整的多媒体文件是由音频和视频两部分组成的,H264、Xvid等就是视频编码格式,MP3、AAC等就是音频编码格式,字幕文件只是附加文件。目前大部分的播放器产品对于H.264 + AAC的MP4编码格式支持最好,但是MP4也有很多的缺点,比如视频header很大,影响在线视频网站的初次加载时间。 为了降低头部体积,需要进行视频本身的物理分段等等。对MPEG2-TS格式视频文件进行物理切片,分成一小段,这种方式被Apple公司的HTTP Live Streaming (HLS)技术采用。另外一种是使用Fragmented MP4文件格式,这是一种文件内部的逻辑分割方式,而视频文件还是完整的,这种技术被Microsoft Smooth Streaming和Adobe HTTP Dynamic Streaming采用。很多在线视频网站在带宽耗费的压力下,主要选择的是adobe公司提供的FLV或F4V,FLV是流媒体封装格式,可将其数据看为二进制字节流。总体上看,FLV包括文件头(File Header)和文件体(File Body)两部分,其中文件体由一系列的Tag及Tag Size对组成。流媒体传输类型 流媒体在播放前不是完全下载整个文件,而是把开始部分内容存入内存,数据流是随时传送随时播放。 流媒体服务器提供的流式传输方式有两种:顺序流式传输和实时流式传输两种方式。 顺序流式传输是顺序下载,在下载文件的同时用户可观看在线媒体。如果使用普通的HTTP服务器,将音视频数据以从头至尾方式发送,则为顺序流媒体传输。实时流式传输总是实时传送,特别适合现场事件。一般来说,如果视频为现场直播,或使用专用的流媒体服务器,或应用如RTSP等专用实时协议,即为实时流媒体传输。实时流式传输必须匹配连接带宽,这意味着图像质量会因网络速度降低而变差。 在流式传输时,流媒体数据具有实时性,等时性等基本特点,流服务期和客户终端要保证各种媒体间的同步关系,因此,流媒体传输对“最大延时”,“延时抖动”

Hadoop云计算平台实验报告V1.1

Hadoop云计算平台实验报告V1.1

目录 1实验目标 (3) 2实验原理 (4) 2.1H ADOOP工作原理 (4) 2.2实验设计 (6) 2.2.1可扩展性 (6) 2.2.2稳定性 (7) 2.2.3可靠性 (7) 3实验过程 (9) 3.1实验环境 (9) 3.1.1安装Linux操作系统 (10) 3.1.2安装Java开发环境 (14) 3.1.3安装SSH (15) 3.1.4配置网络 (15) 3.1.5创建SSH密钥安全联机 (19) 3.1.6配置Hadoop云计算系统 (19) 3.1.7配置Slaves节点 (23) 3.1.8格式化Hadoop系统 (23) 3.1.9启动Hadoop集群 (23) 3.22.实验过程 (25) 3.2.1可扩展性 (25) 3.2.1.1动态扩展 (25) 3.2.1.2动态缩减 (27) 3.2.2稳定性 (28) 3.2.3可靠性 (31) 3.2.4MapReduce词频统计测试 (32) 4实验总结 (35)

1. 掌握Hadoop安装过程 2. 理解Hadoop工作原理 3. 测试Hadoop系统的可扩展性 4. 测试Hadoop系统的稳定性 5. 测试Hadoop系统的可靠性

2.1Hadoop工作原理 Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成集群上运行应用程序,为应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算、存储提供了底层支持。 HDFS采用C/S架构,对外部客户机而言,HDFS就像一个传统的分级文件系统。可以对文件执行创建、删除、重命名或者移动等操作。HDFS中有三种角色:客户端、NameNode和DataNode。HDFS的结构示意图见图1。 NameNode是一个中心服务器,存放着文件的元数据信息,它负责管理文件系统的名字空间以及客户端对文件的访问。DataNode节点负责管理它所在节点上的存储。NameNode对外暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,文件被分成一个或多个数据块,这些块存储在一组DataNode上,HDFS通过块的划分降低了文件存储的粒度,通过多副本技术和数据校验技术提高了数据的高可靠性。NameNode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。DataNode负责存放数据块和处理文件系统客户端的读写请求。在NameNode的统一调度下进行数据块的创建、删除和复制。

网易视频云:HBase – 存储文件HFile结构解析

https://www.doczj.com/doc/234223098.html, 网易视频云是网易推出的PaaS视频云服务,主要应用于在线教育、直播秀场、远程医疗、企业协作等领域。今天,网易视频云技术专家与大家分享一下:HBase –存储文件HFile结构解析。 HFile是HBase存储数据的文件组织形式,参考BigTable的SSTable和Hadoop的TFile 实现。从HBase开始到现在,HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层面添加了Tag数组的支持。鉴于此,本文主要针对V2版本进行分析,对V1和V3版本感兴趣的同学可以参考其他信息。 HFile逻辑结构 HFile V2的逻辑结构如下图所示:

https://www.doczj.com/doc/234223098.html, 文件主要分为四个部分:Scanned block section,Non-scanned block section,Opening-time data section和Trailer。 Scanned block section:顾名思义,表示顺序扫描HFile时所有的数据块将会被读取,包括Leaf Index Block和Bloom Block。 Non-scanned block section:表示在HFile顺序扫描的时候数据不会被读取,主要包括Meta Block和Intermediate Level Data Index Blocks两部分。 Load-on-open-section:这部分数据在HBase的region server启动时,需要加载到内存中。包括FileInfo、Bloom filter block、data block index和meta block index。 Trailer:这部分主要记录了HFile的基本信息、各个部分的偏移值和寻址信息。 HFile物理结构

网易视频云:浅谈视频云直播:场景、技术及优化

https://www.doczj.com/doc/234223098.html, 网易视频云:浅谈视频云直播:场景、技术及优化 1.简介 随着互联网视频化的发展,各类网络直播产品层出不穷,涌现出了秀场直播、游戏直播、教育直播、演唱会直播和监控直播等多个直播生态圈。这些生态圈形成的背后,是视频直播相关技术的不断发展,例如互联网带宽的日益增加,视频压缩标准的日渐完善,视频云技术的出现等。特别是视频云技术的出现,它降低了开发者的准入门槛,解决了视频企业的“三高”之痛,即技术门槛高、成本高、卡顿延时率高,为未来几年视频直播的大爆发奠定了坚实的技术基础。 所谓视频云直播技术,就是用云端模式,提供视频直播解决方案的技术,它涉及视频直播的各个环节,例如直播视频采样、编码、推流、转码、分发、拉流、解码和播放等。使用Iaas、Paas和Saas三种形式,视频云直播能为各种场景的直播应用提供接口级服务、平台级服务和产品级服务。依托视频云,直播开发者不在关心视频和网络的细节,他们只要把精力集中于产品应用层面即可。未来,网络直播产品将会表现为如下一种形态:上层多样化的直播模式 + 下层组件化的视频云模式。 深入视频云直播内部,会发现其具有复杂化、多样化和组件化的特点。所谓复杂化,是指音视频技术复杂和互联网环境复杂;所谓多样化,是指直播应用场景具有多样性;所谓组件化,是指直播技术各个环节的模块化和独立性。在视频云直播中,技术主线永远是音视频流的输入、传输和输出。但针对每一类直播场景,使用的具体技术和实现手段都不一样。随着直播量级的变化,必须对视频云各个环节进行优化,以化解流量暴增带来的压力。因此,视频云直播的构建是一项艰巨的任务。接下来,本文将从场景、技术和优化三个角度,详细阐述视频云直播。 2.一对多直播场景 考虑如下一种场景:一个主播者坐在电脑前,通过前置摄像头和麦克风,把自己的音视频信息输出到网络上,多人在各地通过互联网实时观看主播者的表演。这就是经典的秀场直播。这里存在几个关键点:一. 音视频传输;二. 实时;三. 一对多。 首先讲音视频传输,它又细分为三点:源端的音视频输出、网络端的流传输和播放端的音视频获取。第一点音视频输出,首先必须收集主播的声音和图像,就是所谓的音视频采集;采集后的声音和图像,需要转换成字节码、混合并压缩,最后封装成某种音视频格式,就是所谓的音视频编码;编码后的音视频格式,还不能在网络传输,需要转换成某种码流,如RTMP,然后推送到网上,即上传码流到服务器,就是所谓的推流。上述“采样-编码-推流”,构成了视频云直播端的核心功能。第二点音视频码流的网络传输,把主播者的音视频流分发传输给所

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等 一.安装环境简介 根据官网,Hadoop已在linux主机组成的集群系统上得到验证,而windows平台是作为开发平台支持的,由于分布式操作尚未在windows平台上充分测试,所以还不作为一个生产平台。Windows下还需要安装Cygwin,Cygwin是在windows平台上运行的UNIX模拟环境,提供上述软件之外的shell支持。 实际条件下在windows系统下进行Hadoop伪分布式安装时,出现了许多未知问题。在linux系统下安装,以伪分布式进行测试,然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示: (1)网络拓补图如六所示: 图六完全分布式网络拓补图 (2)硬件要求:搭建完全分布式环境需要若干计算机集群,Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。 (3)软件要求 操作系统64位版本:

并且所有机器均需配置SSH免密码登录。 二. Hadoop集群安装部署 目前,这里只搭建了一个由三台机器组成的小集群,在一个hadoop集群中有以下角色:Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色: ——master,namenode,jobtracker——master(主机名) ——slave,datanode,tasktracker——slave1(主机名) ——slave,datanode,tasktracker——slave2(主机名) 实验环境搭建平台如图七所示:

Hadoop云计算实验报告

云计算实验报告Hadoop 云计算实验报告Hadoop 实验目的1在虚拟机上安装单机模式和集群;Ubuntu Hadoop编写一个用处理数据的程序,在单机和集群上运行程序。Hadoop 实验环境2虚拟机:9VMware(桌面(服务器版),操作系统: -desktop--server-x64amd64ubuntu-14.10ubuntu-12.04 版)版本: 1.2.1hadoop Hadoop版本: x647u80-linuxJdk -jdk-版本:x86_64-gtk-jee-luna-SR2-linuxEclipse eclipse-,主机集群:一台主机,一台mastersalve datanodeHadoop namenode 。,主机为主机为master IP IP 10.5.110.22310.5.110.207slave 实验设计说明3 主要设计思路 3.1 eclipse编写程序代码。实现在ubuntu操作系统下,安装必要软件和环境搭建,使用大数据的统计。本次实验是统计软件代理系统操作人员处理的信息量,即每个操作人员出现的次数。程序设计完成后,在集成环境下运行该程序并查看结果。算法设计 3.2 程序将输入读入后该算法首先将输入文件都包含进来,然后交由map程序处理,map处理,切出其中的用户名,并标记它的数目为1,形成的形式,然后交由reduce值收集起来,形成的形式,(reduce将相同key值也就是word)的value1值加起来,即为用户名出现的个数,最后将这个对以之后再将这些中。的形式输出到HDFSTextOutputFormat 程序说明 3.3 4个泛型类类继承了1)UserNameCountMap org.apache.hadoop.mapreduce.Mapper,的类型,输出的类型,输入value的类型,输出key函数输入型分别是map key value的类型。个泛,4org.apache.hadoop.mapreduce.ReducerUserNameCountReduce2)类继承了 类相同。map型类型含义与

APP如何接入网易视频云直播功能

https://www.doczj.com/doc/234223098.html, APP如何接入网易视频云直播功能 直播类APP在这两年的发展势头可以用“炙手可热”来形容,一方面是移动网络的大力普及,用手机看直播几乎成了日常生活的一部分。一方面是受众对各种直播内容的需求急剧上升,这种种因素都导致直播类的APP呈现出百花齐放的繁荣景象。相比自主研发,外包直播模块成为大多数APP开发者的首选。本文将详细介绍如何接入网易视频云的直播功能。并将对开发者关心的问题进行一个梳理。 一、直播功能应用场景 二、如图所示,直播功能的场景非常多样化,小编总结了一下,直播场景细分为以下几个方面: 1、在线教育行业:网校、慕课、K1 2、在线家教、教学录播和点播等 2、在线娱乐行业:美女秀场、游戏直播、演唱会直播KTV直播、婚礼直播、活动直播、体育赛事直播、装修直播、吃饭直播等 3、社交:明星社交、视频社交等 4、视频门户:视频直播、视频点播等 5、企业协作:点对点和多方视频会议、企业例会直播、产品发布会直播等 6、在线金融:视频理财咨询、在线签约过程录制、股评直播、大宗交易平台直播等 7、安防监控:家庭监控、幼儿园监控、早教中心监控、旅游景区监控等 8、远程医疗:视频问诊、专家会诊等

https://www.doczj.com/doc/234223098.html, 9、新闻媒体:现场手机直播、短新闻、庭审直播等 三、直播功能接入流程 上图是网易视频云直播功能的接入流程,一般来说,开发者在接入直播功能的时候,接入流程大概如下: a、注册视频云账号 b、创建直播频道 c、下载SDK和API文档 d、开发直播推流程序 实际操作问题总结 看起来简单的接入流程,开发者在实际操作过程中还是会遇到各种各样的问题。对于这些问题,总结了一下,主要有以下四个方面: a、工程上的问题。开发者在导入SDK库文件时存在的一些问题,比如库文件的绝对或相对路径设置错了,导致无法接入。 网易视频云工程师建议:这些问题通常通过第三方的技术支持很容易就会被解决。 b、功能性上的问题。开发者在调用第三方SDK接口的时候,由于绝大多数的程序员不会认真去读对方的API文档,经常跟着感觉或经验去做调用,调用过程中经常会出现这样或那样的问题。

大数据处理与云计算教学大纲

大数据处理与云计算教学大纲 (总4页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

《大数据处理与云计算》教学大纲 课程类别:专业教育课课程名称:大数据处理与云计算 开课单位:信息与通信工程学院课程编号:N03050703 总学时:40 学分: 适用专业:信息工程专业 先修课程:无 一、课程在教学计划中的地位、作用 大数据处理与云计算是信息工程专业高年级学生开设的一门专业教育课。本课程主要学习大数据处理和云计算的相关原理和技术,根据实际需求,构建相应的大数据处理和云计算平台框架。 通过本课程学习,使学生掌握大数据的采集、传输、处理和应用的技术,了解Hadoop分布式系统基础架构,掌握HDFS和MapReduce技术。了解HBase、Hive、Zookeeper、Avro、Pig等相关大数据技术,与实际工程应用相结合,构建相应的云计算平台。教学应当结合实际实验条件,培养学生实践动手能力,了解大数据技术发展现状,促进大数据相关教学改革。 二、课程教学内容、要求及学时分配 第一章大数据与云计算概况 1、了解大数据概念 2、了解大数据的产生、应用和作用 3、了解云计算技术的概述 4、了解云计算的特点及技术分类 5、了解大数据与云计算、物联网之间的关系 第二章大数据处理与云计算的关键技术 1、理解大数据处理的基本流程 2、掌握大数据的关键技术 3、理解大数据的处理工具

4、了解大数据面临的挑战 5、理解云计算及关系型数据库 第三章 Hadoop 1、了解Hadoop概述 2、了解 Hadoop发展简史 3、理解Hadoop的功能与作用 4、了解 Hadoop的优缺点 5、了解Hadoop的应用现状和发展趋势 6、掌握Hadoop项目及其结构 7、掌握Hadoop的体系结构 8、掌握HDFS的体系结构 第四章 MaReduce 1、理解分布式并行编程 2、理解MapReduce模型概述 3、掌握Map和Reduce函数 4、掌握MapReduce工作流程 5、掌握并行计算的实现 6、掌握新的MapReduce框架:Yarn 7、理解新旧Hadoop MapReduce框架的对比第五章 HDFS 1、理解HDFS的假设与目标 2、理解HDFS的相关概念 3、掌握HDFS体系结构 4、掌握HDFS命名空间 5、掌握HDFS存储原理 6、掌握通讯协议 7、理解数据错误和异常 8、理解从HDFS看分布式文件系统的设计需求第六章 Zookeeper 1、了解Zookeeper简介

网易视频云技术之视频预处理技术

网易视频云技术之视频预处理技术 一、概述 视频编码包括分离、解码、编码、合成四部分,在分离与解码、合成部分可以认为是一种无损操作,而通常采用的编码如H264、MPEG-4等(无损压缩除外)是一种有损压缩。 为了提高视频编码后的质量,我们尝试在Encoder的数据输入之前增加一种预处理,用来弥补在编码过程中的亮度和色度的损失。从而提高视频的清晰度。

二、预处理方法 通过改变视频的亮度、对比度、饱和度(色度)来进行锐化,使其边缘的过度产生较大的改变,从而增加视频的清晰度。锐化会产生噪声,因此增加去噪滤镜。目前只是通过调整亮度和对比度来增加边缘的锐化,饱和度并未进行调整。因为饱和度的调整会引入一些新的问题,比如产生色块,色彩的失真。 2.1 ffmpeg的预处理:增加亮度

ffmpeg -i E:\music\1\1.mov -vcodec libx264 -profile baseline -level 3.1 -preset slow -b 2400k -maxrate 6000k -bufsize 9000k -vf "scale=-1:720,unsharp=luma_msize_x=7:luma_msize_y=7:luma_amount=1.5" -threads 12 -nr 6 -an -y -f mp4 E:\music\1\out_2400k_sharpen.mp4 2.2 avs的预处理 avs通过增加锐化滤镜,调整饱和度和对比度进行编码前的预处理。 DirectShowSource("E:\music\1\1.mov").LanczosResize(1280,720).sharpen (0.2) 2.3 mencoder的预处理:增加亮度和对比度 mencoder.exe -sws 9 -oac mp3lame -vf scale=1280:720,unsharp=l7x7:1.5,eq=1:15 -ovc x264 -ffourcc H264 -x264encopts bitrate=2400:turbo=2:frameref=6:me=umh:me_range=16 E: \music\1\1.mov -o E:\music\1\mencoder_out_1_4.avi 三、效果对比 画面摆放顺序依次为片源、ffmpeg编码、mencoder编码 3.1 对比图1

hadoop云计算实验指导书

计算机科学与技术学院 网络计算设计与实现 实验指导书

实验一SOCKET编程 【试验环境】 计算机、TCP/IP协议、VS2005 【实验目的】 1.理解基本TCP/IP协议编程原理; 2.掌握如何利用SOCKET编写网络程序; 3.掌握VS2005编程环境,多线程程序设计等。 【实验要求】 1.编写一个服务端的程序,接收来自客户端的访问请求,并返回相关信息; 2.编写一个客户端程序,向服务端发送连接请求,并显示返回的结果; 3.完善服务端程序,使它能够同时支持多个客户端的请求。 【预备知识】 p ublic Socket Accept ():为新建连接创建新的 Socket。 public void Bind (EndPoint localEP):使 Socket 与一个本地终结点 相关联。 public void Close ():关闭 Socket 连接并释放所有关联的资源。 public void Connect (EndPoint remoteEP):建立与远程主机的连接。 注意这个方法有重载方法。 public void Disconnect (bool reuseSocket):关闭套接字连接并是否 允许重用套接字。 public void Listen (int backlog):将 Socket 置于侦听状态。

public int Receive (byte[] buffer):接收来自绑定的 Socket 的数据。 注意这个方法有重载方法。 public int ReceiveFrom (byte[] buffer,ref EndPoint remoteEP):接 收数据报并存储源终结点。注意这个方法有重载方法。 public int Send (byte[] buffer):将数据发送到连接的 Socket。注意 这个方法有重载方法。 public void SendFile (string fileName):将文件和可选数据异步发送 到连接的 Socket。注意这个方法有重载方法。 public int SendTo (byte[] buffer,EndPoint remoteEP):将数据发送 到特定终结点。注意这个方法有重载方法。 public void Shutdown (SocketShutdown how):禁用某 Socket 上的发 送和接收。 因为在网络传输时传输的数据都是二进制形式的(表现为字节数组),所以如果要传输类似于中文这样的双字节字符就需要在传输之前用合适的编码转换成字节数组,然后接收方按照发送方的编码将接收到字节数组转换成字符串。 另外,注意接收数据的时候是先声明了一个字节数组,然后将接收到的数据保存到字节数组中,这个方法有个返回值表示实际接收了多少字节数据。【实验内容】 实现一个服务器端的面向连接的Socket用于接收客户端的请求的话,有如下步骤: 1.首先根据IP地址和端口号实例化一个Socket,注意端口要要大于1024并 且不要使用特殊端口号,要大于1024的原因是1024以下的端口号已经被

云计算-Hadoop基础知识

https://www.doczj.com/doc/234223098.html, 云计算-Hadoop基础知识 hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。 (2)Hadoop就是一个分布式计算的解决方案. hadoop能做什么? hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似https://www.doczj.com/doc/234223098.html,的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!) 下面举例说明: 设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。例如:某个表中含有相同关键字的记录那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结果好了现在是100M 的数据库备份.上述两种方法都可以轻松应对. 那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗?答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种超大数据文件怎么得到我们想要的结果呢?有种方法就是分布式计算, 分布式计算的核心就在于利用分布式算法把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高. Haddop 就是为了解决这个问题诞生的.Haddop 可以很轻易的把很多linux的廉价pc 组成分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果. 例如上述的例子: Hadoop 要做的事首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作.

网易视频云直播常见问题解析

https://www.doczj.com/doc/234223098.html, 网易视频云直播常见问题解析 如何保证直播的安全 网易视频云直播支持Token认证和数字签名防盗链,有效保证每个用户的直播推流、拉流播放的安全性能。 当前可以支持哪些直播协议 目前直播上行支持RTMP协议,下行支持RTMP、HLS和HTTP(FLV)协议。 当前支持哪些直播源 直播源目前支持RTMP协议的推流。RTMP推流的地址可以通过网易视频云Web管理控制台或者API接口创建一个直播频道获得。 RTMP推流具体可以采用以下几种形式: 台式计算机或笔记本,可以使用网易视频云的Windows端的直播推流SDK 或者Demo程序采集自带或USB摄像头视频,将视频编码优化后推送至LVS 的RTMP服务器。 如要采集高清摄像机的视频可以通过相应的硬件采集卡或编码器再通过转换器连接到台式计算机或笔记本,再通过Windows端直播推流SDK或者Demo 程序进行直播推流。

https://www.doczj.com/doc/234223098.html, Android/iOS, 使用手机摄像头 可通过Android/iOS推流端SDK或者Demo程序采集摄像头视频,将视频编码优化后推送至LVS的RTMP服务器。 当前支持哪些直播收看方式 网页端 当前我们已经发布了直播频道拉流地址功能,可以在创建直播频道后直接获取FLV地址。您可在您的PC网页端播放(需部署Http服务器)。 SDK播放 用户可以通过嵌入到自身业务应用里的播放SDK进行直接收看,在IOS、Android端均可收看直播。 当前提供哪些SDK和API LVS服务提供包括直播频道管理、频道创建等全套直播相关的API,全部对用户开放,并且后续功能会越来越丰富。 我们提供的SDK包括直播推流SDK和播放器SDK。 推流SDK主要用于直播视频采集端,方便您将LVS直播功能无缝对接到自己的业务系统,目前提供Windows SDK、Android SDK、iOS SDK。 播放器SDK主要用于直播观看端,目前提供Android SDK和iOS SDK。 如何查看直播数据统计

网易视频云技术分享:Reed Solomon纠删码

https://www.doczj.com/doc/234223098.html, 网易视频云技术分享:Reed Solomon纠删码 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PASS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云转载相关文章,与大家分享一下Reed Solomon纠删码。 纠删码是存储领域常用的数据冗余技术,相比多副本复制而言,纠删码能够以更小的数据冗余度获得更高数据可靠性。Reed Solomon Coding是存储领域常用的一种纠删码,它的基本原理如下:给定n 个数据块d1, d2,…, dn,n和一个正整数m,RS根据n个数据块生成m个校验块,c1, c2,…, cm。对于任意的n和m,从n个原始数据块和m 个校验块中任取n块就能解码出原始数据,即RS最多容忍m个数据块或者校验块同时丢失(纠删码只能容忍数据丢失,无法容忍数据篡改,纠删码正是得名与此)。 编码原理 RS编码以word为编码和解码单位,大的数据块拆分到字长为w的word(字长w取值一般为8或者16位),然后对word进行编解码。所以数据块的编码原理与word编码原理没什么差别,为论述方便,后 文中变量Di, Ci将代表一个word。 首先,把输入数据视为向量D=(D1,D2,…, Dn), 编码后数据视为向量(D1, D2,…, Dn, C1, C2,.., Cm),RS编码可视为如图1所示矩阵运算。下图最左边是编码矩阵,矩阵上部是单位阵(n行n列),下边是vandermonde矩阵B(m行n列), vandermode矩阵如图2所示,第i行,第j列的原数值为j^(i-1)。之所以采用vandermonde矩阵的原因是,RS数据恢复算法要求编码矩阵任意n*n子矩阵可 逆。 图1:RS纠删码编码运算

Hadoop云计算平台搭建规划方案.docx

Hadoop 云计算平台搭建方案 一、平台搭建概述 总体思路 针对于电网企业在营销服务领域展开的大数据分析处理,搭建Hadoop 云计算平台进行海量数据存储,并作深层次加工、处理,挖掘出无法简单直观便可得到的新的模式,为电力企业 的决策提供指导。平台采用作为海量数据存储和分析工具,将其部署在 4 个物理计算机节点上,搭建 Hadoop 集群,其中 1 个节点作为master 节点,其余 3 个作为 slave 节点。为了获取更好的稳定性,平台搭建在Linux 系统()环境下。 软件列表 软件描述版本 VMware Workstation 虚拟化软件 VMware Workstation 操作系统 JDK Java 的软件开发工具包 开源的云计算基础框架 分布式数据存储系统 可靠协调系统 数据迁移工具 平台搭建总流程和节点信息一览表 在平台搭建前,给出实现的总流程图和节点信息一览表,从而对平台搭建过程和各节点信息有一个全局的认识,平台搭建总流程如下图所示。 创建虚拟机master ,完成 JDK、 Hadoop等应用的安装和配置 对虚拟机master 进行克隆,得到的 虚拟机分别作为slave1 、 slave2 和 完成 Zookeeper 、 HBase等其它分布 式服务的部署,搭建Hadoop 集群 运行并测试Hadoop 集群系统

各节点信息如下表所示: 机器名master slave1 slave2 slave3IP地址用户名充当角色 、 Namenode 、 Datanode 、 Datanode 、 Datanode 二、基础平台的搭建步骤 此次大数据存储和处理平台的搭建,需要虚拟机软件 VMware Workstation 创建虚拟机的配置大部分是相同的,所以利用 4 台物理节点来部署Hadoop平台环境。我们使用4 台虚拟机,承载平台搭建工作。另外,由于对 4 台 VMware Workstation的克隆功能,可以减少部署 的工作量。 安装虚拟机软件VMware Workstation 首先在 4 台 PC机器上均安装虚拟化软件VMware Workstation,并输入相应的序列号。 在master 节点上安装 Linux 系统 Ubuntu 在设定为 master PC节点上首先安装 Linux 系统(版本为),在安装过程中为提高后期安装 软件的兼容性和稳定性,在系统语言上选择英语。创建用户名为“hadoop ”的普通用户,设 置统一的密码。安装完成后将系统的terminal命令窗口调出来,以便使用。 同时,为实现虚拟机的Ubuntu 系统与本机的Windows 系统之间方便快捷的文字复制粘贴以 及物理主机系统与虚拟机系统相互拖放文件进行共享,需要安装VMare Tools 工具,具体操作如下: 启动虚拟机,进入 Ubuntu 系统,在 VM菜单栏“虚拟机 (M) ”的下拉菜单点击“安装VMare Tools(T) ”后,会弹出一个“ VMare Tools ”文件夹,里面包含VMare Tools的安装包,将该安装包拷贝到 /home/hadoop目录下,输入命令进行解压安装: tar xzvf此时在/home/hadoop/目录下产生 vmware-tools-distrib文件夹,进入该目录,通过在terminal 终端输入相应命令,运行脚本: cd/home/hadoop/vmware-tools-distrib $JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH ocal/share/',but failed:No such file or directory (gedit:2949):Gtk-WARNING**:Attempting to store changes into `/root/.local/share/',but failed:Failed to create file'/root/.local/share/':No such file or directory (gedit:2949):Gtk-WARNING**:Attempting to set the permissionsof `/root/.local/share/', but failed: No such file or directory 解决方法:只需直接在终端中输入命令:sudo mkdir-p/root/.local/share/,创建警告信息中所提示的目录即可。 若无视警告重启ubuntu 后将会出现以下情况:输入密码无法进入系统,一直处于输入密码 后又跳转回输入密码的界面。此时的解决方法是:在输入密码界面同时按下alt+ctrl+F2 进入 ubuntu 命令模式,并使用root用户及对应密码登陆系统,然后键入:/usr/bin/vi /etc/profile打开 etc/profile文件,找到最近在末尾加上的hadoop 配置文件,按 delete

网易视频云教你如何实现倒排索引

网易视频云教你如何实现倒排索引 常规的索引是文档到关键词的映射:文档——>关键词,但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。于是人们发明了倒排索引!倒排索引是关键词到文档的映射:关键词——>文档。因此,只要有关键词,立马就能找到在那个文档里出现过,带来了极大的方便。下面,网易视频云就教教各位,倒排索引究竟是怎么实现的! 1.倒排索引 倒排索引有两种不同的反向索引形式: ●一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 ●一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。举例: 以英文为例,下面是要被索引的文本: T0 = "it is what it is" T1 = "what is it" T2 = "it is a banana" 我们就能得到下面的反向文件索引: 检索的条件"what", "is" 和"it" 将对应这个集合:{0,1}∩{0,1,2}∩{0,1,2}={0,1}。 对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。同样,文档数量和当前查询的单词结果都从零开始。

所以,"banana": {(2, 3)} 就是说“banana”在第三个文档里(T2),而且在第三个文档的位置是第四个单词(地址为3)。 如果我们执行短语搜索"what is it" 我们得到这个短语的全部单词各自的结果所在文档为文档0和文档1。但是这个短语检索的连续的条件仅仅在文档1得到。 2.Map过程 首先使用默认的TextInputFormat类对输入文件进行处理,得到文本中每行的偏移量及其内容,Map过程首先必须分析输入的对,得到倒排索引中需要的三个信息:单词、文档URI和词频,如图所示: 存在两个问题,第一:对只能有两个值,在不使用Hadoop自定义数据类型的情况下,需要根据情况将其中的两个值合并成一个值,作为value或key值; 第二,通过一个Reduce过程无法同时完成词频统计和生成文档列表,所以必须增加一个Combine过程完成词频统计。

网易视频云 HBase RegionServer宕机案件侦查

https://www.doczj.com/doc/234223098.html, 网易视频云:HBaseRegionServer宕机案件侦查 今天网易视频云技术专家给大家分享一下HBase–RegionServer宕机案件侦查,欢迎参与讨论。 本来静谧的晚上,吃着葡萄干看着球赛,何等惬意。可偏偏一条报警短信如闪电一般打破了夜晚的宁静,线上集群一台RS宕了!于是倏地从床上坐起来,看了看监控,瞬间惊呆了:单台机器的读写吞吐量竟然达到了5w ops/sec!RS宕机是因为这么大的写入量造成的?如果真是这样,它是怎么造成的?如果不是这样,那又是什么原因?各种疑问瞬间从脑子里一一闪过,甭管那么多,先把日志备份一份,再把RS拉起来。接下来还是Bug排查老套路:日志、监控和源码三管齐下,来看看到底发生了什么! 案件现场篇 下图是使用监控工具Ganglia对事发RegionServer当时读写吞吐量的监控曲线,从图中可以看出,大约在19点~21点半的时间段内,这台RS的吞吐量都维持了3w ops/sec 左右,峰值更是达到了6w ops/sec。之前我们就线上单台RS能够承受的最大读写吞吐量进行过测定,基本也就维持在2w左右,主要是因为网络带宽瓶颈。而在宕机前这台RS的读写吞吐量超出这么多,直觉告诉我RS宕机原因就是它!

https://www.doczj.com/doc/234223098.html, 接着就赶紧把日志拉出来看,满屏的responseTooSlow,如下图所示: 很显然,这种异常最大可能原因就是Full GC,果然,经过耐心地排查,可以看到很多如下所示的Full GC日志片段: 2016-04-14 21:27:13,174 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 20542ms GC pool 'ParNew' had collection(s): count=1 time=0ms GC pool 'ConcurrentMarkSweep' had collection(s): count=2 time=20898ms 2016-04-14 21:27:13,174 WARN [regionserver60020.periodicFlusher] util.Sleeper: We slept 20936ms instead of 100ms, this is likely due to a long garbage collecting pause and it's usually bad, see https://www.doczj.com/doc/234223098.html,/book.html#trouble.rs.runtime.zkexpired

相关主题
文本预览
相关文档 最新文档