当前位置:文档之家› 社会化媒体_移动终端_大数据_影响新闻生产的新技术因素_彭兰

社会化媒体_移动终端_大数据_影响新闻生产的新技术因素_彭兰

社会化媒体_移动终端_大数据_影响新闻生产的新技术因素_彭兰
社会化媒体_移动终端_大数据_影响新闻生产的新技术因素_彭兰

今天的传媒业面临的技术冲击,是前所未有的。尽管技术因素不能决定一切,但如果无视新技术带来的影响,固守传统媒体的思维与工作方式,那么在新技术浪潮的冲击下,终将变得越来越被动。

目前传媒业更关注的是媒介融合的影响,但与媒介融合这一趋势并行的,还有另外几个将对传媒业产生深远影响的技术背景,它们分别是:社会化媒体、移动终端和大数据。

一、社会化媒体:开启“用户为中心”时代

尽管社会化媒体的应用在互联网1.0时代已经出现,但在1.0时代,整个互联网是以门户网站为核心的。但门户模式是对传统大众传播模式的沿袭,在某种意义上,与网络本身的特性是相违背的,门户时代只能算是网络传播的热身阶段。

而今天的Web2.0时代,互联网的重心正在转向社会化媒体。也可以说,互联网关键的变革之一,便在于从门户时代转向社会化媒体时代。社会化媒体真正代表了网络传播对传统大众传播的冲击。

尽管人们对于社会化媒体的定义没有达成共识,但一般认为,社会化媒体是基于用户社会关系的内容生产与交换平台。社会化媒体的主要特征有如下两个方面:

一是内容生产与社交的结合。也就是说,社会关系与内容生产两者间是相互融合在一起的,社会关系的需求促进了社会化媒体平台上的内容生产,反过来,这些平台上的内容也成为连结人们关系的纽带。这些内容并非全都具有公共价值,但社会化媒体平台的传播机制可以很快地在无数的信息碎片中将有公共价值的内容筛选出来。

二是社会化媒体平台上的主角是用户,而不是网站的运营者。因此,论坛、游戏、即时通信、博客、视频分享、问答、维基、SNS、微博、LBS,甚至电子商务,都是社会化媒体应用。换一个角度看,今天互联网上的应用,除了各类基

彭兰

社会化媒体、移动终端、大数据:

影响新闻生产的新技术因素新闻界

ISSN1007-2438 2012年第16期

专题?新媒体环境下的新闻传播学

作者彭兰,中国人民大学新闻学院教授、博士生导师,中国人民大学“新闻与社会发展研究中心”研究员,新媒体研究所所长1)基金项目:国家社科基金特别委托项目“三网融合相关问题研究”(10@zh002)

1)

于Web模式的门户网站和搜索引擎外,其他几乎所有的应用都或多或少具有社会化媒体的属性。

社会化媒体可以有不同的偏向,例如,即时通信、SNS等是偏社交的,而博客、微博是偏媒体的。但无论最终表现出哪个方向的偏向,社交与媒体二者的逻辑关系却是清楚的:社交及社会关系是基础,而媒体的功能是建立在这个基础上的。如果认为偏媒体的平台是以媒体属性为基础,再将社交嫁接在这个之上,那么这仍然是传统媒体时代的思维。在这种思维之下,恐怕难以真正理解与运用好社会化媒体。

社会化媒体对新闻生产与消费模式都会带来重大的冲击。而无论是从新闻生产还是新闻消费角度看,其影响的核心,都是用户成为了中心。

(一)社会化媒体影响下的新闻生产模式——公民新闻与专业媒体平分秋色

社会化媒体的发展带来了公民新闻活动的繁荣。对于公民新闻活动的认识,不能仅限于新闻的发布或传播这个层面,而应该把公民的各种新闻信息生产行为综合在一起考察,包括新闻的采集、发布、整合、传播,也应包括与之相关的评论和其他活动。

社会化媒体时代,公民新闻的力量必然不断上升,最终与专业媒体相抗衡。这将使得未来传媒业的生产模式发生质的变化。

公民新闻主要用以下方式影响着新闻的生产:

原创性生产:一些具有一定新闻素质的网民,有意识地参与到网络新闻生产中,他们有时所提供的是完整的新闻报道或新闻评论。在博客、微博等平台中这样的原创性新闻生产越来越多。这些内容与专业机构的新闻生产的结合也越来越密切,其中图片报道、视频报道被专业媒体接纳得更多。

启动性生产:网民有意或无意地向媒体提供的新闻线索,是帮助媒体寻找报道题材、启动报道的一种方式。

资源性生产:网民参与各种形式的网络调查,为新闻报道提供了一定的报道素材与背景。网民的微博、博客以及BBS的各种帖子,也都可能为网络新闻报道提供丰富的资源。

增值性生产:网民通常会通过论坛、博客、微博等转发自己认为好的或是有意思的新闻。这种方式虽然并不直接生产新的新闻,但是,它使新闻扩散,从而实现新闻的增值。在更多的时候,即使网民不直接传播、扩散新闻,但是,他们在各种网络空间中发表的与新闻有关的评论,会在很大程度上提升事件或新闻的关注度。这是对新闻价值的另一种提升。

互动性生产:有些新闻的生产过程,本身就需要受众的参与,例如,网民与新闻事件当事人或嘉宾的在线交流。

整合性生产:很多网民不直接进行原创性新闻生产,但是,他们对媒体的新闻进行筛选、整合,根据自己的价值判断进行重新编排,从而为其他网民提供有序的新闻资源。在博客中,这样的生产行为是大量存在的。微博中一些用户的转发,也是这样一种新闻的选择与整合。

这六个方面,有些是网民的原创性生产活动,有些则是对专业媒体内容的一种“再生产”过程。

尽管很多研究者与从业者对公民新闻的碎片化持否定态度,但在某种意义上,网民带来的碎片化的信息,是对由大众媒体垄断带来的信息不平衡状态的一种补充。它们之间也存在着相互参照、相互校正的可能。虽然每个网民只是提供的一些零散的“碎片”,但是,当那些关键的碎片拼贴在一起时,当它们与专业媒体所提供的图景组合在一起时,最终呈现出来的景象,会比仅仅由专业媒体所描绘的景象,要更为丰富、立体、真实。

公民新闻不仅影响了新闻的生产过程,而且以某些方式影响着整个传媒业:

公民新闻所涉及的事件、话题、新闻素材等,可以成为某种参照系,受众可以以此为参照对专业媒体新闻报道的时效性、客观性、全面性等进行评判。公民新闻也在一定意义上代表着受众的需求与兴趣,能与公民新闻形成呼应的媒体,更容易得到受众的认同。

社会化媒体所谈及的新闻事件、话题,也越来越多地成为媒体报道的由头或起点,在一定意义上说,社会化媒体的议程正在影响着专业媒体的议程。

公民新闻活动的影响积淀下来,会变成公众的某种价值取向,这种价值取向虽然不会完全决定专业媒体的报道活动,但会在一定程度上影响

专题?新媒体环境下的新闻传播学

专业媒体的价值取向与判断。

此外,公民新闻在很多情况下是专业媒体报道的伴随性传播,即对专业媒体报道的扩展性、跟进性报道,这些传播活动会形成“强者越强、弱者越弱”的正反馈效应,这种效应是一种调节机制,对于专业媒体的传播效果形成影响,这种影响累积起来,也会影响到专业媒体的力量对比。

在这样的形势下,专业媒体仍然需要坚持自己的“专业优势”,但这种坚持,应是建立在对用户地位与作用的重新认识上,建立在对公民新闻价值的尊重基础上,建立在对自己的专业角色与职责的重新定义上。

(二)社会化媒体影响下的新闻消费模式——个人门户兴起、大众门户式微

除了推动公民新闻的力量不断强大外,社会化媒体还将从另一个方向对专业媒体形成挑战,那就是“个人门户”对人们新闻信息消费模式的影响。

以RSS、SNS、微博等技术为基础,每个人都可能在新媒体平台中构建一个独一无二的个人门户。个人门户既是人们与外界进行双向信息交换的“窗口”,也是他们构建自己社会关系的平台,同时还是网络化生活与工作的基点。一旦这种个人门户形成,人们对于门户网站、媒体网站的首页的直接访问会逐渐减少,这也就意味着未来的新媒体传媒格局中,类似于门户网站这样的绝对的“权力中心”可能会减少。换一个角度说,个人门户使每一个个体成为信息传播的“中心”,这将对现有的大众传播模式形成挑战。

与门户时代点对面的传播模式不同,社会化媒体平台上,新闻信息的传播更多地是以个人的关系网络(或者说社会网络)为渠道的。人际关系网络不仅承载着人际传播的功能,也承载着群体传播、组织传播和大众传播的功能,其中大众传播的功能尤为突出。也可以说,人际网络成为了大众传播的“基础设施”。

看上去,人际关系网络中并没有传统大众传播机构中的“把关人”,但是,它也存在着一种内在的“把关”。这种把关可以从两个方面体现出来:具有公共价值的新闻信息的凸显,依靠的是平台上所有用户的“投票”。人们选择发什么或不发什么,评论什么或不评论什么,就是一种基于鼠标与键盘的投票。这种投票不仅直接体现着公众对信息价值的评判,也直接影响着信息传播的广度与深度。

对于用户个体来说,自己的社会关系圈子,成为了自我定制的信息源,这些信息源成为新闻信息个性化的重要保障。

也因此,社会化媒体为信息的个性化服务提供另一种思路:人们的社会关系成为一个过滤网,将满足个人需求的信息筛选出来。

当然,在这样的时代,能够提供具有公共价值的新闻与信息的媒体,仍然具有重要价值,它们将在社会整合方面扮演更重要的角色。但在个人门户时代,它们需要放下身段,进入社会化媒体平台,学习和掌握这个平台的传播规则,争取利用自己的专业优势,成为这个平台的标杆。

二、移动传播:重新定义新闻生产与消费的时空

手机开启了移动数字传播的温饱时代,平板电脑等将移动传播升级到小康时代。但这些都只是移动传播时代的开始。移动传播是数字传播发展进程中的一个新飞跃,它所带来的影响目前还只是展露出冰山一角。

(一)移动传播改写新闻生产的时空观

移动终端不仅是信息消费工具,也是新闻生产工具,在移动状态下快速地进行新闻的发现、判断与传播,成为对媒体人的基本要求。

这也意味着新闻生产的时间被进一步压缩,在这样一种高压的状态下如何保证新闻的质量,这不仅是对新闻人的挑战,也是对媒体现有的新闻生产流程与机制的挑战。

移动终端也使得新闻生产的空间发生了变化,基于文字、图片、视频等手段的新闻现场直播成为常态,来自现场的新闻生产将在未来的新闻生产中占据越来越大的份额。这对于媒体的生产手段与流程同样是一种挑战。

另一方面,这些直播,并非都是由专业媒体人提供的。更多的时候,新闻的直播,是新闻事件的当事人、现场目击者等普通人带来的。

普通人的直播,可能没有专业的水平与角度,专题?新媒体环境下的新闻传播学

但它们却也往往能补专业媒体的视角的不足。在一些重大的事件中,往往会出现多人的直播,这无形中形成了一种自发的协作,虽然每一个人只在某一个特定的时空上有所贡献,但很多人的直播汇聚起来,其角度可能更为多样,时空跨度更大。

更重要的是,这些来自公众视角的直播,再经由社会化媒体传播,更容易引起人们的感同身受,使更多的人成为事件的“卷入者”或参与者,这种“卷入”会放大事件的影响力。

普通人的直播,还会涉及到很多专业媒体所关注不到的社会局部或细节,甚至将它们放大成为热点。这不但意味着媒体上的社会议题更为丰富,更意味着政府机构、企业以及个体,将被置入更多的“监控摄像头”之下,一个失态、一个失误,一旦被这些摄像头捕捉,就有可能成为公众的焦点,其后果难以预计。

因此,全民新闻直播的影响,不仅在于其直播带来的现场感和卷入感,还在于它使“新闻”的覆盖空间变得更广,任何人都有成为新闻事件主角的可能。

(二)移动传播改写信息消费的时空观

尽管目前人们对于移动终端的认识主要限于手机、平板电脑和电子书等终端,但是移动终端在未来的发展,将超乎人们的想象。

2010年1月,LG公司公开展示了其最新的研究成果,这就是柔性的(可以弯折的)电子纸显示器。这款产品尺寸和一张A3幅面的报纸大小相似,重约130g,而其厚度也仅为0.3mm,可以说与印刷报纸的外形已经越来越接近了。2012年3月,LG 公司宣布6英寸大的柔性电子纸正式开始量产。除了LG外,索尼等公司也在开发柔性电子纸。

2011年9月初,《纽约时报》的R&D实验室研发的互动“魔镜”基本成形。这面“魔镜”不仅可以像普通镜子一样照人,还可以提供信息服务、日历、备忘录等功能,人们可以在洗漱时观看《纽约时报》发送的头条新闻、视频、查询天气情况等,镜子也会根据人们事先设置的行程进行提醒。根据人们的衬衫,镜面还可以给出佩戴领带的建议。在生病服用药物期间,镜子还可以通过扫描药瓶瓶身的射频识别标签,列出比药物说明书更便于理解的药物服用处方以及注意事项。这面魔镜还有发送短信、购物等功能。[1]

2011年月11月,索尼公司将眼镜式的3D OLED 显示器推向市场,佩戴上它看视频的效果相当于在750英寸的“影院般虚拟屏幕”上观看2D或3D电影。

2012年4月,谷歌对外公布了它的谷歌眼镜计划,开发中的谷歌眼镜能提供拍摄照片、视频聊天、天气信息、导航信息、日程提醒等14种服务,由用户声控操作或所处环境触发,其功能与手机相似。6月,在谷歌的I/O开发者大会上,谷歌眼镜正式发布,预计2013年年初推出市场。

越来越像纸的“电子纸”,眼镜式的显示器甚至眼镜式手机,以及未来的一切物体,都可能成为终端,移动传播既可以由人们身上携带的各种便携终端来满足,也可能由人们在时空转换中所遇到的一切终端(如镜子、墙壁、地板等)来提供。人们在一切情境下,都可能处于媒介与终端的包围之中。

移动传播使碎片的时间与碎片的空间都有了信息到达的可能,这也将逐步改变人们的信息消费习惯,人们对于碎片时间的利用成为信息消费中的常态,但这也有可能导致信息阅读的碎片化。如何提供更好的信息碎片的整合手段,也成为媒体优化信息服务的一个关键。

移动终端也使得“位置”这样一个地理变量成为个性化信息服务的关键变量之一。过去媒介市场细分中的地理变量通常是指“地区”这样的大范围对象。但是,在移动传播日益发展的今天,地理变量有了新的含义。LBS(location Based Service)服务就代表了利用地理变量来提供服务的新方向。LBS是通过移动运营商的通讯网络或外部定位方式(如GPS)获取移动终端用户的位置信息,并以此为基础向用户提供特定服务的一种业务。LBS服务使得地理变量有了两个方面的拓展:一是地理变量的精准化;二是地理变量的移动性。而人们在空间的不断转换中,会产生需求上的变化。因此,个性化信息服务,不再是一种简单的分众服务,而是针对在某个特定空间中的人提供那个空间与情境中所需要的信息。

当然,当人在任何时间任何空间都被媒介所包围,信息过载的问题也将变得更为严重,人们的

专题?新媒体环境下的新闻传播学

私人空间也将因为个人信息的过分暴露而面临更多的侵扰甚至威胁。人会成为媒介与信息的主宰者还是奴隶,将是一个严肃的问题。

三、大数据时代:数据成为新闻的“富矿”

今天的时代,已经被称为“大数据”时代。“大数据”(Big Data)这一概念,首先是指信息或数据量的巨大。数据的单位,已经从G和T发展到P、E、Z等为计量单位。① 有资料称,2011年全球的数据量达到1.8Z。[2]此外,“大数据”时代也意味着数据的处理、分享、挖掘、分析等能力将得到前所未有的提升。不同行业、不同领域的数据之间的交换和相互利用也变得十分频繁。

大数据时代的出现,与很多因素相关,除了政府机构、媒体、企业等提供了更多的数据外,用户数据、社会化媒体平台上的UGC、移动终端的地理信息、物联网技术的发展等,也使信息的数量急剧增长。大数据时代的数据处理,也需要“云计算”等技术做支撑。

目前,“大数据”的概念及其价值更多地是被IT业和企业营销领域所关注,但事实上,传媒业也将是受到大数据时代冲击的主要行业之一。

(一)大数据时代数据成为新闻的核心资源之一

传统媒体时代,新闻的核心资源,是记者通过采访、调查获得的第一手情况,它们更多的是对某个具体场景的描述、对某个状况的定性判断以及人们对于某个事件的具体意见和态度等,数据往往只是起辅助作用。

但多年前在西方出现的计算机辅助报道学,已经在探讨以数据为基础挖掘新闻、解释新闻的方法。那些公开或者隐蔽的数据,成为了记者发现新闻选题、拓展新闻深度的重要资源。

而在大数据时代,除了政府、机构、企业等公开发布的数据外,媒体、网站所拥有的用户数据、用户生产的内容,也是重要的数据资源。

与记者在某一个视野有限的观察点上对事物进行的观察与分析不同的是,数据可以揭示更大范围内的情状与规律。例如,华尔街“德温特资本市场”公司利用电脑程序分析全球用户在社会化媒体中的发帖,以判断民众情绪,依据分析结果决定如何处理进行股票操作。其原则是:如果所有人似乎都高兴,买入;如果大家的焦虑情绪上升,抛售。借助这些的数据分析,该公司获得了很高的收益。[3]尽管这不是一个媒体的例子,但是,它已经显示出对大规模数据进行挖掘的意义。

物联网等技术的发展,将使得物体的状态数据可以由它们自身所携带的装置向互联网传送,这些数据也将成为未来新闻报道的重要来源。记者的信息采集、现场观察与新闻分析等工作,会因为这些数据的出现而受到影响,很多时候,这些数据对于某个事件发生的原因、状况的揭示会比记者的观察与调查更准确,更有说服力。

数据不仅可以作为新闻报道的内容,也可以作为了解受众的依据,通过数据对受众的心理、需求以及行为习惯等进行分析,可以提供更符合受众需要的新闻报道。个性化的新闻信息服务也是以数据分析为基础的。

(二)大数据时代提升技术在新闻生产中的地位

当数据成为新闻生产的核心资源时,与数据有关的统计、分析与挖掘技术,也就成为了新闻生产新思维的支持工具。

美国IT杂志《连线》记者史蒂芬列维发表文章,称计算机有可能代替人生产90%左右的新闻。文章引用了一家名为Narrative的公司的例子。这是一家拥有大约30名员工的美国公司,它们运用Narrative Science算法,大约每30秒就能够撰写出一篇新闻报道。这种计算机撰写的新闻稿可以是关于美国篮球比赛的消息,可以是一家公司的盈利声明,或者是根据微博信息综合写出的赛马消息。这样的文章曾经在《福布斯》等著名出版机构的网站上获得发表。这些文章读起来也不像人们想象中的那般生涩僵硬。虽然这些文章并没有专业评论员写的生动,但他们却能够将最新的比赛结果快速地传递给读者。Narrative Science能够通过收集iPhone手机用户在应用程序GameChanger中输入的比赛数据写出一篇新闻报道。2011年该软件通过收集相关信息写出了大约40万则关于少年棒球联盟的新闻报道。2012年这一数字预计将达到150万。[4]

尽管计算机代替人来写新闻稿,主要限于某专题?新媒体环境下的新闻传播学

些特定的新闻题材,但是,这样一个事实启发我们,当新闻报道对于数据的依赖日益增强时,人在这类报道面前,已经没有明显优势,甚至在有些情况下处于劣势。

事实上,2004年开始,谷歌、百度的新闻(或资讯)频道,就已经依赖搜索技术和计算机算法来进行新闻的整合以及在网页上的呈现。尽管计算机算法对新闻内容的编排原则相对简单,未必能像编辑那样传达复杂的“版面语言”,但对于那些更愿意自己来进行新闻价值判断的受众来说,这样的新闻呈现也有它独特的魅力。

与此同时,大数据时代的数据处理,需要“云计算”等技术支持,也需要大型的数据处理的服务器集群,数据处理的权力将日益集中于相应的硬件与软件服务的提供者那里,这也使得技术对于媒体的制约能力进一步增强。

(三)大数据时代对数据的呈现、分析与解读提出更高要求

大数据时代使数据成为新闻报道中的重要资源,但这并不意味着新闻报道是数据的堆积,信息爆炸时代需要的是对信息更明晰的呈现、更准确的分析和更深层的解读。

在这样一种背景下,在国内外的媒体中,信息图表(Infographic)开始扮演越来越重要的角色。信息图表是将信息、数据形象化、可视化的一种方式。根据道格?纽瑟姆(Doug Newsom)的概括,作为视觉化工具的信息图表包括:图表(chart)、图解(diagram)、图形(graph)、表格(table)、地图(map)和列表(list)等。[5]

信息图表的作用主要表现为以下几方面:

数据可视化:把抽象、枯燥的数字形象化,以加深人们对数字的认识。

提示新闻要点:将一条新闻中的重点内容用信息图的方式提示出来,使人们更好地关注、理解和记忆这些要点。

图解过程、梳理进程:将一个事件的发展、变化过程用图表方式进行梳理、整合。

揭示关系:将新闻事件中诸如人物关系、利益关系、结构关系等各种关系用信息图表方式梳理与揭示出来。

展现情状:利用信息图表展现事物的形势、状态等。

整合内容:运用Flash等技术制作的图表,也可以作为信息素材的组织手段,它能将不同时间、不同来源的内容或稿件进行有机的结合。

在很多媒体,信息图表不但是对文字新闻的扩充与延伸,也被当作了独立的新闻形式,成为提升新闻原创性、应对新闻竞争的一种方式。有些新闻网站已经开设了专门的图表新闻栏目,例如新浪的“图解新闻”、搜狐的“数字之道”、网易的“数读”等。许多报纸也在进行类似的探索。也有些媒体将以数据为主的新闻称为“数据新闻”。

在这样的时代,对于新闻人来说,用数据说话、用图说话,将变得与新闻写作同样重要。但信息图表的创作,是一个综合过程,选题、角度的策划,数据的采集或发现,信息图表的形式选择与制作等,每一个环节,都需要相应的思维方式与能力支持。其中,运用相关软件进行数据采集、分析的能力,对于新闻人的挑战尤其明显。但这也许是新闻人不得不面对的,也是新闻教育改革要应对的一个新形势。

社会化媒体、移动终端、大数据,这些新技术因素,直接影响着媒介融合的进程,传媒业在媒介融合时代的发展,必须建立在对这些因素综合作用的深刻认识基础上。

注释

① 计算机中存储信息的基本单位是字节(Byte)。一个西文字符用一个字节存储,一个汉字需要两个字节存储。其他单位及其相互间的关系分别为:1K=1024Byte,1M=102 4K,1G=1024M,1T=1024G,1P=1024T,1E=1024P,1Z=1024E.

参考文献

[1]美国公司研发“魔镜” 能读取人身体信号[OL],http:// https://www.doczj.com/doc/d71347435.html,/a/20110923/000173.htm.

[2]大数据时代我们如何做分析[OL],http://bizsoft. https://www.doczj.com/doc/d71347435.html,/377/30424377.shtml.

[3]微博促生互联网大数据背后:蕴藏财富堪比石油[N],广州日报,2012-6-9.

[4]连线:未来超90%新闻由电脑撰写 威胁新闻人员[OL],https://www.doczj.com/doc/d71347435.html,/20120504/n342319737.shtml.

[5]信息图表设计的概念与历史[OL],http://www.douban. com/group/topic/16410517/.

专题?新媒体环境下的新闻传播学

云计算的五大核心技术

:首页 > 技术文库 > 技术服务 > 信息产业化 > 文章内容:云计算的五大核心技术 云计算的五大核心技术 云计算的五大核心技术 newmaker 云计算系统运用了很多技术,其中以编程模型、数据治理技术、数据存 储技术、虚拟化技术、云计算平台治理技术最为关键。 1)编程模型 MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。严格的编程模型使云计算环境下的编程十分简单。MapReduce 模式的思想是将要执行的题目分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。 2) 海量数据分布存储技术 云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS 的开源实现HDFS。 GFS即Google文件系统(Google File System),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。 一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并被很多客户(Client)访问。主服务器存储文件系统所以的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块确当前位置。它也控制系统范围的活动,如块租约(lease)治理,孤儿块的垃圾收集,块服务器间的块迁移。主服务器定期通过HeartBeat 消息与每一个块服务器通讯,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统中保存3个以上备份。

大数据的核心技术(二)

我们在上一篇文章中给大家介绍了大数据的部分核心技术,分别是数据挖掘和机器学习。在大数据中,数据挖掘和机器学习都是发挥了不同的功能。在这篇文章中我们给大家介绍一下人工智能和其他大数据处理的基础技术,希望这篇文章能能够给大家带来帮助。 首先说说人工智能,AI和大数据是相互促进的关系,一方面,AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法,如近几年的深度学习一系列技术和方法;另一方面,大数据为AI的发展提供了新的动力和燃料,数据规模大了之后,传统机器学习算法面临挑战,要做并行化、要加速要改进。AI的终极目标是机器智能化拟人化,机器能完成和人一样的工作,人脑仅凭几十瓦的功率,能够处理种种复杂的问题,怎样看都是很神奇的事情。虽然机器的计算能力比人类强很多,但人类的理解能力,感性的推断,记忆和幻想,心理学等方面的功能,机器是难以比肩的,所以机器要拟人化很难单从技术角度把人工智能讲清楚。人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和思考等领域取得了巨大的成功,但是如果真正的做到仿生,还是比较困难的。 然后就是其它大数据处理基础技术。一般来说,大数据除了之前提到的内容,还有很多的基础技术,大数据基础技术包括计算机科学相关如编程、云计算、分布式计算、系统架构设计等方向,还有机器学习的理论基础包括如算法、数据结构、概率论、代数、矩阵分析、统计

学习、特征工程等方面;商业分析与理解如领域知识管理、产品设计、可视化等技术;数据管理如数据采集、数据预处理、数据库、数据仓库、信息检索、多维分析、分布式存储等技术。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个方面服务的。只有掌握了这些内容,我们才能够更好的使用大数据为我们发挥更多的功能。 以上的内容就是小编为大家介绍的大数据的核心技术了。大数据的核心技术就是数据挖掘、机器学习、人工智能和其他的大数据处理基础技术,最后感谢大家的阅读。

大数据核心技术A卷

精心整理 岭南师范学院2015年-2016 学年度第二学期 期末考试试题A 卷 (考试时间:120分钟) 考试科目:大数据核心技术 1.下面哪个程序负责HDFS 数据存储。 (C ) https://www.doczj.com/doc/d71347435.html,Node B.Jobtracker C.Datanode D.secondaryNa meNode 2.HDFS 中的block 默认保存几 个备份。(A ) A.3份 B.2份 C.1份 D.不确定 3.HDFS1.0默认BlockSize 大小是多少。(B ) 5.Hadoop1.0默认的调度器策略是哪个。(A ) A.先进先出调度器 B.计 算能力调度器 C.公平调度器 D.优先级 调度器

精心整理 6.Client端上传文件的时候 下列哪项正确?(B) A.数据经过NameNode传 递给DataNode B.Client端将文件切分 为Block,依次上传 C.Client只上传数据到 一台DataNode,然后由NameNode 负责Block复制工作 D.以上都不正确 7.在实验集群的master节点 使用jps 现以下哪项能说明Hadoop 启动成功?(D) econdaryNameNode https://www.doczj.com/doc/d71347435.html,node,Datanode,H Master https://www.doczj.com/doc/d71347435.html,node,JobTracker ,secondaryNameNode 8.若不针对MapReduce编程 模型中的key和value值进行特别 设置,下列哪一项是MapReduce 不适宜的运算。(D) A.Max B.Min C.Count D.Average 对 10.以下哪一项属于非结构化 C) A.企业ERP数据 B.财务系 统数据 C.视频监控数据 D.日志 数据 11.HBase数据库的 BlockCache缓存的数据块中,哪 一项不一定能提高效率。(D) A.–ROOT-表 B..META.表

大数据核心技术培训

大数据核心技术培训 你学或者不学,大数据依旧在发展;你从事或者不从事,大数据的前景你都应该了解。时代的前进方向,未来的领先技术,作为时代的年轻人,你不知道就真的会被社会所淘汰的。大数据的发展前景怎么样?未来大数据的发展趋势如何? 近年来,科技的快速发展推动了企业在数据生成、储存等多方面的需求增长。所以在企业爆炸式的大数据时代下,剧增了原有数据存的储存压力,所以大数据人才需求量将会与日俱增。所以大数据在未来就业前景一定非常广阔,在此千锋教育带大家了解大数据的发展趋势。 数据分析成为大数据技术的核心 大数据的价值体现在对大规模数据集合的智能处理方面,进而在大规模的数据中获取有用的信息。要想逐步实现这个功能,就必须对数据进行分析和挖掘。而数据的采集、存储、和管理都是数据分析步骤的基础,通过进行数据分析得到的结果,将应用于大数据相关的各个领域。 云数据分析平台将更加完善 近几年来,云计算技术发展迅猛,与此相应的应用范围也越来越宽。云计算的发展为大数据技术的发展提供了一定的数据处理平台和技术支持。云计算为大

数据提供了分布式的计算方法、可以弹性扩展、相对便宜的存储空间和计算资源,这些都是大数据技术发展中十分重要的组成部分。随着云计算技术的不断发展和完善,发展平台的日趋成熟,大数据技术自身将会得到快速提升,数据处理水平也会得到显著提升。 开源软件的发展成为推动大数据发展的新动力 开源软件是在大数据技术发展的过程中不断研发出来的。这些开源软件对各个领域的发展、人们的日常生活具有十分重要的作用。开源软件的发展可以适当的促进商业软件的发展,以此作为推动力,从而更好地服务于应用程序开发工具、应用、服务等各个不同的领域。 由于大数据行业快速发展,人才需求急剧增加。目前,据某招聘网站平台数据,目前大数据人才的供给量远远低于行业人才需求。所以大数据培训应运而生,作为连接人才与企业的窗口,千锋大数据培训成为了为企业提供大数据人才强而有力的保障。 千锋大数据培训讲师经过多年的培训经验,结合学员的学习曲线,设计合理的项目进阶课程,让学员逐渐掌握做项目的方法方式,培训真正的项目经验。不

大数据核心技术A卷精编版

岭南师范学院2015 年- 2016 学年度第二学期 期末考试试题A卷 (考试时间: 120 分钟) 考试科目:大数据核心技术 一、单项选择题(每小题 2 分,共 30 分) 请把答案写在下表中,写在试题后无效。 1. 下面哪个程序负责 HDFS 数据存储。(C ) A. NameNode B. Jobtracker C. Datanode D. secondaryNameNode 2. HDFS 中的 block 默认保存几个备份。( A ) A. 3 份 B. 2 份 C. 1 份 D. 不确定 3. HDFS1.0 默认 Block Size大小是多少。( B ) A. 32MB B. 64MB C. 128MB D. 256MB 4. 下面哪个进程负责 MapReduce 任务调度。( B ) A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode 5. Hadoop1.0默认的调度器策略是哪个。( A ) A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器 6. Client 端上传文件的时候下列哪项正确?( B ) A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block,依次上传 C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 D. 以上都不正确 7. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop 主节点启动成功?( D ) A. Namenode, Datanode, TaskTracker B. Namenode, Datanode, secondaryNameNode C. Namenode, Datanode, HMaster D. Namenode, JobTracker, secondaryNameNode 8. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。( D ) A. Max B. Min C. Count D. Average

大数据的核心技术(一)

我们在之前的文章中提到过,大数据的核心技术就是机器学习、数据挖掘、人工智能以及其 它大数据处理基础技术。在这篇文章中我们给大家详细地介绍一下这些内容,希望这篇文章 能能够给大家带来帮助。 首先说一下机器学习,一般数据分析师都知道,机器学习是大数据处理承上启下的关键技术,机器学习往上是深度学习、人工智能,机器学习往下是数据挖掘和统计学习。机器学习属于 计算机和统计学交叉学科,核心目标是通过函数映射、数据训练、最优化求解、模型评估等 一系列算法实现让计算机拥有对数据进行自动分类和预测的功能。这就需要我们对机器学习 有一个足够的了解。机器学习领域包括很多种类的智能处理算法,分类、聚类、回归、相关 分析等每类下面都有很多算法进行支撑,随着深度学习核心技术的突破性发展,机器学习算 法得以高速扩张。总之大数据处理要智能化,机器学习是核心的核心,深度学习、数据挖掘、商业智能、人工智能,大数据等概念的核心技术就是机器学习,机器学习用于图像处理和识 别就是机器视觉,机器学习用于模拟人类语言就是自然语言处理,机器视觉和自然语言处理 也是支撑人工智能的核心技术,机器学习用于通用的数据分析就是数据挖掘。由于在大数据 条件下图像,语音识别等领域的学习效果显著,有望成为人工智能取得突破的关键性技术, 正因为如此,我们需要重视机器学习。

然后我们说收数据挖掘,数据挖掘是一个较为宽泛的概念,大数据就是从海量数据里面挖掘 有价值有规律的信息同理。数据挖掘核心技术来自于机器学习领域,如深度学习是机器学习 中一类比较火的算法,当然也可以用于数据挖掘。还有传统的商业智能领域也包括数据挖掘,关键是技术能否真正挖掘出有用的信息,然后这些信息可以指导决策。数据挖掘的提法比机 器学习要早,应用范围要广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为 大数据处理提供相关模型和算法,而模型和算法是大数据处理的关键,探索式交互式分析、 可视化分析、数据的采集存储和管理等都较少用到学习模型。由此可见,数据挖掘在数据分 析中都是十分重要的事情,更不用说大数据了。 由于篇幅原因我们就给大家介绍了大数据的核心技术的两个,分别是数据挖掘以及机器学习,我们在下一篇文章中给大家介绍更多有用的内容,最后感谢大家的阅读。

从五大行业案例,看大数据的应用逻辑

从五大行业案例,看大数据的应用逻辑本文从一则搞笑的大数据应用案例入手:某超市通过分析一位女顾客的购物数据(包括购物清单,浏览物品,咨询信息,视频监控信息<超市内徘徊区域>等),根据分析结果给该女顾客寄来了孕婴童试用品,这一举动让该女顾客的父亲非常生气,立马致电该超市投诉,因为她女儿还未成年!超市经理立马登门拜访道歉,不过事实是,不久后这位小女孩因遮盖不住隆起的腹部而不得不向父亲告知真相:她真的怀孕了。对于企业而言,大数据有时候就像是一个侦探家,能够拨开重重迷雾,找到问题的本质以及解决方案,而关键在于,你是否真的懂得如何去驾驭它,让它为你服务。 在经历了喊口号、布局深耕之后,大数据应用开始显现出巨大的商业价值,触角已延伸到零售、金融、教育、医疗、体育、制造、影视、政府等各行各业。随着中国企业数据中心数据存储量的快速增长,非结构化数据呈指数级增长,有效地处理和分析结构化数据和非结构化数据中所富含的对企业和政府有价值的信息将带动新的盈利模式、管理模式、创新模式以及思维模式。 在维克托·迈尔·舍恩伯格的《大数据时代》一书中解释,大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。随着云时代的来临,大数据也吸引了越来越多的关注。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革,消费者的网络足迹是互联网基因,网络中的足迹、点击、浏览、留言直接反映消费者的性格、偏好、意愿等,互联网交互大数据就是研究每个用户碎片行为的过程。大数据对于经济发展、企业决策、组织和业务流程,对个人生活方式等都将产生巨大的影响。 大数据作为当下非常火爆的一个词,其价值不言而喻,今天,《互联网周刊》不谈价值,通过聚拢一些实实在在的应用,如电商,传统金融,互联网金融,医疗,制造五大领域的案例,进而衍射出大数据内在的应用逻辑。 “用户画像”直击零售商需求 在如此激烈而又庞大的市场中,电商们迫切想知道的想必就是用户需求。当这个用户登陆网站的瞬间,就能猜出来这个用户今天为何而来,然后从电商的商品库里面把合适的商品找出来并推荐给他,进而展现出符合客户需求的产品都有哪几款。这种服务是消费者想要的,但是谁能帮助电商们做到呢?

工业互联网的九大核心技术

工业互联网的九大核心技术 工业互联网这个话题是由GE公司在2012年率先提出的。这个话题和后来2013年德国提出的工业4.0,可以说搅动了很多企业的神经。 但是这些新的理念并不是空穴来风,它是工业化国家在过去几十年强大的技术积累,以及和互联网结合以后产生的新战略,新的技术布局以及对未来的一种新的愿景。如果我们单从互联网角度去解读这些愿景和战略,我认为是不够的。事实上工业互联网有强大的技术支撑。 在工业互联网领域,我们要想获得持续、稳健的发展,需要具备坚实的技术基础。下面这张图将正在出现的以及未来可能出现的技术要素用结构化的方式展现出来,让大家对工业互联网所形成的技术和系统基础,有一个系统性的了解。

在这个结构当中,最为基础是工业互联网的标准和系统安全体系,不同于已经成熟的商业互联网和人际互联网,工业互联网相关的技术标准还远远没有成形,可以讲不同技术阵营当中的博弈和争夺正在激烈展开。而且系统安全是比较薄弱的环节,这在相当程度上阻碍了工业互联网的开放,和彼此数据的交换。在未来我们可以预见到各个工业化的国家、组织乃至企业,以及科研机构,将围绕标准的设立和系统安全的共识和创建,进行大量的工作。 这些基础性的工作是非常重要的,而且是战略性的。因此我们中国的企业家群体要非常关注这些基础性的工作,要抛弃那些可能假想性的,以及希望快速弯道超车的简单愿望。没有这些基础工作,要实现真正意义上的工业互联,是不可能的。

在此之上还有三个非常关键的技术组件,一个称之为随处可及的超级计算终端。所谓随处可及的超级计算终端,是由传感器、强大的芯片以及因此产生的分布式强大计算能力所带来的,这个是因为芯片技术的普及和IPV6的寻址能力的扩张所带来的。 第二类的组件基础,我们称为软件定义机器。所谓软件定义机器就是强大的、无处不在的超级计算终端,以及我们所使用的工业时代的各种设备的整合以后所出现的一种新的前景。未来硬件虽然重要,但是软件更加重要。硬件作为技术组件,相对软件赋予不同的功能,软件定义硬件和定义机器,将成为未来的大势所趋。 由此产生的数据、模式、方法论和人工智能,将归结在知识工作的自动化领域,这个领域涉及大量新的技术。 在这三个技术组件之上,是关于新型的工业流程。未来的工业流程将突破流程化,或者是离散化的传统定义。随着机器人的深度介入,将使得工业流程和工业生产的过程发生根本性的改变。工业生产将变成真正没有停息的全过程,因为机器人没有疲劳,而且机器人之间将进行深度的交流和自动化处理,使得生产效率突破人类介入方式的瓶颈,达到新的高峰。

大数据核心技术A卷

第1页,共18页 第2页,共18页 任课教师签名: 命题教师签名: 系主任签名: 主管院长签名: 岭南师范学院2015 年- 2016 学年度第二学期 期末考试试题A 卷 (考试时间: 120 分钟) 考试科目: 大数据核心技术 一、单项选择题(每小题 2 分,共 30 分) 请把答案写在下表中,写在试题后无效。 1. 下面哪个程序负责 HDFS 数据存储。 (C ) A. NameNode B. Jobtracker C. Datanode D. secondaryNameNode 2. HDFS 中的 block 默认保存几个备份。 ( A ) A. 3 份 B. 2 份 C. 1 份 D. 不确定 3. HDFS1.0 默认 Block Size 大小是多少。 ( B ) A. 32MB B. 64MB C. 128MB D. 256MB 4. 下面哪个进程负责 MapReduce 任务调度。 ( B ) A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode 5. Hadoop1.0默认的调度器策略是哪个。 ( A ) A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器 6. Client 端上传文件的时候下列哪项正确? ( B ) A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block ,依次上传 C. Client 只上传数据到一台 DataNode ,然后由 NameNode 负责 Block 复制工作 D. 以上都不正确 7. 在实验集群的master 节点使用jps 命令查看进程时,终端出现以下哪项能说明Hadoop 主节点启动成功? ( D ) A. Namenode, Datanode, TaskTracker B. Namenode, Datanode, secondaryNameNode C. Namenode, Datanode, HMaster

大数据核心技术A卷

岭南师范学院2015 年-2016 学年度第二学期 期末考试试题A卷 (考试时间: 120 分钟) 考试科目:大数据核心技术 一、单项选择题(每小题 2 分,共30 分) 请把答案写在下表中,写在试题后无效。 1. 下面哪个程序负责HDFS 数据存储。(C ) A. NameNode B. Jobtracker C. Datanode D. secondaryNameNode 2. HDFS 中的block 默认保存几个备份。(A ) A. 3 份 B. 2 份 C. 1 份 D. 不确定 3. HDFS1.0 默认Block Size大小是多少。(B ) A. 32MB B. 64MB C. 128MB D. 256MB 4. 下面哪个进程负责MapReduce 任务调度。(B ) A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode 5. Hadoop1.0默认的调度器策略是哪个。(A ) A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器 6. Client 端上传文件的时候下列哪项正确?( B ) A. 数据经过NameNode 传递给DataNode B. Client 端将文件切分为Block,依次上传 C. Client 只上传数据到一台DataNode,然后由NameNode 负责Block 复制工作 D. 以上都不正确 7. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?( D ) A. Namenode, Datanode, TaskTracker B. Namenode, Datanode, secondaryNameNode C. Namenode, Datanode, HMaster D. Namenode, JobTracker, secondaryNameNode 8. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。( D ) A. Max B. Min C. Count D. Average

工智能的五大核心技术

工智能的五大核心技术 计算机视觉、机器学习、自然语言处理、机器人和语音识别是人工智能的五大核心技术。 一、计算机视觉 计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理操作及其他技术所组成的序列,来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理,分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。 计算机视觉有着广泛的应用,其中包括:医疗成像分析被用来提高疾病预测、诊断和治疗;人脸识别被Facebook 用来自动识别照片里的人物;在安防及监控领域被用来指认嫌疑人;在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多购买选择。 机器视觉作为相关学科,泛指在工业自动化领域的视觉应用。在这些应用里,计算机在高度受限的工厂环境里识别诸如生产零件一类的物体,因此相对于寻求在非受限环境里操作的计算机视觉来说目标更为简单。计算机视觉是一个正在进行中的研究,而机器视觉则是“已经解决的问题”,是系统工程方面的课题而非研究层面的课题。因为应用范围的持续

扩大,某些计算机视觉领域的初创公司自2011年起已经吸引了数亿美元的风投资本。 二、机器学习 机器学习指的是计算机系统无须遵照显式的程序指令,而只依靠数据来提升自身性能的能力。其核心在于,机器学习是从数据中自动发现模式,模式一旦被发现便可用于预测。比如,给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息的数据库,系统就会学习到可用来预测信用卡欺诈的模式。处理的交易数据越多,预测就会越准确。 机器学习的应用范围非常广泛,针对那些产生庞大数据的活动,它几乎拥有改进一切性能的潜力。除了欺诈甄别之外,这些活动还包括销售预测、库存管理、石油和天然气勘探,以及公共卫生等。机器学习技术在其他的认知技术领域也扮演着重要角色,比如计算机视觉,它能在海量图像中通过不断训练和改进视觉模型来提高其识别对象的能力。 现如今,机器学习已经成为认知技术中最炙手可热的研究领域之一,在2011~2014年这段时间内就已吸引了近10亿美元的风险投资。谷歌也在2014年斥资4亿美元收购Deepmind这家研究机器学习技术的公司。 三、自然语言处理

大数据开发核心技术是什么

大数据开发核心技术是什么 大数据研究专家维克托·迈尔-舍恩伯格曾经说过:世界的本质是数据。在他看来,认识大数据之前,世界原本就是一个数据时代;认识大数据之后,世界不可避免地分为大数据时代、小数据时代。但我们口中的大数据的和新到底是什么呢?下面就让千锋大数据培训大师来带你走进大数据的核心地带。 有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。那大数据的核心价值到底是什么? 大数据作为重要的基础性战略资源,核心价值在于应用,在于其赋值和赋能作用,在于对大量数据的分析和挖掘后所带来的决策支撑,能够为我们的生产生活、经营管理、社会治理、民生服务等各方面带来高效、便捷、精准的服务。 从这些特点我们可以看出,如果说大数据的价值就在于如何分析这些繁复的

数据得出预测性结论并最终利用它来实现某种职能、产生某种作用,那么对于这些数据的分析和处理则是商业社会中企业的竞争力所在。 如果从企业决策的角度来看,在任何行业,任何领域,通过推动数据化或大数据演算提升企业决策和企业战略实施的,仍然是人的大脑。唯一的区别是,从前依靠丰富的企业经验和信息整合能力来决策的领导层,如今依靠的是高性能并行的计算机处理技术来处理海量的数据集,分布式的演算出最终的战略决策。利用这样的科技,就可以大大提升领导决策的精准度和效率。而其实大数据的作用已经不仅仅是为各类决策提供帮助,它甚至能够用海量的数据塑造个体,用户分析将不再适用,因为大数据甚至可以塑造用户。 从商业角度来看,从繁杂庞大的数据中挖掘、分析用户的行为习惯和喜好,研发出更符合用户偏好的产品和服务,并结合用户需求有针对性地调整和优化产品,以优化用户体验,最终获得商业利益,就是大数据在商业社会的价值。抛开商业,利用大数据预测可能的灾难,利用大数据分析癌症可能的引发原因并找出治疗方法,都是未来能够惠及人类的事业。 在大数据时代,不再依赖于采样的人们可以获得并分析更多的数据,更清楚地发现样本无法揭示的细节信息,随着计算机处理能力的日益强大,人工智能机器学习系统的不断升级,庞大的数据给人们带来的价值成倍攀升。实验的不断反复、大数据的日渐积累让人类不断发现各种规律,从而能够预测未来。 世界未来,得数据者得天下,大数据人才将是不可多的人才,把握机会成为经典,千锋大数据培训机构欢迎你的加入。

大数据核心技术A卷

第1页,共16页 第2页,共16页 任课教师签名: 命题教师签名: 系主任签名: 主管院长签名: 岭南师范学院2015 年- 2016 学年度第二学期 期末考试试题A 卷 (考试时间: 120 分钟) 考试科目: 大数据核心技术 一、单项选择题(每小题 2 分,共 30 分) 请把答案写在下表中,写在试题后无效。 1. 下面哪个程序负责 HDFS 数据存储。 (C ) A. NameNode B. Jobtracker C. Datanode D. secondaryNameNode 2. HDFS 中的 block 默认保存几个备份。 ( A ) A. 3 份 B. 2 份 C. 1 份 D. 不确定 3. HDFS1.0 默认 Block Size 大小是多少。 ( B ) A. 32MB B. 64MB C. 128MB D. 256MB 4. 下面哪个进程负责 MapReduce 任务调度。 ( B ) A. NameNode B. Jobtracker C. TaskTracker D. secondaryNameNode 5. Hadoop1.0默认的调度器策略是哪个。 ( A ) A. 先进先出调度器 B. 计算能力调度器 C. 公平调度器 D. 优先级调度器 6. Client 端上传文件的时候下列哪项正确? ( B ) A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block ,依次上传 C. Client 只上传数据到一台 DataNode ,然后由 NameNode 负责 Block 复制工作 D. 以上都不正确 7. 在实验集群的master 节点使用jps 命令查看进程时,终端出现以下哪项能说明Hadoop 主节点启动成功? ( D ) A. Namenode, Datanode, TaskTracker B. Namenode, Datanode, secondaryNameNode C. Namenode, Datanode, HMaster D. Namenode, JobTracker, secondaryNameNode 8. 若不针对MapReduce 编程模型中的key 和value 值进行特别设置,下列哪一项是MapReduce 不适宜的运算。 ( D ) A. Max B. Min C. Count D. Average

相关主题
文本预览
相关文档 最新文档