当新媒体遇到“大数据”

  • 格式:pdf
  • 大小:1.79 MB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要:随着新媒体业务在广电系统的发展,我们不可避免的要面对“大数据”对整个产业发展的影响。在其他行业中,大数据已经得到了充分、足够的重视,而广电对其重视程度还不够。本文通过对大数据的基本情况的介绍,对广电新媒体的挑战,以及可能会带来的误区几个方面进行了简单的介绍。

关键词:大数据 海量数据 云计算 Hadoop

1 “大数据”背景

我们现在生活在一个数字信息爆炸的时代,身边每时每刻都在产生数据信息。随着计算机运算速度的增加,存储空间的扩大,以及云计算技术的出现,如何利用好这些数据,让整个计算机界的热情达到了空前的高度。在电信、金融等行业甚至已经达到“数据就是业务”的地步,这种趋势让很多相信数据会产生价值的企业做出了改变。

“Big Data”可以理解为大数据,也可以理解为海量数据,但是这两者还是存在区别的。大数据包含了海量数据,除此之外还包含多种类型的数据。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。该定义可以从两个角度来分析:一方面是数据容量的不断扩大,数据集合的范围已经从兆字节(MB)到吉字节(GB)再到太字节(TB),甚至还有拍字节(PB)、艾字节(EB)和泽字节(ZB)的计数单位出现。著名咨询公司IDC的研究报告称,未来十年全球大数据将增加50倍。仅在2011年,就有1.8ZB(也就是1.8万亿GB)的大数据创建产生。这相当于每位美国人每分钟写3条微博,而且还是不停地写2.6976万年。在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长。另一方面,日益增长的集成式大数据已不再适宜于用当前管理数据库的工具来进行分析处理。其难点包括:数据的抓取、存储、检索、共享、分析以及可视化等。

2“大数据”带来的挑战

“大数据”在物理学、生物学、环境生态学、自动控制等科学领域和军事、通讯、金融等行业已经存在很久了,在互联网领域却是最近几年才出现的,而对于电视台的新媒体领域现在才刚刚暂露端倪,在未来马上就要成为我们不可回避的问题之一。这主要有如下几个方面:

首先,随着电视台新媒体业务的发展,电视台新媒体业务从最初的图文网站为主,逐步走向以视音频节目为主,图文共存的形式,这样数据量大大的增加。

其次,用户的终端变得更加丰富,从原先的台式机变为现在的手机、平板电脑、电视机等多终端,这就要求我们的系统提供更全面的系统服务,提高用户的粘度,增强用户体验,而这所有的一切都大大的增加了数据量。

再次,现在的用户对互联网的依赖程度越来越高,越来越多的用户会把更多的时间花费在网络上,他们可以在上面进行购物、聊天、看视频、工作等更多的活动,这些也大幅的增加了系统的数据。

现在越来越多的企业开始重视“大数据”,根据艾瑞调查统计的数据在2011年日本大数据产业1900亿日元,预计在2020年这个产业将会达到1万亿日元。大数据的出现为广电带来了新的课题,同时也带来了更多的机遇。从市场运营的角度来看,数据量的大规模的增加是让我们精确把握用户的网络行为模式的基础,如果能够充分利用,我们就可以通过大数据的分析及处理得到用户行为分析,可以个性化、精确化、智能化的进行广告推送以及服务推广服务。新的广告模式和

产品推广形式的会比现有的广告模式性价比高出几倍甚至几十倍。同时,新媒体公司也可以通过对大数据的把握,大大地增加用户粘性,开发新产品和新服务,降低运营成本。从现实的问题看,主要有以下三个方面的问题。

首先,大数据挑战了传统广电公司领导的战略决策能力。新媒体业务和技术与传统广电业务区别非常大,数据量的急剧增长不仅要求在带宽和存储设备等基础设施方面要增加大量投入,而且会使广电公司处于进退两难的境地。如果任数据增长,不予理会,那就很可能失去未来发展的机会,失去业内竞争的本钱,早晚会被产业淘汰或者居于下游;如果与时俱进,转型适应大数据时代的到来,那就需要对新媒体现有产品和运营体系进行全面的改造,例如网站架构的重新设计;产品的标准化、通用化、模块化;商业模式的创新等等。这对新媒体公司而言,既要维持现有业务,保持业绩的稳定和增长,又要加大投入,迅速转型,是个进退两难的处境。

其次,大数据的出现挑战了新媒体公司的技术开发和数据处理能力。大数据的出现以及潜在的商业价值不仅要求新媒体公司使用专门的数据库技术和专用的数据存储设备,而且更要求专门的数据分析方法和使用体系。目前业内流行的一般数据挖掘方法和通用商业数据库无法满足大数据时代的挑战。而且,新媒体公司需要大数据处理方面的大量高端专业人才,这不仅指一般的程序员和数据库工程师,而且指数学和统计学家、社会网络学家、社会行为心理学家等等。对海量数据的分析不能仅仅局限在一般数据规律和模型的把握水平上,而且要有理论思维和全面把握的综合深入能力。

第三,大数据挑战了新媒体公司的组织和运营能力。一般中小网络公司都没有专门的数据管理和分析专家,即使是大型网络公司中,数据管理和分析部门也处于分散、被动、辅助的地位,是公司的龙尾而不是龙头。大数据时代的数据分析基本单位是个人用户,寻找的是个人的全面、完整、动态、实时的网络行为模式以及在此基础上归纳出来的群体行为模式,而不是过去那种基于单个产品、服务、频道的碎片式静态统计分析。所以,对大数据的整体把握是新媒体公司产品开发、运营设置、商业模式的基础和出发点,是龙头而不是龙尾。这就需要对现有公司架构、组织体系、资源配置和权力结构进行重组,让数据管理与分析部门处于公司整体的上游位置。

Facebook最近在总部的一次会议中披露的一组数据可以给大家一个初步的印象,来一起看看每天Facebook上都得处理多少数据吧:

1. 25亿Facebook上分享的内容条数;

2. 27亿“赞”的数量;

3. 3亿上传照片数;

4. 500+TB新产生的数据;

5. 105TB每半小时通过Hive扫描的数据;

6. 100+PB(1PB=1024TB) 单个HDFS(分布式文件系统)集群中的磁盘容量。

Facebook的工程总监Parikh解释了这些数据对于Facebook的意义:“大数据的意义在于真正对你的生意有内在的洞见。如果你不能好好利用自己收集到的数据,那你只是空有一堆数据而已,不叫大数据。”

目前Facebook有着世界最大的分布式文件系统,单个集群中的数据存储量就超过100PB。在Facebook内部,从一开始就没有在不同的部门之间(比如广告部和用户支持部)设立障碍或者分割数据。这样一来产品开发者就可以跨部门获得数据,实时知晓最近的改动是否增加了用户浏览时间或者促成了更多的广告点击。

作为普通用户,大家也许会对如此海量的数据心存不安,担心自己的数据被随意浏览。对此Facebook表示有各种防范措施来防止此类事情的发生,比如所有的数据读取记录都会被存档,哪些人看过哪些数据都是记录在案的;如果有员工越线,会被直接开除。Parikh着重强调:“在这件事上我们的政策是零容忍。”

3“大数据”的数据分析

目前,一提到大数据大家就会想到Hadoop数据分析平台,Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。

Hadoop平台对业务的针对性较强,按照数据分析的实时性,分为实时数据分析和离线数据分析两种。

实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。

对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐