TipDM大数据云服务实验室建设方案

  • 格式:pdf
  • 大小:366.55 KB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

TipDM

大数据云服务实验室建

设方案

广州泰迪智能科技有限公司

2016年4月

一、背景

1.1 大数据挖掘行业背景和发展趋势

移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 《数字宇宙》(Digital Universe)研究报告显示,2020 年全球新建和复制的信息量已经超过 40ZB,是 2012 年的 12 倍;而中国的数据量则会在 2020 年超过 8ZB,比 2012 年增长 22 倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC 亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服务市场规模将会从 2012 年的 5.48 亿美元增加到 2017 年的 23.8 亿美元,未来 5 年的复合增长率达到 34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。据 IDC 分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以 Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。

最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。

在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了 80%的价值,因此利用优势资源用户对于少数用户的服务。随着

互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。

1.2大数据挖掘实验室建设的必要性

数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还要提供大数据的运算环境以及用于实验的实战大数据案例。这些实验素材的准备均需专业的大数据实验室作为支撑。目前,在我国高校的专业设置上与数据挖掘与大数据分析实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息以及公共卫生等。这些专业的学生需要分别从原理、技术与应用等不同的角度掌握大数据分析的理论与分析方法。学生要很好地掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,数据挖掘与大数据分析实验所需要的算法、计算环境以及数据等,都无法在我国高校现有的实验室中完成。因此,建设专门的数据挖掘与大数据分析实验室就显得非常重要。

二. 实验室设计理念

数据挖掘与大数据分析实验室的设计全面落实“产、学、研”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。

本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、实战等各层次实践教学,能够从面向大数据分析行业需求和促进学生职业发展的角度规划和建设数据挖掘与大数据分析实验室,真正在产业、学校、科研及实际项目中相互配合,发挥优势,形成生产、学习、科学研究、实践运用的系统运作模式,从而建设大数据挖掘特色专业。

将云存储资源、服务器资源和网络资源整合,然后通过Vmware等虚拟化搭建

私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台。

大数据分析教学平台的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。基于Hadoop 实战项目,在大数据实战环境中,通过动手实操,让学员在短时间内掌握使用平台开发Hadoop程序,以完成高效的大数据存储、清洗和分析。同时,通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。

三、实验室建设

实验室建设包括实验室硬件设备,大数据挖掘案例沙盘模型、大数据挖掘平台以及相关案例资料。

该实验室方案按照数据挖掘、大数据平台与算法、行业实战数据分析三个层次来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系。

1)基础环境建设

包括学生电脑,服务器资源以及投影等整套实验室设备。详见商务报价

2)顶尖数据挖掘教学沙盘(TipDM-SP)

包括智能交通仿真沙盘、窃漏电用户自动识别模拟沙盘、管网漏损自动分析模拟沙盘、菜品推荐PAD四个沙盘模型。详见顶尖数据挖掘教学沙盘(TipDM-SP)产品白皮书。

3)顶尖数据整合工具(TipDM-I2,简称I2)

以 ODS/DW 的实施过程为基础,工具平台集成了十多年在 BI 行业 ETL领域的实施经验与深厚的积累,尤其是在 ETL 领域的数据整合和优化方面的丰富经验,