浅谈大数据时代的数据分析与挖掘

  • 格式:doc
  • 大小:21.00 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈大数据时代的数据分析与挖掘

作者:单海波

来源:《科技创新与应用》2016年第24期

摘要:随着改革开放的进一步深化,以及经济全球化的快速发展,我国各行各业都有了质的飞跃,发展方向更加全面。特别是近年来科学技术的发展和普及,更是促进了各领域的不断发展,各学科均出现了科技交融。在这种社会背景下,数据形式和规模不断向着更加快速、精准的方向发展,促使经济社会发生了翻天覆地的变化,同时也意味着大数据时代即将来临。就目前而言,数据已经改变传统的结构模式,在时代的发展推动下积极向着结构化、半结构化,以及非结构化的数据模式方向转换,改变了以往的只是单一地作为简单的工具的现象,逐渐发展成为具有基础性质的资源。文章主要针对大数据时代下的数据分析与挖掘进行了分析和讨论,并论述了建设数据分析与挖掘体系的原则,希望可以为从事数据挖掘技术的分析人员提供一定的帮助和理论启示,仅供参考。

关键词:大数据;数据分析;数据挖掘;体系建设

引言

进入21世纪以来,随着高新科技的迅猛发展和经济全球化发展的趋势,我国国民经济迅速增长,各行业、领域的发展也颇为迅猛,人们生活水平与日俱增,在物质生活得到极大满足的前提下,更加追求精神层面以及视觉上的享受,这就涉及到数据信息方面的内容。在经济全球化、科技一体化、文化多元化的时代,数据信息的作用和地位是不可小觑的,处理和归类数据信息是达到信息传递的基础条件,是发展各学科科技交融的前提。

然而,世界上的一切事物都包含着两个方面,这两个方面既相互对立,又相互统一。矛盾即对立统一。矛盾具有斗争性和同一性两种基本属性,我们必须用一分为二的观点、全面的观点看问题。同时要积极创造条件,促进矛盾双方的相互转变。数据信息在带给人们生产生活极大便利的同时,还会被诸多社会数据信息所困扰。为了使广大人民群众的日常生活更加便捷,需要其客观、正确地使用、处理数据信息,完善和健全数据分析技术和数据挖掘手段,通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据,做好数据挖掘技术工作。

1 实施数据分析的方法

在经济社会快速发展的背景下,我国在科学信息技术领域取得长足进步。科技信息的发展在极大程度上促进了各行各业的繁荣发展和长久进步,使其发展更加全面化、科学化、专业化,切实提升了我国经济的迅猛发展,从而形成了一个最佳的良性循环,我国也由此进入了大数据时代。对于大数据时代而言,数据分析环节是必不可少的组成部分,只有科学准确地对信息量极大的数据进行处理、筛选,才能使其更好地服务于社会,服务于广大人民群众。正确处

理数据进行分析过程是大数据时代下数据分析的至关重要的环节。众所周知,大数据具有明显的优势,在信息处理的过程中,需要对大容量数据、分析速率,以及多格式的数据三大问题进行详细的分析和掌握。

1.1 Hadoop HDFS

HDFS,即分布式文件系统,主要由客户端模块、元数据管理模块、数据存储服务模块等模块组成,其优势是储存容量较大的文件,通常情况下被用于商业化硬件的群体中。相比于低端的硬件群体,商业化的硬件群体发生问题的几率较低,在储存大容量数据方面备受欢迎和推崇。Hadoop,即是分布式计算,是一个用于运行应用程序在大型集群的廉价硬件设备上的框架,为应用程序的透明化的提供了一组具有稳定性以及可靠性的接口和数据运动,可以不用在价格较高、可信度较高的硬件上应用。一般情况下,面对出现问题概率较高的群体,分布式文件系统是处理问题的首选,它采用继续运用的手法进行处理,而且还不会使用户产生明显的运用间断问题,这是分布式计算的优势所在,而且还在一定程度上减少了机器设备的维修和维护费用,特别是针对于机器设备量庞大的用户来说,不仅降低了运行成本,而且还有效提高了经济效益。

1.2 Hadoop的优点与不足

随着移动通信系统发展速度的不断加快,信息安全是人们关注的重点问题。因此,为了切实有效地解决信息数据安全问题,就需要对大量的数据进行数据分析,不断优化数据信息,使数据信息更加准确,安全。在进行数据信息的过程中,Hadoop是最常用的解决问题的软件构架之一,它可以对众多数据实行分布型模式解决,在处理的过程中,主要依据一条具有可信性、有效性、可伸缩性的途径进行数据信息处理,这是Hadoop特有的优势。但是世界上一切事物都处在永不停息地变化发展之中,都有其产生、发展和灭亡的历史,发展的实质是事物的前进和上升,是新事物的产生和旧事物的灭亡,因此,要用科学发展的眼光看待问题。Hadoop同其他数据信息处理软件一样,也具有一定的缺点和不足。主要表现在以下几个方面。

首先,就现阶段而言,在企业内部和外部的信息维护以及保护效用方面还存在一定的不足和匮乏,在处理这种数据信息的过程中,需要相关工作人员以手动的方式设置数据,这是Hadoop所具有的明显缺陷。因为在数据设置的过程中,相关数据信息的准确性完全是依靠工作人员而实现的,而这种方式的在无形中会浪费大量的时间,并且在设置的过程中出现失误的几率也会大大增加。一旦在数据信息处理过程中的某一环节出现失误,就会导致整个数据信息处理过程失效,浪费了大量的人力、物力,以及财力。

其次,Hadoop需求社会具备投资构建的且专用的计算集群,在构建的过程中,会出现很多难题,比如形成单个储存、计算数据信息和储存,或者中央处理器应用的难题。不仅如此,即使将这种储存形式应用于其他项目的上,也会出现兼容性难的问题。

2 实施数据挖掘的方法

随着科学技术的不断发展以及我国社会经济体系的不断完善,数据信息处理逐渐成为相关部门和人们重视的内容,并且越来越受到社会各界的广泛关注和重视,并使数据信息分析和挖掘成为热点话题。在现阶段的大数据时代下,实施数据挖掘项目的方法有很多,且不同的方法适用的挖掘方向不同。基于此,在实际进行数据挖掘的过程中,需要根据数据挖掘项目的具体情况选择相应的数据挖掘方法。数据挖掘方法有分类法、回归分析法、Web数据挖掘法,以及关系规则法等等。文章主要介绍了分类法、回归分析法、Web数据挖掘法对数据挖掘过程进行分析。

2.1 分类法

随着通信行业快速发展,基站建设加快,网络覆盖多元化,数据信息对人们的生产生活影响越来越显著。计算机技术等应用与发展在很大程度上促进了经济的进步,提高了人们的生活水平,推动了人类文明的历史进程。在此背景下,数据分析与挖掘成为保障信息安全的基础和前提。为了使得数据挖掘过程更好地进行,需要不断探索科学合理的方法进行分析,以此确保大数据时代的数据挖掘进程更具准确性和可靠性。分类法是数据挖掘中常使用的方法之一,主要用于在数据规模较大的数据库中寻找特质相同的数据,并将大量的数据依照不同的划分形式区分种类。对数据库中的数据进行分类的主要目的是将数据项目放置在特定的、规定的类型中,这样做可以在极大程度上为用户减轻工作量,使其工作内容更加清晰,便于后续时间的内容查找。另外,数据挖掘的分类还可以为用户提高经济效益。

2.2 回归分析法

除了分类法之外,回顾分析法也是数据挖掘经常采用的方法。不同于分类法中对相同特质的数据进行分类,回归分析法主要是对数据库中具有独特性质的数据进行展现,并通过利用函数关系来展现数据之间的联系和区别,进而分析相关数据信息特质的依赖程度。就目前而言,回归分析法通常被用于数据序列的预计和测量,以及探索数据之间存在的联系。特别是在市场营销方面,实施回归分析法可以在营销的每一个环节中都有所体现,能够很好地进行数据信息的挖掘,进而为市场营销的可行性奠定数据基础。

2.3 Web数据挖掘法

通讯网络极度发达的现今时代,大大地丰富了人们的日常生活,使人们的生活更具科技性和便捷性,这是通过大规模的数据信息传输和处理而实现的。为了将庞大的数据信息有目的性地进行分析和挖掘,就需要通过合适的数据挖掘方法进行处理。Web数据挖掘法主要是针对网络式数据的综合性科技,到目前为止,在全球范围内较为常用的Web数据挖掘算法的种类主要有三种,且这三种算法涉及的用户都较为笼统,并没有明显的界限可以对用户进行明确、严谨的划分。随着高新科技的迅猛发展,也给Web数据挖掘法带来了一定的挑战和困难,尤其