数据挖掘的现状及趋势研究
- 格式:doc
- 大小:119.02 KB
- 文档页数:20
一、选题背景及意义:数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中开展最快、应用最广的技术之一。
作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。
尤其是在信息技术高速开展的今天,数据库技术的应用可以说是深入到了各个领域。
当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。
因此,为了更好的认识和掌握数据库技术的现状及开展趋势,本文对有关数据库开展的文献进行了收集整理,以求在对现有相关理论了解、分析的根底上,对数据库开展进行综合论述,对数据库技术开展的总体态势有比拟全面的认识,从而推动数据库技术研究理论的进一步开展。
二、论文综述然而历史的开展总是在我们不经意间产生转折,所有重大技术的产生及开展都有其生存的土壤。
40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的别离,采用层次结构来描述数据,是层次型数据库(IM)。
第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及QL语言的创造。
实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的开展,得到了广泛的应用。
技术的演进主要集中在性能、扩展性和平安性等方面的提升,其根本的理论框架和技术理念并没有大的变化。
与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。
数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。
2、国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术开展趋势》三、论文提纲(一)数据库技术概论1、数据库技术概念及类型2、数据库技术开展历程3、数据库技术应用(二)数据库技术开展现状------关系数据库技术仍然是主流1、开展现状概述2、Oracle概念及应用3、Acce概念及应用4、QL概念及应用5、DB2概念及应用6、开展现状总结(三)数据库技术开展的趋势1、下一代数据库技术的开展主流面向对象的数据库技术与关系数据库技术2、演绎面向对象数据库技术3、数据库技术开展的新方向非结构化数据库4、数据库技术开展的又一趋势数据库技术与多学科技术的有机结合5、未来数据库技术及市场开展的两大方向数据仓库和电子商务6、数据库技术的实践性开展面向专门应用领域的数据库技术(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库1、数据挖掘技术2、数据仓库技术3、知识发现技术4、小结5、结论四、论文写作进度安排(一)开题报告:论文题目、系别、专业、年级、姓名、导师(二)目的意义和国内研究概况(三)论文的理论依据、研究方法、研究内容(四)研究结论(五)预期的结果(六)进度安排。
可视化数据挖掘技术的研究与实现的开题报告一、选题背景和意义随着互联网和信息技术的不断发展,数据得到了广泛的应用,各个领域都在积极的探索其在自己领域的应用,其中数据挖掘技术是应用最为广泛的一种技术之一。
数据挖掘技术可以利用各种算法和模型从大量的数据中发现潜在的知识和信息,这些信息对于企业、政府等组织具有非常重要的价值。
然而,传统的数据挖掘技术往往只能提供数值和文字的信息,这样的信息不够直观和易于理解,应用范围受到限制。
为了解决这个问题,可视化数据挖掘技术应运而生。
可视化数据挖掘技术将数据挖掘得到的信息以图形和图像的形式展现出来,可以让人们更直观地了解数据挖掘得到的知识和信息,促进人们对数据的理解和分析,同时也可以帮助人们快速地发现数据中的规律和异常,提高数据分析的效率。
随着可视化技术的不断发展,可视化数据挖掘技术在各个领域中也得到了广泛的应用,比如金融、医疗、人力资源等领域。
本文旨在研究可视化数据挖掘技术的相关实现方法和应用案例,通过对已有的研究和实践的总结和分析,探讨可视化数据挖掘技术的优势和不足,为进一步推广应用可视化数据挖掘技术提供参考和借鉴。
二、研究目标和内容本研究的主要目标是探究可视化数据挖掘技术的相关理论和实现方法,并通过实例展示其在实践中的应用效果。
具体研究内容包括:1. 可视化数据挖掘技术的相关理论和算法2. 可视化数据挖掘技术在各个领域中的应用案例3. 可视化数据挖掘技术的优势和不足以及未来的发展趋势三、研究方法和技术路线本研究采用文献综述法和案例研究法进行研究。
具体技术路线如下:1. 收集与可视化数据挖掘技术相关的文献资料,深入研究和分析相关理论和算法,了解其实现原理和优缺点。
2. 选择多个领域中的可视化数据挖掘案例,深入分析并比较其应用效果,总结可视化数据挖掘技术在不同领域中的应用特点和优化方法。
3. 根据对可视化数据挖掘技术的深入了解,总结其优势和不足,并预测其未来的发展趋势。
大数据时代下的知识发现与数据挖掘技术研究1.引言随着互联网和移动设备的普及,海量的数据被积累和产生。
这些数据中蕴含着巨大的商业价值和潜在的知识。
然而,如何从这些数据中发现有用的知识,成为了当今社会面临的重要问题。
本文将探讨大数据时代下的知识发现与数据挖掘技术的研究。
2.知识发现的定义与特点知识发现是指从大数据中自动提取出有用的、有效的、隐含的知识的过程。
这些知识可以帮助人们更好地理解数据集中的规律、趋势和模式,以及对未来进行预测和决策。
知识发现的特点包括:(1)数据密度大:大数据时代涌现了各种类型的数据,包括结构化数据、半结构化数据和非结构化数据,这些数据量巨大,需要高效的技术来进行处理;(2)数据多样性强:大数据涵盖了多个领域和行业,包含了多种类型的数据,如图像、视频、文本等,需要多样的方法来进行分析和发现;(3)数据更新速度快:大数据时代下,数据的产生和更新速度非常快,需要实时的技术来对数据进行分析和挖掘。
3.数据挖掘技术在知识发现中的应用数据挖掘技术是一种通过自动或半自动的方式从大数据中提取知识的技术。
在知识发现中,数据挖掘技术起到了核心的作用。
数据挖掘技术主要包括以下几个方面:(1)聚类分析:聚类分析是将数据样本划分为若干个类别的过程。
通过聚类分析,可以将大数据集中具有相似特征的数据样本进行分组,从而发现数据集中的潜在规律和关联。
(2)分类与预测:分类与预测是通过建立分类模型或预测模型对数据进行分类或预测。
通过分类与预测,可以对未知数据进行准确的分类或预测,帮助人们在实际决策中更好地利用数据。
(3)关联规则挖掘:关联规则挖掘是从大数据集中发现事物之间的相互关联和依赖关系。
通过关联规则挖掘,可以发现数据集中隐藏的关联规则,帮助企业进行精准的营销和推荐。
(4)时间序列分析:时间序列分析是对按时间顺序排列的数据进行分析和预测。
通过时间序列分析,可以发现数据中存在的趋势、周期和季节性等规律,帮助人们做出合理的决策。
数据挖掘论文(最新范文6篇)数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
希望你在阅读了以下数据挖掘论文后对这个内容有更深入的了解。
数据挖掘论文一题目:基于数据挖掘的企业营销管理应用实证摘要:随着市场竞争的日益激烈,以及信息化、移动化和智能化时代的来临,越来越多的企业开始注重借助现代数据挖掘技术,提高企业的营销效果,降低营销成本,并提升企业在市场中的竞争力。
从数据挖掘与企业营销管理的关系入手,得出数据挖掘应用给现代企业营销管理带来的优势,然后构建精确营销平台,将其应用到电信业的营销管理中,以期为数据挖掘技术在现代企业营销中的具体应用提供参考。
关键词:数据挖掘;市场细分;竞争优势随着电子商务的不断发展,使得企业通过网络即可与来自全世界的企业进行商务活动。
而企业的大量交易,也给企业积累了很多业务数据,并以此使得企业的数据信息库越来越大。
而在这些数据中,清晰地记录了企业每年的运作及效益情况。
而要想让这些数据为企业未来的战略和决策服务,就需要充分加强对这些数据的规律、暴露出的问题的分析。
因此,数据挖掘技术进入了人们的视野,并成为人们关注的重点。
通过数据挖掘工具,可以对大量的数据进行分析,并提取其中有用的信息,为企业的决策提供参考,进而提升决策的正确率,达到提升竞争力的目的。
一、数据挖掘与企业营销管理的关系在生产销售中,生产者和消费者一般存在着单一的购买销售关系,而企业营销管理就是运用各种方法将上述单一关系转变为多重关系。
这样就在生产者和消费者之间加入营销者这一角色,三种角色之间也就必然会产生多种联系,这些关系往往牵涉众多,十分复杂。
要想处理好这些关系,就需要企业营销管理人员进行分析论证,找出可以联系的关键桥梁,也就是本文所介绍的"数据挖掘";.数据挖掘是企业营销管理中常用的一种方法,也越来越得到人们的认可。
信息科学中的时序数据挖掘研究时序数据是指按照时间顺序排列的数据集合。
在信息科学领域中,时序数据的挖掘研究已经成为了一个重要的课题。
随着物联网和互联网的快速发展,以及大数据时代的到来,时序数据的产生和应用越来越广泛。
对时序数据的挖掘研究,可以帮助我们发现数据中隐藏的规律和趋势,从而提供决策支持和业务优化。
1. 时序数据的特点时序数据具有一些独特的特点,使得其在挖掘研究中需要采用特殊的方法和技术。
首先,时序数据具有时间相关性,数据点之间存在着时序关系,不能简单地将其视为独立的样本。
其次,时序数据通常具有高维度和大规模的特点,例如传感器数据、金融数据等,这给挖掘和分析带来了一定的挑战。
此外,时序数据往往伴随着噪声和异常点,数据的质量和稳定性也需要考虑。
2. 时序数据挖掘方法为了从时序数据中挖掘有用的信息,研究人员开发了一系列时序数据挖掘方法。
其中,最常用的方法之一是时间序列分析。
时间序列分析是一种研究时间序列数据的统计方法,包括数据预处理、趋势分析、周期分析、季节性分析等。
通过时间序列分析,可以识别数据的长期趋势、周期变化以及季节性变动,对于预测和预警具有重要的意义。
另外,基于机器学习和深度学习的方法也被广泛应用于时序数据挖掘中。
例如,支持向量机、随机森林和神经网络等方法,可以对时序数据进行分类、聚类和回归。
这些方法能够挖掘出数据的特征和模式,为后续的决策和分析提供有力的支持。
此外,近年来,递归神经网络(RNN)和长短期记忆网络(LSTM)等深度学习模型的兴起,使得对于长时序数据的挖掘和预测取得了较好的效果。
3. 时序数据挖掘的应用时序数据挖掘在众多领域中都有广泛的应用。
以智能交通领域为例,交通数据往往包含大量的时序信息,可以通过时序数据挖掘方法对道路交通状况进行预测和调度。
此外,时序数据挖掘还可以应用于金融风险分析、环境监测、健康医疗等领域。
通过挖掘时序数据中的规律和异常,可以提前预警和采取措施,帮助企业和组织做出更加准确的决策,提高工作效率和生产力。
基于CiteSpace软件中医数据挖掘文献的可视化分析研究一、本文概述随着信息技术的飞速发展,数据挖掘技术在各个领域得到了广泛的应用。
在中医领域,数据挖掘技术的引入为中医药的研究和发展提供了新的视角和工具。
本文旨在利用CiteSpace软件对中医数据挖掘文献进行可视化分析,以期更深入地理解中医数据挖掘的现状、发展趋势以及研究热点。
本文首先介绍了中医数据挖掘的重要性和必要性,阐述了数据挖掘技术在中医领域的应用现状。
随后,详细介绍了CiteSpace软件的功能特点及其在文献分析中的应用优势。
在此基础上,本文利用CiteSpace软件对中医数据挖掘相关文献进行了可视化分析,包括文献的时间分布、关键词共现网络、主题演化等方面。
通过可视化分析,本文揭示了中医数据挖掘领域的研究热点和发展趋势,为中医药研究者提供了有价值的参考信息。
本文也指出了当前中医数据挖掘研究中存在的问题和不足,为进一步的研究提供了方向和建议。
本文的研究不仅有助于深入了解中医数据挖掘的研究现状和发展趋势,同时也为中医药的现代化、国际化提供了有力的支持。
未来,随着数据挖掘技术的不断进步和应用领域的不断拓展,相信中医数据挖掘研究将会取得更加丰硕的成果。
二、理论基础与文献综述随着信息技术的快速发展,数据挖掘技术在各个领域的应用日益广泛。
在中医领域,数据挖掘技术也被逐渐引入,以期通过对中医文献的深度挖掘和分析,发现传统医学知识中的新规律和新见解。
本文旨在利用CiteSpace软件对中医数据挖掘文献进行可视化分析,以期系统地梳理和归纳中医数据挖掘领域的研究现状和发展趋势。
理论基础方面,数据挖掘是一门通过特定算法对大量数据进行处理和分析,以发现数据中的潜在规律和有价值信息的科学。
在中医领域,数据挖掘技术可以应用于中药方剂配伍、疾病证候分析、名医经验传承等多个方面。
通过数据挖掘技术,可以对中医古籍、现代中医文献等海量数据进行深度挖掘,揭示传统医学知识中的隐藏规律和关联规则,为中医临床和科研提供新的思路和方法。
我国数据库的发展现状与趋势随着信息技术的迅猛发展,数据库成为了各行各业不可或缺的基础设施。
在这篇文章中,我们将深入探讨我国数据库的发展现状、技术特点、市场需求以及未来趋势。
自上世纪六十年代数据库概念诞生以来,我国数据库市场经历了从无到有、从有到优的快速发展。
进入新世纪,我国政府对数据库建设高度重视,先后推出一系列政策措施,为数据库产业提供了良好的发展环境。
近年来,我国数据库市场在技术自主创新、应用场景拓展等方面取得了显著成果。
在技术层面,我国数据库技术经历了从跟随到并驾齐驱的跨越。
在硬件方面,我国数据库厂商积极采用新型存储介质、芯片等,提高了数据库的性能和可靠性。
在软件方面,我国数据库产品在分布式架构、数据安全、数据分析等方面拥有了一定的技术优势。
我国在数据库网络技术方面也积极探索,以满足日益增长的网络需求。
随着各行各业数字化转型的加速,我国数据库市场需求持续增长。
政府、金融、电信等重要行业对数据库的需求依然强劲,而新兴的互联网、物联网等行业对数据库的需求呈现爆发式增长。
未来,我国数据库市场将呈现出以下趋势:一是国产数据库市场份额将持续扩大。
政策扶持和技术创新将推动我国数据库产业快速发展,国产数据库将在市场竞争中占据更有优势的地位。
二是数据库云化将成为主流趋势。
随着云计算技术的普及,越来越多的企业将选择云数据库来满足灵活、高效、安全的需求。
三是数据安全和隐私保护将成为重要需求。
随着数据泄露事件的增多,数据安全和隐私保护将成为企业选择数据库的重要考虑因素。
一是加强政策引导和支持力度。
政府应继续出台相关政策,鼓励国产数据库产业创新发展和应用推广,同时加大对数据安全和隐私保护的监管力度。
二是加强技术创新和合作。
我国数据库厂商应加大技术研发投入,提高产品自主创新能力,同时加强与国际先进企业的合作交流,推动我国数据库产业与国际接轨。
三是提供专业化服务。
数据库厂商应提供更加专业化、个性化的服务,满足不同行业、不同场景的数据库需求,同时加强对用户的技术支持和培训。
数据仓库及其数据挖掘的应用分析一、引言数据仓库及其数据挖掘技术在当今信息化社会中扮演着重要的角色。
数据仓库是一个用于集成、存储和管理大量结构化和非结构化数据的系统,而数据挖掘是通过分析大数据集合中的模式、关联和趋势,从中发现有价值的信息。
本文将对数据仓库及其数据挖掘的应用进行分析,探讨其在不同领域的重要性和效果。
二、数据仓库的应用1. 商业智能数据仓库可以帮助企业从大量的交易数据中提取有价值的商业智能。
通过数据仓库,企业可以进行销售分析、市场预测、客户细分等工作,从而指导企业的决策和战略规划。
例如,通过对销售数据的分析,企业可以了解产品的热销情况、客户的购买偏好,从而优化产品组合和推广策略。
2. 金融风险管理在金融领域,数据仓库的应用尤为重要。
通过对大量的金融数据进行分析,可以发现潜在的风险和异常情况。
例如,银行可以通过数据仓库对客户的交易记录进行监控,及时发现可能存在的欺诈行为;保险公司可以通过数据仓库对保单数据进行分析,预测保险赔付的风险。
3. 医疗健康管理数据仓库在医疗健康管理领域的应用也越来越广泛。
通过对大量的医疗数据进行分析,可以提高医疗服务的质量和效率。
例如,医院可以通过数据仓库对患者的病历数据进行分析,发现患者的病情变化趋势,及时调整治疗方案;保险公司可以通过数据仓库对保险人的健康数据进行分析,提供个性化的健康管理建议。
三、数据挖掘的应用1. 市场营销数据挖掘可以帮助企业进行市场营销策略的制定。
通过对大量的市场数据进行分析,可以了解消费者的购买偏好、行为习惯等信息,从而制定个性化的营销策略。
例如,通过数据挖掘,企业可以发现潜在的目标客户群体,针对性地进行广告投放和促销活动。
2. 社交网络分析随着社交网络的兴起,数据挖掘在社交网络分析中也扮演着重要的角色。
通过对社交网络中的用户行为数据进行分析,可以发现用户之间的关联和影响力。
例如,社交媒体平台可以通过数据挖掘对用户的兴趣和喜好进行分析,推荐个性化的内容和广告。
数据挖掘的现状及趋势研究近些年来,信息行业的发展带动了数据挖掘的快速兴起,面对数据挖掘的发展潮流趋势,数据挖掘领域已然成为各行业关注的焦点问题。
通过对数据挖掘研究现状和基本理论知识的介绍,着重分析了数据挖掘在市场、金融、电商等主要数据领域的一些应用现状,旨在突出数据挖掘的应用优势,为企业决策者监督和管理企业提供理论依据。
并针对发展过程中出现的数据挖掘方法不足、性能不足、缺少用户交互意识以及数据库与挖掘系统不匹配等一系列问题提出解决对策。
最后展望数据挖掘在未来的发展趋势,总结数据挖掘语言的标准化、数字化以及多种技术合作集成的发展趋势,有助于行业内竞争与发展,为未来的数据挖掘研究提供参考。
1.1 背景科学的发展,技术的更新,信息时代悄然走进我们的生活,各种网络新技术也随着而来,由各个行业搜集、储存的很多数据组成的大数据仓库,由于数据量巨大,之前的数据挖掘方法已经不适用发掘关键信息,导致很多数据无法显示出对行业发展有用的信息,所以迫于行业形势,决策者急需能够深入数据库内部快速分析、整理未被发现的价值信息的创新技术,以便指导企业的发展。
于是在这种情形下,全新的科学技术——数据挖掘(Data Mining.DM)技术被发现,并且发展成势不可挡。
数据挖掘是数据库知识发现(Knowledge-Discovery in Databases.KDD)里的一个步骤,两者有着紧密的关系,数据挖掘技术之所以受欢迎,是因为它能解决其它技术完不成的挖掘信息的问题,它能够在海量数据中获取藏匿其中的信息,这些信息的价值远远超过之前所挖掘出来的,在深入分析之后总结价值规律,提供给企业决策者,作为未来企业发展规划的理论根据。
伴随着二十多年的数据挖掘技术的发展,同时在研究人员的共同努力下,在理论研究方面,由于数据挖掘是综合性技术,必须与其他新技术相结合,所以DM 技术深入发掘理论基础,更新所需要的理论技术,完善自身不足;在实际应用上,基于自身的优势,使得应用广泛,前景大好,像一些行业如市场营销、保险金融等,数据仓库大,信息价值高。
现在,国外DM的最新研究在于更深入的KDD采用算法研究,在行业应用中技术运用相当成熟;相对来说国内在研究方面还处在缓慢发展阶段,技术运用也不太成熟,但总体上还是稳步上升的。
本文主要从数据挖掘理论出发,着重研究了其实际的应用现状,同时提出了在发展过程中存在的问题以及应对策略,并最后指出了几种数据挖掘未来可能的发展趋势。
1.2 研究目的与意义1.2.1 研究目的本文通过一系列的研究,其目的如下:(1)通过对比突出国内外在数据挖掘领域研究现状的差距。
(2)举出实例展示数据挖掘在各行业的广泛应用优势。
(3)正确对待数据挖掘发展中自身存在的问题,并客观分析了相关应对策略效果。
(4)明确发展方向,进一步完善数据挖掘未来的发展趋势和规划。
1.2.2 研究意义(1)分析各领域应用现状,探讨未来的发展趋势,为决策者在行业应用提供理论依据。
(2)针对数据挖掘的广泛应用实例,各行业应紧跟发展潮流,合理利用信息资源,有利于在行业中取得优势并占据领导地位。
(3)通过提出对相关问题的应对策略,减少发展过程中的错误,避免数据信息漏洞出现,完善数据挖掘技术。
(4)面对数据挖掘的发展潮流以及信息传播的趋势,通过讨论发展的方向,有利于决策者对行业进行统一规划。
1.3 研究现状1.3.1 国外研究现状当知识发现首次被提出于一次人工智能会议上之后,国际上便开始了对知识发现与数据挖掘的重视和研究,并在每年召开一次研讨会议,这些为数据挖掘的萌芽期做出了很大的贡献。
刘帅等(2015)认为到了九十年代,拓展了数据挖掘技术在学术领域和工程项目中的应用,各国科研工作者加大了对数据挖掘技术的重视程度,并不断改进创新,如今已取得显著成效[1]。
如此延续到20世纪后,各国研究人员对DM技术的学术研究已取得很多研究成果,实际应用上也产生很好的应用实例。
David Taniar(2008)认为数据研究与趋势挖掘技术和应用的重点是数据领域之间的集成仓储和数据挖掘,强调对现实世界问题的适用性[2]。
Stefan Slater(2017)认为在进行数据挖掘之前,首先必须对数据集进行清洗和准备原始状态[3]。
因此,国外在数据挖掘方面的研究仍然注重数据集、数据库之间的集成等等。
当前社会信息发展迅速,数据量巨大,造成了数据仓库的满负荷,从而积压了太多的无法利用的数据,但行业市场又急需各种数据挖掘软件来发掘价值信息,于是一些国际知名数据软件开发公司致力于研发数据挖掘软件工具,从未知到尝试,了解到熟悉,数据挖掘软件开发行业已然走向成功,技术也趋于成熟,足以应付现在的需求量,从而可以实现数据与软件的双向价值。
像Angoss软件公司开发的Knowledge Studio软件,程序灵活简单易于接受、反应速度极快;IBM Intelligent Miner软件能够完成自动化操作步骤,同时融合多种算法建立特定模型等等。
1.3.2 国内研究现状相对国外的研究成果,国内对于DM的研究仅仅处在开始阶段,各项研究起步太晚,技术方面也很不成熟,但研究人员坚持以国外先进的成果为榜样,紧跟他们步伐,并针对国内数据挖掘形势,结合实际情况,演变为属于自己的研究成果。
徐述(2011)认为时至今日,数据挖掘的对象已经远远不止步于大型数据库、数据仓库而是海量数据、大数据[4]。
闫燕(2014)表示目前市场上以出现文本挖掘设备的应用,虽其功能性有待加强,但也有效提升了企业的工作效率,文本挖掘设备的应用必将成为一种趋势[5]。
张莉(2014)表示目前应用比较广泛的数据挖掘技术包含神经系统法、树形分析法、自然选择法、估算法、结合法等[6]。
刘勇(2016)认为真正制约或者成为大数据发展和应用的三个瓶颈:数据收集的合法性、产业链各个环节企业的均衡、大数据有效解读[7]。
到现在为止,国内对于发展DM软件工具还处在尝试阶段,软件研发还停留在高校,由导师和学生组成的科研人员实在太过不成熟,其主要研究的都是关于DM的算法及理论知识,缺乏一定的科研产品,因此在社会上的认可度不高。
不过研究人员仍在学习阶段,相信未来会有很多成果出现。
任新社等(2016)指出在我国已有部分部门与企业开发出了先进的挖掘系统,如国家科技研究部门的最新成果BSNiner。
此外我国政府还加大对数据挖掘系统研发的投资力度,在全国多所高等院校内成立研究机构,从事数据挖掘系统的开发[8]。
1.4 研究内容与方法1.4.1 研究内容本文研究的主要内容有以下几个方面:(1)运用数据挖掘的相关理论知识对DM在各行业的应用现状进行分析,并总结总体现状和影响意义。
(2)分析数据挖掘在其发展过程中存在的问题,针对一系列相关问题提出应对方法策略。
(3)明确数据挖掘所处环境,讨论了数据挖掘未来的发展趋势,为决策者提供借鉴。
1.4.2 研究方法(1)文献资料法。
首先寻找所需文献,通过对文献的仔细阅读和理解,充分了解数据挖掘的发展史、相关概念和算法,以及当前数据挖掘发展的现状,为数据挖掘的研究提供理论依据。
(2)宏观与微观分析法相结合。
从宏观处着手,找到数据挖掘在国内外的总体现状和存在的问题,然后以我国数据挖掘技术发展为例,进一步分析发展现状和研究成果。
(3)理论分析法。
针对数据挖掘基本算法和研究成果,深入分析数据挖掘发展过程中出现的问题,并根据实际情况,提出一些应对策略。
(4)举例验证法。
举例说明数据挖掘在实际应用方面的现状,比较数据挖掘各行业的应用情况,验证DM在各领域的广泛应用。
2 数据挖掘的相关理论及发展历程作为一种分析数据的强大技术,数据挖掘是综合性技术,源于自身的属性,它融合了至今为止仍然先进的一些科学技术,像人工智能系统,机器学习知识。
所以DM技术的理论基础很是庞大,面对错综复杂的数据库系统,理论知识围绕数据查询、整理再分析的挖掘过程,从基础理论应用上升到深度发掘信息,再到为决策者服务,DM理论发挥了决定性作用,同时这些也都为未来发展提供了坚实的后盾。
在理论知识充足的前提下,国内外数据市场发展迅速、信息产业需求量巨大,从而数据挖掘的发展一帆风顺,在数据热潮中慢慢演变。
2.1 相关理论数据挖掘是近些年来信息数据库应用技术中比较热门的话题,其实看似新颖,实际上却不是新东西,西方国家早已经在二战前就把它运用到生产生活方面。
所以DM技术的理论知识非常充足,覆盖面也更加广泛。
2.1.1数据挖掘的概念数据挖掘(DM)在本质上是对资料的再分析整理,又可以说成对数据的再挖掘。
由于数据库系统的存在,使得数据挖掘与之联系紧密,因而在数据库知识发现(KDD)的基础上,提取数据并找到关键知识信息的过程尤为重要,这就是数据挖掘能够做的,因此它属于知识发现,是复杂过程中的一步。
陈建伟(2016)认为数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁[9]。
DM技术的基础学科就是计算机科学技术,并融入统计学和其他专业学科知识,运用专业算法和规则对数据进行二次挖掘。
卓广平(2015)认为数据挖掘是从大量的、不完全的、模糊的、有噪声的以及具有随性的数据中,对隐含的、具有潜在作用和有意义知识进行提取的过程[10]。
首先对于数据库中的复杂数据,运用初始数据检索功能进行筛选、获取,其次对数据统一转换处理,结合相关算法规则,进行模型化建立,最后获得能够帮助决策者的数据信息。
数据挖掘技术关键在于能够在初次提取的数据信息中找到隐藏在深处的数据规律,这些信息的价值远超过其它,是未来决策的重要依据,也是处理数据最高层次的应用,提高了数据的重复利用率,对数据行业做出了突出贡献。
2.1.2数据挖掘的特点及任务数据挖掘的特点:(1)处理的数据量非常大;(2)用户可以在任何时间和地点使用查询系统,以保证和满足用户的要求;(3)满足数据库的需求,分别对所有数据进行分析,覆盖全面,为以后应用提供依据;(4)面对数据库中样本的特点,从数据本身规律出发,其发掘的算法规则只适用于自身。
同样这些特点与DM挖掘的样本数据和所要达到的目标有紧密的关联。
数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等(1)分类:分类就是把数据样本中的数据按照某一概念进行排列组合,这个概念就代表这类的特征,因而分成很多类别,然后利用分类算法,建立分类模型,最终目标则是获得分类规则。
在应用上能够根据客户类型,描述特征,进行分析预测。
常用的一些分类算法包括决策树模式、神经网络算法等。
(2)聚类:聚类是把样本数据库根据其相似性分成许多类别,使得同类中具有更多相似性,反之,不同类中尽可能不同。
虽然在应用方面与分类相近,但两者区别在于聚类个数和细分程度。
(3)关联:关联是指两个以上(包含两个)变量在取值上存在联系,进而由这种联系能够发现两者之间的规律。