图像数据挖掘相关研究综述_概念和应用
- 格式:pdf
- 大小:482.70 KB
- 文档页数:6
计算机文献综述范文3000字引言计算机科学与技术是一个快速发展的领域,每年都有大量的研究论文涉及到各种各样的主题。
本文旨在对计算机科学与技术领域的一些重要研究进行综述,以探讨当前的研究趋势和未来的发展方向。
一、人工智能人工智能(Artificial Intelligence,AI)是计算机科学与技术领域的一个重要研究方向。
近年来,随着深度学习技术的快速发展,人工智能在图像识别、自然语言处理、智能推荐等方面取得了显著的进展。
例如,深度神经网络在图像识别领域的应用已经达到甚至超过了人类的水平。
此外,强化学习算法在游戏领域的应用也取得了重要的突破,比如AlphaGo在围棋比赛中战胜了世界冠军。
然而,人工智能研究还面临一些挑战。
首先,深度学习算法需要大量的标注数据进行训练,而获取大规模标注数据是一项非常耗时和困难的任务。
其次,深度学习算法的黑盒性质使得其解释性较差,难以理解其决策过程。
此外,人工智能在伦理和法律方面也引发了一系列的讨论和争议,比如自动驾驶汽车的安全性和责任归属等问题。
二、大数据与数据挖掘随着互联网的快速发展,大数据成为了一个热门的研究领域。
大数据的特点是数据量大、数据类型多样、数据生成速度快。
数据挖掘是从大数据中提取有价值信息的一项重要技术。
近年来,大数据与数据挖掘在各个领域的应用越来越广泛,比如金融、医疗、电子商务等。
在大数据与数据挖掘领域,一些重要的研究方向包括数据预处理、特征选择、聚类分析、分类算法等。
例如,数据预处理是在数据挖掘之前对原始数据进行清洗和转换的过程,以提高数据挖掘算法的性能。
特征选择是从众多特征中选择出最有代表性的特征,以减少数据维度和提高分类算法的性能。
三、云计算与边缘计算云计算和边缘计算是计算机科学与技术领域的另外两个热门研究方向。
云计算是一种基于互联网的计算模式,通过将计算和存储资源集中在云端,实现资源的共享和高效利用。
边缘计算是一种将计算和存储资源放置在离用户更近的地方,以减少网络延迟和提高用户体验的计算模式。
数据挖掘中聚类算法研究综述随着数据量的不断增加,数据挖掘成为了探索数据背后规律的一种重要方法。
而聚类算法作为数据挖掘中的一种基本技术,其在数据分析、模式识别、生物信息学、社交网络分析等领域都有着广泛的应用。
本文就对数据挖掘中的聚类算法进行了研究和总结,旨在对聚类算法的原理、特点、应用等方面进行探讨。
一、聚类算法的基本原理聚类算法是指将一组对象划分为若干个组或类,使得组内对象之间的相似度尽可能大,组间对象之间的相似度尽可能小,从而达到数据分类和分析的目的。
聚类算法的基本原理包括以下三个方面:1. 相似度度量:聚类算法的基础在于相似度度量,即将每个对象之间的相似度进行计算。
相似度度量可以采用欧几里得距离、曼哈顿距离、余弦相似度等多种方法。
2. 聚类分配:聚类分配是指将每个对象划分到合适的聚类中。
聚类分配可以通过最近邻法、k-means算法等实现。
3. 聚类更新:聚类更新是指对各个聚类进行调整,使得聚类内对象之间的相似度尽可能大,聚类间对象之间的相似度尽可能小。
聚类更新可以采用层次聚类法、DBSCAN算法等。
二、聚类算法的分类根据聚类算法的不同特点和应用场景,可以将聚类算法分为以下几种类型:1. 基于距离的聚类算法:包括最近邻法、k-means算法、k-medoid 算法等。
2. 基于密度的聚类算法:包括DBSCAN算法、OPTICS算法等。
3. 基于层次的聚类算法:包括凝聚层次聚类法、分裂层次聚类法等。
4. 基于模型的聚类算法:包括高斯混合模型聚类、EM算法等。
三、聚类算法的应用聚类算法在各种领域中都有着广泛的应用,包括数据分析、模式识别、社交网络分析、生物信息学等。
下面简单介绍一下聚类算法在这些领域中的应用:1. 数据分析:聚类算法可以对数据进行分类和分组,从而提取出数据中的规律和趋势,帮助人们更好地理解和利用数据。
2. 模式识别:聚类算法可以对图像、声音、文本等数据进行分类和分组,从而实现对数据的自动识别和分类。
数据挖掘中的本体应用研究综述摘要:数据挖掘是个交叉领域,与人工智能、信息科学、统计分析等领域有着紧密的联系。
而本体作为一个新兴的研究领域,与数据挖掘在应用的学科领域范围上有着较大的重合,比如在生物科学和化学领域,这两者的结合研究也非常活跃。
在数据挖掘中引入本体能够极大地解决数据挖掘面临的问题。
系统研究了在数据挖掘中本体的应用情况。
关键词:数据管理;数据挖掘;本体0引言摩尔定律见证了过去40多年来计算机技术的发展:芯片的处理速度越来越快,集成电路的体积越来越小、性价比越来越高。
以硬盘为例,机械硬盘存储单位兆的成本不断下降,而性能更好的固态硬盘正在进入民用市场。
计算机的硬件成本越来越低,而硬件的性能越来越好。
存储每兆信息所需要的成本越来越低。
这为大规模的数据存储打下了物质基础。
计算机技术的普及大大提升了数据采集、存储和操作能力。
数据库与DBMS顺应了大规模的数据管理而产生。
从20世纪60年代早期简单的数据收集到建立数据库,到20世纪70年代数据库管理系统的发展,到后来各种新型数据库,到数据仓库与数据挖掘的发展,数据库发展的内在驱动因素正是出于人们对快速增长的数据利用的需求。
身处于大量数据之中,却依然感到缺乏信息,数据挖掘的产生正是为了满足从数据中挖掘信息的需求。
数据挖掘这些年来被广泛应用和研究,比如在生物科学、化学、天文和商业领域等等,这些领域的共同特点都是面临大量数据处理。
数据挖掘也面临者许多问题:处于复杂的数据环境中,需要支持多种数据源类型;挖掘算法的选择容易受使用者个人知识背景影响;产生规则过多;规则难以理解,需要领域知识背景等等。
而本体的引入,从各个方面改进了数据挖掘面临的问题。
1理论背景1.1数据挖掘的定义和KDD过程数据挖掘是“从资料中提取出隐含的过去未知的有价值的潜在信息”(1992年提出),也被认为是“从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程”(2001年提出),后者是被广泛引用的数据挖掘定义。
数据挖掘综述数据挖掘是一种通过从大量数据中发现模式、关联和趋势来提取有用信息的过程。
它是一门综合性的学科,结合了统计学、机器学习、数据库技术和人工智能等领域的知识和方法。
数据挖掘在各个行业和领域都有广泛的应用,包括市场营销、金融、医疗保健、社交网络分析等。
数据挖掘的过程通常包括以下几个步骤:1. 问题定义:明确需要解决的问题或目标,例如预测销售额、发现异常行为或推荐系统等。
2. 数据收集:收集与问题相关的数据,可以是结构化数据(如数据库中的表格)或非结构化数据(如文本、图像或音频)。
3. 数据清洗:对数据进行清洗和预处理,包括处理缺失值、异常值和重复值,以及转换数据格式和统一数据标准等。
4. 特征选择:选择对问题有预测能力的特征,以减少计算复杂性和提高模型性能。
5. 模型选择:选择适合问题的数据挖掘模型,例如分类、聚类、关联规则挖掘、时序分析等。
6. 模型训练:使用标记好的训练数据对选定的模型进行训练,以学习模式和关联规则。
7. 模型评估:使用测试数据对训练好的模型进行评估,以确定模型的性能和准确性。
8. 模型优化:根据评估结果对模型进行优化和调整,以提高模型的预测能力和泛化能力。
9. 结果解释:对模型的结果进行解释和可视化,以便理解和应用。
数据挖掘的技术和算法有很多,常见的包括决策树、神经网络、支持向量机、朴素贝叶斯、聚类算法、关联规则挖掘等。
选择合适的算法取决于问题的性质和数据的特点。
数据挖掘的应用非常广泛。
在市场营销中,可以通过分析客户购买历史和行为模式来预测客户的购买意愿和需求,从而制定个性化的营销策略。
在金融领域,可以通过分析交易数据和市场趋势来预测股票价格的波动和风险,以辅助投资决策。
在医疗保健领域,可以通过分析病人的病历和基因数据来预测疾病的风险和治疗效果,从而实现个性化的医疗服务。
在社交网络分析中,可以通过分析用户的社交关系和行为模式来发现社交网络中的影响力节点和社群结构,以及预测用户的兴趣和行为。
国内外用户画像研究综述国内外用户画像研究综述用户画像是指通过深入挖掘用户数据和行为,对用户进行描述和分析的过程。
随着互联网的快速发展和大数据的普及应用,用户画像在各个领域得到了广泛的应用和研究。
本文将综述国内外用户画像的研究现状和发展趋势。
一、国内用户画像研究现状国内用户画像研究起步相对较晚,但近年来取得了快速的发展。
国内研究者主要通过对社交网络数据的挖掘和分析,以及对用户行为数据的统计,构建用户画像。
1. 数据来源国内用户画像主要通过互联网平台上的用户数据来构建。
这些数据包括用户在社交网络上的关注和粉丝关系、用户在电商平台上的搜索和购买行为、用户在移动应用中的使用行为等。
通过对这些数据的分析,可以揭示用户的兴趣和偏好。
2. 研究方法国内用户画像研究方法主要包括数据挖掘、机器学习和人工智能等。
在数据挖掘方面,常用的方法包括社交网络分析、文本挖掘和网络推荐等。
在机器学习方面,常用的方法包括聚类分析、分类算法和预测模型等。
在人工智能方面,常用的方法包括自然语言处理和图像识别等。
3. 应用领域国内用户画像主要应用于广告投放、精准营销和个性化推荐等方面。
通过对用户画像的分析,可以更准确地预测用户的需求,从而提供针对性的服务和产品。
目前,用户画像已经广泛应用于电商、互联网金融、社交媒体等行业。
二、国外用户画像研究现状国外用户画像研究比国内起步较早,并取得了较为丰富的研究成果。
国外研究者主要通过对用户数据和行为的分析,构建用户画像并进行相关应用。
1. 数据来源国外用户画像主要通过社交网络平台、搜索引擎和移动应用等获取用户数据。
这些数据包括用户在社交网络上的互动、用户在搜索引擎上的搜索行为、用户在移动应用中的浏览和使用数据等。
通过对这些数据的分析,可以揭示用户的兴趣和行为习惯。
2. 研究方法国外用户画像研究方法包括大数据分析、机器学习和深度学习等。
在大数据分析方面,国外研究者通过对海量数据的处理和分析,构建用户画像。
网络数据建模、分析与应用研究综述一、网络数据建模随着互联网的快速发展,网络数据已经成为了研究和应用的重要领域。
网络数据建模是指通过对网络结构和属性进行抽象描述,构建出能够反映网络特征的数据模型。
网络数据建模的目的是为了更好地理解网络的结构、功能和动态变化,为网络分析、管理和决策提供理论依据和技术支持。
图论建模:图论是研究图(Graph)结构及其性质的数学分支。
在网络数据建模中,图论建模主要关注如何用图的形式表示网络结构,以及如何利用图论方法对网络进行分析。
常用的图论建模方法有邻接矩阵法、邻接表法、边权法等。
社会网络建模:社会网络是一种特殊的网络结构,由具有关联关系的人或组织组成。
社会网络建模主要研究如何用图的形式表示社会网络结构,以及如何利用图论方法对社会网络进行分析。
常用的社会网络建模方法有无向图法、有向图法、贝叶斯网络法等。
复杂网络建模:复杂网络是由大量相互连接的节点和边组成的网络结构。
复杂网络建模主要研究如何用图的形式表示复杂网络结构,以及如何利用图论方法对复杂网络进行分析。
常用的复杂网络建模方法有随机游走模型、小世界模型、斑图模型等。
动态网络建模:动态网络是指网络结构和属性随时间发生变化的网络。
动态网络建模主要研究如何用图的形式表示动态网络结构,以及如何利用图论方法对动态网络进行分析。
常用的动态网络建模方法有马尔可夫链模型、随机过程模型等。
多模态网络建模:多模态网络是指具有多种不同类型的信息载体的网络。
多模态网络建模主要研究如何用图的形式表示多模态网络结构,以及如何利用图论方法对多模态网络进行分析。
常用的多模态网络建模方法有多模态图模型、多模态贝叶斯网络模型等。
网络数据建模是一个涉及多个领域的交叉学科,其研究内容和技术方法不断丰富和发展。
随着大数据时代的到来,网络数据建模将继续发挥重要作用,为网络分析、管理和决策提供更多有价值的理论和实践支持。
1. 网络数据的基本概念和特点随着互联网的普及和发展,网络数据已经成为了当今社会中不可或缺的一部分。
数据挖掘方法综述摘要:首先介绍了数据挖掘的概念,再从挖掘对象、挖掘方法和挖掘任务三个角度对数据挖掘进行划分。
最后分析了常用的三种数据挖掘方法的优缺点。
关键词:数据挖掘优点不足一、数据挖掘的概念数据挖掘是KKD中的重要技术,就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为:规则、概念、规律及模式等。
它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。
二、数据挖掘分类数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、数理统计、可视化、并行计算、机器学习、模式识别、统计学、遗传算法、专家系统、神经网络、模糊数学、人工智能等领域。
其中数理统计、人工智能和数据库是其三大支柱。
其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。
数据挖掘涉及的学科领域和方法很多,有多种分类法。
图1是根据挖掘对象的分类,图2是根据挖掘方法的分类,图3是根据挖掘任务的分类。
图1根据挖掘的对象分类图2 根据挖掘方法分类图3 根据挖掘任务分类三、数据挖掘技术和算法数据挖掘技术和算法很多,且各有其适用的领域,下面就常用的数据挖掘方法进行概述,并分析各自的适用范围和优缺点。
(一)决策树决策树,又称判定树,是一种类似二叉树或多叉树的树结构。
决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。
它对大量样本的属性进行分析和归纳。
根结点是所有样本中信息量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。
从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一个内部结点,使用新的测试条件或者达到一个叶结点,叶结点的类称号就被赋值给该检验记录。
研究方向文献综述一、研究背景与意义随着科学技术的不断发展,研究方向也在不断更新和拓展。
本文旨在对某一特定研究方向进行文献综述,梳理其发展历程、研究现状和未来发展方向,为相关领域的研究提供参考和借鉴。
该研究方向涉及的领域十分广泛,与现实生活密切相关,具有重要的理论和实践意义。
具体而言,该研究方向旨在解决某些现实问题,提高生产效率、降低成本、改善生活质量等方面,具有很高的应用价值。
二、国内外研究现状该研究方向在国内外都得到了广泛关注,取得了丰硕的成果。
以下分别从国外和国内两个方面进行综述。
(一)国外研究现状在国外,该研究方向起步较早,研究历史较长。
许多学者在理论和实践方面都进行了深入探讨,取得了一系列重要的研究成果。
早期的研究主要集中于基础理论方面,如数学模型、算法设计等。
随着研究的深入,该研究方向逐渐拓展到实际应用领域,如机器学习、人工智能等。
目前,该研究方向已经成为国内外研究的热点之一,每年都有大量的学术论文发表。
(二)国内研究现状在国内,该研究方向起步较晚,但发展迅速。
近年来,随着国家对科技创新的重视和投入的增加,该研究方向得到了越来越多的关注和支持。
国内学者在该领域进行了大量研究,取得了一些重要的成果。
目前,国内的研究主要集中在实际应用方面,如数据挖掘、智能控制等。
同时,国内的研究也在逐渐加强基础理论方面的研究,以期为实际应用提供更好的支撑。
三、研究方法与实验设计该研究方向涉及的研究方法多种多样,包括数学建模、统计分析、计算机模拟等。
其中,数学建模是该研究方向的基础工具之一,通过对实际问题的抽象和简化,建立数学模型进行分析和求解。
统计分析则主要用于数据挖掘和处理方面,通过对大量数据的分析处理,提取有用的信息和知识。
计算机模拟则主要用于实际系统或过程的模拟和优化,通过模拟实验来验证理论分析和实际应用的可行性和有效性。
实验设计是该研究方向的重要环节之一,需要根据研究目的和研究内容来确定实验方案和实验方法。
大数据文献综述范文docx(一)引言概述:本文旨在综述大数据领域的相关文献,通过对现有研究成果的整理和分析,归纳出目前大数据领域的研究热点和发展趋势,为进一步的研究提供参考和借鉴。
正文:一、大数据的定义与特征1. 大数据的概念及演变2. 大数据的四个基本特征:3V(Volume、Velocity、Variety)+ Value3. 大数据与传统数据的差异与联系4. 大数据对经济、社会、科学等领域的影响二、大数据的采集与存储1. 大数据采集的主要方法:传感器网络、物联网等2. 大数据存储的常用技术:分布式文件系统、NoSQL数据库等3. 大数据采集和存储过程中面临的挑战及解决方案4. 大数据隐私与安全保护的技术与方法三、大数据的分析与挖掘1. 大数据分析的基本流程与方法:数据清洗、数据集成、数据挖掘、模型建立、结果验证等2. 大数据分析常用的算法和技术:关联规则挖掘、聚类分析、分类与预测等3. 大数据分析的应用领域与案例研究4. 大数据分析在决策支持中的作用与价值四、大数据的可视化与交互1. 大数据可视化的基本原理及方法2. 大数据可视化工具的比较与选择3. 大数据可视化的应用案例与效果评估4. 大数据可视化的交互技术与方法五、大数据的发展趋势与挑战1. 大数据发展趋势:云计算、边缘计算、人工智能等技术的融合与应用2. 大数据面临的挑战:数据质量、隐私与安全、算法效率等问题3. 大数据发展的政策与法律环境4. 大数据发展的前景与应用展望总结:通过对大数据领域相关文献的综述,可以发现大数据在经济、社会和科学领域的重要作用和潜在价值。
同时,大数据采集、存储、分析与可视化面临许多挑战和难题,需要我们进一步研究和探索。
随着技术的不断发展和应用的深入推广,大数据必将在各个领域中发挥更大的作用,为社会进步和经济发展提供有力支持。
Research on Image Mining-Concepts and ApplicationDing Chong Fan Jun Luan TianAbstract:Image mining is an emergng field in data mining.Along with the wild use of large scale digital photo tech -nology,it becomes more and more important to devise powerful tools for analyzing tremendous image data and grasping the contents inside.But there is a large gap between traditional data mining and image mining in data formation and content,and the methods and algorithms are also different.In this paper,we focus on illustrating basic concepts and re -cent applications issues on image mining and the frameworks are reviewed,and then related technologies such as pat -tern recognition and image processing are discussed.At last,applications of such techniques as satellite photo,medical X-rays,and bio-photomicrography are introduced.Key words:data mining;pattern recognition;image processing作者简介:丁冲,1983年生,吉林长春人,南京大学商学院在读硕士,研究方向为电子商务、数据挖掘。
范钧,1983年生,河北保定人,西南财经大学在读硕士,研究方向为人力资源管理。
栾添,1983年生,吉林长春人,东北师范大学在读硕士,研究方向为动物学。
图像数据挖掘相关研究综述—概念和应用丁冲范钧栾添摘要:图像挖掘是数据挖掘领域中新兴的领域。
随着数字照相技术的发展和在多学科中的广泛应用,对大量图像数据的分析和研究越来越重要。
由于图像挖掘的对象、内容不同于传统数据,方法上也不同于传统技术。
本文旨在介绍图像挖掘的基本概念和体系以及国际上最新的研究成果。
本文回顾了图像挖掘的相关问题及建模框架,并与模式识别、图像处理等相关领域进行了比较,在此基础上,还介绍了近年来图像挖掘领域在卫星遥感、医学影像和生物显微照片研究的相关应用。
关键词:数据挖掘;模式识别;图像处理1引言图像获取和存贮技术的发展带来了大规模精细图像数据库的产生。
通过诸如卫星照片、医学照片和数字照相机等设备,获得了大量的图像数据。
图像挖掘由于它潜在的巨大价值而受到广泛关注,对于那些能够自动提取语义信息(知识)的图像挖掘系统的需求与日俱增。
然而时至今日,人们所掌握的技术还很难对这过于巨大的数据加以利用。
Hsu,Lee 和Zhang [1]的一篇综述性文章指出,这一领域中最基本的问题在于,需要对原始的象素图像和图像序列分析到何种精确程度,才能有效的获取复杂的空间目标以及它们之间的关系。
换句话说,图像挖掘(Image mining ,简称IM )研究的对象是隐含的知识,图像数据的间接关系,或者其他那些没有被明确地存贮于图像数据中的模式,因此需要对其进行有效的取舍。
2相关概念和问题2.1数据挖掘与图像挖掘由于图像数据库和传统的关系型数据库存在巨大差异,导致了很多现有的数据挖掘(Data Mining )技术无法应用在IM 领域。
第一,在关系数据库中,数据值在语义上是有意第12期(总第111期)2008年12月No.12(Series No.111)Dec2008统计教育Statistical Thinktank第12期义的,例如年龄值35,这是容易理解的。
然而在图像数据库中,如同灰度值为46这种信息,没有背景资料的支持就难以理解。
第二,图像中包含的空间信息对研究图像内容至关重要,但在关系数据库中却并非如此。
比如,为了识别出图像中的某一特别形状或模式,必须考虑位相近位置上的一系列象素点,而在关系数据库中,数据挖掘更关注的是某一条记录的特征,而不是它跟上一条记录或下一条记录之间的关系。
所以,为了在图像挖掘中使用数据挖掘的方法,挖掘器的首要工作是从图像中提取不依赖于位置属性的特征,之后再挖掘有用模式。
第三,传统的DM关联算法无法使用图像问题,所以针对挖掘图像中的有价值模式需要开发新的算法。
2.2图像挖掘和其他相关领域的区别图像挖掘技术关注于整合数据挖掘和图像处理技术帮助分析和理解图像丰富领域中的问题。
它是机器视觉(computer vision)、图像处理、图像检索(image retrieval)、数据挖掘、机器学习、数据库和人工智能领域的交叉学科。
由于上述很多领域本身也并不成熟,使得图像挖掘本身仅在发展和实验阶段。
图像挖掘不同于底层的机器视觉和图像处理技术,其目的是抽取大量图像集合中的模式(pattern),而机器视觉和图像处理技术则关注于图片的特定特征。
图像挖掘和基于内容的图像检索似乎有点重叠(两者都要处理大量图片),但IM的目标是结合相关文本数据等知识探索图像模式,而超越了检索的范畴。
把图像挖掘看成模式识别的分支也不合适。
诚然,两个领域有很多重合,如特征抽取等等,但基础的假设确不相同。
在模式识别中,目标是识别出一些特定的模式;而IM则是要在没有先验知识的情况下归纳出显著性的模式。
另外一个关键不同是两个领域检验的模式种类差异。
模式识别主要做分类模式(clas-sification patterns)。
IM的模式则更加多样化,可以是分类模式、描述性模式(description patterns)、关系模式、时间模式和空间模式……最后,模式识别只关注模式生成和模式分析,而这在IM中只是重要的一部分[1]。
2.3图像挖掘和视频挖掘[2]图像挖掘和视频挖掘都来源于一般的数据挖掘并且都包括知识提取和智能搜索的方法,两者都是多媒体挖掘的子领域。
在视频方面,我们并不直接考虑声音或文字数据与视频数据的复合问题,而在图像处理问题上往往要把图片与背景信息结合考虑。
图像和视频挖掘与其他多媒体挖掘(如文字、语言、音频)技术所用的手段有着本质的不同,更加复杂。
视频挖掘有时候被看作是动态化的图像挖掘,然而,视频中包含的其他数据-音频和文字,并不是图像挖掘所考虑的。
3图像挖掘的框架性描述图1说明了IM的过程。
首先要对图像数据库进行预处理以提高质量,之后进行各种变换和特征抽取以生成图像的重要特征。
生成特征后,可以由数据挖掘技术发现显著性模式。
这些模式再进一步转化为可以实际应用的最终知识。
Perner[3]将图像挖掘过程分为两种。
第一种是bottom-up,应用图像处理、分类和特征测量等一系列方法,最后达到分类的目的。
然而,这些数量方法经常是难以解释的(黑箱)。
第二种方法是基于专家给出的图片符号性描述[4]。
图像的关键属性由专家选出,并由专家确定是整张图片还是其中的某些部分。
专家可以在标记出来的区域里计算一些图像特征(目标轮廓、面积、直径、形状或者材质特征)。
把专家估计出的或实际计算出的图片特征值记入特征数据库中。
当专家评估的图片到达一定数量之后,就可以利用相应的挖掘工具建立模型了。
图片特征统计上的特征,这是最低层次的提取;从低层次的特征和它们的统计特征,如区域、斑点、带状物、边缘和线,这些都是次高的提取层次;从低层次的特征可以得到高层次或符号特征;最后通过专家的符号行描述,得到最高层的特征。
信息可以划分为4个层次:最底层的象素级别。
这一级别包括诸如图像象素和主要图像特征(颜色、材质及形状)的原始图像信息;目标层次,基于ImagedatabasepreprocessingTransformation&feature extractionMiningInterpretation andevaluationKnowledge图1图像挖掘过程丁冲等:图像数据挖掘相关研究综述—概念和应用92008年象素层次的特征处理目标物或目标区域信息。
结合该领域知识的聚类算法可能在这里得到有效的结果;语义层次,对目标物或区域在一定的背景下进行识别。
高层次的推理和知识发现技术在此用来生成高等级的语义概念并且探索兴趣模式;模式和知识层次。
整合了从图像数据中发现的相关文字资料和语义关系。
进一步的挖掘工作将针对于发现文字资料和图像模式之间的相关性。
这种相关性将对现实世界的相关领域非常有用。
4图像挖掘相关技术现有领域的技术可以帮助解决IM的问题,这些技术包括目标识别,图像索引和检索,图像分类和聚类,关联规则挖掘以及神经网络。
下面讨论这些技术的应用。
4.1目标识别(Object Recognition)通过先验知识概括的目标模型(object models)的使用,目标识别系统可以从图像中找到知识。
这是IM的主要任务之一。
自动机器学习和智能信息提取只能在那些目标可以被计算机明确辨别出来的情况下实现。
一个目标识别系统由4部分组成,包括模型数据库,特征探测器,hypothesizer和hypothesis verifier。
模型数据库包含所有系统已知的模型,这些模型概括了目标的重要特征。
探测器主要针对象素层面,hypothesizer标识出图像中出现目标的似然性(like-lihood)。
Verifier使用模型来验证假设并改进目标的似然性。
最后,系统选择具有最高似然性的目标作为正确目标。
4.2信息检索(Image retrieval)IM要求图像能够按照一定准则被检索。
这些准则可以被归纳为三个复杂性递增的类[5]:(1)包含颜色、材质、形状或者空间位置等特征,比如“检索那些右上角有红色长条形状的图片”;(2)包括能够检给定的种类或个体,人的逻辑特征,比如“检索内容包含桌子的图片”或,“检索Jimmy的图片”;(3)通过提炼的属性检索,包括目标或场景的高级因果关系,比如“检索足球比赛的图片”。
Kazman和Kominek[6]提出了图像检索的三种查询方式:关联属性查询,描述查询,图像内容查询。
通过关联属性查询实最简单的,通过输入的文本找到相关图像信息,找到的图片应比较符合查询所要求的属性。