图像检索技术综述
- 格式:pdf
- 大小:275.99 KB
- 文档页数:6
图像识别技术论文随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。
小编整理了图像识别技术论文,欢迎阅读!图像识别技术论文篇一图像识别技术研究综述摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。
图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。
基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。
随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。
图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。
图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。
图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。
但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。
图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。
这种处理大多数是依赖于软件实现的。
其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
自动图像标注技术综述摘要现代,有越来越多旳图片可以运用。
然而,一般顾客怎样找到一张需要旳图片仍然是一种非常具有挑战性旳任务。
在过去旳23年中,出现了大量关注图像检索领域旳研究者。
一般,在这个领域中旳研究者重要关注基于内容旳图像检索。
然而近来旳研究表明在基于内容旳图像检索和人类对于图像语义旳理解之间仍然存在非常大旳偏差。
因此,在这个领域旳研究逐渐转变成处理低层图像特性和高层语义特性之间旳鸿沟。
桥接语义鸿沟旳一般通过自动图像注释(AIA)措施,这种措施使用机器学习技术提取语义特性。
本文中,重要关注图像检索并且提供有关自动图像标注技术旳综述,分析了多种AIA措施旳特点,包括特性提取以及语义学习,并且详细描述了重要旳措施。
在结论中展示了多种AIA措施,并且提供了未来旳研究方向。
1 绪言得益于数字技术旳长足发展,现代社会发明并存储了大量旳视觉数据。
目前,视觉数据已经像文字数据同样常见,因此急需一种高效旳工具对数据进行检索。
在过去旳23年中,研究者对图像检索(IR)技术进行了大量旳研究。
一般来说,IR研究可以被分为三种重要措施。
第一种措施是老式旳基于文本旳标注。
在这种措施中,图像通过人类手工标注并且使用与老式文本检索相似旳方式进行检索[9,10,15,16]。
然而,在现实中,不也许对巨量旳图像数据进行手工标注。
并且,人工标注愈加主观和模糊。
第二种措施重要是基于内容旳图像检索(CBIR),这种措施通过低层旳内容特性例如:颜色、形状、纹理[11-13,41-47]对图像进行自动索引以及检索。
然而近来旳研究表明,在低层次旳内容特性和人类用于理解图像旳语义概念之间存在着巨大旳鸿沟。
此外,由于需要顾客提供检索使用旳图像,CBIR系统不适合一般顾客进行图像检索。
第三种图像检索旳措施是自动图像标注(AIA),这样可以通过文本检索[17-40,115,116]旳方式来进行图像检索。
AIA技术旳重要思想是从大量旳图像样本中自动获取语义概念模型,并且使用这个标注图像。
图片搜索调研报告图片搜索调研报告一、背景介绍随着互联网的飞速发展,图片搜索技术逐渐成熟并广泛应用于各个领域。
图片搜索主要通过图像特征的提取和匹配来实现,可以实现通过图片来搜索相关的信息和内容。
本次调研旨在了解当前图片搜索技术的应用情况及发展趋势,以期对相关领域的研究和应用提供参考。
二、调研方法本次调研主要采用了文献综述和互联网搜索的方式进行。
首先,通过查阅相关领域的文献和研究报告,了解了当前图片搜索技术的基本原理和方法;其次,通过互联网搜索和社交媒体等渠道,了解了图片搜索在各个领域的应用情况和发展趋势。
三、调研结果1. 图片搜索技术的基本原理和方法图片搜索技术主要通过从图片中提取特征,并将这些特征与数据库中的图片进行匹配,以实现搜索的功能。
目前常用的图片特征提取方法有颜色直方图、纹理特征、形状特征和深度学习等。
而匹配方法则有欧氏距离、余弦相似度、汉明码等。
2. 图片搜索的应用领域图片搜索技术不仅在传统的图像检索领域得到了广泛应用,还在多个领域拓展了新的应用。
其中,商业领域的电子商务平台通过图片搜索技术可以实现商品搜索、相似款式搜索等功能,提高用户的购物体验;在医学领域,通过图片搜索技术可以帮助医生进行疾病诊断和肿瘤检测等;在社交媒体领域,图片搜索技术可以用于图片版权保护和信息搜集;在公安犯罪侦查中,图片搜索技术可以帮助警方追踪嫌疑人。
3. 图片搜索技术的发展趋势随着深度学习的发展,基于卷积神经网络的图片搜索技术得到了快速发展。
通过深度学习算法,可以实现更精准和高效的图片搜索。
此外,利用大数据和云计算等技术,可以提高图片搜索的效率和准确性。
此外,结合虚拟现实技术,将图片搜索应用于虚拟现实领域,可以为用户提供更加沉浸式的体验。
四、调研总结通过本次调研,我们对目前图片搜索技术的应用情况和发展趋势有了更深入的了解。
图片搜索技术在商业、医学、社交媒体和公安等领域均有广泛的应用,且随着深度学习和虚拟现实技术的发展,图片搜索技术有望进一步提高准确性和效率。
计算机图像处理中的图像检索与图像分类算法计算机图像处理是计算机科学领域中的一个重要分支,主要涉及到对图像进行获取、处理、分析和理解等方面的工作。
在这个过程中,图像检索和图像分类算法是两个关键的研究方向。
本文将介绍计算机图像处理中的图像检索与图像分类算法的原理和应用。
一、图像检索算法图像检索算法旨在根据用户输入的查询信息,从一个大规模的图像数据库中找到与查询图像相似的图像。
图像检索算法主要分为两种类型:基于内容的图像检索和基于上下文的图像检索。
1. 基于内容的图像检索基于内容的图像检索算法是利用图像中的视觉特征进行相似性匹配。
常见的视觉特征包括颜色、纹理、形状等。
其中,颜色直方图是一种常用的描述颜色特征的方法。
通过计算图像的颜色直方图,并与数据库中的图像逐一比较,可以得到相似度最高的图像。
2. 基于上下文的图像检索基于上下文的图像检索算法是通过图像中的语义信息进行相似性匹配。
它利用图像的语义标签或者图像的文本描述进行检索。
例如,给定一张含有"夏天风景"的图像作为查询图像,算法将从数据库中检索出与夏天风景相关的图像。
二、图像分类算法图像分类算法是将图像归类到不同的类别中,常见的算法包括支持向量机(SVM)、卷积神经网络(CNN)等。
1. 支持向量机(SVM)支持向量机是一种常用的机器学习算法,可以用于图像分类。
它通过将图像映射到高维空间中,构造一个最优的超平面,从而实现不同类别图像的分离。
2. 卷积神经网络(CNN)卷积神经网络是一种深度学习算法,目前在图像分类领域取得了巨大的成功。
它通过多层卷积、池化和全连接等操作,在学习过程中自动学习图像的特征,并将图像分类到不同的类别中。
三、算法应用图像检索与图像分类算法在许多领域中都有广泛的应用。
1. 视频监控在视频监控领域,图像检索算法可以帮助快速检索并定位目标人物或物体。
通过将待检索图像与监控视频中的图像进行比对,可以准确地找到所需的信息。
图像搜索的基本原理和流程一、图像搜索概述1.定义(1)图像搜索的目的(2)应用场景①电子商务②社交媒体③安全监控2.图像搜索的类型(1)基于内容的图像搜索(CBIR)(2)文字标签搜索(3)反向图像搜索二、图像搜索的基本原理1.图像特征提取(1)颜色特征①颜色直方图②颜色矩(2)纹理特征①Gabor过滤器②灰度共生矩阵(3)形状特征①边缘检测②形状描述子2.特征表示(1)特征向量①向量维度②特征归一化(2)特征编码①量化方法②词袋模型三、图像搜索流程1.图像上传(1)用户界面①上传按钮②拖拽上传(2)图像格式支持①JPEG②PNG2.图像预处理(1)图像缩放①调整分辨率②统一尺寸(2)图像去噪①中值滤波②高斯滤波3.特征提取(1)应用特征提取算法①SIFT②SURF③ORB4.特征匹配(1)匹配算法①K近邻搜索(KNN)②FLANN(2)相似度计算①欧氏距离②余弦相似度5.搜索结果返回(1)排序结果①根据相似度排序②显示数量限制(2)结果展示①图像缩略图②详细信息链接四、图像搜索优化1.提高搜索效率(1)特征压缩①主成分分析(PCA)②量化编码(2)建立索引①KD树②LSH(局部敏感哈希)2.提升搜索准确性(1)结合深度学习①卷积神经网络(CNN)②特征迁移学习(2)用户反馈机制①搜索结果反馈②用户行为分析五、图像搜索的挑战1.图像多样性(1)视角变化(2)光照变化2.数据隐私问题(1)用户图像保护(2)法律合规性。
图片搜索原理
图片搜索是指通过上传图片或输入图片链接,来获取相关图片或相关信息的搜
索方式。
图片搜索原理主要涉及到图像识别、相似度匹配和搜索算法等方面的知识。
本文将从这几个方面来介绍图片搜索的原理。
首先,图像识别是图片搜索的基础。
图像识别是指计算机对图像进行分析和理解,从而识别出图像中的内容和特征。
在图片搜索中,图像识别技术可以帮助计算机理解用户上传的图片,并提取出其中的特征信息,以便后续的搜索和匹配。
图像识别技术的发展,使得图片搜索能够更准确地找到用户需要的相关图片。
其次,相似度匹配是图片搜索的核心。
相似度匹配是指计算机通过比较两幅图
像之间的相似度,来确定它们之间的关联程度。
在图片搜索中,相似度匹配技术可以帮助计算机找到与用户上传的图片相似度较高的其他图片,从而满足用户的搜索需求。
相似度匹配技术的优化,可以提高图片搜索的准确性和效率。
最后,搜索算法是保证图片搜索质量的重要因素。
搜索算法是指根据用户输入
的查询条件,从数据库中检索相关数据的计算机程序。
在图片搜索中,搜索算法可以根据用户上传的图片特征,快速地找到与之相匹配的其他图片。
优秀的搜索算法可以大大提高图片搜索的速度和准确性,为用户提供更好的搜索体验。
总的来说,图片搜索原理涉及到图像识别、相似度匹配和搜索算法等方面的知识。
通过不断地优化这些技术和算法,可以提高图片搜索的准确性和效率,为用户提供更好的搜索服务。
希望本文对图片搜索原理有所帮助,谢谢阅读。
图像识别中的图像分类技术综述近年来,随着人工智能技术的迅猛发展,图像识别领域得到了广泛关注。
图像分类是其中的一项重要任务,它能够将输入的图像自动地归类到预定的类别中,对于识别和理解大量图像数据具有重要意义。
本文将综述图像分类技术的现状和发展趋势。
1. 深度学习:图像分类的核心技术深度学习是当今图像分类领域的核心技术,其核心算法为卷积神经网络(Convolutional Neural Network, CNN)。
CNN通过多层的卷积和池化操作,能够从原始像素数据中学习到图像的高级特征。
深度学习在图像分类任务上取得了巨大的突破,成为目前最为主流的图像分类技术。
2. 特征提取方法:从浅层特征到深层特征在图像分类中,特征提取是一个关键步骤。
常见的特征提取方法包括传统的手工设计特征和基于深度学习的自动特征提取。
传统的手工设计特征注重图像的纹理、颜色和形状等低层次特征。
而基于深度学习的自动特征提取方法通过学习深层特征,能够更好地表达图像的高层语义信息。
3. 数据集:促进图像分类技术的发展随着图像分类任务的挑战性提高,数据集的规模和质量对于算法的发展起到了至关重要的作用。
ImageNet是一个常用的大规模图像数据集,拥有数百万张图像和数千个类别。
通过使用大规模数据集,能够帮助模型学习到更加丰富和准确的特征表示。
4. 迁移学习:解决数据不足的问题在实际应用中,往往由于某些类别样本的缺乏,难以针对每个类别训练充足的数据。
迁移学习则提供了一种解决方案,它通过将已经在其他任务上训练好的模型进行调整和微调,来提高在目标任务上的性能。
迁移学习在数据不足的情况下,能够有效地利用已有知识,提高图像分类的准确率。
5. 基于深度学习的目标检测:图像分类的进一步延伸除了图像分类技术本身,深度学习还推动了图像分类技术向目标检测等更加复杂任务的延伸。
目标检测不仅要求识别图像中的类别,还需要定位和框选出物体。
目前,基于深度学习的目标检测方法如Faster R-CNN和YOLO已经取得了令人瞩目的成果,为图像分类领域带来了更大的可能性。
图片搜索原理图片搜索是一种通过图像内容来检索相关信息的技术。
它可以帮助用户在海量的图片库中快速找到所需的图片,也可以用于识别图片中的物体、场景等内容。
图片搜索的原理涉及到图像特征提取、相似度匹配、深度学习等多个方面的知识。
本文将从这些方面对图片搜索的原理进行介绍。
首先,图像特征提取是图片搜索的关键步骤之一。
在图像搜索中,图像特征可以理解为图像的一种描述,它可以用来表示图像的颜色、纹理、形状等特征。
常用的图像特征提取算法包括SIFT(尺度不变特征变换)、SURF(加速稳健特征)、HOG(方向梯度直方图)等。
这些算法可以提取出图像中的关键点、边缘、纹理等特征,为后续的相似度匹配提供了基础。
其次,相似度匹配是图片搜索的核心技术之一。
在图像搜索中,相似度匹配的目标是找到与查询图片最相似的图片。
相似度匹配的方法有很多种,其中最常用的是基于特征的匹配方法,如基于颜色直方图的匹配、基于形状的匹配、基于深度学习的匹配等。
这些方法可以通过计算图像之间的相似度来找到最相似的图片,从而实现图片搜索的功能。
另外,深度学习在图片搜索中也发挥着重要作用。
深度学习是一种通过神经网络来学习图像特征的方法,它可以自动地学习到图像中的高级特征,如边缘、纹理、形状等。
在图片搜索中,深度学习可以帮助我们更准确地提取图像特征,并且可以通过大规模数据的学习来提高搜索的准确性和效率。
总的来说,图片搜索的原理涉及到图像特征提取、相似度匹配、深度学习等多个方面的知识。
通过这些技术的应用,我们可以实现在海量图片库中快速准确地搜索到所需的图片。
随着图像识别技术的不断发展,图片搜索的准确性和效率也会不断提高,为用户提供更好的搜索体验。
关于图像检索技术的专利数据的初步分析图像检索技术是指通过计算机对图像内容进行分析和处理,从大量的图像数据库中检索出与查询图像相似或相关的图像。
图像检索技术在许多领域具有广泛的应用,例如图像搜索引擎、智能监控系统、医学图像分析等。
通过对图像检索技术的专利数据进行初步分析,可以了解该技术在不同地区的专利申请数量、主要的申请人、技术发展趋势等方面的情况,并对未来的发展方向和市场前景进行预测与评估。
根据专利数据库中所涉及的国家和地区的信息,可以统计出各个地区的图像检索技术专利申请数量。
据统计,目前美国、中国、欧洲等地区是图像检索技术专利数量较多的地区。
美国的专利数量较多,这可能与美国的科研实力和技术水平较高有关。
而中国的专利数量也表明了该技术在中国的发展潜力与重视程度。
通过对图像检索技术专利申请人进行分析,可以了解到该领域的技术创新情况与主导力量。
据统计,目前涉及图像检索技术的专利申请人主要包括大型科技公司、高校、研究机构等。
这表明了该技术得到了工业界和学术界的广泛关注,且存在着不同的技术研发团队。
还可以通过对图像检索技术专利的分类进行分析,来了解该技术的主要研究方向和应用领域。
据统计,目前图像检索技术的应用涉及到图像相似度计算、图像特征提取、图像分类等多个方向。
图像相似度计算是该技术的核心内容之一,其应用范围广泛,如图像搜索引擎、推荐系统等。
还可以通过对图像检索技术专利的时间分布进行分析,来了解该技术的发展趋势与未来的发展方向。
据统计,图像检索技术的专利申请数量在近几年呈现逐渐增加的趋势,这表明该技术在科技创新和商业应用方面具有较高的潜力。
通过对图像检索技术的专利数据进行初步分析,可以了解该技术的发展现状、技术创新情况和应用领域。
这对于进一步的市场调研、技术评估和发展规划具有重要意义。
值得注意的是,专利申请数量的增加并不意味着与之相关的技术就一定得到了广泛的应用和商业化,还需要进一步的研发和实践验证。
高效图像匹配与检索算法研究摘要:图像匹配与检索是计算机视觉领域的重要研究方向之一,涉及到图像特征提取、相似性度量和匹配算法等多个方面。
本文将从这些方面综述和分析当前高效图像匹配与检索算法的研究进展,并探讨了未来的发展趋势。
一、介绍随着数字图像数据的爆炸式增长,如何准确快速地从海量图像库中检索到感兴趣的图像成为了一个挑战。
图像匹配与检索技术的发展为解决这个问题提供了有效的解决方案。
图像匹配与检索主要有基于内容的图像检索和基于特征的图像检索两种方法。
二、图像特征提取图像特征提取是图像匹配与检索的基础,它通过从图像中提取出能够表达图像内容的特征,来表示图像。
在过去的几十年里,研究人员提出了许多图像特征提取方法,包括颜色直方图、纹理特征、形状特征和局部特征等。
其中,局部特征在图像匹配与检索中的应用得到了广泛的关注。
三、相似性度量相似性度量是图像匹配与检索的关键问题,它用于度量不同图像之间的相似性或距离。
在图像匹配与检索中,常用的相似性度量方法包括欧氏距离、曼哈顿距离、余弦相似度和相关系数等。
为了提高图像匹配与检索的准确性和效率,研究人员提出了许多改进的相似性度量方法,如局部敏感哈希(LSH)和基于深度学习的相似性度量等。
四、匹配算法匹配算法是图像匹配与检索中的核心算法,它通过计算不同图像之间的相似性度量,来判断它们是否相似并进行匹配。
在图像匹配与检索中,常用的匹配算法包括暴力匹配、K最近邻算法、平移不变特征转换(SIFT)和加速快速库(Fast Library for Approximate Nearest Neighbors,FLANN)等。
这些算法通过不同的策略和技术来减小查询时间,提高匹配的效率。
五、高效图像匹配与检索算法研究进展随着计算机硬件的发展和图像处理技术的进步,高效图像匹配与检索算法取得了显著的进展。
近年来,基于深度学习的图像特征提取和匹配算法成为研究热点。
深度学习的卷积神经网络(CNN)具有较强的图像特征提取能力,可以有效地抽取图像的语义特征。
如何应用计算机视觉技术进行图像检索和相似度匹配随着计算机技术和人工智能的发展,计算机视觉技术变得越来越成熟和普及。
其中,图像检索和相似度匹配是计算机视觉技术中的重要应用之一。
本文将介绍如何应用计算机视觉技术进行图像检索和相似度匹配。
首先,让我们了解一下图像检索的概念。
图像检索是指通过计算机视觉技术,根据用户给定的查询图像,从大规模的图像数据库中检索出与之相似的图像。
图像检索技术的应用非常广泛,比如商品搜索、人脸识别、文物鉴定等。
要实现图像检索,首先需要建立一个图像数据库。
这个数据库可以是存储在计算机中的图像文件集合,也可以是通过网络抓取的图像数据。
然后,需要对这些图像进行特征提取。
常用的特征包括颜色、纹理、形状等。
特征提取的目的是将图像转化为计算机能够理解和处理的数据形式。
接着,对于待查询的图像,也进行相同的特征提取操作。
通过比较查询图像和数据库中图像的特征,即可得到相似度评分。
最后,根据相似度评分对图像进行排序,返回与查询图像最相似的图像结果。
在相似度匹配中,可以采用多种方法来计算相似度评分。
最简单的方法是计算特征之间的欧氏距离或余弦相似度。
此外,还可以使用更复杂的算法,如支持向量机(SVM)、卷积神经网络(CNN)等。
这些算法不仅考虑了特征之间的距离,还能够学习到更高层次的图像特征表示,提高了匹配的准确性。
为了提高图像检索的效果,还可以通过以下几种方法进行优化。
首先,可以采用多尺度的特征提取方法,即在不同尺度下提取图像特征。
这样可以使得算法更加不受图像尺寸变化的影响,提高匹配的鲁棒性。
其次,可以引入语义信息,将图像特征和图像语义关联起来。
例如,可以使用深度学习算法学习到的图像表示,同时利用文本信息来提升匹配的准确性。
此外,对于大规模数据库的图像检索,还可以采用快速搜索算法,如局部敏感哈希(LSH)等。
除了图像检索,计算机视觉技术还可以应用于图像相似度匹配。
图像相似度匹配是指根据两张图像的相似度评分,判断它们是否表示同一对象或相似的对象。
加密域图像检索技术综述梅园;叶登攀;刘昌瑞【摘要】公共云存储服务为企业或个人海量多媒体数据提供了廉价的存储空间和多种多样的访问方法.为了保护数据的安全,多媒体数据上传到云端之前的加密处理是一种最简单也最直接的手段.因此,在当前的各种应用服务下,如何有效地管理和检索密文数据成为一个具有挑战性的问题.针对该问题,文中首先给出了加密域图像检索的系统架构,总结分析了加密域图像检索算法的几种关键技术,包括加密技术、图像特征提取技术、安全索引技术等,然后分析、比较了几种具有代表性的加密域图像检索算法及其发展方向,最后对加密域图像检索技术进行了展望.【期刊名称】《华南理工大学学报(自然科学版)》【年(卷),期】2018(046)005【总页数】9页(P78-86)【关键词】密图检索;安全索引;加密技术;特征提取【作者】梅园;叶登攀;刘昌瑞【作者单位】武汉大学国家网络安全学院,湖北武汉430072;武汉大学国家网络安全学院,湖北武汉430072;武汉大学国家网络安全学院,湖北武汉430072【正文语种】中文【中图分类】TP309.2互联网以及与之相关的产业发展日新月异,云计算作为一种新的服务模式受到各方的关注,特别是在互联网产业界受到极大的推崇.可是当用户数据存储到云计算环境中时,人们就失去了对数据的直接控制,对于广大网民来说,首当其冲的就是隐私保护问题[1].图像拥有者为了保护自身的利益,需要对图像数据进行加密.如何有效地管理和检索数据中心存储的海量加密图像成为具挑战性的问题.最早研究图像安全检索技术的是Chor等[2],他们在1995年提出了私有信息检索的概念及相关算法.为不泄露用户隐私信息,该算法将数据库下载到本地进行检索.文献[3]中首次提出了基于逐词加密和精确匹配的加密域文本检索方案.早期的加密域图像检索方案研究就是采用类似的加密域文本检索方案,通过添加图像标识将加密域图像检索转化为加密域文本检索.真正意义上的加密域图像检索技术最早是由Lu等[4]提出的一种支持特征保护的图像检索方案.文中从系统架构、关键技术、发展方向等方面对加密域图像检索进行了综述,以期为加密域图像检索技术向更安全、更高效、更智能的方向发展提供指引.1 加密域图像检索系统架构早期的图像检索是一种通过人工标注进行的、基于文本的图像检索,随着数字图像的急剧增长,该检索方式已经不能满足人们的需求,因此,一种基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术被提出来.现有的基于内容的加密域图像检索算法系统均采用如图1所示的结构,一般整个系统由图像所有者、服务器和用户3个实体构成.图1 加密域图像检索系统结构Fig.1 System structure of image retrieval in encrypted domain图像所有者将原始图像加密后上传给服务器,有时为了提高检索效率,图像所有者还需要在加密之前提取图像特征向量,建立特征索引,并将索引加密后上传给服务器;另外,图像所有者还负责发放图像的解密密钥.服务器用于存储密图和安全索引,具体功能如下:(1)实现在加密图像数据库上的检索,如加密域下的特征提取、匹配;(2)安全索引的使用;(3)检索结果的排序等. 用户将查询图像以明文或密文(在需要对用户的隐私进行保护的情况下)的方式上传给服务器,也可能需要和图像所有者一样先提取图像的特征,将该特征加密后再上传至服务器.用户得到解密密钥后,对服务器传来的检索结果进行解密.2 密图检索中的几种关键技术2.1 安全策略及加密技术安全策略及加密技术是加密域图像检索技术的核心.在现有的密图检索技术下,图像上传到云服务器上之前常采用2种不同的处理方式:1)先提取图像特征再加密(First Extract Then enCrypt,FETC),相应的流程框图见图2;2)先加密再提取图像特征(First enCrypt Then Extract,FCTE),相应的流程框图见图3.图2 FETC方式的流程框图Fig.2 Flow chart of FETC scheme图3 FCTE方式的流程框图Fig.3 Flow chart of FCTE schemeFETC方式中,图像所有者在将图像加密之前,需要先对图像进行一些预处理并提取图像的内部特征进行特征描述,形成特征向量,以实现基于内容的图像检索.有时为了增强检索效率,还会使用哈希技术;为了保障安全,还要对特征向量或索引进行加密,再将密图和加密的索引或加密的特征向量上传给服务器.这种方式下,图像所有者端对图像处理过程较多,不仅需要运行加密算法,还要运行图像的特征提取算法,因此对所有者端的设备性能要求较高.FCTE方式中,图像所有者将图像加密后直接上传给服务器.这种方式下图像所有者端的运算比较简单,对设备性能要求不高.但这种方式要求服务器实现密域下的特征提取,无疑增加了服务器端的计算复杂度.表1给出了FETC和FCTE方式的对比结果.表1 FETC和FCTE方式的比较Table 1 Comparison of FETC and FCTEschemes处理方式特征提取完成者提取对象安全索引完成者对用户而言是否复杂对服务器而言是否复杂FETC用户明文(原图)用户是否FCTE服务器密文(密图)服务器否是目前大部分密图检索算法中的加密都采用FETC方式,但从服务功能来看,似乎FCTE方式更符合人们的传统习惯,这也应该是今后加密域图像处理技术的一个发展趋势.当然,不管是FETC还是FCTE方式,对于服务器而言得到的都是加密后的对象,其后续操作都必须在加密域下进行,而采用FETC方式无疑可为服务器减轻部分工作量.在基于内容的加密域图像检索算法中,为了满足安全性要求,加密对象不仅仅是图像,还包括加密检索索引、加密图像特征.常用的加密算法有同态加密、保序加密和传统加密.传统加密算法主要应用在FETC方式下,因为该方式索引是在明文状态下形成的,加密后再上传给服务器,服务器在加密的索引上完成检索,再将密图返回给查询者,查询者从图像所有者处得到解密密钥后才可解密密图.可见,图像的加密算法对服务器影响不大,因此对图像可采用传统的RSA(Rivest Shamir Adleman)或AES(Advanced Encryption Standard)等标准加密算法.如果要让服务器在密图上建立安全索引,则需要对图像做特殊的加密操作,例如:1)同态加密——一种加密后对密文的操作等同于明文下的操作结果的加密算法;2)保序加密——一种保留明文中的某些属性的加密算法.下面介绍几种图像及图像特征加密技术.(1)同态加密技术同态加密技术是实现密文域信号加密的重要技术,它允许用户直接对密文数据进行运算,并得到在原始数据下相同的操作结果,且不影响其保密性.文献[5]中给出了一种基于加法同态性的加密图像检索方法,但需要服务器将所有密图图像的加密视觉特征发送给用户,由用户自己解密后逐一计算查询视觉特征的距离,因此,该方法虽可行却大大增加了用户的计算复杂度和存储开销,实际应用价值低.2012年,Hsu等[6]提出了一种使用Paillier同态加密技术的密图检索算法,图像经同态加密后,交由服务器进行特征提取和表示,即采用前述的FCTE方式.Zhang等[7]则提出了一种云计算环境下的、基于同态加密的图像检索技术,采用的是前述的FETC方式,提取特征进行同态加密后,再上传给云服务器,由云服务器对加密特征进行相似性比较,管理原始图像数据库和加密图像数据库.同态加密的优势是在加密域运算时无需额外的通信,但它采用公钥加密方式,使用长密钥来保证安全性的同态加密,计算复杂度较高.另外,同态加密目前只能进行定点运算,否则会发生密文膨胀.(2)保序加密和非对称点积保持加密保序加密可使密文保持明文间的大小顺序,因此仅对密文排序就可以直接完成对明文的排序,从而提高安全索引的检索效率[8].在密域图像检索中,保序加密和非对称点积保持加密常用于保护用户的索引和查询,使得明文关系之间的一些信息在加密后得到保持.Lu等[9]在将倒排索引技术应用到加密域图像检索技术中时,就是采用保序加密算法对词频信息进行加密,从而避免了服务器的统计攻击.非对称点积保持加密由Wong等[10]提出,是用来处理安全近似搜索的加密方法.其非对称体现在:加密后,有效的距离运算只能在查询和被查询数据间进行,而查询与查询数据之间、被查询与被查询数据之间在加密后是无法进行运算的.该特点可以有效防止服务器分析用户存储数据和查询统计信息,从而提高系统的安全性.(3)置乱加密置乱加密是指根据一定的规则打乱原始明文数据的次序.图像经置乱加密后改变了像素点的位置信息,但保留了一些统计信息,例如颜色直方图.这种变换会泄露矩阵元素整体的统计特性,抵抗不了统计分析.Zhang等[11]提出了一种基于离散余弦变换(DCT)系数统计直方图的密图检索方案.在该方案下,存储到服务器的密文图像是通过置乱DCT系数来实现的,并利用加密前后DCT系数直方图的不变性计算出密文查询图像和密文数据库图像间对应DCT系数直方图的距离,然后依据距离值排序结果返回与查询图像相似的密文图像集.类似的还有基于AC(Alternating Component)系数统计直方图的密图检索方案[12].Huang[13]提出了一种基于Henon映射的加密遥感图像的安全检索方案,通过可逆二维非线性Henon映射对图像进行空间范围的置乱,然后通过随机矩阵在一定范围内对遥感图像进行频域加密.(4)流密码异或加密流密码异或加密是一种针对二进制比特序列的加密算法,具有简单、加密速度快、安全性好等特点.采用该方法加密后的图像类似于随机噪声,且密文图像的像素值统计直方图是均匀分布的,因此可以抵抗直方图统计分析,安全性远优于置乱加密.在加密域图像检索中被广泛应用.Lu等提出的3种图像特征保护技术均采用流密码异或加密方案[4].Cheng等[14]提出了一种基于马尔科夫过程和多分类支持向量机的密文图像检索方案.在图像加密阶段,为了保护图像内容隐私,内容所有者主要对DCT系数熵编码后位序列中的变长整数编码进行流密码异或加密,以获得密文图像.综上可知,为了保护数据的隐私性,图像在上传到远程服务器之前需要进行加密处理.可以将图像作为普通数据采用常规的AES或RSA等加密标准进行加密,也可以使用针对图像的一些特殊的加密方法,例如选择加密和格式兼容加密.对服务器而言,采用现有加密方法的图像加密技术,其图像解密的计算复杂度较高,因而可以保护数据库中的内容.值得一提的是,加密在保证数据内容安全的同时使得搜索索引的建立变得较为困难.2.2 图像特征提取技术2.2.1 图像特征分类图像特征一般包括全局图像特征和局部图像特征.在早期图像检索技术中,往往采用颜色、纹理、形状、空间关系等全局图像特征.其后有学者提出了采用图像分割技术的基于区域的图像特征提取方法.近年来,一些具有局部不变特性的特征描述符相继被提出,如尺度不变特征转换(SIFT)、SURF(Speeded Up Robust Features)、基于主成分分析的SIFT(PCA-SIFT)等,并在图像检索中得到了广泛的应用,迅速成为研究的热点.然而,局部特征点的数量因图像的内容而异,当图像库的规模很大时,采取逐一遍历匹配检索是不切实际的,更何况并不是所有的特征点对检索性能都能产生积极的贡献.因此,如何选择和利用这些特征点去更合理地表征图像成为图像检索中具挑战性的课题.图像感知哈希又称图像鲁棒哈希或图像指纹.图像感知哈希技术将从图像中提取的视觉特征(可以是全局特征也可以是局部特征)进行量化编码,得到一串二进制字符串.不同于数学中的哈希技术,图像感知哈希中相似的图像具有相似的感知哈希值,因此,为了提高检索效率,在加密域图像检索技术中往往将从图像中提取的特征进一步哈希化.研究人员对如何提高图像感知哈希的鲁棒性、可辨性和安全性以及哈希的性能评价做了大量研究[15- 18].2.2.2 图像特征提取在密图检索中的应用(1)全局图像特征在密图检索中的应用全局图像特征可以从整体上表示一幅图像的内容构成,全局特征提取完毕后,毎个图像都可对应一个全局特征向量.文献[4]中就采用了颜色直方图作为图像的特征向量,也有的文献中先将图像进行分割后,再提取每块的颜色直方图作为特征向量.一些文献中提取的全局特征较为复杂,例如在文献[14]中,服务提供者从密文查询图像中可提取出768维图像特征,该特征是利用马尔科夫过程对块内、块间和颜色分量间的相关性进行建模,并通过马尔科夫过程状态转移概率矩阵来提取的.为了进一步降低特征的维数,可利用多分类支持向量机技术把768维特征变换为一个低维的图像特征向量,据此计算出密文查询图像和图像库图像间的相似性.文献[19- 20]中实现了基于小波变换的加密域图像特征提取,文献[21]中提出了一种基于DCT系数统计直方图的密图检索方案.(2)局部图像特征在密图检索中的应用对局部图像特征,常采用SIFT算法.SIFT算子对亮度变化、尺度缩放、旋转、噪声和仿射变换有很好的鲁棒性,特征描述子信息丰富,独立性好,算法稳定,是当前公认的一种图像特征提取技术.SURF和PCA-SIFT是SIFT的性能补充.SIFT在尺度和旋转变换的情况下效果最好,SURF在亮度变化的情况下匹配效果最好,在模糊方面优于SIFT,而尺度和旋转的变化不及SIFT,旋转不变上比SIFT差很多;另外,SURF的速度是SIFT的3倍.2012年,Hsu等[6]提出了一种基于SIFT的加密域图像特征提取技术,将SIFT整个处理过程转移到加密域下进行.但因其采用可同态加密技术,计算复杂度很高,所以并不适合云环境下的加密域图像检索.有鉴于此,一些学者随后提出了改进方案,例如Qin等[22]提出的一种高效的安全SIFT方案.该方案将SIFT算法拆分成若干个计算过程分配给不同的云服务器执行;基于关键点定位技术,同时生成一些虚拟关键点和实际关键点进行混合;在系统的不同部分分别采用部分加密、保序加密、随机置换和虚拟点干扰等技术实现安全的SIFT.但分析发现,攻击者还是有一定的概率来获得真实的关键点.Wang等[23]提出了一种高效的大规模加密图像隐私保护服务外包协议,通过随机分割原始图像数据来保护SIFT的关键特征,将特征提取处理过程分配给独立的云服务器.文献[24]中则实现了加密图像中的SURF特征提取.全局图像特征的优点是提取特征、计算相似度时具有很快的速度.然而,作为精度和计算复杂度之间的一个平衡,基于全局特征的图像检索往往精度不是很高.基于局部特征的图像检索往往会带来更好的鲁棒性及更高的检索精度.因此,文献[25]中在图像特征提取时,同时采用了全局特征和局部特征,将其进行降维后再作为图像检索特征,取得了较好的效果.2.3 安全索引技术索引技术是一种提高检索效率的常用技术,是一种对检索对象进行抽象表示的技术.安全索引即构建一个存储在服务器上的加密的、但仍可实现搜索功能的索引,也称为可搜索加密(SSE)索引.图4是Lu等[9]提出的基于安全索引的密域图像检索系统模型.在安全的检索环境中,搜索索引由用户端建立并且通过密钥进行加密后再上传到服务器端.基于图像的可搜索加密技术中,索引的生成有两种方式:一种是由图像直接生成,另一种是由能表征图像的特征向量生成.(1)基于视觉单词的安全索引视觉单词是一种表示图像的有效方法,还可以实现图像的快速、可扩展搜索.基于视觉单词的安全索引的加密域图像检索技术综合利用了密码学、图像处理和信息检索等技术,从而确保了加密的搜索索引可以实现搜索性能.Lu等[9]提出了一种基于视觉单词表示的安全反向索引方案,方案中用一个随机置乱函数对索引中的关键字ID进行置乱加密,用保序加密避免了基于“词频”的统计攻击,同时保留了信息之间的差异性以确保在加密域进行相似图像的比较.类似于文献[9],文献[1]中通过比较加密的余弦距离来实现安全索引,加密方法采用了安全欧式距离比较方法.文献[25]中也采用了类似方法,其不同之处在于对反向索引进行双重加密:先利用随机二进制编码将反向索引转换成一个二进制字符串,再利用基于密钥的高斯随机矩阵将一个高维的二进制字符串映射到一个低维的二进制字符串.基于视觉单词的安全索引方案适合于大规模的密图检索.图4 安全索引下的密图检索系统模型[9]Fig.4 System model of encrypted image retrieval in safety index[9](2)基于局部敏感哈希的安全索引局部敏感哈希(LSH)是高维空间下近似近邻搜索算法中的最核心的技术.LSH方法提高了空间使用率,其搜索时间与维度线性相关,与空间规模次指数相关,大大缩短了搜索时间,适用于解决不需要精确解、只需要得到近似解的问题.Kuzu等[26]最先提出了一种基于LSH的安全索引构造方法,并采用可适的语义安全定义,证明了这种可搜索的对称加密方案的安全性.为了进一步加强系统安全性,还将LSH安全索引和加密的数据集分别存放到不同的服务器上.Zhu等[27]在LSH技术基础上提出了一种利用基于p稳态分布的局部感知哈希构建安全索引的方法(p-stable LSH).p-stable LSH算法中,不需要将原始空间嵌入到Hamming空间中,可以直接在欧几里得空间下进行局部敏感哈希运算.p-stable LSH应用在d维p-norm 下的欧几里得空间中,0<p<=2.p-stable LSH是LSH的进化版本,要解决的问题相同,但使用的方法和应用环境不同.基于视觉单词的图像检索方案提取的往往是能更好地描述图像详细信息的局部特征,特征维数较高.在图像检索领域可获得较高的检索精度,但内存开销比较大.因此,对于云技术下的大规模图像库的检索,会产生维数灾难、存储开销大、检索速度慢等严重问题.图像哈希技术不仅可以降维,且二进制表示方式可以大大减少存储空间.因此,基于图像哈希的图像检索方案由于二进制表示和汉明距离匹配,存储开销更低且检索速度更快,而且图像特征采用的是全局特征,更适合于一般性图像的近似最近邻检索,但是精度相对较低.解决这一问题的有效方法就是选择一组好的哈希函数.目前,众多科研工作者围绕这个问题做了不懈努力,得到了不少科研成果.2.4 相似性比较与性能评价在密图检索算法中,设计者尽量保证特征之间的某种距离值在加密前后不变,因此,其相似性度量方法和明文域下的相同.目前图像检索中常用的相似性度量方法有:用于度量图像特征向量间距离的闵可夫斯基距离,用于对二进制化的图像特征向量进行对应位置的不同字符个数进行度量的汉明距离,用于对图像的像素直方图或颜色直方图进行相似性度量的直方图匹配法或直方图相交发,用于度量两幅图像的特征向量集合间差异性的杰卡德距离,用向量空间中两个向量夹角的余弦值来衡量两个个体间差异大小的余弦距离等.这些都是加密域图像检索算法中常用的相似性度量方法,究竟选用哪种还需要根据算法所采用的特征向量及加密技术来综合评估. 在加密域图像检索算法中,可以采用不同的图像特征、加密技术、索引构造方案、相似性度量方法、安全协议,那么,究竟哪种最好呢?这往往是通过性能评价标准来评判.以下简要介绍一些常见的、直观且通用的图像检索系统性能评价标准. (1)召回率和准确率召回率(P)和准确率(R)是两个通用的检索性能评价标准.一般情况下,召回率和准确率是相互制衡的,在判断图像检索性能时需要综合考虑.为此,实验中主要采用P-R曲线来表征检索性能,且一般采用多次查询的平均值.当然,好的检索方法会使得两个指标都很高.(2)F分数F分数融合了查准率和查全率,是查准率和查全率的加权平均,通过F分数一个变量就可以体现系统的性能,其定义如下:为了适应更多应用领域,允许查准率和查全率权重不同,以下给出F分数的一般式:式中,a表示查准率与查全率间的权重比.(3)平均精度均值平均精度均值在考虑查准率和查全率的同时,也考虑了检索中所返回的相关图像在所返回图像中的排序序号.当然,一个好的性能评价标准不仅要有理论支撑,而且要兼顾实际应用问题,只有这样才能推动领域相关技术朝正确的方向发展.3 加密域图像检索算法的发展以上对加密域图像检索技术中的几种关键技术分别进行了讨论,本节将综合以上技术介绍几种具有典型代表性的加密域图像检索算法(详细描述见相应文献).1)基于特征保护的密图检索算法[4] 该算法于2009年由Lu等[4]提出.Lu等着重研究和比较了3种图像特征保护技术——随机位平面、随机映射、随机一元编码.这3种特征保护算法都是采用HSV颜色空间中的颜色直方图作为特征向量.加密过程中的随机置乱、XOR序列、高斯随机矩阵都是基于用户的秘钥产生.2)基于BOW模型的密图检索算法[9] 同样是2009年,Lu等在文献[9]中首次将明文检索中的BOW技术应用到加密域图像检索技术中,利用保序加密和Min-hash 函数设计了两种安全索引,从而提高加密域图像检索效率.3)基于同态加密的密图检索算法[6] 2012年,Hsu等[6]提出了一种采用Paillier 同态加密技术的SIFT图像特征提取算法,并提出了PPSIFT(Privacy-Preserving SIFT)概念,将SIFT的整个处理过程转移到加密域下进行,并称可应用于基于内容的加密图像检索中.4)基于局部感知哈希的密图检索算法[27] 局部感知哈希是一种用于海量高维数据的近似最近邻快速查找技术,于2014年由Zhu等[27]提出.以上4种典型的加密域图像检索算法从一定程度上体现了该研究领域的发展历程以及相关关键技术在该领域的应用,其他加密域图像检索算法基本上都是在这4种代表性算法基础上进行功能上的完善或性能上的提升.表2对这4种典型的加密域图像检索算法进行了比较.纵观加密域图像检索算法,可以发现此消彼涨的两个关键因素:安全性能和检索效率.往往算法的安全性能越高其检索效率和检索精度就会越低;安全性能越低则检索效率和检索精度越高.。
Baidu图像搜索处理技术介绍Baidu作为中国最大的搜索引擎之一,一直致力于提供优质高效的搜索服务。
随着互联网的快速发展,图像搜索也逐渐成为用户日常生活中不可或缺的一部分。
Baidu图像搜索凭借其强大的技术和先进的处理方法,成为众多用户首选的图像搜索引擎。
本文将对Baidu图像搜索的处理技术进行详细介绍。
一、图像特征提取技术在图像搜索过程中,图像特征提取是非常重要的一步。
Baidu图像搜索利用先进的计算机视觉技术和机器学习算法,对图像进行高效准确的特征提取。
其采用深度学习模型,将图像转化为高维特征向量,从而更好地描述图像内容。
通过提取图像特征,Baidu图像搜索能够准确地找到相似或相关的图片,从而满足用户的搜索需求。
二、图像检索技术图像检索是Baidu图像搜索的核心技术之一。
Baidu图像搜索通过构建强大的图像数据库和索引算法,能够快速地在海量图库中查找到用户所需的图片。
其采用最先进的相似度匹配算法,对图像进行相似性比较,从而实现准确的图像检索。
不仅如此,Baidu图像搜索还支持多种检索方式,包括基于关键词的检索、基于图片的检索以及基于视觉内容的检索,满足用户多样化的搜索需求。
三、图像识别技术除了图像检索,Baidu图像搜索还具备强大的图像识别能力。
通过深度学习和神经网络技术,Baidu图像搜索能够准确地识别图像中的物体、人物、场景等内容。
不仅如此,Baidu图像搜索还可以识别图片中的文字信息,提供准确的OCR(光学字符识别)功能。
这使得用户能够通过拍照或上传图片的方式,快速获取所需的信息,便捷高效。
四、人脸识别技术除了图像识别,Baidu图像搜索还拥有出色的人脸识别技术。
通过深度学习和人脸识别算法,Baidu图像搜索能够实现准确的人脸检测和人脸识别。
无论是在人脸搜索、人脸比对还是人脸识别等应用场景下,Baidu图像搜索都能提供精确可靠的人脸识别结果,满足用户的个性化需求。
五、技术创新与发展作为搜索引擎的领军企业,Baidu一直积极推动图像搜索技术的创新与发展。
收稿日期:2002208210
基金项目:ISN国家重点实验室资助;北京大学视觉和听觉信息处理国家实验室资助作者简介:石 军(19752),男,西安电子科技大学博士研究生.
图像检索技术综述石 军,常义林(西安电子科技大学综合业务网国家重点实验室,陕西西安 710071)
摘要:图像检索是很多研究中的关键技术,图像检索是一种近似检索,与检索文本相比,检索图像要困难得多.根据不同的图像索引对现有的各种图像检索技术进行了分析和比较,包括基于注释的图像检索、基于特征的图像检索以及基于知识的图像检索,提出了图像检索技术的发展趋势和研究方向.
关键词:图像检索;图像索引;注释;特征;知识中图分类号:TP311113 文献标识码:A 文章编号:100122400(2003)0420486206
OverviewofimageretrievalSHIJun,CHANGYi2lin(NationalKeyLab.ofIntegratedServiceNetworks,XidianUniv.,Xi′an 710071,China)
Abstract: Implementationofimageretrievalisbasedonanunderlyingindex.Conventionaltechniquesforretrievingtextualandnumericaldatabasedonsimplecomparisonsarenolongeradequateforimages,sincethedigitizedrepresentationofanimagedoesnotconveyitssemanticcontent.Thispaperpresentsthecurrentstateoftheartinimageretrieval.Wefirstexamtheindexingtechniquesforvisualcontentandinformationcontentforimageretrieval.Next,wereviewrecentstudiesofimageretrievalfromthepointofviewofimageindexes.Thecurrentchallengesandfeaturetrendsforimageretrievalarealsogiven.KeyWords: imageretrieval;imageindex;annotation;feature;knowledge
图像检索就是根据对图像内容的描述,在目标图像集合中找到具有指定特征或包含指定内容的图像[1].
图像的内容可以分为两类:视觉内容和信息内容.视觉内容对应图像的物理表示,如颜色、形状、纹理等.信息内容对应图像的语义,如主题、人物、场景等.为了检索图像,首先要描述图像的内容,对图像的内容进行形式化表示,即建立图像索引.建立图像索引要用到图像处理、计算机视觉、人工智能、数据库等技术.由于图像内容的复杂性和人类的认知主观性,建立高效、通用的图像索引是一项很困难的工作.目前,视觉内容的索引一般可以通过特征提取得到,语义信息的索引则往往要通过人机交互的方式才能得到.
1 图像索引索引是一种元数据,也就是用于说明数据的数据.索引是构造数据解释机制,实现数据统一理解的关键.建立图像索引的过程就是对图像内容进行形式化描述的过程.需要解决以下几个问题:首先,图像数据是非结构化的,为了建立颜色、形状、纹理等视觉内容的索引,需要构造相应的数据模型.随着图像处理和计算机视觉技术的发展,这个问题已经基本得到了解决.针对图像中的各种视觉内容,已经建立了很多清晰实用的数据模型,
如基于颜色的直方图、色矩、色集;基于形状的傅里叶描述符、代数不变矩;基于纹理的共生矩阵、小波变换等.
其次,图像的内容往往受到主观因素的影响,与人的经验、知识、心理都有关系,因此很难准确全面地描述图像的内容.目前的各个图像检索系统中缺乏统一的描述方案,限制了数据的共享和交换,在互联网环境下,这个问
2003年8月第30卷 第4期 西安电子科技大学学报(自然科学版)JOURNAL OF XIDIAN UNIVERSITY Aug.2003Vol.30 No.4题更加突出.为了解决这个问题,MPEG专家组正在制定一个多媒体内容描述方案———MPEG27标准.MPEG27将对多媒体的内容进行标准化的描述,并将该描述与所描述的内容相联系,以实现快速有效的检索.再则,尽管图像中包含了丰富的信息内容,但在物理层次上,图像数据只是二维像素阵列.为了自动建立信息内容的索引,需要实现从物理内容到信息内容的映射,完成这一过程要综合图像处理、图像理解、人工智能等技术,目前还处于起步阶段.建立信息内容的索引一般要通过人机交互的方式.
根据建立索引的方式和索引的内容不同,可以把图像索引分为3类:基于注释的索引、基于特征的索引和基于知识的索引[2].基于注释的索引也称为高级索引,它是对图像的信息内容建立的定性索引.基于特征
的索引又称为低级索引,它是对图像的视觉内容建立的量化索引.基于注释的索引一般是手工方式生成的,
基于特征的索引则可以在图像模型的引导下通过特征提取的方式自动生成.基于知识的索引是针对某个应用领域建立的索引,首先建立该领域知识的逻辑模型,然后对图像进行特征提取和分析,将结果与模型匹配.
一旦确定了匹配关系,就可以把模型所包含的语义信息赋给相应的图像.这种索引方式实质上是以领域知识为中介,实现视觉内容到信息内容的映射,提高系统处理信息内容的能力.
2 基于注释的图像检索基于注释图像检索是在注释索引的基础上实现的.图像注释就是描述图像内容的文本信息,分为语句注释和关键字注释.语句注释可以详细描述图像的内容,但随意性较大,相同的图像内容在不同情况下可能会得到相差很多的注释结果.关键字注释就是用一组预先定义的关键字描述图像的内容,比较规范,但不够灵活,难以充分表达图像的内容.由于自然语言理解技术的限制,在图像检索系统中多使用关键字注释.
基于注释的图像检索早在20世纪70年代就出现了,最初是在关系数据库中加入描述图像内容的字段,
并在图像的存储路径和这些字段之间建立联系,然后利用数据库的查询功能实现图像检索[3].
早期的检索系统都使用自行定义的关键字和注释结构,缺少描述图像的统一方案,数据的共享程度低.
随着互联网和多媒体的发展,检索图像的环境发生了很大的变化,数据的共享和交换成为一个迫切的要求.
为了在互联网环境下用一致的方式检索不同的数据源,需要创建一种简单通用的元数据模型.1995年3月在都柏林召开的第一届元数据研讨会上产生了一个简单的元数据集———都柏林核心元数据集(DublinCore
ElementSet),简称都柏林核心(DublinCore).DublinCore具有简洁、易于理解、可扩展的特性.它的内核是一个很小的应用集合,并规定了可供选择的数据内容和数据格式.经过几年来的发展,DublinCore从内容到形式都大大丰富了.不仅能描述网络资源,而且可以很好地应用在大多数的电子资源描述中.此外,万维网协会W3C还制定了资源描述框架RDF.RDF采用可扩展标识语言XML作为处理和交换元数据的通用语法结构体系,是一个能够对结构化的元数据进行编码、交换和再利用的体系框架,使不同的用户能够在这一框架下定义它们自己的元数据.这些元数据模型为在互联网环境下对图像进行一致的描述提供了可能[1].
基于注释的图像检索可以充分利用图像中丰富的信息内容,与人类认知图像的方式相一致,因而检索的准确率比较高.但是,由于目前计算机技术的局限,完全自动的图像注释无法实现,因此目前的图像注释多采用手工完成,存在着以下不足:⑴注释图像的工作量太大;⑵由于人的认知主观性,造成了注释结果的模糊性.
到了20世纪90年代,由于图像数据的迅速增加,这两个问题越发突出.为此,出现了基于特征的图像检索.由于系统能够根据图像的视觉内容自动建立特征索引,因此基于特征的图像检索具有较高的速度,适用于海量的图像集合.
3 基于特征的图像检索基于特征的图像检索是在特征索引的基础上实现的.图像中包含信息内容和视觉内容,虽然目前图像处理技术不能自动识别信息内容,但是可以自动识别视觉内容.根据图像的视觉内容建立特征索引,基于这些特征索引即可实现基于特征的图像检索.与基于注释的检索不同,基于特征的检索可以自动进行,减少了手工操作的工作量,当图像数量很大时,这一点尤为重要.可用于特征索引的视觉内容包括颜色、形状、纹理等[4].
784第4期 石 军等:图像检索技术综述311 基于颜色特征的检索在图像检索中最常用的物理特征是颜色,这是因为颜色比较直观,并且对图像的位置和大小的变化具有较好的鲁棒性.
最常见的颜色表达式是直方图[13],直方图反映了各种颜色在图像中的分布情况.图像的直方图是一个
一维的离散函数:H(k)=nk/n,k=0,1,…,L-1,其中L是颜色空间的量化数目,nk是具有第k种颜色的像素个数,n是像素总数.为了度量直方图的相似性,可以采用直方图相交法[5],令Hq(k)和Hd(k)分别为查
询图像Q和范例图像D的直方图,则它们之间的相似度为
P(Q,D)=∑L-1k=0min[HQ(k),HD(k)]∑L-1k=0HQ(k) . 当某个颜色分量值没有在图像中出现时,直方图中会产生零值,用欧氏距离度量直方图的相似度时,对直方图中的每个颜色分量平等对待,没有考虑颜色间的相似性,不符合人类的视觉感觉,这种情况会对直方图交叉法的精确度带来影响[7].为了解决这个问题,文献[8]提出了累计直方图.累计直方图也是一个一维的
离散函数:I(k)=
∑
K
i=0ni/n,k=0,1,…,L-1,式中参数的含义与直方图表达式中相同.累计直方图减少
了直方图中的零值,使颜色分量之间的距离与它们之间的相似程度成正比.
除了直方图之外,还有其他形式的颜色表达式.文献[6]在分析已有的基于颜色的图像检索方法的基础上,提出了一种新的基于颜色的图像检索算法,该方法对每个图像单独进行颜色量化,计算其颜色直方图并排序,根据颜色在图像中出现的频率和图像中各种颜色的对比强度确定图像之间的相似度.
312 基于纹理特征的检索纹理是指图像中所具有的局部不规则而宏观有规律的特性.以往纹理多用于模式识别和计算机视觉,近年来在图像检索中也得到了广泛的应用.纹理对图像灰度变化的特征进行量化,与对象的位置、走向、大小、形状有关,与平均灰度级无关.纹理分为随机纹理和模式纹理.随机纹理用统计性质表征,如灰度级的标准偏差或自相关宽度;而模式纹理可通过抽取某些度量进行进一步表征.
纹理特征的一个有效表达方法是共生矩阵[7],共生矩阵可以表示出两个特定灰度的像素在相距(Δ