当前位置:文档之家› 基于改进蛇模型的步态轮廓提取

基于改进蛇模型的步态轮廓提取

基于改进蛇模型的步态轮廓提取
基于改进蛇模型的步态轮廓提取

收稿日期:2006-12-18 基金项目:重庆市自然科学基金资助项目 作者简介:李潇(1982-),女,四川眉山人,硕士研究生,主要研究方向:图像处理、模式识别; 李平(1963-),男,重庆人,教授,博士生导师,主要研究方向:传感技术及无线传感器网络、智能结构和控制、信息获取和信号处理; 文玉梅(1964-),女,重庆人,教授,博士生导师,主要研究方向:智能化光电仪器、传感技术、数字信号、图像处理; 叶波(1968-),男,江苏泰兴人,博士研究生,主要研究方向:计算机视觉信息处理; 郭军(1977-),男,重庆奉节人,硕士研究生,主要研究方向:图像处理、模式识别.

文章编号:1001-9081(2007)06-1468-04

基于改进蛇模型的步态轮廓提取

李 潇,李 平,文玉梅,叶 波,郭 军

(重庆大学光电工程学院光电技术及系统教育部重点实验室,重庆400030)

(li p ing@cqu .edu .cn )

摘 要:提出了一种基于Snake 模型的改进算法,不仅能够精确地搜索到图像轮廓,且程序运行速度较快。该算法在C MU 数据库上进行了实验,结果表明提取出的步态轮廓完整且封闭,能有效地提高识别率。

关键词:运动目标;Snake 模型;能量函数;梯度矢量流;贪婪算法中图分类号:TP391.41 文献标识码:A

Ga it con tour extracti on ba sed on i m proved s nake m odel

L I Xiao,L I Ping,W E N Yu 2mei,YE Bo,G UO Jun

(Key L aboratory of O ptoelectronic Technology and Syste m s of the Education M inistry of China,

Chongqing U niversity,Chongqing 400030)

Abstract:A gait cont our extracti on method based on Snake model was p r oposed,which can search the cont our not only correctly but als o rap idly .The experi m ents tested on the C MU database p r ove that the gait cont our can be comp letely and cl osely extracted by the p r oposed method,and recogniti on rate is als o increased effectively .

Key words:moving object;Snake model;energy functi on;Gradient Vect or Fl ow (G VF );greedy method

0 引言

步态识别是一种新的生物特征识别技术,它是通过人走路的姿势实现对个人身份的识别和认证。步态识别分析可以

划分为运动目标分割与分类、特征提取与表达、步态识别三个阶段。其中,运动目标分割的目的是从序列图像中将变化区域从背景图像中提取出来。运动区域的有效分割对于目标分类、特征提取、特征表达与最后的识别等后期处理是非常重要的,因为以后的处理过程仅仅考虑图像中对应于运动目标区域的像素。

现有的分割方法主要分为三类:帧间差分法、背景消减法

和基于运动场估计的方法。帧间差分[1]

是最为常用的运动目标检测和分割方法之一。将相邻两帧图像做差分运算,从相减后的图像中得到运动物体的信息。帧间差分法的特点是速度快,适用于实时性要求较高的应用环境;不足在于算法对环境噪声较为敏感,并且基于差分法的运动目标分割精度没有保证。背景消减法[2]是将包含运动目标在内的图像与背景图像相减,以得到运动目标区域。在运动目标和背景之间灰度或颜色存在差异情况下,背景消减法可以获得较好的目标提取效果。但对于动态场景存在如光照和外来无关事件的干扰,或者因运动目标和背景之间灰度或者颜色差异很小而难以获得有效分割阈值等情况下,将很难获得目标封闭的完整轮廓。基于运动场估计的方法[3]通过视频序列的时空相关性分析估计运动场,建立相邻帧对应关系,进而利用目标与背景表现运动模式不同进行运动目标的检测与分割。与差分法相比,运动场分析能够较好地处理背景运动的情况,适用范

围更广,但计算的复杂度远高于前者。

因此,由于背景的复杂性,通常情况下采用上述方法提取出的轮廓往往十分粗糙,甚至构不成封闭轮廓,造成图像残缺,这是目前步态识别率始终难于大幅度提高的重要原因。同时,对非封闭的残缺轮廓,一些学者采用人工交互与计算机自动定位相结合的方式进行修补,以得到更高的识别率,但由于步态序列所包含的图片数量极大,这样的工作将花费研究者大量的时间和精力且存在定位不准确的难题[4]。

近年来,一种称为Snake [5]的参数活动轮廓模型被广泛应用于边缘检测、图像匹配、区域分割、目标跟踪等多种领域,它依靠对能量函数的最小化实现自动搜索目标轮廓边缘。由于Snake 模型曲线具有一定的硬度,得到的最终轮廓光滑、封闭,因此用于搜索步态轮廓时能纠正二值图像模板上的缺口(往往是由于前景与背景亮度一致造成的),在一定程度上可以解决上述目标轮廓的残缺问题。但原始的Snake 模型存在一些性能上的缺陷,如:在能量极小化过程中的收敛速度较慢,不能很好的收敛到凹陷轮廓等[6],这些缺陷使它很难直接用于步态轮廓提取。

本文提出了一种改进的Snake 模型对人体步态轮廓进行搜索:首先,采用背景消减的方法得到粗糙轮廓,然后以粗糙轮廓为处理对象,结合两种Snake 模型———梯度矢量流

(Gradient Vect or Fl ow,G VF )模型[7,8]

和贪婪算法[9],搜索运动目标轮廓,得到封闭完整的轮廓线。算法在C MU [10]数据库上进行了实验,实验结果表明算法具有较好的处理效果,能够有效获得准确的目标轮廓,为后期目标识别奠定了良好的基础。

第27卷第6期

2007年6月

 

计算机应用

Computer App licati ons

 

Vol .27No .6June 2007

本文提出的算法作出了以下新的尝试:

1)将Snake 模型应用到步态识别的研究中来,并通过实验验证了模型的有效性;

2)将G VF 模型和贪婪算法相结合,在对凹陷轮廓进行准确搜索的同时,提高了收敛速度。

1 算法原理

1.1 Snake 模型原理

Snake 模型

[5]

也称为参数活动轮廓模型。该模型从一个

封闭的初始曲线出发,在一定的约束下,通过逐步形变的搜索过程,最终获得一条预先定义的、一种能量函数最小化的轮廓

线。用V (s )=[x (s ),y (s )](其中,s ∈[0,1])表示Snake 曲线,其能量函数为:

E =

1

[E int

(V (s ))+E ext (V (s ))]ds (1)

E int 为内部能量,定义为:E int =

1

2

[α|V ′

(s )|2+β|V ″(s )|2](2)

式中,α、

β分别为控制曲线张力和刚性的权重参数,V ′(s )、V ″(s )分别为V (s )对s 的一、二阶导数。Kass 将外部能量定义为:

E ext (x,y )=-| I (x,y )|

2

(3)或:

E ext (x,y )=-| [G σ(x,y )3I (x,y )]|

2

(4)

I (x,y )为原始灰度图像,可看作是位置变量(x,y )的函

数。G σ(x,y )是标准方差为σ的二维高斯函数,μ为梯度算子。

Snake 模型的形变过程就是能量函数(1)的最小化过程,

在Snake 曲线上设置n 个控制点将曲线分为n 段,由变分法原理和解Euler -Lagrange 方程得到Snake 模型的迭代公式如下:

X t+

δt =M -1

(X t -δt

5E ext

5X t )Y

t+δt =M

-1

(Y t -δt 5E ext

5Y t

)

(5)

M 是一个对称的五对角循环矩阵,X ,Y 分别是Snake 曲

线上各控制点横向x 和纵向y 坐标向量,δt 为时间步长。

1.2 G VF 模型

原始的Snake 模型在应用中被证明存在着一些性能上的缺陷,比如Snake 曲线不能很好地收敛到凹陷轮廓处,针对这一问题,文献[7,8]基于光流场原理,提出了一种G VF (梯度矢量流)模型。在迭代计算Snake 曲线坐标前,通过求解偏微分方程组以获得G VF 场,在迭代中用G VF 场替代(5)式中的

(

5E ext 5X t ,5E ext

5Y t

)项,使该模型能搜索到凹陷轮廓边缘。G VF 场是

矢量场vv (x,y )=[u (x,y ),v (x,y )](u (x,y ),v (x,y )为指向轮廓边缘的矢量,以下分别简写为u,v ),它的最小化能量泛函可表示为:

ε=

∫∫

[μ(u 2x

+u 2y +v 2x +v 2y )+| f (x,y )|2

|vv - f (x,

y )|2

]dxdy

(6)

其中,第一项起平滑作用,u x ,u y ,v x ,v y 分别为u,v 对x,y

的偏导数,参数μ是调整参数,它根据图像噪声的强弱设置,噪声越大,μ值越大,f (x,y )是图像I (x,y )的一个边缘图像:

f (x,y )=| [G σ(x,y )3I (x,y )]|

2

(7)

f (x,y )就是Kass 提出的边缘能量项(4)。采用变分法,得

到使式(6)最小化的梯度向量流vv (x,y ),它满足欧拉方程:

μ 2u -(u -f x )(f 2x +f 2

y )=0

μ 2v -(v -f y )(f 2x +f 2

y

)=0(8)

f x ,f y 分别为f (x,y )对x,y 的偏导。

G VF 模型通过上述对外部能量项的改进,使Snake 模型在极大程度上克服了不能收敛到凹陷轮廓边缘的缺陷,但迭代收敛过程速度慢的问题依然未能解决。1.3 贪婪算法

在确定能量函数后,需要对Snake 曲线按照能量最小进行迭代。在传统算法迭代过程中,由于对曲线上的控制点进行逐点考察,时间复杂度为O (nm 3)(其中,n 为Snake 曲线上控制点的个数,m 是一个点可能移动的位置数)因此收敛速度较慢。为了提高收敛速度,文献[9]提出了一种贪婪算法,考察控制点i 点相邻8邻域中的每个点的能量,以具有最小能量的点的位置作为i 点的下一个位置,使Snake 曲线迅速收敛到目标位置。但该算法采用边缘图像的梯度模作为外部能量,对存在凹陷的轮廓收敛效果较差。

2 改进算法

由于人体轮廓存在着较大的凹陷(如在行走时的双腿之间,摆动的手臂与身体之间),采用传统Snake 模型无法收敛到轮廓实际边缘,因此选择针对凹陷轮廓的G VF 模型进行搜索。G VF 模型在收敛过程中采用传统Snake 的变分法,时间复杂度为O (nm 3),迭代速度较慢,为了提高迭代速度,本文将G VF 模型的迭代过程采用贪婪算法的迭代原理进行,结合两种算法各自的优势,在保证对凹陷轮廓准确搜索的同时,提高收敛的速度。2.1 改进算法框架

原G VF 模型采用变分法计算Snake 曲线每一次迭代后控制点的坐标位置,而改进后的模型采用贪婪算法确定控制点坐标。按照贪婪算法,需计算控制点8邻域每点的能量值,找出其中能量最小的点。式(1)中的内部能量如(2)所示,离散化该式,在Snake 曲线上设置n 个控制点,将曲线分为n 段,用z i 表示曲线上的第i 个点,离散后的一阶项为|z i -z i-1|2,该项控制Snake 曲线的收缩。为了避免Snake 曲线聚集在局部强边缘区,文献[9]提出了将d -|z i -z i-1|作为一阶项,d 为控制点间的平均距离,这样,点间距与平均距离最相近的点具有最小能量值,每迭代一次重新计算一次d 。离散化二阶项为

|z i-1-2z i +z i+1|2

,该项使Snake 抵抗弯曲。将一阶项和二阶项均除以它们在8邻域点的最大值,以规范其大小在0~1的范围内。

在文献[9]的贪婪算法中,采用边缘图像的梯度模作为外部能量,该梯度模为指向边缘的矢量,且仅在边缘上有极小值。贪婪模型有捕捉边缘的能力,但梯度模中没有反映与边缘距离的信息。在均匀区域里,梯度模的值为0,即不存在将Snake 曲线从均匀区域推向边缘的外力,导致贪婪算法中的Snake 曲线只能捕捉与初始曲线相邻近的边缘,当初始曲线离物体轮廓边缘较远时,Snake 曲线无法收敛到实际边缘处。

本文提出的改进算法以下式作为外部能量项:

m vv =γ[vv (x,y )]

2

(9)γ为外部能量权重,vv (x,y )由(8)推算得出。与梯度模相比,采用m vv 作为外部能量引入了梯度矢量流的作用,能够扩

9641第6期李潇等:基于改进蛇模型的步态轮廓提取

大能量场的作用范围,对噪声也有更强的鲁棒性,还能够更好地引导变形曲线进入图像中的凹陷区域,因此能够解决贪婪模型对凹陷轮廓提取效果不佳的缺陷。

对m vv 进行规范化,规范化公式如下:

nor m (m vv )=(m in -m vv )/(max -m in )

(10)式中m in 为m vv 中的最小值,max 为m vv 中的最大值。按照上述能量计算方法找到控制点8邻域中能量最小的点,以该点坐标作为控制点的移动位置,完成一次迭代。改进算法框架如图1所示。

图1 算法框架

2.2 图像预处理

由于步态图像的背景往往比较复杂,存在着很多干扰因

素,影响对人体轮廓的提取;而Snake 模型是一种针对图像边缘进行提取的方法,在干扰因素较多的环境中对边缘的搜索比较困难。因此,有必要在原图像中先提出人体的粗略轮廓线,然后再采用Snake 模型对轮廓线进行较精确的搜索。

采用背景消减法对C MU 数据库[10]提供的原图像进行轮廓提取,得到的粗糙轮廓如图2(a )所示,该轮廓背景中存在着比较多的噪声点,甚至人体部分也出现了比较严重的断裂,这将影响Snake 曲线对轮廓的搜索。对该图像采用数学形态学中的膨胀、收缩、填充等操作使轮廓边缘平滑并填充内部空洞。选取图像中的最大目标,

这样可以去除背景中的图4 收敛过程

噪声点,得到独立的人体轮廓,如图2(b )所示。对经过上述操作处理的图像采用边缘检测算子检测轮廓边缘,作为Snake 模型的搜索目标。为了加快程序运行速度,转换图像尺寸为200×200(原图像为486×640)。2.3 初始轮廓的选取

在Snake 模型中,

选取与真实边缘接近的初始轮

图2 对粗糙轮廓进行形态学处理前后对比

廓能更好地收敛到边缘位置。由于步态图像为视频序列图

像,除第一帧以外,其他帧均可采用其上一帧图像检测到的边缘作为初始轮廓线。本文采用椭圆为第一帧图像的初始轮廓。

3 实验

为了验证算法的有效性,本文在C MU [10]数据库上进行

了实验。C MU 数据库是Ca megie Mell on 大学在2001年建立的一个步态图像数据库,它包含了25个人以不同速度在不同方向上的行走视频图像。图3(a )为库中提供的原图,图3(b )为采用背景消减法和边缘检测后得到的轮廓边缘,图3(c )为本文提出的改进Snake 模型在图3(b )的基础上搜索到的边缘,得到的边缘光滑且较完整

图3 比较结果

对某一轮廓的收敛过程如图4所示。图4(a )中内部曲

线(浅色细线)为采用边缘检测算子在二值图像上检测到的人体边缘轮廓,外部椭圆(深色粗线)为设定的初始轮廓。(b )~(e )表示初始轮廓逐步收敛过程中的不同阶段,分别为迭代至60次、100次、200次以及250次的结果。从图中可以看出,在迭代过程中,Snake 曲线逐步向真实边界靠近。当Snake 曲线上的控制点满足式(11)时,判断曲线能量达到最小值,迭代结束。

pts m oved

(11)

pts m oved 为每个控制点在其8邻域内可移动至的位置个

数,如图5所示。i 为当前控制点所在位置,数字1~8表示8邻域位置,若有三个位置处能量比当前位置能量小,则可移动至的位置个数为3,以此类推。th reshold 为设定的阈值,一般为2。(f )为最终搜索到的轮廓边缘线,从(f )中可以看出,最终得到的轮廓线光滑、完整,修补了原轮廓线上的缺口

图5 控制点位置i 及其8邻域

在对运动轮廓提取时,理想的目标是获得单一连通的完整轮廓块,二值化图像中非连通的子块数目越少,越完整地提取了对象的轮廓,因此,考察二值图像中子块数目的多少可以作为衡量分割效果的一个标准;此外,因遮挡、消减、噪声等因素影响,二值化图像中运动目标区域内不可避免地出现信息

0741 计算机应用2007年

丢失,反映到二值化图像上,表现为原本灰度为1(白)的部分

出现灰度为0(黑)的信息丢失区。对于信息丢失的图像,可采用人工法进行修补,人工法虽然烦琐且工作量大,但是它却能够完整真实地提取运动目标轮廓。因此,可以以人工法提取的运动目标轮廓作为参考,通过考察各种算法提取的有效轮廓面积与人工法提取的有效轮廓面积之比,即有效面积比,来衡量各种算法获得有效信息的能力。

分别采用背景消减法、本文改进算法,对同一序列图像进行运动目标轮廓提取。实验结果如图6,图7所示,K 为图像序列帧数,J 为子块数目,R 为运动目标有效面积比

图6 

运动目标的子块数目比较

图7 运动目标有效面积比的比较

从图6中可以看出,采用本文改进算法提取出的运动目标轮廓对应的子块数目大为减少,只有单一子块,目标提取比较完整;从图7中可以看出,由改进算法得到的运动目标有效面积比明显高于由背景消减法得到的有效面积比,提取的轮廓更加接近人工法提取的轮廓。

本文采用G VF 模型和贪婪算法相结合,有效地提高了程序的运算速度,在Pentiu m (R )1.99GHz/248M RAM /

W indows Xp /Matlab 6.1平台下完成对轮廓的迭代搜索实验,

独立采用G VF 模型和采用改进后的模型对一帧图像进行迭代的运算时间如表1所示。

表1 程序运算时间的比较模型名称

迭代次数

运算时间/s

G VF 模型

150次105.7810本文提出的改进算法

150次

57.7500

实验中,除第一帧图像的初始轮廓为椭圆外,从第二帧图像开始,采用当前处理图像的前一帧中迭代所得轮廓线作为初始轮廓。因此,由于第一帧图像的初始轮廓离实际轮廓较远,Snake 曲线收敛到实际边缘需要的迭代次数较多。以图4为例,需要250次左右,而其余帧的初始轮廓离实际轮廓比较接近,一般只需要60次左右的迭代即可收敛到实际边缘,除第一帧图像外,平均一帧图像的迭代时间为23.2143s 。

为了更好地说明轮廓的完整封闭性对识别效果的影响,本文采用基准识别方法

[11]

分别对背景消减法得到的轮廓和

本文改进算法得到的轮廓进行了识别。实验中测试了C MU 库中快速行走方式下的15个人。以单个人的单个行走周期为一个样本,在每个人的行走序列中选取两个周期,15个人

共选取30个样本。识别结果如表2所示。

表2识别率的比较

轮廓提取算法背景消减法本文算法

正确识别率

86.67%

100%

从表2中可以看出,与采用背景消减法得到的轮廓相比较,本文提取出的轮廓能有效地提高正确识别率,达到较好的识别效果。

4 结语

基于轮廓提取步态特征是目前步态识别最主流的方法,本文将G VF 模型运用到步态轮廓提取中,在背景消减法得到的残缺轮廓基础上搜索到了较精确、完整的轮廓边缘,并改进算法提高了其收敛速度。算法实现简洁,需调整的参数少,在运动目标追踪、运动目标检测和基于步态的生物特征识别等领域可以获得有效运用。

在噪声存在条件下,算法搜索边缘时产生的误差会累积,影响到收敛结果,使边缘的搜索不精确。这是我们下一步研究工作将要解决的问题。

致谢:本文实验所涉及的步态数据资料来源于Carnegie Mell on 大学C MU 步态数据库,在此对该数据库的建立者表示感谢。

参考文献:

[1] L I PT ON AJ,F UJ I Y OSH I H,P ATI L RS .Moving target classificati on

and tracking fr om real 2ti m e video [J ].I EEE Transacti ons on Work 2shop App licati on of Computer V isi on,1998:8-14.

[2] T OY AMA K,KRUMM J,BRUM I TT B ,et al .W allfl ower:p rinci 2

p les and p ractice of backgr ound maintenance [A ].I n:Pr oceedings

of I nternati onal Conference on Computer V isi on [C ].

Kerkyra,

Greece,1999.255-261.

[3] 李海明,陈新,吴芳,等.复杂背景下运动目标的光流区域提取方

法[J ].福州大学学报(自然科学版),2001,29(4):101-103.

[4] 徐晓刚,于金辉,马利庄.复杂物体轮廓提取[J ].中国图象图形

学报,2001,6(5):455-459.

[5] K ASSM ,W I TKI N A,TERZ OP OULOUS D.Snakes:active cont our

models[A ].I n Pr oceedings of the 1st I nternati onal conference on

computer V isi on[C ].London .I EEE Computer Society Press,1987.

259-268.

[6] 陈文娟,石民勇.蛇模型的综述[J ].北京广播学院学报(自然科

学版),2003,10(2):17-25.

[7] PR I N CE JL,XU C .A ne w external force model for snakes[A ].I n

Pr oc .1996I m age and Multidi m ensi onal Signal Pr ocessing Workshop [C ].1996.30-31.

[8] XU C,PR I N CE JL.Snake,shapes and gradient vect or fl ow [J ].

I EEE Transacti ons on I m age Pr ocessing,1998,7(3):359-369.[9] W I L L I A MS ,DJ ,SHAH M .A fast algorithm for active cont ours

[A ].Computer V isi on,1990.

Pr oceedings,Third I nternati onal

Conference on 4-7Dec[C ].1990.592-595.

[10]GROSS R,SH I J.The C MU moti on of body (mobo )database[R ].

Technical Report C MU -R I -TR -01-18,Carnegie Mell on Uni 2versity,2001.

[11]S ARK AR S,L I U Z,ROBLEDO I,et al .The Human I D Gait Chal 2

lenge Pr oblem:Data Sets,Perfor mance,and Analysis [J ].I EEE Transacti ons on Pattern Analysis and Machine I ntelligence,2005,27(2):162-177.

1741第6期李潇等:基于改进蛇模型的步态轮廓提取

步态识别方法的分类及各类方法的比较

步态识别方法的分类及各类方法的比较 程汝珍1,2 1河海大学计算机及信息工程学院,江苏南京(210098) 2水文水资源与水利工程科学国家重点实验室,江苏南京(210098) E-mail:chengruzhen@https://www.doczj.com/doc/6814812969.html, 摘要:步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份。步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别。步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段。在最近的文献中已经有许多研究尝试,提出了许多步态识别的具体方法。但国内外尚无将步态识别技术分类,本文提出了步态识别的六类分类法,且初步比较了每类方法的适用范围和优缺点,使读者较为全面了解步态识别技术现状。 关键词:步态识别;分类;适用范围;优缺点;比较 中图分类号:TP391.4 1.引言 步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份[1]。根据早期的医学研究[2]人的步态有24个不同的分量,在考虑所有的步态运动分量的情况下步态是唯一的。精神物理学[3]中的研究结果显示即使通过受损的步态信息人们也能够识别出身份,这表明在步态信号中存在身份信息。 步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别[4]。步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段[5]。 步态识别部分 图1 步态自动识别系统框图 Fig1 the framework of gait automatic recognition system 步态识别系统的一般框架如图所示[6]。监控摄像机首先捕捉监控领域来人的行走视频,然后送入计算机进行检测和跟踪,提取人的步态特征,最后结合已经存储的步态模式进行身份识别。若发现该人是罪犯或嫌疑人,系统将自动发出警告。

文本特征提取方法

https://www.doczj.com/doc/6814812969.html,/u2/80678/showart_1931389.html 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

特征提取方法

4.2.2 特征提取方法 图像经过一系列的预处理之后,原来大小不同、分布不规则的各个字符变成了一个个大小相同、排列整齐的字符。下面接要从被分割归一处理完毕的字符中,提取最能体现这个字符特点的特征向量。将提取出训练样本中的特征向量代入BP网络之中就可以对网络进行训练,提取出待识别的样本中的特征向量代入到训练好的BP网络中,就可以对汉字进行识别。 特征向量的提取方法多种多样,可以分为基于结构特征的方法和基于像素分布特征的方法,下面给予简单介绍,并说明本文所用的方法。 (1)结构特征。结构特征充分利用了字符本身的特点,由于车牌字符通常都是较规范的印刷体,因此可以较容易地从字符图像上得到它的字符笔画信息,并可根据这些信息来判别字符。例如,汉字的笔画可以简化为4类:横、竖、左斜和右斜。根据长度不同又可分为长横、短横、长竖和短竖等。将汉字分块,并提取每一块的笔画特征,就可得到一个关于笔画的矩阵,以此作为特征来识别汉字。 (2)像素分布特征。像素分布特征的提取方法很多,常见的有水平、垂直投影的特征,微结构特征和周边特征等。水平、垂直投影的特征是计算字符图像在水平和垂直方向上像素值的多少,以此作为特征。微结构法将图像分为几个小块,统计每个小块的像素分布。周边特征则计算从边界到字符的距离。优点是排除了尺寸、方向变化带来的干扰,缺点是当字符出现笔划融合、断裂、部分缺失时不适用。 ①逐像素特征提取法 这是一种最简单的特征提取方法。它可以对图像进行逐行逐列的扫描,当遇到黑色像素时取其特征值为1,遇到白色像素时取其特征值为0,这样当扫描结束后就获得一个维数与图像中的像素点的个数相同的特征向量矩阵。 这种特征提取方法的特点就是算法简单,运算速度快,可以使BP网络很快的收敛,训练效果好,更重要的是对于数字图像这样特征较少的图像,这种方法提取的信息量最大,所以对于本系统来说,这种方法较为适用。但是它的缺点也很明显,就是适应性不强,所以本文没有选用这种方法。 ②骨架特征提取法

步态识别论文

课程论文 步态识别 学号:12426009 班级:通信122 :楚舒琦 目录 摘要 (3) 一、背景介绍 (4)

二、相关研究 (4) 三、主题(算法) (5) 3.1基于线图模型的动态特征提取 (6) 3.2基于整体的静态特征提取 (8) 3.3识别 (9) 四、实验 (9) 五、结果讨论 (12) 六、总结 (12) 七、应用前景 (13) 八、技术难点及解决途径 (14) 8.1技术难点 (14) 8.2解决途径 (15) 九、参考文献 (16)

摘要 步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,比面像识别更具优势。对步态识别的优缺点以及步态识别所涉及到的运动分割、特征提取与选择、模式识别算法进行了综述,并对步态识别中存在的问题与未来的研究方向进行了讨论。 关键词:生物特征识别;步态识别;特征提取;运动分割;动态时间规正

一、背景介绍 步态是指人们行走时的方式,这是一种复杂的行为特征。罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但有样东西他们是很难控制的,这就是走路的姿势。英国南安普敦大学电子与计算机系的马克·尼克松教授的研究显示,人人都有截然不同的走路姿势,因为人们在肌肉的力量、肌腱和骨骼长度、骨骼密度、视觉的灵敏程度、协调能力、经历、体重、重心、肌肉或骨骼受损的程度、生理条件以及个人走路的"风格"上都存在细微差异。对一个人来说,要伪装走路姿势非常困难,不管罪犯是否带着面具自然地走向银行出纳员还是从犯罪现场逃跑,他们的步态就可以让他们露出马脚。 人类自身很善于进行步态识别,在一定距离之外都有经验能够根据人的步态辨别出熟悉的人。步态识别的输入是一段行走的视频图像序列,因此其数据采集与面像识别类似,具有非侵犯性和可接受性。但是,由于序列图像的数据量较大,因此步态识别的计算复杂性比较高,处理起来也比较困难。尽管生物力学中对于步态进行了大量的研究工作,基于步态的身份鉴别的研究工作却是刚刚开始。步态识别主要提取的特征是人体每个关节的运动。到目前为止,还没有商业化的基于步态的身份鉴别系统。 二、相关研究 信息融合:感知融合是人类感知外部世界的本能之一。人类可以非常自然地运用这一能力把来自人体各个感知器官眼耳鼻四肢的信息图像声音气味触觉组合起来并使用先验知识去估计理解和识别周围的环境以及正在发生的事情。融合理论正是对人类这一本能的模仿旨在利用计算机技术对按时序获得的多源观测信息在一定准则下加以自动分析综合以完成所需的决策和估计任务而进行的信息处理过程。 信息融合的基本原理就像人脑综合处理信息一样充分利用多源信息通过对这些多源的观测信息的合理支配和使用把多源信息在空间或时间上的冗余或互补依据某种准则来进行组合以获得被测对象的一致性解释或描述。按照信息抽象的个层次可将信息融合分为3级(像素级融合特征级融合和决策级融合)。 像素级融合是在采集到的原始数据上进行的融合是原始测报未经预处理之前就进行的综合和分析是最低层次的融合。

图像特征提取方法

图像特征提取方法 摘要 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 至今为止特征没有万能和精确的图像特征定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。 特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。当光差图像时,常 常看到的是连续的纹理与灰度级相似的区域,他们相结合形成物体。但如果物体的尺寸很小 或者对比度不高,通常要采用较高的分辨率观察:如果物体的尺寸很大或对比度很强,只需 要降低分辨率。如果物体尺寸有大有小,或对比有强有弱的情况下同事存在,这时提取图像 的特征对进行图像研究有优势。 常用的特征提取方法有:Fourier变换法、窗口Fourier变换(Gabor)、小波变换法、最 小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。

设计内容 课程设计的内容与要求(包括原始数据、技术参数、条件、设计要求等):一、课程设计的内容 本设计采用边界方向直方图法、基于PCA的图像数据特征提取、基于Tamura纹理特征的纹理特征提取、颜色直方图提取颜色特征等等四种方法设计。 (1)边界方向直方图法 由于单一特征不足以准确地描述图像特征,提出了一种结合颜色特征和边界方向特征的图像检索方法.针对传统颜色直方图中图像对所有像素具有相同重要性的问题进行了改进,提出了像素加权的改进颜色直方图方法;然后采用非分割图像的边界方向直方图方法提取图像的形状特征,该方法相对分割方法具有简单、有效等特点,并对图像的缩放、旋转以及视角具有不变性.为进一步提高图像检索的质量引入相关反馈机制,动态调整两幅图像相似度中颜色特征和方向特征的权值系数,并给出了相应的权值调整算法.实验结果表明,上述方法明显地优于其它方法.小波理论和几个其他课题相关。所有小波变换可以视为时域频域的形式,所以和调和分析相关。所有实际有用的离散小波变换使用包含有限脉冲响应滤波器的滤波器段(filterbank)。构成CWT的小波受海森堡的测不准原理制约,或者说,离散小波基可以在测不准原理的其他形式的上下文中考虑。 通过边缘检测,把图像分为边缘区域和非边缘区域,然后在边缘区域内进行边缘定位.根据局部区域内边缘的直线特性,求得小邻域内直线段的高精度位置;再根据边缘区域内边缘的全局直线特性,用线段的中点来拟合整个直线边缘,得到亚像素精度的图像边缘.在拟合的过程中,根据直线段转角的变化剔除了噪声点,提高了定位精度.并且,根据角度和距离区分出不同直线和它们的交点,给出了图像精确的矢量化结果 图像的边界是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合,边界广泛的存在于物体和背 景之间、物体和物体之间,它是图像分割所依赖的重要特征.边界方向直方图具有尺度不变性,能够比较好的 描述图像的大体形状.边界直方图一般是通过边界算子提取边界,得到边界信息后,需要表征这些图像的边 界,对于每一个边界点,根据图像中该点的梯度方向计算出该边界点处法向量的方向角,将空间量化为M级, 计算每个边界点处法向量的方向角落在M级中的频率,这样便得到了边界方向直方图. 图像中像素的梯度向量可以表示为[ ( ,),),( ,),)] ,其中Gx( ,),),G ( ,),)可以用下面的

肺结节检测中特征提取方法研究

小型微型计算机系统JournalofChineseComputerSystems2009年10月第10期V01.30No.102009 肺结节检测中特征提取方法研究 何中市1,梁琰1,黄学全2,王健2 1(重庆大学计算机学院,重庆400044) 2(第三军医大学西南医院放射科,重庆400038) E—mail:zshe@cqu.edu.ca 摘要:计算机辅助诊断(Computer—AidedDiagnosis,CAD)系统为肺癌的早期检测和诊断提供了有力的支持.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,结合专家提供的知识,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、肺结节形态、纹理、空间上下文特征等几个方面,对关键的医学征象进行图像分析,从而实现对ROI(RegionsofInterest)区域的特征提取和量化;提出特征提取的评价方案,实验结果表明,本文提取的特征提取方案是有效的.利用本文提取的特征,肺结节检测正确率达到93.05%,敏感率为94.53%. 关键词:孤立性;肺结节;特征提取;CT图像;特征评价 中图分类号:TP391文献标识码:A文章编号:1000—1220(2009)10—2073-05 ResearchontheFeatureExtractionApproachforSPNsDetection 腼Zhong—shil,LIANGYanl,HUANGXue—quan2,WANGJian2 1(CollegeofComputerScience,c‰增幻增Univers毋,Chongqing400044,China) 2(DepartmentofRadiology,Southwest丑却池z,ThirdMilitaryMedwalUniversityofChinesePL4,Chongqing400038,China) Abstract:Imageprocessingtechniqueshaveprovedtobeeffectiveforimprovementofradiologists7diagnosisofpubmonarynodules.Inthispaper,wepresentastrategybasedonfeatureextractiontechniqueaimedatSolitaryPulmonaryNodules(SPN)detection.Infeatureextractionscheme,36featureswereobtained,contained3greylevelfeatures,16morphologicalfeatures,10texturefeaturesand7spatialcontextfeatures.Andtheclassifier(SVM)runningwiththeextractedfeaturesachievescomparativeresults,withare-suitof93.05%innoduledetectionaccuracyand94.53%insensitivity. Keywords:isolated;solitarypulmonarynodules;featureextraction;CTimages;featureassessment 1引言 近几年,随着影像检查技术的改进,临床结果初步证明CT扫描是检测早期无症状肺癌最有效的影像学方法。1J.肺部疾病在CT影像上通常表现为孤立性肺结节(SolitaryPul—monaryNodules,SPNs),因此,对孤立性肺结节的检测和识别是对肺部疾病诊断最重要的途径.计算机辅助诊断系统一方面,大大减轻了医生的工作量,提高了工作效率;另一方面,使影像诊断更加客观化,提高诊断的效率和正确效率.因此,用计算机进行肺结节辅助诊断,提取肺结节特征,检测肺结节,是具有十分重要的意义和研究价值的. 在孤立性肺结节自动识别中,肺结节的特征提取及表示是其关键问题之一,它是进行识别的重要手段.关于肺结节检测方法有很多。2…,但对肺结节医学征象描述并不充分.目前一般常用面积、周长等形态方面进行肺结节特征提取.对肺结节的形态、全局、局部上下文特征以及病理征象的分析不足,使得特征提取描述不到位,影响识别准备率.同时也欠缺对识别结果的解释.正因为对提取的特征与肺结节医学征象问的对应关系分析不足,无法对识别结果进行医学知识上的解释, 特征提取特征评价 懂歪母 I里斗1显查鲎堑卜_倒1J躺l 帽霭瓣||描述程度l 1絮嚣卜 lJs、,M识 --|别性能 图1SPNs诊断框架图 Fig.1OverviewofSPNsdetection 而只有”是”或”否”的识别结果,无法给医生提供更多的信息.本文围绕以上几个问题,意在提供全面的、系统的量化信息,便于医学专家诊断的客观化、效率化.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、形 收稿日期:2008-08-30基金项目:重庆市重大科技专项项目(CSTC,2008AB5038)资助;重庆市自然科学基金项目(CSTC,2007BB2134))资助.作者简介:何中市,男,1965年生,博士,教授,研究方向为人工智能、机器学习与数据挖掘等;梁琰,女,1982年生,博士研究生,图像处理、模式识别;黄学金,男,1966年生,博士,副教授,研究方向为影像诊断和介入放射学;王健,男,1964年生,博士,教授,研究方向为影像诊断和介入放射学.

文本特征提取方法研究

文本特征提取方法研究 ______________________________________________________ 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。 在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分

数据挖掘中特征提取的分析与应用

数据挖掘中特征提取的分析与应用

摘要:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。随着社会的发展,传统的基于信物或口令的安全系统显得越来越脆弱,不能够满足现代安全系统的需要。基于特征提取的指纹识别随之产生,在众多的指纹属性中提取端点和分叉点两大明显特征,进行数据挖掘与分析。 关键词:数据挖掘;数据预处理;数据归约;维归约;特征提取;指纹识别 前言:数据挖掘中需要对数据进行各种分析,在一切分析前需要做好数据预处理。然而经过数据清理、数据集成、数据变换处理后,数据集仍然会非常大!在海量的数据上直接进行复杂的数据分析与挖掘将需要很长时间,使得这种分析不现实或不可行。此时数据归约技术显得尤为重要,通过数据归约技术的数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生策略将数据集归约表示,保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。通过这种方法从大量特征中提取出最具有代表性的特征根据需要分析有用的信息。数据挖掘中的特征提取被广泛应用,其中指纹识别则是最典型的应用。 正文:数据挖掘中的特征提取的分析与应用经过数据清理、数据集成、数据变换预处理后,数据量仍然会很大,直接进行分析,肯定会降低挖掘过程的速度和效率。而通过数据归约的数据立方体聚集、维归约、数据压缩、数值压缩等策略可以‘压缩’数据集,而又不损害数据挖掘的结果。 简而言之,数据归约是通过聚集、删除冗余特性或聚类的方法来压缩数据。数据立方体聚集是作用于数据立方体中的数据;维归约可以检测并删除不相关、弱相关或冗余的属性或维;数据压缩使用编码机制压缩数据集;数值压缩用替代的、较小的数据表示替换或估计数据。本文就维归约的特征提取进行详尽的分析与应用说明,首先介绍维归约的概念。 一、维归约 用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留

图像特征特点及常用的特征提取与匹配方法

图像特征特点及常用的特征提取与匹配方法 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。 一颜色特征 (一)特点:颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。 (二)常用的特征提取与匹配方法 (1) 颜色直方图 其优点在于:它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。 最常用的颜色空间:RGB颜色空间、HSV颜色空间。 颜色直方图特征匹配方法:直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。 (2) 颜色集 颜色直方图法是一种全局颜色特征提取与匹配方法,无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从RGB颜色空间转化成视觉均衡 的颜色空间(如HSV 空间),并将颜色空间量化成若干个柄。然后,用色彩自动分割技术将图像分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达为一个二进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系 (3) 颜色矩

数据挖掘中用于分类的时序数据特征提取方法

计 算 机 系 统 应 用 https://www.doczj.com/doc/6814812969.html, 2012 年 第21卷 第 10 期 224 专论 ·综述Special Issue ① 林 珠1, 邢 延2 1(广东省计算中心, 广州 510033) 2 (广东工业大学 自动化学院, 广州 510006) 摘 要: 特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取. 针对每一类的特征提取方法, 进一步研究了它相应的分类方法和它在时间序列数据中的应用邻域. 关键词: 时序数据; 分类; 特征提取 Survey of Feature Extraction Approaches for Time Series Classification LIN Zhu 1, XING Yan 2 1(Guangdong Computer Center, Guangzhou 510033, China) 2 (Guangdong University of Technology, Guangzhou 510006, China) Abstract : The main contributions of this paper are: 1) The main feature extraction approaches are classified into four categories; 2) The main idea of each category is analyzed, the advantages and disadvantages are pointed out; 3) The guidelines of choosing suitable feature extraction approach is suggested. Key words : time series; classification; feature extraction 1 引言 时序数据(time series data)广泛存在于现实生活中,是指同一种现象在不同时间上的相继观察值排列而成的一组数字序列, 其时间轴上的采样值通常又被称为特征[1]. 时序数据普遍存在于许多重要应用邻域, 比如DNA 序列、金融数据、传感器网络监控数据、移动对像跟踪数据、机器故障检测数据等等. 由于时序数据与时间相关联, 因而其数据量一般都是非常庞大的, 这就对时序数据挖掘技术提出了更高的要求[2]. 在时序数据挖掘的研究与应用领域, 时序数据分类是重要任务之一[1,2]. 例如, 依据语音信号的波形识别出说话人的性别和年龄, 依据心电图的时序波形识别出病者所患的病症, 依据地震波的历史数据, 去识别地震的类型, 依据在机器运转过程中进行故障检测和识别故障类型, 甚至在客户关系管理中根据某段时间的客户 购买信息, 识别不同的消费群体等等. 衡量分类技术优劣的核心指标是分类准确率, 而提高分类准确率途径有两种: 一是改进分类器; 二是采用特征提取技术(feature extraction). 特征提取是在分类前对数据时间采样值上进行适量的归约, 以达到减少数据量同时提高分类准确率(底线是不牺牲分类准确率)的目的. 时间序列除了具有的趋势性、季节性、周期性等一般特征之外, 不同的时序数据又存在不同的个别特征. 如金融数据, 普遍具有“高峰厚尾”和“平方序列微弱而持续的自相关”的特点; 而地震波则具有强度随时序延伸而减弱的特点; 语音信号幅度具有一定的范围, 并以零幅和近零幅的概率高, 而且长时间的语音信号会有相当多的无信号区间, 即所谓的语音寂静区间; 心电信号则具有很强的周期性, 它的主要特征是 ① 基金项目:广东省科技计划项目基金(2011B060500049, 2010B090400545, 2010A040300006) 收稿时间:2012-02-06;收到修改稿时间:2012-03-04

各省轮廓图

各省轮廓图 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

七年级(上)地理知识点及问答题 1.概念: 地轴:地球始终不停地围绕着一个假想的轴运转,这个假想的轴叫地轴。 两极:地轴穿过的地球表面的两个交点叫两极。对着北极星方向的是地球的北极,另一点是地球的南极。北极是地球的最北点,南极是地球的最南点。 赤道:地球仪上与两极距离相等的大圆圈叫赤道。其长度约为4万千米。 纬线:同赤道平行的线叫纬线。特点:无数条,呈东西方向,形状为圆圈。 经线:连接南、北两极的线叫经线。特点:无数条,呈南北方向,形状为半圆。 2.经纬度的字母表示形式:西经W,东经E,北纬N,南纬S。 3.东西半球、南北半球分别是怎样划分的P9 答:以20oW和160oE两条经线为东西半球的分界线。以赤道为南北半球的分界线。 4.地球自转周期:24小时(一天);地球公转周期:一年。 5.地球自转产生的天文现象有什么地理意义(P11-12三点) (1)产生昼夜更替;(2)产生时差;(3)使地球发生形变。[经度每相差15o,时间相差1小时。] 6.二分二至:春分(3月21日前后)、夏至(6月22日前后)、 秋分(9月23日前后)、冬至(12月22日前后)。 7.地球上为什么会产生四季[或问:地球公转有何地理意义](P13) 答:由于地球始终朝一个方向倾斜,随着地球的公转,各地在一年中不同时间内,接受阳光照射的情况不同,从而形成了炎热的夏季、寒冷的冬季、温和的春季和秋季。[产生四季更替;地球自转和公转造成昼夜长短的变化。] 8.地球上有哪五带 答:热带(南北回归线之间)、北温带(北回归线和北极圈之间)、北寒带(北极圈以北)、南温带(南回归线和南极圈之间)、南寒带(南极圈以南)。 9.地图上的方向有几种表示方法分别如何判读(P18) 答:(1)一般表示方向。一般的地图用“上北下南,左西右东”表示方向。 (2)指向标表示方向。根据指向标确定方向,指向标箭头通常指向北方。 (3)经纬网表示方向。经线指示南北方向,纬线指示东西方向。 10.什么是比例尺它有哪几种表示形式(P20) 答:把实际地理事物在地图上表示出来,必须把一定范围内的地理事物缩小,这种缩小的程度就叫比例尺,它等于图上距离与实地距离的比值,即比例尺=实地距离|图上距离。 比例尺有三种表示形式:(1)线段式;(2)数字式;(3)文字式。(比例尺越大,表示内容越详尽。) 11.地图按内容、按表示区域分别应怎样分类(P21) 答:按内容分:地图可分为普通地图(如地形图、行政区划图等)和专题地图(如人口分布图、气候类型图、资源分布图等)。按表示区域分:地图可分为世界图、半球图、国家图、省图等。 12.什么叫图例什么叫注记 答:在地图上,各种地理事物都用特定的地图符号来表示,这些地图符号叫图例。在地图上,用来说明山脉、河流、国家、城市等名称的文字,以及表示陆高海深的数字,叫注记。 13.地图新成员: 遥感影像地图和电子地图等。中央电视台天气预报节目中的卫星云图就是遥感地图。 14.如何区分海拔和相对高度(P26) 答:海拔是指地面上某个地点高出海平面的垂直距离,又叫绝对高度。 某个地点高出另一个地点的垂直距离叫做相对高度。它们的计量单位都是米。 15.地形的五种基本类型: 山地(耸立的山顶、陡峭的山坡和低缓的山麓,高度和起伏大,海拔500米以上)、高原(范围广、面积大,外围陡内部和缓,海拔500米以上)、 丘陵(起伏不大,坡度和缓的高地,相对高度不超过200米)、 盆地(周围高、中间低)、 平原(宽广平坦、起伏很小,海拔一般在200米以下)。 16.什么叫等高线什么叫等高线地形图(P28)

中国各省轮廓图

七年级(上)地理知识点及问答题 1.?概念:? 地轴:地球始终不停地围绕着一个假想的轴运转,这个假想的轴叫地轴。? 两极:地轴穿过的地球表面的两个交点叫两 赤道: 纬线: 经线: 2.? 北纬N 3.? P9? 答:以20oW 4.?地球自转周期:24小时(一天);地球公转周期:一年。? 5.?地球自转产生的天文现象有什么地理意义?(P11-12三点)? (1)产生昼夜更替;(2)产生时差;(3)使地球发生形变。[经度每相差15o,时间相差1小时。]? 6.?二分二至:春分(3月21日前后)、夏至(6月22日前后)、 秋分(9月23日前后)、冬至(12月22日前后)。? 7.?地球上为什么会产生四季?[或问:地球公转有何地理意义?](P13)? 答:由于地球始终朝一个方向倾斜,随着地球的公转,各地在一年中不同时间内,接受阳光照射的情况不同,从而形成了炎热的夏季、寒冷的冬季、温和的春季和秋季。[产生四季更 ]? 、 (南 (P20)? 答:把实际地理事物在地图上表示出来,必须把一定范围内的地理事物缩小,这种缩小的程度就叫比例尺,它等于图上距离与实地距离的比值,即比例尺=实地距离|图上距离。? 比例尺有三种表示形式:(1)线段式;(2)数字式;(3)文字式。(比例尺越大,表示内容越详尽。)?

11.?地图按内容、按表示区域分别应怎样分类?(P21)? 答:按内容分:地图可分为普通地图(如地形图、行政区划图等)和专题地图(如人口分布图、气候类型图、资源分布图等)。?按表示区域分:地图可分为世界图、半球图、国家图、省图等。? 12.?什么叫图例?什么叫注记?? 答: 注记。 13.? 14.? 答: 15.? 山地 高度和起伏大,海拔500米以上)、 高原(范围广、面积大,外围陡内部和缓,海拔500米以上)、 丘陵(起伏不大,坡度和缓的高地,相对高度不超过200米)、 盆地(周围高、中间低)、 平原(宽广平坦、起伏很小,海拔一般在200米以下)。? 16.?什么叫等高线?什么叫等高线地形图?(P28)? 答:把一个区域内海拔相同的各点连接成线,这条线就称为等高线。? 将多条等高线按一定比例缩小后投影到平面上,就成了等高线地形图。? [▲表山峰(顶);等高线重合表断崖;山脊与山谷的判读:指低的是山脊,指高的是山凹 。]? (颜 (P35两 没 陆━━亚欧大陆的东部,东临世界最大的大洋━━太平洋,有众多的岛屿和港湾,是一个海陆兼备的国家。这种优越的地理位置,有利于我国发展海洋事业和对外交往。? 19.?我国面积:约960万平方千米(世界第三);东西最大距离约5000千米,南北最大距离 约5500千米;陆上边界长2.2万多千米,大

相关主题
文本预览
相关文档 最新文档