当前位置：文档之家› 话题检测与跟踪的评测及研究综述

话题检测与跟踪的评测及研究综述

第21卷　第6期2007年11月

中文信息学报

J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G

Vol.21,No.6Nov.,2007

文章编号:100320077(2007)0620071217

话题检测与跟踪的评测及研究综述

洪宇,张宇,刘挺,李生

(哈尔滨工业大学计算机科学与技术学院信息检索研究室,黑龙江哈尔滨150001)

摘　要:话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从

1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平

台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TD T 领域的研究现状展望未来的发展趋势。关键词:计算机应用;中文信息处理;综述;话题检测与跟踪;自然语言处理;事件;新闻报道中图分类号:TP391 文献标识码:A

Topic Detection and T racking R evie w

HON G Yu ,ZHAN G Yu ,L IU Ting ,L I Sheng

(Information Retrieval Lab ,School of Computer Science and Technology ,Harbin Institute of Technology ,Harbin ,Heilongjiang 150001,China )

Abstract :Topic detection and tracking ,as one of natural language processing technologies ,is to detect unknown topic and track known topic f rom the information of news medium.Since its pilot research in 1996,several large 2scale evaluation conferences have provided a good environment for evaluating technologies of recognition ,collection and organization.As topic detection and tracking shares similar challenges with information retrieval ,data mining and information extraction in abrupt and successive data ,it has become a hot research issue in the field of nature lan 2guage processing.This paper introduced the background ,definition ,evaluation and methods in topic detection and tracking ,and explored its future development trend through analyzing current research.

K eyw ords :computer application ;Chinese information processing ;overview ;topic detection and tracking ;natural language processing ;event ;news story

收稿日期:2007203213　定稿日期:2007207204

基金项目:国家自然科学基金资助项目(60435020,60575042,60503072)

作者简介:洪宇(1978—

),男,博士生,研究方向为话题检测与跟踪,个性化信息定制;张宇(1972—),男,副教授,主要研究方向为软件容错和基于相应系统的星载计算机的设计与实现;刘挺(1972—

),男,教授,主要研究方向为信息检索和自然语言处理。

1　引言

话题检测与跟踪(Topic Detection and Track 2ing ,简写为TD T )起源于早期面向事件的检测与跟踪(Event Detection and Tracking ,简写为ED T )。TD T 面向多语言文本和语音形式的新闻报道,主要从事报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展以及跨语言检测与跟踪等相关任

务。与ED T 不同,TD T 检测与跟踪的对象从特定

时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。

TD T 的任务以及评测体系是由美国国防高级研究计划局(DA RPA )、马萨诸塞大学(University of Massachusett s )、卡耐基—梅隆大学(Carnegie Mellon University )和Dragon Systems 公司联合制定

中文信息学报2007年

和设计完成的。来自这些单位的学者历经一年的时间对TDT进行了前瞻性的研究(1996～1997,Pilot study)[1],包括检验当前普遍应用于信息检索(Infor2 mation Retrieval,简写为IR)和信息抽取(Information Extraction,简写为IE)等领域的技术是否能够有效解决TDT问题,以及鉴定和设计统一标准的评测规范。虽然大部分IR和IE技术都可以应用于早期的EDT,但过高的误检率说明该领域仍然具备很大的探索空间,尤其对于拓展后的TDT则暴露了更多现有技术的缺陷。因此探索更适合于TDT任务的创新性研究对自然语言领域的发展具有重要意义。

TD T涉及两类最主要的信息获取问题,即信息的检测与集成、信息的采集与跟踪。这两方面的研究课题分别与目前信息检索(IR)和信息过滤(In2 formation Filtering,简写为IF)对应的问题非常相似[2]。在IR系统中,用户通过动态地定义需求(Query),从海量信息中检索满足自己当前兴趣的信息,信息以相关度为尺度进行组织、集成与反馈;而在IF系统中,用户通过定义静态的用户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重于跟踪信息的时空进程并将最新的相关信息反馈给用户。基于这些相似点,许多基于IR和IF的信息获取技术都相应地应用于TD T并获得了良好的效果,尤其近期逐渐发展起来的个性化信息检索技术和自适应信息过滤技术,都与TD T研究具有更深层次的共性。但是, TD T在许多方面与IR和IF存在差异,比如对于TD T的新事件检测任务(New Event Detection,简称为N ED),系统欠缺任何话题的先验知识,TD T 系统必须在对话题毫不了解的情况下,自主地进行识别与检测,这一点与具备了背景知识或先验需求的IR系统截然不同。同时,话题检测系统通常需要维护固定的存储空间保存曾经发生过的话题线索,从而作为衡量新话题的背景信息。对于话题跟踪而言,话题对应的“Query”是隐含给定的,构成话题的是若干(1～4篇)相关报道样本,这与具备明确需求(Profile)的IF问题也不相同。因此,面向IR 和IF的相关方法更多地作为TD T的基础研究,而不能完全解决TD T的相关问题。

本文简要介绍TD T任务与评测的相关知识,重点论述和分析近期国内外在该领域的相关研究及其相互关系,并在篇尾展望TD T领域的未来发展趋势。本文组织结构如下,第二章和第三章分别介绍TD T使用的语料和评价体系;第四章简要介绍话题的含义及其与事件的区别,并概述TD T任务的定义与要求;第五章着重探讨TDT研究的层次关系及体系结构;第六章和第七章分别回顾TDT国内和国外的研究现状;第八章概述TDT领域的研究趋势;第九章结论。

2　T DT语料

LDC为TDT方向的研究提供了五期语料,分别是TDT预研语料、TDT2、TDT3、TDT4和TDT5。TDT语料是选自大量新闻媒体的多语言新闻报道集合。其中,TDT5只包含文本形式的新闻报道,而其他语料同时包含文本和广播两种形式的新闻报道。本章简要介绍各语料的组成、描述及其区别。

2.1　语料组成

TD T评测最早使用的语料是TD T预研语料(TD T pilot corp us,简称TD T2Pilot)。TD T2Pilot 收集了1994年7月1日到1995年6月30日之间约16000篇新闻报道,主要来自路透社新闻专线和CNN新闻广播的翻录文本。TD T2Pilot标注过程没有涉及话题的定义,而是由标注人员从所有语料中人工识别涉及各种领域的25个事件作为检测与跟踪对象。TD T2收集了1998年前六个月的中英文两种语言形式的新闻报道。其中,LDC人工标注了200个英文话题和20个中文话题。TD T3收集了1998年10月到12月中文、英文和阿拉伯文三种语言的新闻报道。其中,LDC对120个中文和英文话题进行了人工标注,并选择部分话题采用阿拉伯文进行标注。TD T4收集了2000年10月到2001年1月英文、中文和阿拉伯文三种语言的新闻报道。其中,LDC分别采用三种语言对80个话题进行人工标注。TD T5收集了2003年4月到9月的英文、中文和阿拉伯文三种语言的新闻报道。LDC对250个话题进行了人工标注,其中25%的话题同时具有三种语言的表示形式,其他话题则以相同的比例均匀地分配给三种语言分别进行标注。此外,TD T5中每种语言的话题来自该语言当地媒体的报道。

LDC根据报道与话题的相关性对所有语料进行标注。其区别在于TD T2与TD T3采用三类标注形式,而TD T4与TD T5采用两种标注形式。前者使用“YES”、

“BRIEF”和“NO”作为报道与话题相关程度的标识。当报道论述的内容与话题绝对相关时标注为“YES”,而报道与话题相关的内容低于本

6期洪宇等:话题检测与跟踪的评测及研究综述

身的10%则标注为“BRIEF”,否则标注为“NO”。TD T4与TD T5只采用相关“YES”和不相关“NO”对报道与话题的相关性进行标注。其中,相关报道不仅需要相关于话题的核心内容,同时需要包含话题的部分信息。但是,报道与话题相关的内容并没有TD T2和TD T3中要求的长短之分,只要存在相关信息都被标注为“YES”。

2.2　语料描述方式

TD T语料包含两种媒体形式的数据流:文本和广播。区别于单一表示形式的文本类新闻报道, LDC为广播类新闻语料提供了三种信息描述方式:

(1)数据信号的音频采集;

(2)对音频的人工识别与记录;

(3)通过自动语音识别系统(Automatic Speech Recognition,简称为ASR)识别和记录音频。

此外,广播类语料不仅包含新闻形式的报道,还包含部分非新闻类报道。其中关于商业贸易的报道以及目录形式的体育比分和财经数据都属于非新闻类语料。因此,LDC为广播类语料额外提供了三种标注形式:新闻报道(N EWS)、多元报道(M ISCEL2 L AN EOU S)和未转录报道(UN TRANSCRIB ED)。其中,没有经过识别与记录的广播报道被标注为UN TRANSCRIB ED。

如前文所述,TD T语料主要包含三种语言形式:中文、英文和阿拉伯文。对于中文和阿拉伯文, LDC提供了两种不同的描述方式:

(1)本地语言描述形式,即报道采用未经过翻译的本地语言。其中包括文本形式(如新闻专线)的描述,也包括采用人工或ASR对本地广播的识别与翻录;

(2)采用机器翻译自动地将中文或阿拉伯文报道翻译成英文形式。

3　T DT评测

N IST为TD T建立了完整的评测体系①。由于各个研究方向针对的问题不同以及历届评测语料的标注方案存在差异,因此TD T不同任务之间的评测方法、参数以及步骤不尽相同。但总体而言,评测标准都是建立在检验系统漏检率和误检率的基础之上。TD T评测公式定义如下:

C Det=C Miss P Miss P t arg et+C FA P FA P non-t arg et(1) 其中,C Miss和C FA分别代表漏检率和错检率的代价系数;P Miss和P FA分别是系统漏检和错检的条件概率;P target和P non-target是先验目标概率(P non-target =1-P target);C Det是综合了系统漏检率与误检率得到的性能损耗代价。检验T

D T系统性能时,评测体系可以根据阈值或平滑系数的变化绘制检测错误权衡图(Detection Error Tradeoff,简称DET曲线),如图1是关联性检测任务中在线概念模型(Online Concept ual Model,简称OCM)与相关性模型(Relevance Model,简称RM)对比实验得到的一组DET曲线图。其横轴表示系统误检率;纵轴代表漏检率。因此,根据评测公式的定义,越靠近DET坐标系左下角的曲线对应的系统性能越好,即漏检和错检

的综合代价相对较小。

图1　DET曲线图样例(分别采用在线概念模型OCM和相关性模型RM实现关联性检测系统的性能对比)

评价TD T系统性能时常采用C Det的规范化表示(C Det)Nom,其定义如下:

(C Det)Norm=

C Det

min(C Miss P t arg et,C FA P non-t arg et)

(2) 针对TD T涉及的语料及评测体系,本文提供了相应资源、指南及工具的获取方法和地址,其主要来源包括美国国家标准与技术研究院(简称N IST)②和语言数据联盟(简称LDC)③。其中TD T 语料可通过光盘邮购和在线L TP下载两种方式获取,具体地址如表1所示。

①

②

③

NIST面向TD T领域的国际评测已因资金问题截止于2004年,但基于网络的技术性能评比仍在继续,详情可咨询NIST 联系人Jonat han,其联系方式为:jonat han.fiscus@https://www.doczj.com/doc/4611630282.html,.

https://www.doczj.com/doc/4611630282.html,/speech/index.ht m

https://www.doczj.com/doc/4611630282.html,/

中文信息学报2007年

表1　评测工具、指南及语料获取方式

名称用途URL P联　系　人

DETware_v2.1.tar.gz gnu_detware.tar.Z TDT3eval_v2.6

Dry Run Evaluation22000 Dry Run Evaluation22001 Dry Run Evaluation22002 Dry Run Evaluation22003 Dry Run Evaluation22004 LDC TDT22TDT5评测工具

指南

索引列表

及

正确答案

语料

https://www.doczj.com/doc/4611630282.html,/speech/tools/index.htm

https://www.doczj.com/doc/4611630282.html,/speech/tests/tdt/tdt2000/dryrun.htm

https://www.doczj.com/doc/4611630282.html,/speech/tests/tdt/tdt2001/dryrun.htm

https://www.doczj.com/doc/4611630282.html,/speech/tests/tdt/tdt2002/dryrun.htm

https://www.doczj.com/doc/4611630282.html,/speech/tests/tdt/tdt2004/dryrun.htm

https://www.doczj.com/doc/4611630282.html,/Obtaining/

jonathan.fiscus@https://www.doczj.com/doc/4611630282.html,

ldc@https://www.doczj.com/doc/4611630282.html,

4　T DT话题定义及任务

4.1　话题定义

最初的TD T研究(TD T Pilot,1996～1997)将话题定义为“事件”。事件是发生在特定时间和地点的事情。比如,“2001年9月11日针对纽约世贸大厦的恐怖袭击”是一个事件,而泛指的恐怖袭击则不是。此外,事件包括可预期事件(如“政府选举”)和突发事件(如“飞机失事”)。从TD T2开始,话题的定义有了更加广泛的含义,不仅包含了由最初事件引起或导致发生的后续事件,同时还包含了与其直接相关的其他事件或活动。直到TD T5,话题都一直沿用如下定义。

话题定义:一个话题由一个种子事件或活动以及与其直接相关的事件或活动组成。

根据话题的定义,一篇报道只要论述的事件或活动与一个话题的种子事件有着直接的联系,那么这篇报道就与该话题相关,比如关于“飞机坠毁”与“坠毁殉难者葬礼”的报道都可以认为与坠毁事件直接相关,因此可以作为该话题的一个组成部分。但话题的外延并不是无限的,比如关于“联邦航空局通过调查飞机坠毁的原因修改航空条例”的报道与飞机坠毁的话题并不相关。

4.2　T DT任务

N IST为TD T研究设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。

4.2.1　报道切分任务

报道切分(Story Segmentation Task,简称SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST 要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。

4.2.2　话题跟踪任务

话题跟踪(Topic Tracking Task,简称T T)的主要任务是跟踪已知话题的后续报道。其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。通常话题跟踪开始之前,N IST 为每一个待测话题提供1至4篇相关报道对其进行描述。同时N IST还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。在此基础上,T T逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。

4.2.3　话题检测任务

话题检测(Topic Detection Task,简称TD)的主要任务是检测和组织系统预先未知的话题,TD 的特点在于系统欠缺话题的先验知识。因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。

6期洪宇等:话题检测与跟踪的评测及研究综述

4.2.4　首次报道检测任务

在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First 2Story Detection Task ,简称FSD )就是面向这种应用产生的。FSD 的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相

关报道。大体上,FSD 与TD 面向的问题基本类似,但是FSD 输出的是一篇报道,而TD 输出的是一类相关于某一话题的报道集合,此外,FSD 与早期TD T Pilot 中的在线检测任务(On 2line Detection )也具备同样的共性。

4.2.5　关联检测任务

关联检测(Link Detection Task ,简称LD T )的主要任务是裁决两篇报道是否论述同一个话题。与TD 类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。因此,LD T 系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。LD T 研究可以广泛地作为TD T 中其他各项任务的

辅助研究,比如TD 与T T 等等。

随着话题检测与跟踪研究的逐步深入与发展,历次N IST 举行的TD T 评测都对该领域内的各项子课题提出了新的设想与方向,因此相应的评测任务也随之有所更改。比如,TD T2004撤销了报道切分任务(SST ),其原因不仅在于评测语料TD T5中没有包含广播类新闻报道,同时也由于应用中的大部分实例片断本身具备了良好的可区分性。此外,TD T2004将首次报道检测任务(FSD )转换成新事件检测任务。虽然TD T2004对N ED 与FSD 给与了相同的定义,但本文将这两者定义为目的不同但相互依存的任务。FSD 与N ED 的区别在于前者注重鉴别事件初次报道的时空位置,后者除此之外还需要检测更多相关于事件的报道并进行汇总。此外,TD T2004首次提出了有指导的自适应话题跟踪(Adaptive Topic Tracking ,简称A T T )和层次话题检测(Hierarchical Topic Detection ,简称H TD )概念。

5　T DT 研究体系

自1996年建立TDT 研究雏形以来,历次评测都为TDT 研究领域内出现的新问题设立相应的评测任

务,截止到TDT2004为止,NIST 提供的所有评测任务基本上覆盖了TDT 领域内大部分研究课题。

TD T 的研究方向主要分为五个组成部分,即报道切分、报道关联性检测、话题检测与跟踪以及针对各项任务的跨语言技术。其中每一项研究都不是孤立存在,而是与其他研究相互依存与辅助。比如,报道切分是一项基础性研究,实际应用中的TD T 系统必须首先保证新闻报道流得到有效切分,才能进一步完成后续的检测与跟踪任务;报道关联性检测的目的在于检验两篇报道是否论述同一话题,而话题检测与跟踪的本原问题恰是检验话题与报道之间,或报道与报道之间的相关性,因此关联性检测是承载TD T 其他各项任务的基本平台,也是性能保证的前提条件;话题跟踪系统的主要任务是跟踪特定话题后续的相关报道,而话题检测系统则在大规模新闻报道流中识别各种未知的话题,因此话题检测实质上为跟踪系统提供了先验的话题模型,而话题跟踪则辅助检测系统完善对话题整体轮廓的描述。此外,TD T 语料以及实际应用中的新闻资源都包含多种语言形式,因此各项TD T 研究任务都需要涉及相应的跨语言技术。总而言之,TD T 研究框架下的各项任务互相关联并统一为有机整体。根据实际应用的需要,TD T 各项任务还可以进一步划分成面向不同问题的子课题,相对完整的TD T 研究体系如图2所示。

图2　话题检测与跟踪研究体系

报道切分总体而言可以划分成两种研究子任

务,一种是基于语音识别系统的报道切分,一种是基

中文信息学报2007年

于内容的报道边界识别。前者的识别对象是未经过翻录的广播,根据语音信号的分布规律划分报道边界;后者则将广播转录为文本形式,根据报道之间主题内容的差异估计报道边界。语音识别系统通常可以相对准确地识别边界,但是边界之间包含的信息却不一定准确地指向一个报道,往往其中包含多个报道。而基于内容的切分系统虽然可以根据话题的内涵识别出不同报道,但报道与报道之间边界的划分相对模糊。因此,如何既能公正地区分报道又能准确地定位边界是SST任务不容忽视的两个主要课题。

早期TD T中的话题检测任务(简写为TD)主要包含首次报道检测(简写为FSD)和在线话题检测(简写为O TD)两项子课题。FSD要求检测系统能够准确定位新话题出现的最初报道,O TD则不仅要求系统识别最新话题,同时需要收集该话题的所有相关报道。FSD可以看作O TD的前提:通常,新话题的首次报道构成该话题的最初描述,后续报道相关性的裁决都以该报道为对照标准,即使随着相关报道逐渐增多,话题模型的质心相应发生漂移,但是话题的主线并没有脱离首次报道描述的内涵。相反,O TD是对FSD的补充:新话题不仅包含对其进行报道的第一篇文本,同时也包含后续与之直接相关的外延,只有综合所有相关报道才能完整地勾勒出对应的话题。

近期,TD研究领域得到进一步拓展。其中, TD T2004设置了新事件检测(简称为N ED)任务, N ED要求检测系统能够针对具备时间顺序的新闻语料及时地检测出最新发生的事件。N ED与FSD 面向的问题非常类似,区别在于检测对象从话题具体化为事件,其原因是某些话题跳跃式出现的特性,即话题在消失一段时间后重现并起源于一个新的事件。比如关于“恐怖袭击”的话题包括2001年“9.11”自杀式炸弹袭击;2002年印度尼西亚的巴厘岛惨案和2004年马德里系列爆炸案等。其中,历次恐怖袭击都是一个种子事件并伴随大量相关报道,因此话题在不同时间由不同事件多次引发,从而成跳跃式地出现。话题的这一特性引起了关于TD研究的两种思考,即怎样区分不同事件引发的相同话题;是否当前被检测到的话题在历史上从未出现过。NED就是面向第一种思考提出的检测任务,区别于传统的FSD系统,NED更关注特定时间与地点发生的最新事件。此外,Y iming Y ang[30]提出一种回顾式话题检测(简称为RED)的研究方向,目的在于回顾历史上所有报道,检测与话题相关的所有事件。由此,NED与

RED补充了TD研究中出现的上述两项课题。

TD T2004设置的另外一项新任务是层次话题检测(简称为H TD),目的在于区分报道内容在层次上的差异,从而建立结构化的话题模型。总体而言,话题检测研究的发展逐步面向结构化和层次化,TD 系统不仅需要善于识别话题和收集相关报道,同时需要有效分析话题内部的层次结构、区分不同组成部分并挖掘外界的相关历史信息。

区别于未知话题识别的TD系统,话题跟踪(简称为T T)的主要任务在于跟踪已知话题的后续报道。通常,突发事件的产生会引发大量相关报道,随着事件受关注程度的降低,相应报道逐渐衰减直至消失。在这个过程中,话题在不同历史阶段的论述重心将有所漂移。比如,2001年“9.11”事件发生的最初一段时间内,大量报道主要集中于事件本身,包括“客机撞击世贸”、“世贸大厦损毁”以及伤亡情况统计;随着事态的发展,相关报道的重心逐渐转移到“灾后处理”、

“事件调查”和“美国民众的反应”;最后话题集中于“恐怖主义”、

“反恐战争”以及“世界范围内的反恐政策”等等。因此,一个完整的话题不仅包括最初事件的相关报道,还涉及后续相对拓展的外延,T T任务就是面向这一问题提出的。TD T2004设置了有指导的自适应话题跟踪任务(A T T),其与传统T T系统的区别在于嵌入了自学习机制,可以使跟踪系统实时地依据话题的发展自动更新话题模型,从而有效追踪话题的报道趋势。

6　T DT国外研究现状

6.1　关联检测(LDT)

LD T的主要任务是检测随机选择的两篇报道是否论述同一话题。与其他TD T任务不同的是LD T研究并没有直接对应的实际应用,但是它对其他TD T研究起到的辅助作用却是无法忽视的。比如,新事件检测任务(N ED)中,N ED系统可以通过LD T鉴定候选报道与每个先验报道之间的相关性,从而判断候选报道是否论述了一个新话题,或者相关于先验报道隶属的旧话题。就传统基于概率统计的TD T研究而言,报道与话题或者报道与报道之间的相关性,都是通过检验两者之间共有特征的覆盖比例进行评判。换言之,两者共有的特征越多,那么它们相关的可能性越大。因此,大部分针对LD T 的研究都将问题的重心集中于文本描述以及特征选

6期洪宇等:话题检测与跟踪的评测及研究综述

择。J ames Allan[3]和Schultz[4]采用向量空间模型(简称为VSM)描述报道的特征空间,根据特征在文本中的概率分布估计权重,利用余弦夹角衡量报道之间的相似性。此外,Leek[5]和Yamron[6]将参与检测的两篇报道分别看作一个话题和一篇报道,采用语言模型(简称为L M)描述报道产生于话题的概率,并通过调换两篇报道的角色分别从两个方向估计它们的产生概率,最终的相关性则依据这两种概率分布,采用Kullback2Leibler Divergence[7](简称为K LD)算法综合得出。VSM和L M存在的主要缺陷在于特征空间的数据稀疏性,通常解决这一问题的方法是数据平滑技术,但是平滑得到的特征权重往往被泛化,从而无法有效描述文本内容上的差异。另一种解决数据稀疏的方法是特征扩展技术。在信息检索中,特征扩展主要应用于Query扩展,其核心思想是将Query中的特征扩展为同义或直接相关的其他特征,从而降低稀疏性。Ponte和Croft[8]采用向量空间模型,并基于特征上下文的扩展技术执行LDC任务,其选择待测报道中权重较大的特征作为扩展对象,通过围绕特征经常出现的上下文信息[9]对其进行扩展,特征空间由原始和扩展的特征项共同组合而成。扩展技术不仅有助于解决数据稀疏问题,同时可以辅助LDC系统削弱特征的歧义性。

6.2　话题跟踪(TT)

6.2.1　传统话题跟踪(T T T)

传统话题跟踪(Traditional Topic Tracking,简写为T T T)主要包括基于知识和基于统计的两种研究趋势。前者的核心问题是分析报道内容之间的关联与继承关系,通过特定的领域知识将相关报道串联成一体。后者则根据特征的概率分布,采用统计策略裁决报道与话题模型的相关性。

基于知识的T T T研究中,比较有代表性的方法是Watanabe[10]面向日本语新闻广播开发的话题跟踪系统。Watanabe通过形如“正如我所提到的……”、

“正如我所报道的……”和“正如近期发生的……”等领域知识,检测论述同一话题的相关报道。该方法能够显著提高特定知识领域的话题跟踪性能。

基于统计策略的T T T研究则主要借鉴于基于内容的信息过滤(简称为IF)。如前文所述,IF面向静态需求从动态的信息流中识别和获取相关知识, T T T则根据先验的话题模型追踪后续相关报道。虽然T T T更关注突发事件的识别与跟踪,但任务整体框架的相似性决定了IF中的许多相关技术都可以有效地应用于T T T。其中最有代表性的方法是基于分类策略[11,12]的话题跟踪研究,比如CMU[13,14]在T T T评测中采用了两种分类算法,分别是k2最近邻(k2Nearest Neighbor,简写为KNN)和决策树(Decision t ree,简写为D2tree)。其中, KNN首先根据内容的相关性选择当前报道最相似的k个先验报道作为最近邻,然后根据最近邻所属话题类别综合判定当前报道论述的话题;D2t ree则根据训练语料预先构造话题的决策树,该树型结构中的每个中间节点代表一种决策属性,即报道相关于话题的条件,节点产生的分支则分别代表一种决策并指向下一层子节点,决策树的叶节点代表话题类别,输入决策树的待测报道经过逐层节点的判断,最终划分于特定话题类别。KNN与D2tree面临的主要问题是先验相关报道的稀疏性,T T T任务一般只给定少量相关报道作为训练(1～4篇)。稀疏性造成KNN算法无法使待测报道的最近邻涵盖大量正确的相关报道,从而根据这些近邻得到的判断往往指向错误的话题模型;而D2tree则在训练过程中无法为每个属性节点嵌入准确的决策条件。总体而言,KNN的性能优于D2tree,其原因在于前者可以通过缩减最近邻的规模保证跟踪的正确率;而后者则受限于多层属性需要同时产生正确的决策,而相关报道稀疏的训练语料使多数属性本身不够准确(比如Bigram的概率统计),因此在没有改进漏检率的情况下加大了误检率。

UMass[15]采用二元分类方法跟踪话题的相关报道。UMass借鉴了OD T的相关研究,即陆续到来的后续报道或者与已有话题相关,或者论述的是新话题。基于这种假设,二元分类将训练语料划分为相关和不相关两种报道类别,并根据两类报道与话题相关性的概率分布训练线性分类器[16,17],后续报道的相关性依据线性判别式进行裁决。二元分类方法的优点在于精确率很高,但必须依赖训练语料和分类器的选择,通常选择相关度指标较高的不相关报道构成反例类别,从而保证分类面的灵敏度;分类器的选择则必须确保线性判别式在训练过程中有解,而整体性能可以通过Boosting算法[17]进行提高。与KNN和D2tree类似的是,先验相关报道的稀疏性一定程度上影响了二元分类方法的召回率,UMass相应地采用Query扩展技术完善了这一缺陷。

J ames Allan[2]和Michael[18]采用Rocchio算法

中文信息学报2007年

实施跟踪。Rocchio[2]的核心思想是话题模型经验性的构造策略,即假设相关报道中的特征有助于话题的正确描述,因此这些特征在话题模型中的权重被加强,而不相关报道中的特征则趋向于错误地引导话题描述,因此权重被削弱。Rocchio算法的最大优点是:T T T系统可以利用跟踪到的后续报道不断改进和更新话题模型,从而跟踪话题的后续发展。缺陷在于Rocchio算法对阈值的依赖程度很高:如果初始阈值设置过高,则后续相关报道的漏检率加大;如果阈值设置过低,将引入大量噪声。其中,后者对TTT性能造成的损失最大,因为大量噪声直接误导话题模型的更新,从而导致跟踪方向的偏差。

其他面向T T T的研究工作还包括话题与报道的相似度匹配算法,比如Dragon[25]分别通过基于一元语言模型的文本相似度匹配[19]和基于二项式的相似度匹配[20]衡量话题与报道的相关性。而Franz和Carley[21]则尝试采用聚类方法将话题检测系统转化成跟踪系统。近期,Y iming Yang[22]和Larkey[23]分别采用小规模的先验报道翻译模型和源语言模型进行跨语言T T T研究。上述方法对于传统的话题跟踪任务能够发挥较好的作用,但由于构造话题模型的初始信息相对稀疏,因此无法有效跟踪一段时期以后话题的发展。

6.2.2　自适应话题跟踪(A T T)

如前文所述,N IST为话题跟踪任务仅提供1～4篇相关报道用于构造话题模型。类同的是,实际应用中的用户对突发性新闻具备的先验知识通常也很少,这就造成初始训练得到的话题模型不够充分和准确。因此,一种具备自学习能力的无指导自适应话题跟踪(Adaptive Topic Tracking,简写为A T T)逐渐成为T T领域新的研究趋势。总体而言,A T T的相关研究主要包括两个方面,即基于内容和基于统计的方法。

在基于内容的A T T相关研究中,GE R&D[24]尝试采用文摘技术跟踪话题的发展趋势。其核心思想是分别提取话题与报道的文摘代替全文描述,话题与报道之间的相关性通过文摘之间的相似度进行计算。通常,话题的相关报道在不同历史时期的侧重点不尽相同,因此话题的发展以初始事件为主线,并以后续直接相关的其他事件和活动为延续。基于这一特点,GE R&D将先验相关报道中的事件主体和相关外延以文摘的形式进行提取与组合,根据这种方法构造的话题模型除了涵盖主题信息以外,更注重话题发展的层次结构,从而使跟踪系统更善于检测话题的后续进展。其缺陷在于,GE R&D的跟踪系统没有嵌入自学习机制,话题模型没有利用检测到的后续相关报道自适应地进行更新。因此,当跟踪进行到一定阶段后,系统无法识别最新的相关报道。

基于统计策略的A T T研究主要借鉴于自适应信息过滤。核心思想是A T T系统可以根据伪相关反馈对话题模型进行自学习,不仅为话题嵌入新的特征,同时动态调整特征权重。其优点在于削弱先验知识稀疏造成的话题模型不完备性,并通过不断自学习提高A T T系统跟踪话题发展的能力。Dragon[25]和UMass[26]是最早尝试无指导A T T研究的单位之一。其跟踪系统每次检测到相关报道,都将它嵌入话题模型并改进特征的权重分布,后续报道的相关性则以新生成的话题模型为评估对象,从而实现跟踪系统的自学习功能。Dragon[25]与UMass[26]的区别在于,前者把系统认为相关的报道嵌入训练语料,并基于语言模型构造新的话题模型;后者则将所有先验报道的质心作为话题模型,并将先验报道与话题模型相关度的平均值作为阈值,后续跟踪过程中每次检测到相关报道,都将其嵌入训练语料,并根据上述方法重新估计话题模型和阈值。总体而言,这两种方法并没有很大程度地提高话题跟踪系统的性能。其主要原因在于自学习模块对于跟踪反馈不施加任何鉴别地全部用于话题模型的更新,而系统反馈本质上是一种伪反馈[27],即同时包含相关报道和不相关报道,因此学习过程将大量不相关信息也嵌入话题模型,从而导致话题漂移[14,28]。基于这一现象,L IMSI[29]在原有自学习过程中嵌入二次阈值截取功能,通过设置一个比阈值更高的过滤指标,截取伪反馈中相关度较高的报道嵌入话题更新模块,从而削弱了话题漂移。通常, A T T自学习过程中的核心问题是特征权重的更新策略,L IMSI[29]比较了基于静态和动态两种方式的权重更新策略:前者对权重的更新指标乘以经过训练的固定参数;后者将报道与话题的相关度映射为线性函数,特征权重根据线性函数动态确定。

该方法的特点在于话题每次更新后,特征权重基于话题模型的条件概率都相应得到改进。此外,动态更新机制优于静态更新的另一个原因在于,前者的特征调整融和了报道与话题模型的相似度,并且所有伪反馈都可以参与更新;而后者则独立地根据概率分布估计权重,并且必须依靠经验性的阈值,截取最相关的报道参与更新,因此在没有明显提高精确率的同时,大量损失召回率。

6期洪宇等:话题检测与跟踪的评测及研究综述

目前,话题跟踪的相应研究已经取得很好的效果,但如何更有效地追踪话题的后续发展仍然是该领域有待深入研究的课题。近期更多的研究集中于相关报道的概率分布和话题随时间衰减趋势的估计。未来的研究重心在于如何有效利用新闻语料的时间特征,并分析话题发展在时间轴上的分布。

6.3　话题检测(T D)

6.3.1　在线话题检测(O TD)

在线话题检测(On2line Topic Detection,简写为O TD)的主要任务是检测新话题并收集后续相关报道。通常,O TD系统的检测原理集中于相关报道的聚类算法,即在线监视后续的报道数据流,如果截获与之前聚类得到的话题不相关的报道,则检测到一个新话题,否则将该报道融合于相关聚类。对于O TD的早期研究主要集中在聚类方法的选择与融合上。比如,参加在线话题检测任务的所有单位都尝试使用单路径聚类算法对新话题进行检测。此外,CMU同时尝试采用凝聚层次聚类算法进行检测[30],但是获得的效果略差于单路径聚类。而Pap2 ka[31]则对比了不同聚类算法在O TD中的效果并尝试融合各自的优点解决O TD问题。

6.3.2　新事件检测(N ED)

正如TD T研究体系中所提到的,FSD任务忽视了话题出现的跳跃性,从而使检测到的新话题经常是某些已知话题在不同时期出现的相关事件。因此,新事件检测(New Event Detection,简写为N ED)逐渐成为辅助话题检测(TD)的重要组成部分。N ED与首次报道检测(First Topic Detection)任务很相似,唯一的区别在于前者提交的最新事件可能相关于历史上的某一话题;后者必须输出话题最早的相关报道。N ED中的主流方法来自于J ames Allan[32]和Y iming Yang[33],他们通过建立一个在线识别系统(OL2S YS)检验报道流中新出现的事件。其中,陆续进入OL2S YS系统的报道需要与每个已知的事件模型计算相关度,并根据先验阈值裁决报道是否为新事件的首次报道,如果条件成立则根据该报道建立新的事件模型,否则将其嵌入已知事件模型。后期N ED的相关研究以这种统计方法为框架,涉及两个方面的改进,即建立更好的文本表示形式和充分利用新闻语料的时间特征。

传统的N ED研究采用基于统计原理的文本表示形式,其中最常用的表示方法是向量空间模型(VSM),事件模型与报道的相似度计算则相应地采用余弦夹角和Hellinger距离公式[34]。统计模型的缺陷之一在于事件空间中的噪声信息对新事件检测造成的负面影响。基于这一问题,Y iming Yang[33]采用分类技术将先验的报道划分为不同类别,区别于将类别中的所有相关报道作为事件描述,Y iming Yang只选择每个类别中最优的相关报道描述事件模型,基于这种方法的N ED系统在性能上获得了显著的提高。

统计模型的最大缺陷在于无法有效区分同一话题下的不同事件。前文曾经提到,话题经常被不同事件触发而重复出现,因此话题描述的是所有相似事件具备的共性,而事件之间的区别则集中于时间、地点和人物等实体之间的异同。仍然以“恐怖袭击”话题为例,其包括2001年“911”自杀式炸弹袭击事件;2002年印度尼西亚的巴厘岛惨案和2004年马德里系列爆炸案等。从内容上分析,这些事件的相关报道中都会频繁出现“恐怖分子”、“自杀式”、“袭击”、

“损毁”和“死亡”等特征,并且这些特征在报道中出现的频率相对最频繁。因此,根据传统基于统计的策略,这些特征往往构成事件模型的主体,从而无法有效区分同一话题框架下的不同事件。与此不同的是,以名实体为主的特征集合,如“9.11”、“美国”、

“巴厘岛”和“马德里”等,对于不同事件的区分贡献度更高。由此,Kumaran[35]、J ames Allan[36]、Y iming Yang[37]和Lam[38]等学者使用自然语言处理(NL P)技术辅助统计策略解决N ED问题。其中最常用的NL P技术是命名实体(Named Entities,简称为N E)识别。比如Kumaran[35]以Y iming Yang的分类方法为统计框架,将报道描述成三种向量空间,分别为全集特征向量、仅包含N E的特征向量和排除N E的特征向量。最终Kumaran对比了三种向量空间模型对新事件检测的影响,并验证N E极大地促进了事件之间的区分。

N ED研究应用时间特征的方式有两种,一种是基于文档输入的时间顺序,采用KNN分类技术;另一种是采用时间为参数的衰减函数[30,34]改进基于内容的相关度计算方法。这些研究在一定程度上提高了N ED系统的性能。因此,N ED未来的研究趋势将以区分话题与事件在时间轴上的概率分布为主线,并辅以NL P与统计策略相结合的事件与报道描述方法。

6.3.3　事件回顾检测(RED)

事件回顾检测(Retrospective News Event De2

中文信息学报2007年

tection ,简写为RED )

的主要任务是回顾过去所有发生过的新闻报道,并从中检测出未被识别到的相关新闻事件。对于RED 研究方向的理解必须涉及到事件与话题的定义。前文曾经提到事件是发生在特定时间和地点的事情,而话题则不仅包含作为种子的事件或活动,同时也包含与其直接相关的事件与活动。因此,RED 的任务实际上是辅助话题检测系统回顾整个新闻语料,从中检测相关于某一话题却并未被识别到的一类新闻事件。RED 研究的必要性来源于话题波动出现的特性。比如,CNN 关于“圣诞前夜”的话题在每年的圣诞前夕都会成为新闻与广播最关心的事件,其相关报道的概率分布如图3所示。因此,同一话题跳跃式地出现于不同时间,并且每次出现都伴随着大量相关报道。基于新闻语料的这种特性,话题检测系统往往只能识别出局限于一个时期的事件,而构成话题的全部事件并没有有机地结合起来,而是独立地作为一个话题被误检。RED 研究就是面向话题检测系统的这种缺陷提出的。

图3　MSNBC (上)和CNN (下)关于万圣节前夕的报道分布

首次提出RED 研究并给予定义的学者是Y im 2ing Yang

[30]

。其采用凝聚式聚类算法与批平均聚

类算法相结合的策略,将近似于同一话题模型的相关事件综合在一起作为话题检测的结果,从而使TD 系统具备了回顾相关事件的能力。此外,Li [39]

采用基于内容和时间的联合概率模型构造话题空间,从而有效识别话题在不同历史时期涉及的相关事件。虽然独立于RED 方向的相关研究较少,但由于RED 与N ED 中都涉及到未知事件的识别与发现,因此许多学者尝试使用N ED 中的相关研究同时处理RED 问题。

6.3.4　层次话题检测(H TD )

TD T2004定义了一项新的话题检测任务:层

次话题检测(Hierarchical Topic Detection ,简写为

H TD )。H TD 是面向话题检测中两种不恰当的假

设提出的,其中一个假设是所有报道与相关话题的近似程度都在一个层次上,而另一个假设是每篇报道只可能相关于一个话题。实际上,报道的主题与话题的相关程度往往分布于不同层次,比如“人民币升值”和“建行、交行上市”两篇报道,虽然它们都相关于同一话题“2005中国十大金融事件”,但是主题侧重点的差异造成它们与话题的对应程度处于不同层次。此外这两篇报道都可以分别划分到“汇率制度改革”类和“商业银行改革”类的话题模型当中,因此报道不总是仅仅相关于一个话题,往往不同话题的相关报道存在交集。H TD 通常可以采用基于一个根节点的非循环有向图(Directed Acyclic Grap h ,简写为DA G )描述话题包含的层次结构[40]。其中,根结点抽象地代表所有话题;沿有向图方向延伸的子节点则描述比父节点更具体的一类话题。因此,H TD 的主要任务是检测经过聚合得到的DA G 体系中,每个话题的聚类效果,以及根节点与该话题之间路经的复杂度。映射为实际应用则是检验H TD 系统是否能够辅助用户通过最便捷的查询获得最优的一类报道。

一种解决H TD 的方法是凝聚层次聚类算法(Hierarchical Agglomerative Clustering ,简写为HAC )。其核心思想是计算当前聚类集合中每对聚类的相关度,将满足阈值条件的一对聚类融合成新的聚类,通过反复迭代这一过程,系统最终把话题模型构造成具有层次关系的DA G 。HAC 的一个重要的缺陷是时间和空间复杂度过高,比如TD T5总共包含400000篇报道,直接采用HAC 的时间和空间复杂度分别为O (n 2log (n ))和O (n 2),仅存储空间就需要80gigabytes ,因此HAC 不适合直接应用于H TD 。对HAC 的一种改进方案是混合聚类算法,相关的研究来自Cutting [41]。HAC 的另一种改进来自TNO [42]的增量式层次聚类算法,其首先随机抽取小规模样本通过层次聚类构造初期的DA G 体系,然后将不对称的聚类结构通过二次分支进行优化,最后将其余报道根据相关度大小融合于DA G 体系,其中相关度大于特定阈值的报道被嵌入DA G 中已有的话题,而相关度小于特定阈值的报道则确定一个新的话题结构。TNO 的增量式策略在不损失聚类性能的同时,降低了由根节点检测到话题的复杂度。6.4　跨语言T DT

TD T 研究面对的信息是包含多种语言的新闻

6期洪宇等:话题检测与跟踪的评测及研究综述

报道。无论是基于语料本身的语言多样性,还是面向实际应用的需要,TD T的相关课题都需要涉及跨语言领域的相关研究。N IST为TD T的评测提供了机器翻译(Machine Translation,简称为M T)功能,基于不同语言的语料可以通过M T相互转化,从而由源语言和翻译语言共同组成形式统一的多源单一语言[23](Multiple Language2specific,简称为ML S),比如英文语料以及翻译成英文形式的中文语料。因此大多数参加TD T评测的系统都是基于ML S的语言环境,对话题与报道模型进行描述。随着跨语言技术的发展,包括J ames Allan[43]、Leek[6]和Levow[44]在内的一些学者尝试采用不同的翻译策略解决TD T研究中的跨语言问题,并比较了机器翻译和其他翻译技术在TD T中的效果。这些研究的主要贡献在于规范化了基于翻译语言模型的相关度计算,从而削弱错译对系统整体性能的影响,但是这些工作仍然是一种面向单一语言符号的统计策略,而每种源语言本身具备的结构和上下文关系,以及特征的实际内涵都不能通过翻译的手段有效识别。

基于上述问题,目前跨语言TD T的核心问题是怎样在面向多语言信息时,使系统能够在不脱离任何一种语言的本原环境下运行。针对这一需要, UMASS的Larkey[23]尝试采用源语言模型解决跨语言问题。他首先建立了本地语言假设(Native Language Hypot hesis,简称为NL H),其核心内容是:组成两篇报道内容的特征如果来自同一种源语言,那么针对这两篇报道之间的任何匹配算法,都只能在基于源语言的情况下才能获得最优的效果,而不是经过翻译的其他语言。TD T中所有任务都涉及的一个基本问题是信息与信息之间相关性的衡量与评价。因此,NL H可以广泛地运用于TD T中各项课题的跨语言研究。以话题跟踪(T T T)任务为例,话题只有很少的训练样本作为先验知识,并且这些训练样本都采用同一种语言进行描述,而后续报道流的描述语言则是多样的。这就给基于NL H的跨语言跟踪造成了困难,因为NL H要求参与匹配的报道对象,必须采用同一种源语言进行描述。Larkey的解决办法是在系统运行初期采用机器翻译将报道转换成与话题模型相同的语言形式,如果检测到相关报道并且该报道的源语言与话题模型不相同,则将该报道作为话题模型新的训练样本并采用源语言进行描述。基于这种方法,话题模型的结构由不同语言形式的子结构共同组成,后续的报道流可以在满足NL H的假设下与话题模型进行匹配。这种方法的缺陷在于,源语言结构的性能对最初通过机器翻译得到的相关报道依赖性很强,如果机器翻译为源语言结构提供了错误的训练样本,那么即使后期的报道流可以在本源特征环境下进行匹配,也会因为话题模型的偏差被误导。

此外,Jin[45]采用统计策略解决跨语言问题。其核心思想是:特征空间的上下文本身蕴含了源语言的语义信息,从而可以代替M T解决TD T的跨语言问题。该方法中没有涉及到文本的机器翻译,而是把文本描述成由独立特征组成的集合,而这些特征都在一种语言形式下进行表示。基于这种语言环境,Jin采用Bayesian算法匹配话题与报道的相关度。Jin的方法在性能上略优于采用M T的匹配算法。其原因在于语言的多义性往往使特征无法得到M T的正确翻译,从而误导文本匹配。但是,完全基于统计策略的跨语言方法仍然无法获得更大的提高,因为特征空间的上下文虽然蕴含了语义信息,但也给文本的描述引入了大量不相关的噪声。因此, Leek[46]采用自然语言信息与统计策略相结合的方式对其进行改进,其利用特征所在的上下文以及词典知识描述特征:对非英文文本提取出现频率最高的若干特征,通过词典查找特征对应的英文含义,并在这个基础上通过英文语料背景获取特征的上下文及其权重。因此,每个非英文特征都是通过它在词典中对应的所有英文特征,以及这些英文特征在英文语料中的上下文统计而成。基于这种方法,TD T 系统的跨语言性能获得了明显的提高。

7　T DT国内研究现状

TD T作为信息处理领域新颖的研究分支逐步成为国内重要的研究热点。相比于国外以统计概率模型为主体的研究趋势,国内的相关研究更侧重基于TD T本身的特色进行探索。TD T处理的信息是面向真实新闻事件的报道,其语义描述的精确性和可区分性更依赖于实体元素[47];此外,事件的产生和后续发展包含了报道之间的时序关系,其要求TDT 系统不能单一基于内容建立相应的话题模型,而是融合时序特性参与检测报道间的关联性和跟踪话题的演化趋势[48]。在此基础上,国内的相关研究也面向建立结构化和层次化的话题模型进行了初步尝试。

名实体是描述话题或报道语义的一类特殊语言单位,其对于精确刻画核心内涵和区别不同主题具有重要意义。TD T系统应用名实体改进性能的方

中文信息学报2007年

法主要包括如下两方面:⑴名实体特征权重的再分配,即希望区别名实体与其他特征对语义描述的能力;⑵名实体相关性与其他特征相关性的线性组合,即希望通过人工或自动的方式调整名实体在相关性匹配过程中发挥的作用。国内较早将名实体融入TD T系统的研究来自贾自艳[49],其将文本内的特征标记为人名、地名和主题信息等类别,并预先指定每种特征类别的价值系数,特征的最终权重为词频和其所属类别价值系数的乘积。赵华[50]则通过分析英文写作的习惯,自动识别新闻报道中首字母大写和全部大写的特征,其认为该类特征不仅包含名实体,也包含报道需要重点强调的特征,并在此基础上采用相关度加权和的方式评估话题与报道的相关性。上述方法在一定程度上改进了TD T系统的性能,但由于是经验性地分配权重或调整相关性线性比例,因此无法保证系统性能的稳定性。张阔[51]基于χ2分布统计TD T2中各名实体类别(人名类、地名类和机构名类等)与各话题类别(金融类、自然灾害类和科技类等)的关联性,并将这一关联性的量化指标融入特征权重的再分配,其在提高N ED系统性能的同时确保了这一改进的稳定性。限制名实体在TD T领域性能的另一因素是义同形不同的实体无法匹配。针对这一问题,宋丹[52]面向地点类名实体建立地理树,匹配过程基于两名实体在地理树中路径的覆盖率进行计算,如“北京”在地理树中的路径“亚洲—中国—北京”与实体“北平”的路径基本一致,其高覆盖率可以有效匹配两实体之间的关联性,但该方法因无法处理诸如人名类等其他实体而存在局限性。在此基础上,骆卫华[53,54]基于概念一致性匹配同义的名实体,其通过建立别称表和后缀表识别不同形态的名实体是否隶属于同一概念,如通过别称表识别“李光耀”和“李资政”为同一概念;而基于后缀表识别“江苏省”和“江苏”为同义实体,该方法的缺陷在于依赖词典的规模和训练语料的新旧,对于报道流中最新出现的名实体依然无法匹配。

如前文所述,话题起始于种子事件并包含后续相关事件,而构成事件描述的一项重要特性是其产生的时间,因此话题模型内各相关报道之间往往具备时序关系。国内将时序融入TD T领域的主要策略是将其作为相关性评估的附加元素,通过线性加权的方式调整相关度指标。贾自艳[49]建立了统一时间表述方式的机制,在此基础上将当前报道与话题框架下新近事件的时间取差值,并利用该指标削弱基于内容匹配获得的相关度,其基本思想是:报道与事件时序关系越近,则它们相关的概率越大。该方法提高了TD T系统检测与跟踪话题演化趋势的性能,与其相似的工作是赵华[55]面向话题演化边界识别的研究,其训练一项表征话题演化周期的阈值,检测后续报道与话题模型内最新事件的时间差是否高于该阈值,将满足这一条件的报道作为话题演化的边界,该方法同样改进了TD T系统的性能。但由于上述方法或基于经验性的假设,或依赖于训练语料的规模,因此不能确保系统性能的稳定。有助于解决这一缺陷的研究来自宋丹[52]的时间“覆盖矩阵”,其将相关性匹配双方的时间信息统一为标准格式,并分别映射于横纵时间轴上的点,基于对角线检测所有同步点及其时间间隔,在此基础上以所有间隔的覆盖率描述匹配双方时序关系的相似性。该方法可获得相对稳定的性能提高。但如6.3.3节所述,话题的出现存在跳跃性,即在较长历史时间段内,同一话题在一定周期内规律性的出现。这一现象限制了上述假设,即时序关系较近或匹配双方包含较多近似时间信息则相关性较高。因此,国内在TDT 领域应用时序关系的研究仍有较大可提升的空间。

话题模型层次化和结构化是目前TD T领域重要的研究方向。其中,层次化面向将同一话题下的相关报道组织为宏观到具体的层次体系;结构化则侧重挖掘和表征同一话题的不同侧面。国内尝试建立层次化话题模型的研究来自骆卫华[53]和张阔[51],前者首先基于时序关系对报道分组,然后进行组内自底向上的层次聚类,最后按时间顺序采用单路径聚类策略合并相关类;后者则面向报道全集建立层次化的索引树,树中第一层节点对应特定话题,而其子树则描述了该话题的层次体系,其建树过程基于输入的报道相对于树中各层次节点是否为新事件进行组织。上述两种策略在改进检测性能的同时也提高了系统效率,但在如何基于层次关系刻画话题语义及其演化趋势方面仍需要更深入的探索。针对结构化话题模型的研究来自赵华[55]和金珠[56]。前者分别尝试基于时序和特征分布密度识别话题演化的边界,在此基础上以演化边界为划分将话题描述为初始质心和当前质心两项子结构,后续报道与话题的相关性取自其与两项质心的相关性最大者。后者则对话题内的相关报道进行聚类,抽取聚类中的特征建立事件框架以描述话题的不同侧面,此外其通过HowNet建立事件内的情态关系和角色框架,扶助描述话题不同侧面的倾向性。该两种方法提高了话题跟踪系统的性能,尤其前者对话题演化趋势的

6期洪宇等:话题检测与跟踪的评测及研究综述

识别和描述提高了跟踪系统的实用性。

总体而言,国内相关研究侧重挖掘TD T领域的特性,在方法上注重统计策略和自然语言处理技术相结合,在研究趋势上逐步面向融入数据挖掘、事件抽取和篇章理解等相关技术。此外,国内相关研究也朝着更加细化(如话题演化趋势的识别与跟踪)和更加实用化(如复旦大学媒体计算与WEB智能实验室的“互联网舆情分析跟踪系统”①)的方向发展。

8　T DT研究的发展趋势

基于概率模型以及自然语言处理技术的信息描述与匹配方法在TD T中得到广泛应用:前者利用特征的概率分布以及特征之间的共现率等统计信息描述文本,后者则利用特征的语言学信息描述文本,比如词性、词义、命名实体和指代关系等。TD T采用最多的概率模型包括向量空间模型(VSM)[23]、语言模型(L M)[57,58]和相关性模型(RM)[60,61]。概率模型通过分析特征在信息集中的概率分布建立话题与报道的描述,并采用机器学习(ML)的相应策略匹配特征空间的相关性。这种方法的缺陷在于忽视了特征自身携带的语言信息,同时也遗漏了短语级、句子级和篇章级的结构与层次。此外,概率模型只将特征出现的频率和特征之间的共现率作为评价权重大小的标准,但自然语言中的指代关系、一词多义和名词短语等现象却并不支持这一理论。随着TDT 的发展,更加智能化的自适应学子机制成为领域内的研究热点,这就对TDT系统正确理解知识提出了更高的要求,而传统基于统计策略不能真实地描述其语义空间,因此基于NL P技术及其与统计学原理相融合的相应研究将逐步成为TDT领域中的重要方向。

J ames Allan[36]是最早使用NL P技术解决TD T问题的学者之一。其采用VSM描述话题和报道,并对模型中的命名实体赋予更高的权重,以此执行TD T中的新事件检测(N ED)任务。但这种方法并没有获得性能上的提高,主要原因在于其采用的命名实体加权方法是一种经验性的策略,而没有遵循语言学的原理进行估计。对于这种方法的一种改进来自Nallapati[59],其首先将特征划分到不同的语法类别,比如词性中的名词类和动词类,以及命名实体中的时间类、人名类和地点类。在这个基础上采用语言模型的概率统计方法,估计特征产生于不同语法类别的概率,并以此标记特征的权重。另一类应用于TD T中的自然语言处理技术是语义链(Lexical Semantic Chaining,简称为L SC)。L SC是基于文本结构的凝聚假设[62]提出的,即构成文本的特征、短语和句子不是孤立存在,而是趋向于围绕一个中心内涵进行组织与论述。L SC的含义是一组语义上具有继承性的相关特征。通常,来自一篇文本中的语义链不仅能为特征塑造相关的上下文,同时可以更好地描述文本内涵的继承性。最初, Hasan[63]使用L SC描述词汇的凝聚性,并基于这种模型评价文本之间的相关程度。Morris和Hirst[62]随后设计了基于词汇资源自动构造L SC的算法。近期使用L SC解决TD T问题的研究主要来自Stokes和Hatch[64,65],其结合使用词典信息(Word2 Net)和文本的上下文信息同时构造L SC,并基于L SC的文本描述形式采用单路径聚类算法解决新事件检测(N ED)问题。语义链的使用从语言学的另一种角度解决文本的描述问题,即语义。通常, L SC有两个优点,一个是语义链具备的上下文信息和词典结构信息可以有效削弱特征的歧义性;另一个优点在于对特征的扩展作用,即使原始文本之间特征的词形迥异,但词典提供的扩展信息仍然可以有效地将其关联在一起。目前,NL P技术在TD T 领域的应用已经逐步开展,并在一定程度上弥补了统计学原理在知识理解问题上的不足。但对于该领域的某些研究课题,NL P技术却无法取代概率统计策略发挥决定性的作用,比如新闻报道的时序性研究。

利用时序特征解决面向新闻报道的检测和跟踪任务也是TD T领域重要研究趋势。最早分析时间因素对话题检测影响的研究来自于CMU的Y im2 ing Yang[30]和UMASS的J ames Allan[31],他们同时提出了一种基于时空顺序的假设,即相对于产生时间较远的报道,产生时间接近的报道论述同一个话题的可能性更大。其中,CMU采用SMAR T[30]系统对报道和话题进行描述,并通过聚类解决话题检测问题。与传统TD技术不同之处在于,经过改进的SMAR T系统融合了时间因素对聚类的影响,其聚类相似性是结合基于特征相似度和报道时空距离综合得到的。UMASS则将时间因素应用于聚类阈值的估计,其中阈值被设计成以时间为参数的函数,阈值可以随时间的变化连续动态地调整,从而适应话题被报道的概率随时间逐渐衰减的趋势。此外,Pap ka[5,31]改进了UMASS的O TD算法,同时

①https://www.doczj.com/doc/4611630282.html,/mcwil/tdt2005/index.php

将时间因素嵌入话题跟踪任务,其在TD T2语料中进一步验证了时空顺序假设对TD T的影响。而Paula Hatch[65]则融合了CMU和UMASS的算法,其话题检测系统选择距离当前报道最近并且刚刚参与过更新的n个聚类进行比较。当报道与聚类的相关度满足阈值要求时,对该聚类进行更新。同时将当前报道与更新后的聚类质心进行相关度计算,并乘以衰减速度因子,作为该话题新的聚类阈值。总之,时间信息是新闻语料的特色,依靠时间信息追踪话题的发展趋势能够辅助TD T相关技术获得更好的效果。因此,未来TD T的研究方向中,一方面概率统计和自然语言的融合与相互辅助,对话题理解和报道内容分析将发挥更重要的作用,而另一方面,诸如基于概率统计的报道流时序分析等具备新闻语料特色的课题将成为该领域新的研究热点。

9　总结

综上所述,话题检测与跟踪为自然语言领域的各项研究提供了新的测试平台,由于其面向突发性和延续性很强的新闻语料,因此也对相应技术提出了更高的要求。但是,目前的研究现状仍然以传统基于统计策略的信息检索、信息过滤、分类和聚类等技术为主,忽视了新闻语料本身具备的特点,比如话题的突发性与跳跃性、相关报道的延续与继承性、新闻内容的层次性以及时序性等等。基于这一问题,当前的研究趋势是将多种方法进行融合,并嵌入新闻语料特性实现话题的识别与追踪,比如结合命名实体的话题模型描述、以时间为参数的权重与阈值估计等等。虽然这些方法能够在一定程度上提高TD T系统性能,但其只是对传统统计策略的一种补充与修正,并没有形成独立于话题检测与跟踪领域特有的研究框架与模型。因此,TD T领域未来的研究方向将主要集中于如下几个方面:

(1)建立具备新闻语料特性的描述模型;

(2)针对时序性新闻报道的检测与跟踪策略;

(3)机器学习与自然语言处理技术的有效融合;

(4)跟踪与检测模型的自适应学习与更新策略;

(5)新闻语料特有的特征提取与信息挖掘技术。

总而言之,目前的TD T研究在国内仍然处于起步阶段,除了非自适应的话题跟踪研究已经达到实用化水平,其他各项任务的系统性能仍然无法满足实际应用的需要。随着信息安全、电子商务以及个性化信息定制等相关应用领域的发展,话题检测与跟踪将成为自然语言和信息处理领域中的重要研究方向。

参考文献:

[1]　J Allan,J Carbonell,G Doddington,J Yamron and Y

Yang.Topic detection and tracking pilot study:Final

report[A].In:Proceedings of the DARPA Broadcast

News Transcription and Understanding Workshop

[C],Virginia:Lansdowne,February1998,1942218.

[2]　J ames Allan,Ron Papka,Victor Lavrenko.On2line

New Event Detection and Tracking[A].In:the pro2 ceedings of SIGIR’98[C].University of Massachu2 setts:Amherst,1998,37245.

[3]　J Allan,V Lavrenko,and R Swan.Explorations with2

in topic tracking and detection[A].In:Topic Detec2 tion and Tracking:Event2based Information Organiza2 tion[C].Kluwer Academic:Massachusetts,2002,

1972224.

[4]　J M Schultz and M Y Liberman.Towards an universal

dictionary for multi2language IR applications[A].In:

Topic Detection and Tracking:Event2based Informa2 tion Organization[C].Kluwer Academic:Massachu2 setts,2002,2252241

[5]　J Yamron,L G illick,P van Mulbregt,and S Knecht.

Statistical models of topical content[A].In:Topic De2 tection and Tracking:Event2based Information Organi2 zation[C].Kluwer Academic:Massachusetts,2002,

1152134.

[6]　Leek T,Schwartz R M.,and Sista S.Probabilistic ap2

proaches to topic detection and tracking[A].In:Top2 ic Detection and Tracking:Event2based Information

Organization[C].Kluwer Academic:Massachusetts,

2002,67283.

[7]　Franck Thollard.Probabilistic DFA Inference Using

Kullback2Leibler Divergence and Minimality[A].In:

Proc of the17th Int’l Conf on Machine Learning[C].

San Francisco:Morgan Kaufmann,2000,9752982.

[8]　J Ponte and W B Croft.Text segmentation by topic

[A].In:Proceedings of the European Conference on

Research and Advanced Technology for Digital Librar2 ies[C].Europe:ECDL,1997,pages1132125.

[9]　J Xu and W B Croft.Improving the effectiveness of in2

formation retrieval with local context analysis[J].

ACM Transactions on Information Systems(TOIS),

2000,18(1):792112.

[10]　Y Watanabe,Y Okaxta,K Kaneji,and Y Sakamoto.

Multiple Media Database System for TV Newscasts

and Newspapers[A].In:Technical Report of IEIGE

[C].J apan,1998,47254..

6期洪宇等:话题检测与跟踪的评测及研究综述

[11]　C Buckley and G Salton.Optimization of relevance

feedback weights[A].In:Proceedings of SIGIR’95

[C].Washington,United States:Seattle,1995,

3512357.

[12]　B Masland,G Linoff,and D Waltz.Classifying news

stories using memory based reasoning[A].In:Pro2

ceedings of SIGIR’92[C].Denmark:Copenhagen,

1992,59265.

[13]　Y.Zhang,J.G.Carbonell,J.Allan.Topic Detec2

tion and Tracking:Detection2Task[A].In:Proceed2

ings of the Workshop of Topic Detection and Track2

ing[C],1997.

[14]　J Carbonell,Y Yang,J Lafferty,R D.Brown,T.

Pierce,and X.Liu.CMU Report on TD T22:Seg2

mentation,Detection and Tracking[A].In:Pro2

ceedings of the DARPA Broadcast News Transcrip2

tion and Understanding Workshop[C].San Francis2

co:Morgan Kauff man,1999,1172120.

[15]　J Kupiec and J Pedersen.A trainable document sum2

marizer[A].In:Proceedings of the18th Annual Int’l

ACM SIGIR Conf on Research and Development in

Information Retrieval(SIGIR’95)[C].Seattle,

Washington,USA:ACM Press,1995,68273. [16]　D D Lewis,R E Schapire,J P Callan,and R Papka.

Training Algorithms for Linear Text Classifiers[A].

In:Proceedings of the19th Annual International

ACM SIGIR Conference on Research and Develop2

ment in Information Retrieval[C].K onstanz:Har2

tung2G orre Verlag,1996,2982306.

[17]　R E Schapire.Boos Texter:A Boosting2based System

for Text Categorization[J].Machine Learning,

1999,39(223):1352168.

[18]　J M Schultz and Mark Liberman.Topic detection and

tracking using idf2weighted cosine coefficient[A].

In:Proceedings of the DARPA Broadcast News

Workshop[C].San Francisco:Morgan Kauf mann,

1999,1892192.

[19]　J P Yamron,I Carp,L G illick,S Lowe and P V

Mulbregt.Topic Tracking in a News Stream[A].

In:Proceedmgs of the DARPA Broadcast News Tr2

acnscription and Understanding Workshop[C],San

Francisco:Morgan Kauf mann,1999.

[20]　S A Lowe.The Beta～Binomial Mixture Model and

its Application to TD T Tracking and Detection[A].

In:Proceedings of the DARPA Broadcast News

Transcription and Understanding Workshop[C],San

Francisco:Morgan Kauf mann,1999.

[21]　M Franz,J S Mc Carley.Unsupervised and super2

vised clustering for topic tracking[A].In:Proceed2

ings of the24th annual international ACM SIGIR[C].

New Orleans,Louisiana,USA:ACM,2001,310

317.

[22]　Nianli Ma,Y iming Yang,Monica Rogati.Applying

CL IR Techniques to Event Tracking[A].In:A IRS

2004[C].Berlin Heidelberg:Springer2Verlag,2005,

2435.

[23]　L S Larkey,F F Feng,M Connell,V Lavrenko.

Language2specific Models in Multilingual Topic

Tracking[A].In:Proceedings of the27th annual in2

ternational conference on research and development in

information retrieval[C].Sheffield,U K,2004,4022

409.

[24]　T Strzalkowski,G C Stein and G B Wise.GE.Track2

er:A Robust,Lightweight Topic Tracking System

[A].In:Proceedings of the DARPA Broadcast News

Workshop[C].San Francisco:Morgan Kauf mann,

1999,

[25]　J P Yamron,S Knecht,and P V Mulbregt.Dragon’s

Tracking and Detection Systems for the TD T2000E2

valuation[A].In:Topic Detection and Tracking

Workshop[C].USA:National Institute of Standard

and Technology,2000,7579.

[26]　J Allan,V Lavrenko,D Frey,V Khandelwal.

UMass at TD T2000[A].In:Proceedings of Topic

Detection and Tracking Workshop[C].USA:Na2

tional Institute of Standar and Technology,2000,

1092115.

[27]　N Lester,H E Williams.TD T2001Topic Tracking at

RMIT University[A].In:The Topic Detection and

Tracking(TD T)Workshop[C],2001.

[28]　W Lam,S Mukhopadhyay,J Mostafa,and M

Palakal.Detection of Shifts in User Interests for Per2

sonalized Information Filtering[A].In:Proceedings

of the19th Annual International ACM SIGIR Confer2

ence on Research and Development in Information Re2

trieval[C].K onstanz:Hartung2G orre Verlag,1996,

3172325.

[29]　Y Lo,J L Gauvain.The L IMSI Topic Tracking Sys2

tem For TD T2002[A].In:Topic Detection and

Tracking Workshop[C].G aithersburg,USA,2002.

[30]　Y Yang,T Pierce,J Carbonell.A study on Retro2

spective and On2Line Event detection[A].In:Pro2

ceedings of the21st annual international ACM SIGIR

conference on Research and development in informa2

tion retrieval[C].1998,CMU,USA:ACM,28236.

[31]　Ron Papka.On2line New Event Detection,Clustering

and Tracking[D].Amherst:Department of Comput2

er Science,UMASS,1999.

[32]　Allan J,Papka R,Lavrenko V.On2Line New Event

Detection and Tracking[A].In:Proceedings of SI2

GIR’98:21st Annual International ACM SIGIR Con2

ference on Research and Development in Information

中文信息学报2007年

Retrieval[C].New Y ork:ACM Press,1998,372

45.

[33]　Y Yang,T Pierce,J Carbonell.A study on Retro2

spective and On2Line Event detection[A].In:Pro2

ceedings of the21st annual international ACM SIGIR

conference on Research and development in informa2

tion retrieval[C].1998,CMU,USA:ACM,28236.

[34]　T Brants,F Chen,and A Farahat.A system for new

event detection[A].In:Proceedings of the26th SI2

GIR conference on Research and development in in2

formation retrieval[C],2003.

[35]　G Kumaran and J Allan.Text classification and

named entities for new event detection[A].In:Pro2

ceedings of the SIGIR Conference on Research and

Development in Information Retrieval[C].Sheffield,

South Y orkshire:ACM,2004,2972304.

[36]　J.Allan,H Jin,M Rajman,C Wayne,G D,L V,R

Hoberman,and D Caputo.Topic2based novelty de2

tection[A].In:Proceedings of the Johns Hopkins

Summer Workshop[C].CL SP,Baltimore,1999. [37]　Y Yang,J Carbonell,C Jin.Topic2conditioned nov2

elty detection[A].In:Hand D,etal.Proceedings ofthe

8th ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining[C].New

Y ork:ACM Press,2002,6882693.

[38]　W Lam,H Meng,K Wong,and J https://www.doczj.com/doc/4611630282.html,ing con2

textual analysis for news event detection[J].Interna2

tional Journal on Intelligent Systems,2001,16(4):

5252546.

[39]　Z Li,B Wang,M J Li,W Y Ma.A Probabilistic

Model for Retrospective News Event Detection[A].

In:Proceedings of the28th annual international ACM

SIGIR[C].Salvador,Brazil:ACM,2005,1062113.

[40]　The2004Topic Detection and Tracking(TD T2004)

Task Definition and Evaluation Plan[H].version1.

2,https://www.doczj.com/doc/4611630282.html,.

[41]　D R Cutting,D R Karger,J O Pedersen,and J W

Tukey.Scatter/gather:a cluster2based approach to

browsing large document collections[A].In:Pro2

ceedings of the15th annual international ACM SIGIR

conference on Research and development in informa2

tion retrieval[C].N Y:ACM,1992,318329. [42]　D Trieschnigg and W Kraaij.TNO hierarchical topic

detection report at TD T2004[A].In:The7th Topic

Detection and Tracking Conf[C].2004.

[43]　Allan J,Bolivar A,Connell M,Cronen2Townsend S,

Feng A,Feng F,Kumaran G,Larkey L,Lavrenko

V,Raghavan H.UMass TD T2003Research Sum2

mary[A].In:Proceedings of TD T2003evaluation,

unpublished[C],2003.

[44]　Levow G A and Oard D W.Signal boosting for trans2

lingual topic tracking:Document expansion and n2

best translation[A].In:Topic detection and track2

ing:Event2based information organization[C].MA:

Kluwer,2002,1752195.

[45]　Jin H,Schwartz R,Sista S and Walls F.Topic

Tracking for Radio,TV Broadcast and Newswire

[A].In:Proceedings of the DARPA Broadcast News

Workshop[C].San Francisco:Morgan Kauf mann,

1999,1992204.

[46]　Tim Leek,Hubert Jin,Sreenivasa Sista,Richard

Schwartz.The BBN Crosslingual Topic Detection and

Tracking System[A].In:Working Notes of the Third

Topic Detection and Tracking Workshop[C].2000.

[47]　骆卫华,刘群,程学旗.话题检测与跟踪技术的发展与

研究[A].全国计算语言学联合学术会议(J SCL2

2003)论文集[C].北京:清华大学出版社,2003,5602

566.

[48]　李保利,俞士汶.话题识别与跟踪研究[J].计算机工

程与应用,2003,39(17):6210.

[49]　贾自艳,何清,张俊海等.一种基于动态进化模型的

事件探测和追踪算法[J].计算机研究与发展,2004,

41(7):127321280.

[50]　赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检

测研究[J].哈尔滨工业大学学报,2006,10(38):

174021743.

[51]　Zhang Kuo,Li J uan Zi,Wu Gang.New Event Detec2

tion Based on Indexing2tree and Named Entity[A].

In:Sigir2007[C].ACM:Amsterdam,2007. [52]　宋丹,卫东,陈英.基于改进向量空间模型的话题识

别跟踪[J].计算机技术与发展,2006,9(16):62267.

[53]　于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的

层次化话题识别技术研究[J].计算机技术与发展,

2006,43(3):4892495.

[54]　骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略

优化的分治多层聚类算法的话题发现研究[J].中文

信息学报,2006,20(1):29236.

[55]　赵华,赵铁军,于浩,张姝.面向动态演化的话题检测

研究[J].高技术通讯,2006,12(16):123021235. [56]　金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾

向性分类研究[J].情报学报,2005,5(24):5552561. [57]　Ponte,J M and Croft,W B.A Language Modeling

Approach to Information Retrieval[A].In:ACM SI2

GIR[C].N Y:ACM,1998,2752281.

[58]　V Lavrenko,J Allan,E De Guzman,D LaFlamme.

Models for Topic Detection and Tracking[A].In:

Proceedings of HL T22002[C],2002,1042110. [59]　R Nallapati.Semantic Language Models for Topic

Detection and Tracking[A].In:Proceedings of

HL T2NAACL2003Student Research Workshop[C].

2003,126.

[60]　V Lavrenko and W B Croft.Relevance2based lan2

6期洪宇等:话题检测与跟踪的评测及研究综述

guage models[A].In:Proceedings of the24th annual

international ACM SIGIR conference on Research and

development in information retrieval[C].New Orle2

ans,Louisiana,USA:ACM,2001,2672275. [61]　W B Croft,S Cronen2Townsend,and V Lavrenko.

Relevance feedback and personalization:A language

modeling perspective[A].In:Proceedings of the

DELOS2NSF Workshop on Personalization and Rec2

ommender Systems in Digital Libraries[C].2001,

49254.

[62]　J ane Morris,Graeme Hirst.Lexical Cohesion by

Thesaural Relations as an Indicator of the Structure of

Text[J],Computational Linguistics,1991,17(1):

21248.[63]　HASAN R.Coherence and cohesive harmony[A].

In:Flood L,eds.Understanding Reading Compre2

hension[C].Newark,Delaware:International Read2

ing Association,1984,1812219.

[64]　Nicola Stokes,Paula Hatch,Joe Carthy.Lexical Se2

mantic Relatedness and Online New Event Detection

[A].In:Proceedings of the23rd annual international

ACM SIGIR conference on Research and development

in information retrieval[C].Greece:ACM,2000,

3242325.

[65]　Hatch P,Stokes N,Carthy J.Topic detection,a

new application for lexical chaining?[A].In:British

Computer Society IRSG2000[C].Cambridge:

British Computer Society,2000,942103.

中科院软件所筹建国内首家软件博物馆

近日,中国科学院软件研究所发起建设我国首家以计算机软件为主题的软件博物馆。

软件博物馆旨在记录软件发展历程,展示软件发展成就,传播软件科技知识,宣传软件科学文化。届时软件博物馆将以丰富翔实的史料和珍贵的实物,将计算机软件从起步到现在的发展状况以及未来发展趋势生动、直观地展示给大众。通过各种展示手段,追溯软件的发展历程,发掘软件文化内涵,弘扬科学精神,普及科技知识。

软件博物馆计划于2008年中期向公众开放。目前,正面向社会各界广泛征集能反映国内外软件发展历程和软件发展成就的实物、照片、回忆文章、模型、成果展示材料等。有捐赠意向的单位及个人请与软件博物馆建设办公室联系。

地址:北京中关村南四街4号中科院软件园区5号楼202室

邮编:100080

电话:86210262661035

传真:86210262661035

Email:rjbwg@https://www.doczj.com/doc/4611630282.html,

联系人:李洁

行人检测与跟踪国内外研究现状

行人检测与跟踪国内外研究现状 1.2行人检测与跟踪国内外研究现状视觉跟踪和目标检测是计算机视觉领域内较早开始的研究方向。经过几十年的积累，这两个方向已经取得了显著的发展。然而，很多方法只是在相对较好地程度上解决了一些关键问题。并且仍旧有不少一般性的关键问题未得到有效的解决。国内外很多研究机构都在致力于研究和发展这两个方向。近些年这两个方向持续发展，涌现了很多比较优秀的方法。国外的很多大学和研究机构（如卡内基梅隆大学、南加州大学和法国国家计算机科学与控制研究所等）都有计算机视觉小组，长期地研究视频跟踪和目标检测。国内的很多大学和研究所等（如清华大学、上海交大和自动化所等）也有相关的研究小组，并取得了一些优秀的研究成果。 1.2.1行人检测技术国内外研究现状中科院计算机科学重点实验室孙庆杰等人利用基于侧影的人体模型及其对应的概率模型,提出了一种基于矩形拟合的人体检测算法。中科院自动化所谭铁牛等对人运动进行视觉分析,其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行理解与描述,它主要应用在视觉监控领域和基于步态的身份鉴定。步态识别就是根据人们走路的姿势进行身份鉴定,依据人体行走运动很大程度上依赖于轮廓随着时间的形状变化的直观想法,提出一种基于时空轮廓分析的步态识别算法；基于行走运动的关节角度变化包含着丰富的个体识别信息的思想,提出一种基于模型的步态识别算法。实验结果表明该算法不仅获得了令人鼓舞的识别性能,而且拥有相对较低的计算代价。但是该方法只能检测出运动的行人。西安交通大学郑南宁等研究了利用支持向量机识别行人的方法,通过稀疏Gabor滤波器提取行人样本图像中行人的特征,然后利用支持向量机来训练所提取的样本特征,并用训练得到的分类器通过遍历图像的方式将图像中可能属于行人的窗口提取出来。尽管用Gabor滤波器提取特征效果相对较好,但耗时很长,不适合于实时图像的处理。上海交通大学田广等提出了一种coarse-to-fine的行人检测方法,将一个人建模成人体自然部位的组装,人体的所有部位包括头肩、躯干和腿、采用绝对值类Haar特征集和Edgelet特征集,在这些特征集上,采用softcascade训练各个部位的检测器和全身检测器。首先采用全身检测器在整个图像中产生候选行人区域,然后用基于贝叶斯决策的组合算法进一步确定候选区域中的行人。实验结果表明该算法有很好的检测性能能在杂乱的自然场景中有效的检测行人。但该方法的识别率是78.3%,识别率不高，且该模型比较难构建,模型求解也比较复杂。目前,在国外许多文献中提出了基于机器视觉的行人检测方法,意大利帕尔玛大学的AlbertoBroggi教授在ARGO项目中采用一种基于外形的行人检测算法。算法首先根据行人相对于垂直轴有很强的垂直边缘对称性、尺寸和外貌比例等在

目标跟踪相关研究综述

Artificial Intelligence and Robotics Research 人工智能与机器人研究, 2015, 4(3), 17-22 Published Online August 2015 in Hans. https://www.doczj.com/doc/4611630282.html,/journal/airr https://www.doczj.com/doc/4611630282.html,/10.12677/airr.2015.43003 A Survey on Object Tracking Jialong Xu Aviation Military Affairs Deputy Office of PLA Navy in Nanjing Zone, Nanjing Jiangsu Email: pugongying_0532@https://www.doczj.com/doc/4611630282.html, Received: Aug. 1st, 2015; accepted: Aug. 17th, 2015; published: Aug. 20th, 2015 Copyright ? 2015 by author and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.doczj.com/doc/4611630282.html,/licenses/by/4.0/ Abstract Object tracking is a process to locate an interested object in a series of image, so as to reconstruct the moving object’s track. This paper presents a summary of related works and analyzes the cha-racteristics of the algorithm. At last, some future directions are suggested. Keywords Object Tracking, Track Alignment, Object Detection 目标跟踪相关研究综述徐佳龙海军驻南京地区航空军事代表室，江苏南京 Email: pugongying_0532@https://www.doczj.com/doc/4611630282.html, 收稿日期：2015年8月1日；录用日期：2015年8月17日；发布日期：2015年8月20日摘要目标跟踪就是在视频序列的每幅图像中找到所感兴趣的运动目标的位置，建立起运动目标在各幅图像中的联系。本文分类总结了目标跟踪的相关工作，并进行了分析和展望。

话题检测与跟踪技术的发展与研究.

话题检测与跟踪技术的发展与研究骆卫华刘群 {luoweihua, liuqun}@https://www.doczj.com/doc/4611630282.html, 中国科学院计算技术研究所摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。关键词:话题检测与跟踪,向量空间模型,语言模型 Development and Analysis of Technology of Topic Detection and Tracking Luo Weihua, Liu Qun {luoweihua, liuqun}@https://www.doczj.com/doc/4611630282.html, Institute of Computing Technology, Chinese Academy of Sciences Abstract: The paper introduces the origin and history of the development of technology of topic detection and tracking, and makes remarks on its prospect. It also describes systemically the methods adopted by the current systems of topic detection and tracking, and makes comparison among their performance. Keywords: Topic Detection and Tracking, Vector Space Model, Language Model 1 应用背景随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。

汽车车牌识别系统的设计文献综述

计算机图形学课程设计题目名称：汽车车牌识别系统的设计综述班级：学号：学生姓名：

汽车车牌识别系统的设计综述摘要车牌的自动识别是计算机视觉、图像处理与模式识别技术在智能交通领域应用的重要研究课题之一, 是实现交通管理智能化的重要环节, 主要包括车牌识别、字符预处理和特征提取三个关键环节。车牌识别包括车牌定位、灰度（或彩色）图像二值化、字符切分及字符识别等。图像预处理包括图像灰度变换、图像增强、图像二值化、梯度锐化、噪声去除、倾斜度调整、车牌边框去除、字符分割、尺寸标准归一化、紧缩重排。特征提取本文采用逐象素特征提取法来对支付进行识别。理论上，本系统可以对中国大陆普通汽车车牌的字符进行识别。关键词：车牌识别，图像预处理，特征提取

引言 1.1 问题概述随着我国汽车产业的飞速发展，大量在公共场合的汽车需要得到监管，为了更好地进行管理，必须对车辆进行一种确认，而车牌识别就是其中最有效的确认方法，汽车车牌识别VLPR 是Vehicle License Plate Recognition 的简称，他是智能交通系统(Intelligent Transportation Systems，ITS)的一个重要组成部分。车牌识别技术的运用使得“大输入小输出”成为了可能——输入一幅很大存储量的图像，输出时仅仅是很小存储量的数字，这必然使得其在大量存储和管理数据库相连等方面有无可替代的优越性。车牌识别技术在高速公路收费站、路口监测(电子警察)、大型停车场等场所具有广阔的发展前景。 1.2 目的和意义车牌识别LPR[1]是智能交通系统(ITS)的一个重要组成部分。在社会生活，治安管理等方面有很大的作用。车牌识别技术的运用使得“大输入小输出”成为了可能——输入一幅很大存储量的图像，输出时仅仅是很小存储量的数字，这必然使得其在大量存储和管理数据库相连等方面有无可替代的优越性。由于光照、气候引起的车牌图像上字符光照不均，车牌本身污损造成的字符笔画不清和字符间粘连，汽车行驶速度较快，使拍摄出的车牌字符产生变形、模糊不清，因此图像需要增强。另外又由于拍摄角度及拍摄点的高度、路面的倾斜等情况造成了车牌图像的倾斜，从而需要对车牌进行校正。另外字符的识别也是一个重点问题。 1.3 思路和方法借助数字图像处理和模式识别技术，我们对车牌图像依次进行以下处理：彩色的256 色的BMP 图进行灰度转换－>图像增强－>图像二值化－>梯度锐化（Roberts 梯度算子）->离散点噪声去除->倾斜度调整->边框切除->字符切割->字符尺寸归一化->字符紧缩重排->神经网络的字符识别，最后得出车牌字符。

图像定位及跟踪技术大解析

图像定位及跟踪技术大解析在科学技术日新月异的今天，人们对机器设备的智能性、自主性要求也越来越高，希望其完全替代人的角色，把人们从繁重、危险的工作任务中解脱出来，而能否像人一样具有感知周围环境的能力已成为设备实现智能化自主化的关键。广义的“图像跟踪”技术，是指通过某种方式(如图像识别、红外、超声波等)将摄像头中拍摄到的物体进行定位，并指挥摄像头对该物体进行跟踪，让该物体一直被保持在摄像头视野范围内。狭义的“图像跟踪”技术就是我们日常所常谈到的，通过“图像识别”的方式来进行跟踪和拍摄。因为红外、超声波等方式，都受环境的影响，而且要专门的识别辅助设备，在实际应用中已经逐步被“图像识别”技术所替代。“图像识别”是直接利用了摄像头拍摄到的图像，进行NCAST图像差分及聚类运算，识别到目标物体的位置，并指挥摄像头对该物体进行跟踪。图像跟踪系统采用特有的NCAST目标外形特征检测方法，被跟踪者无需任何辅助设备，只要进入跟踪区域，系统便可对目标进行锁定跟踪，使摄像机画面以锁定的目标为中心，并控制摄像机进行相应策略的缩放。系统支持多种自定义策略，支持多级特写模式，适应性强，不受强光、声音、电磁等环境影响。目标物体的边缘检测物体的形状特征在大多数情况下变化不多，基于目标形状轮廓的跟踪方法与基于区域的匹配方法相比，可以更精确的分割目标。边缘是运动目标的最基本特征，表现在图像中就是指目标周围图像灰度有阶跃变化或屋顶变化的那些像素集合，它是图像中局部亮度变化最显著的部分。边缘检测就是采用某种算法来定位灰度不连续变化的位置，从而图像中目标与背景的交界线。图像的灰度变化可以用灰度梯度来表示。

话题发现与跟踪技术

话题发现与跟踪技术一：方案提出 1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中 2 将表中数据（标题和正文）进行特征向量提取，得到VSM（Vector Space Model）向量空间模型 3 用KNN聚类算法进行第一次聚类得到微类集合 4 用单连通算法（Single-Pass算法）进行第二次聚类得到精确的聚类结果 5 根据热点事件发展曲线识别出热点话题 6 话题呈现二：网络舆情分析 1 系统总体结构：

话题发现模型： 1 主题网络爬虫定义：主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的URL队列中；然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。基本思路：按照事先给定的主题，分析超链接和已下载的网页内容，预测下一个待抓取的URL以及当前网页的主题相关度。 2 信息采集流程： 1）输入WebURL 2）Web相应？ 3）否就结束；是就进行下一步 4）初始化URL队列

5）数据流（读取数据流类） 6）信息分类存储（正则表达式匹配类） 7）数据库（操作数据库类） 8）添加到新URL队列 9）重复第2）步直到URL队列为空 3 热点分析过程包括：热点分析起始时间，热点信息显示，舆情采集信息和话题活性图 4 存储记录存储一条记录时，程序首先通过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密，映射成32位长的UDDI，作为此数据的标识。实现去重功能 MD5去重复URL： Message-Digest是指字符串的Hash变换，即把一个任意长度的字符串变换成一定长的大整数。MD5加密以512位分组来处理输入的信息，且每一组又被划分为16个32为子分组，将这四个32位分组级联后将生成一个128位散列值。MD5算法是一个不可逆的字符串变化算法。特性： 1）任意两端明文书局加密以后的密文不含相同 2）任意一段明文数据经过加密后其具体结果必须永远是不变的三：热点事件发现 1 TDT相关概念话题（Topic），事件（Event），报道（Story），主题（Subject） TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。报道：指描述某个事件的新闻片段。话题：不是指一个大的主题，而是一个具体的事件。 2 话题检测与跟踪分为五个子任务： 1）报道切分（Story Segmentation） 2）新事件检测（New Event Detection） 3）关联检测（Link Detection） 4）话题检测（Topic Detection） 5）话题跟踪（Story Tracking）话题发现任务的本质是将输入的新闻报道流划入不同的话题类，并在需要的时候建立新的话题类，其过程等同于无指导的聚类过程，且属于一种增量聚类，一般可划分为两个阶段：新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。 3 热点事件内容特征自动抽取网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括：1）Web新闻网页的自动采集 2）网页正文的抽取及去噪 3）事件发现算法 4）热点事件判别 5）对热点事件不同层面内容特征的自动抽取事件发现算法：

机器视觉的辅助驾驶系统的视频中行人检测跟踪讲解

机器视觉的辅助驾驶系统的视频中行人实时检测识别研究文献综述 1机器视觉发展国外机器视觉发展的起点难以准确考证，其大致的发展历程是：20世纪50年代提出机器视觉概念，20世纪70年代真正开始发展，20世纪80年代进入发展正轨，20世纪90年代发展趋于成熟，20世纪90年代后高速发展。在机器视觉发展的历程中，有3个明显的标志点，一是机器视觉最先的应用来自“机器人”的研制，也就是说，机器视觉首先是在机器人的研究中发展起来的；二是20世纪70年代CCD图像传感器的出现，CCD摄像机替代硅靶摄像是机器视觉发展历程中的一个重要转折点；三是20世纪80年代CPU、DSP等图像处理硬件技术的飞速进步，为机器视觉飞速发展提供了基础条件。国内机器视觉发展的大致历程：真正开始起步是20世纪80年代，20世纪90年代进入发展期，加速发展则是近几年的事情。中国正在成为世界机器视觉发展最活跃的地区之一，其中最主要的原因是中国已经成为全球的加工中心，许许多多先进生产线己经或正在迁移至中国，伴随这些先进生产线的迁移，许多具有国际先进水平的机器视觉系统也进入中国。对这些机器视觉系统的维护和提升而产生的市场需求也将国际机器视觉企业吸引而至，国内的机器视觉企业在与国际机器视觉企业的学习与竞争中不断成长。未来机器视觉的发展将呈现下列趋势: （1）技术方面的趋势是数字化、实时化、智能化图像采集与传输的数字化是机器视觉在技术方面发展的必然趋势。更多的数字摄像机，更宽的图像数据传输带宽，更高的图像处理速度，以及更先进的图像处理算法将会推出，将会得到更广泛的应用。这样的技术发展趋势将使机器视觉系统向着实时性更好和智能程度更高的方向不断发展。（2）产品方面：智能摄像机将会占据市场主要地位智能摄像机具有体积小、价格低、使用安装方便、用户二次开发周期短的优点，非常适合生产线安装使用，越来越受到用户的青睐，智能摄像机所采用的许多部件与技术都来自IT行业，其价格会不断降低，逐渐会为最终用户所接受。因此，

行人检测与跟踪研究内容及结构安排

行人检测与跟踪研究内容及结构安排本文在阅读大量文献的基础上并结合当前行人检测与跟踪技术的研究现状，主要做了以下几方面的研究：行人检测方面：（1）提出一种二维显著性纹理算子TS-LBP(Two-dimensional Significant Local Binary Pattern)，将带有噪声门限的CS-LBP特征与带有阈值的显著性算子LST相结合，使得图像的纹理特征及局部显著性特征同时包含其中，取得较好的抗噪声性能。（2）提出了一种基于感兴趣区域内颜色特征和显著性纹理特征相融合的行人检测算法，并通过Adaboost分类器进行行人检测实验。这种检测算法避免对整幅图像全局扫描，运行速度快，鲁棒性高。行人跟踪方面：（1）提出一种局部显著性纹理算子SLBP(Significance Local Binary Patterns)又能够有效的体现图像的显著性纹理特征，能够反映目标区域内显著性比较及其纹理特征，能够有效的降低背景等外界物体的干扰。（2）传统的基于单一颜色特征的MeanShift算法易受外界干扰，且一旦颜色特征跟踪失效将不能够对目标继续跟踪。将颜色特征与纹理特征相融合的方法能够更全面的描述目标特征，并且如果某一特征跟踪失效时可以利用另一特征继续对目标进行跟踪。由于背景干扰、光线变化等原因，跟踪过程中颜色特征与纹理特征不可能是同等重要的，因此本文提出了自适应的调整颜色特征与纹理特征的权重。同时，利用卡尔曼滤波器来预测行人的运动轨迹，可以有效节省跟踪目标所需要的时间。本文章节的结构安排本文共分为六章，各章节内容如下：第一章绪论。介绍了本文的选题背景和意义，综述了目前国内外行人检测与跟踪技术的研究现状，最后介绍了本文的主要研究内容和各章节安排。第二章行人检测与跟踪算法中相关理论知识。阐述常用的描述物体特征的方法，并介绍了图像增强的相关知识以及 AdaBoost 算法和支持向量机算法。第三章基于改进 LBP 特征的行人检测。针对传统的 LBP 算子只考虑了中心像素点与邻域象素点之间的大小关系，没有加入它们之间的对比度，提出了复合局部二值模式(CLBP)，将中心像素点与邻域象素点的对比度信息加入到 LBP 算子中，CLBP 特征算子对图像噪声和光照变化不太敏感，在光照条件不足场景中对行人有较强的描述能力。结合 SVM 分类器进行行人检测，检测结果证明该算法在光线不足的环境中能达到高效检测行人的目的。第四章基于改进 AdaBoost 的双层行人检测算法。本章针对分类器的退化问题和正负样本数量不均衡问题，对 AdaBoost 算法中权重的更新规则进行改进，并对正负样本进行权重归一化，来解决训练样本不平衡问题，算法改进后训练的

本科毕业设计__基于视频的目标跟踪及人群密度估计方法研究开题报告

上海交通大学 2012 级硕士学位论文开题报告登记表学号姓名导师李建勋学科控制科学与工程学院(系、所) 电子信息与电气工程学院学位论文题目稳健对地目标跟踪方法研究研究课题来源国家自然科学基金、航天创新基金、中航613横向项目课题的意义以及研究的主要内容运动目标跟踪是视觉图像处理中的一个非常热门的话题，在多个领域有着广泛的应用。运动目标跟踪的应用领域和环境主要有：对大型公共场所进行智能化视频监控、基于视频的人机交互、交通流量监测、医疗诊断等。本文从计算机视觉角度研究对地目标跟踪方法。由于视觉跟踪系统能在比较复杂的背景下，提取与分离市场内的目标、确定目标位置、估计目标运动趋势、实现对目标的实时跟踪，且具有跟踪精度高、跟踪状态平稳、抗干扰能力强、分辨率高和成本低等特点，在军事上很受重视。在民用领域，对地目标跟踪也有着广泛的应用：对大型公共场所进行智能化视频监控。例如在机场、商场、地铁站等场所进行智能化监控，其主要目的都是为了保障公众财产和信息安全。在人群监测、交通管理上实现智能化有非比寻常的意义。以以上应用为背景，本文的对地目标跟踪技术包含以下几个主要技术模块：单目标跟踪技术、多目标跟踪技术、密集目标跟踪技术。分出这几个模块是为了应对不同的应用场景，或是在同一场景需要各模块的协同合作。例如地铁站的人群流量具有明显时段特征，早晚上下班高峰人流极大，而其他时段人流量明显减少，这就需要对不同时段采用不同的跟踪方法以达到最好的效果。在上下班高峰期，采用密集目标跟踪技术，而在其他时段，采用多目标跟踪技术，而在有特殊需要的时候，例如跟踪特定犯罪嫌疑人时，可采用单目标跟踪技术。本文研究的主要内容具体有： ①粒子滤波基本方法研究，这是单目标跟踪方法的框架。在图像跟踪应用中，目标状态的后验概率分布往往是非线性非高斯多模态的，粒子滤波方法对于系统模型没有特殊要求，且能够保持状态的多模态分布，在跟踪领域得到了很大的发展。但常规粒子滤波跟踪算法存在计算量大、采样效率低等问题。 ②粒子群最优化思想研究，改进常规粒子滤波采样效率低的问题，提高采样效率。针对常规粒子滤波跟踪算法存在计算量大、采样效率低等问题，引入粒子群优化思想对目标状态后验分布进行最优搜索，找到后验分布的高似然区，并依据此高似然区来进行重采样。 ③变结构多模型的设计，以更好的表征目标的运动模型。几乎所有的方法对目标的运动状态都假定为平滑的，或者将运动限制在恒速或恒加速运动状态。而实际情况并非如此，例如机动目标的运动状态就很难用单一模型来表征。本文引入变结构多模型方法为目标建立变结构多运动模型。变结构多模型方法能够很好的表征目标的运动模型却又不增加过多的计算量，因此相比单一运动模型能够更好的估计目标的运动。

基于机器视觉的产品检测技术研究文献综述

基于机器视觉的产品识别检测技术研究摘要：机器视觉检测系统采用CCD照相机将被检测的目标转换成图像信号，传送给图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号，图像处理系统对这些信号进行各种运算来抽取目标特征，如面积、数量、位置，再根据预设的允许度和其他条件输出结果，包括尺寸、个数、合格/不合格、标识有无等，实现自动识别功能。机器视觉的研究是从20世纪60年代中期开始70年代已形成几个重要研究分支：目标制导的图像处理、图像处理和分析的并行运算、序列图像分析和运动参量求值、视觉知识的表示、视觉系统的知识库等。关键词：机器视觉；CCD相机；图像处理；产品检测。

引言机器视觉就是用机器代替人眼来做测量和判断，它是一项综合技术，其中包括数字图像处理技术、控制技术、电光源照明技术、光学成像技术、传感技术、模拟与数字视频技术等，机器视觉更强调实用性，要求能够适应工业生产中恶略的环境，要有通用的工业接口。电视摄像技术的成熟与计算机技术的发展使得机器视觉研究成为可能，它作为早期人工智能的一部分，由于技术条件的限制进展缓慢。后来在随着计算机技术的快速发展，机器视觉的研究得到了迅速发展在国外，机器视觉的应用普及主要体现在半导体及电子行业，机器视觉系统在产品检测方面已经得到了广泛的应用。在中国机器视觉技术应用开始与90年代，目前国内机器视觉大多为外国品牌，不过随着机器视觉的应用，国内公司技术上已经逐渐成熟。与此同时，随着配套基础设施建设的完善，技术、资金的积累，各行各业对机器视觉技术的工业自动化、智能化需求开始广泛出现。国内高校校、研究所和企业在这个领域进行了积极探索和大胆尝试，这都将促进工业检测自动化技术向智能化发展。

视频目标跟踪算法综述_蔡荣太

1引言目标跟踪可分为主动跟踪和被动跟踪。视频目标跟踪属于被动跟踪。与无线电跟踪测量相比，视频目标跟踪测量具有精度高、隐蔽性好和直观性强的优点。这些优点使得视频目标跟踪测量在靶场光电测量、天文观测设备、武器控制系统、激光通信系统、交通监控、场景分析、人群分析、行人计数、步态识别、动作识别等领域得到了广泛的应用[1-2]。根据被跟踪目标信息使用情况的不同，可将视觉跟踪算法分为基于对比度分析的目标跟踪、基于匹配的目标跟踪和基于运动检测的目标跟踪。基于对比度分析的跟踪算法主要利用目标和背景的对比度差异，实现目标的检测和跟踪。基于匹配的跟踪主要通过前后帧之间的特征匹配实现目标的定位。基于运动检测的跟踪主要根据目标运动和背景运动之间的差异实现目标的检测和跟踪。前两类方法都是对单帧图像进行处理，基于匹配的跟踪方法需要在帧与帧之间传递目标信息，对比度跟踪不需要在帧与帧之间传递目标信息。基于运动检测的跟踪需要对多帧图像进行处理。除此之外，还有一些算法不易归类到以上3类，如工程中的弹转机跟踪算法、多目标跟踪算法或其他一些综合算法。2基于对比度分析的目标跟踪算法基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。这类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。这类算法不适合复杂背景中的目标跟踪，但在空中背景下的目标跟踪中非常有效。边缘跟踪的优点是脱靶量计算简单、响应快，在某些场合（如要求跟踪目标的左上角或右下角等）有其独到之处。缺点是跟踪点易受干扰，跟踪随机误差大。重心跟踪算法计算简便，精度较高，但容易受到目标的剧烈运动或目标被遮挡的影响。重心的计算不需要清楚的轮廓，在均匀背景下可以对整个跟踪窗口进行计算，不影响测量精度。重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。图像二值化之后，按重心公式计算出的是目标图像的形心。一般来说形心与重心略有差别[1-2]。 3基于匹配的目标跟踪算法 3.1特征匹配特征是目标可区别与其他事物的属性，具有可区分性、可靠性、独立性和稀疏性。基于匹配的目标跟踪算法需要提取目标的特征，并在每一帧中寻找该特征。寻找的文章编号：1002－8692（2010）12-0135-04 视频目标跟踪算法综述* 蔡荣太1，吴元昊2，王明佳2，吴庆祥1 （1.福建师范大学物理与光电信息科技学院，福建福州350108； 2.中国科学院长春光学精密机械与物理研究所，吉林长春130033）【摘要】介绍了视频目标跟踪算法及其研究进展，包括基于对比度分析的目标跟踪算法、基于匹配的目标跟踪算法和基于运动检测的目标跟踪算法。重点分析了目标跟踪中特征匹配、贝叶斯滤波、概率图模型和核方法的主要内容及最新进展。此外，还介绍了多特征跟踪、利用上下文信息的目标跟踪和多目标跟踪算法及其进展。【关键词】目标跟踪；特征匹配；贝叶斯滤波；概率图模型；均值漂移；粒子滤波【中图分类号】TP391.41；TN911.73【文献标识码】A Survey of Visual Object Tracking Algorithms CAI Rong-tai1,WU Yuan-hao2,WANG Ming-jia2,WU Qing-xiang1 （1.School of Physics,Optics,Electronic Science and Technology,Fujian Normal University,Fuzhou350108,China; 2.Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Science,Changchun130033,China）【Abstract】The field of visual object tracking algorithms are introduced,including visual tracking based on contrast analysis,visual tracking based on feature matching and visual tracking based on moving detection.Feature matching,Bayesian filtering,probabilistic graphical models,kernel tracking and their recent developments are analyzed.The development of multiple cues based tracking,contexts based tracking and multi-target tracking are also discussed．【Key words】visual tracking;feature matching;Bayesian filtering;probabilistic graphical models;mean shift;particle filter ·论文·*国家“863”计划项目（2006AA703405F）；福建省自然科学基金项目（2009J05141）；福建省教育厅科技计划项目（JA09040）

机器视觉在焊接熔池实时检测与参数测定中应用【文献综述】

毕业设计开题报告电气工程及其自动化机器视觉在焊接熔池实时检测与参数测定中应用 1前言部分机械制造业作为我国国民经济的支柱产业，决定了我国的工业生产能力和水平，焊接作为制造业中总要的加工方法之一，更是有着举足轻重的作用。随着科技水平的进步，人们对焊接质量的要求也越来越高。而人工焊接时，由于受到技术水平、疲劳程度、责任心、生理极限等客观和主观因素的应影响，难以较长时间保持焊接工作的稳定性和一致性。而且，由于焊接恶劣的工作条件，愿意从事手工焊接的人在减少，熟练的技术工人更有短缺的趋势。另一方面，电子技术、计算机技术、数控及机器人技术的发展为焊接过程的自动化提供了有利的条件，并已渗透到焊接的各个领域。以往焊接质量主要是通过两种手段来保障。焊前根据工件、材料、性能要求等制订合理的焊接工艺，但是焊接过程存在的时变性使得质量无法得到严格保证。焊后可以进行质量检验，对不合格的焊缝，返修或者清理之后再重新焊接来保证焊缝质量，但这种检验方法费时又费力，况且某些焊接产品，如船舶、桥梁、大型压力容器、航天器材等一些重要的焊接件，是不允许出现焊接质量问题的。因此焊接过程中的在线实时质量控制就显得尤为重要。但是焊接这一技术领域长期以来采用的是传统焊接方法，尽管近些年来各类气保护焊也得到了广泛应用，但焊接变形、咬边、气孔、裂纹、应力集中、未焊合和夹渣等在缺陷问题仍然较严重。同样，采用传统焊接方法进行生产，焊接接头的外观成形质量和一致性也无法得到保证，而且手工焊接也如先前所提的原因无法普遍适用。很显然这些都成了制约焊接质量提高的根源，因此采用自动化、智能化焊接时焊接技术革新的根本出路。随着焊接自动化智能化研究的深入，人们越来越注重对焊接质量的控制，其中熔透与成形直接反映了焊接质量，因此检测出反映焊缝熔透和成形质量信息对于质量控制是非常关键的。目前国内外普遍使用各类传感装置对焊接熔池信息进

目标检测与跟踪

第九章图像目标探测与跟踪技术主讲人：赵丹培宇航学院图像处理中心 zhaodanpei@https://www.doczj.com/doc/4611630282.html, 电话：82339972

目录 9.1 概论 9.2 目标检测与跟踪技术的发展现状9.3 目标检测与跟踪技术的典型应用9.4 图像的特征与描述 9.5 目标检测方法的基本概念与原理9.6 目标跟踪方法涉及的基本问题

9.1 概论 1、课程的学习目的学习和掌握目标探测、跟踪与识别的基本概念和术语，了解一个完整信息处理系统的工作流程，了解目标探测、跟踪与识别在武器系统、航空航天、军事领域的典型应用。了解目标检测、跟踪与识别涉及的关键技术的发展现状，为今后从事相关的研究工作奠定基础。 2、主要参考书：《目标探测与识别》，周立伟等编著，北京理工大学出版社；《成像自动目标识别》，张天序著，湖北科学技术出版社；《动态图像分析》，李智勇沈振康等著，国防工业出版社；

引言：学习目标检测与跟踪技术的意义 ?现代军事理论认为，掌握高科技将成为现代战争取胜的重要因素。以侦察监视技术、通信技术、成像跟踪技术、精确制导技术等为代表的军用高科技技术是夺取胜利的重要武器。 ?成像跟踪技术是为了在战争中更精确、及时地识别敌方目标，有效地跟踪目标，是高科技武器系统中的至关重要的核心技术。 ?例如：一个完整的军事战斗任务大致包括侦察、搜索、监视以及攻击目标和毁伤目标。那么快速的信息获取和处理能力就是战争胜利的关键，因此，目标的实时探测、跟踪与识别也成为必要的前提条件。

?随着现代高新技术的不断发展及其在军事应用领域中的日益推广，传统的作战形态正在发生着深刻的变化。 1973年的第四次中东战争，1982年的英阿马岛之战，1991年的海湾战争及1999年的科索沃战争，伊拉克战争等都说明了这一点。西方各军事强国都在积极探索对抗武器，特别是美国更是投入了巨大的物力、人力和财力积极研制弹道导弹防御系统。而图像检测、跟踪和识别算法作为现代战场信息环境作战成败的关键，具备抗遮挡、抗丢失和抗机动鲁棒性的智能跟踪器，将是现代战场作战必备品，具有广泛的应用前景。

网络舆情热点发现与跟踪研究

龙源期刊网 https://www.doczj.com/doc/4611630282.html, 网络舆情热点发现与跟踪研究作者：桑远超来源：《中国科技博览》2015年第30期 [摘要]网络舆情监控系统中的原始数据处于报道层，分析和处置的对象则位于事件层。针对这两个层次间的差距，本文首先研究事件、话题、报道三者间的关系，提出使用话题发现与跟踪技术归类不同话题，提高信息呈现的有序性，提升事件发现及分析的效率。针对话题发现生成话题重要程度难以区分的问题，通过研究网络中热点话题的典型特征，提出了一种热点话题评价模型，该模型可以对话题发现生成的不同话题计算其相对热度。研究了网络舆情热点发现系统的设计方法。针对高效数据采集的需求，设计并实现了分布式的主题爬虫。针对于大量非结构化数据存储的需求，将非关系型数据库运用到系统实现中。 [关键词]网络舆情；话题发现与跟踪；文本聚类中图分类号：TP391.1 文献标识码：A 文章编号：1009-914X（2015）30-0114-01 一、引言随着网民数量的增多，互联网资源的增加，网络媒体己经成为事实意义上的第四媒体，其影响也日趋深入于人们的日常生活。研究如何提早发现网络上的热点话题、敏感事件，并根据有关情况实施恰当的处理措施，成为了相关部门函待解决的一个问题。本文在基于相关的网络话题发现和追踪、热点话题发现以及搜索技术的研究基础上，研究如何实现自动热点话题发现与追踪，并基于以上技术实现网络舆情热点发现系统。该方法有助深入分析研究互联网舆情，实现热点信息、敏感信息的主动发现，为决策制订提供辅助信息；在提升互联网舆情的管理和控制，重大事件的应急响应能力方面能够发挥积极作用。二、系统概述 1.1 数据采集功能由于系统处理的是网络数据，首先需要实现对网页数据的自动收集功能。数据采集由指定页面开始，通过网页中的超链接访问指向的页面，收集到新的网页后重复获取链接访问页面的过程，在此过程中收集符合需求的网页数据。本系统中将新闻内容作为分析处理的数据来源，将采集的范围限制在指定网站的新闻板块。信息采集是系统的基础功能，后续的相关分析处理都基于信息采集的数据来源进行。没有迅速、高效的信息收集就无法做到及时、准确的舆情分析。因此该信息采集部分一方面需要实现高效率的数据收集，另一方面需要覆盖足够数量的数据源，以保证数据收集的广度。 1.2 数据预处理功能

气体检测技术文献综述

气体传感器-----文献综述气体传感器文献综述指导老师:胡赤鹰 ndang/'word文档控制科学与工程学系自动化0701班林增辉 3061101271 一、背景介绍目前,随着人们环保意识的提高,环境问题日益受到政府和社会的关注。环境问题已经成了重大的民生问题,成为影响人民生活幸福感的重要因素。在一些地方,环境问题已经严重威胁到群众健康。环境监测是解决环境问题的基础性工作,其目的是准确、及时、全面地反映环境质量现状及发展趋势,为环境管理、污染源控制、环境规划等提供科学依据。气体检测是环境检测的重要部分,国内各大城市都相继建立了空气质量检测机构,通过电视、互联网等媒体及时向社会发布当地空气质量状况。而一些特殊的工作场所,如化工厂、煤矿、垃圾处理场,对气体的检测有着更高的要求。由于气体的不可见性(大部分气体为无色)和扩散性,气体传感器是气体检测最基础的部分。气体传感器的研究成果,直接影响到气体检测技术的发展。国内外研究现状 2.1 气体检测仪表气体检测的目的是分析各种气体混合物中各组分的含量或其中某一组分的含量。气体检测仪表一般由传感器、信号放大、处理单元、

显示单元以及控制单元组成,其中传感器是最关键最基础的部分。气体检测仪表的工作原理是根据混合气体中待测气体组分的某一化学或物理性质比其他组分的有较大差别;或待测组分在特定环境中表现出来的物理、化学性质的不同来检测待测组分的含量。因此,气体成分的分析方法基本上都是基于物理式、化学式和物理化学式等原理。 2.2 气体传感器气体传感器是传感技术中的重要组成部分,能将气体特定成分检测出来,并将其转成适当信号,若与微机结合进行在线监控,会大大提高分析速度和准确度。自1962年日本研制出第一种可燃性气体传感器之后,气体传感器从理论到应用均得到迅速发展,已广泛应用在各个领域。历次国际性传感器会议中与气体有关的传感器均为重要内容之一。我国有关传感器技术方面的会议召开过多次气体传感器方面报告均占30%以上,多着达40%,气敏元件和气体传感器已成为传感技术中的独立分支。 2.3 气体传感器分类目前常用的气体传感器可分为:半导体气体传感器、电化学气体传感器、催化燃烧式气体传感器、热导式气体传感器、光学气体传感器等。 2.3.1 半导体气体传感器半导体气体传感器的检测原理是,当传感器的表面氧化物吸附某些气体时,电导率将发生改变,利用改变的电导率来检测气体及其浓度。从材料的应用范围、普及程度以及实用性来看,半导体气体传感器应用最为广泛,成本低廉,在气体传感器中约占60%。它的缺点是稳定性较差,受环境影响较大;尤其,每一种传感器的选择性都不是唯一的,输出参数也不能确定。因此,

汉语新闻报道中的话题跟踪与识别研究

话题识别与跟踪研究? 李保利，俞士汶（北京大学计算机科学技术系，北京 100871） Email: libl@https://www.doczj.com/doc/4611630282.html, 摘要：作为自然语言处理一个新的研究方向，话题识别与跟踪旨在发展一系列基于事件的信息组织技术，以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点，目前国内在这方面的研究尚处在起步阶段。本文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等，希望能引起相关研究者对这项研究的关注。关键词：话题识别与跟踪，信息检索，自然语言处理中图法分类号：TP391 RESEARCH ON TOPIC DETECTION AND TRACKING LI Bao-Li, YU Shi-Wen Department of Computer Science and Technology, Peking University, Beijing 100871 Abstract: As a new direction of research on natural language processing, Topic Detection and Tracking aims at developing technologies for event-based information organization, such as detecting stories on novel topic and tracking stories on known topics. Since 1997, a series of evaluation on this research have been conducted, and made it more and more popular in Natural Language Processing, especially in information retrieval. The research on topic detection and tracking in China is just starting. Several issues about this new research, such as task definition, history, technologies, and measurement, are discussed. Keywords: Topic Detection and Tracking, Information Retrieval, Natural Language Processing 1．引言随着信息传播手段的进步，尤其是互联网这一新媒体的出现，我们已经由信息贫乏进入到一个信息极度丰富的时代。面对时时刻刻不断涌现的新信息，任何人都无法做到“眼观六路、耳听八方”。在这个时候，人们更加迫切需要自然语言处理技术的强力支持，以应对日益严重的信息爆炸问题。话题识别与跟踪（Topic Detection and Tracking，TDT），作为一项旨在帮助人们应对信息过载问题的研究，以新闻专线（Newswire）、广播、电视等媒体信息流为处理对象，将语言形式的信息流分割为不同的新闻报道（News Story），监控对新话题的报道，并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。这类新技术是现实中急需的，比如：自动监控各种信息源（如广播、电视等），并从中识别出各种突发事件、新事件以及关于已知事件的新信息，这可广泛用于信息安全、证券市场分析等领域。另外，还可以找出有关 ?本文发表在《计算机工程与应用》第39卷第17期（2003）。本文得到国家自然科学基金项目（69973005）、国家973项目（G1998030507-4）和国家863项目（2001AA114040）支持。作者李保利，男，1971年生，博士研究生，主要研究方向：中文信息处理。俞士汶，男，1938年生，教授，博士生导师，主要研究方向：中文信息处理。