当前位置:文档之家› 话题检测与跟踪技术的发展与研究.

话题检测与跟踪技术的发展与研究.

话题检测与跟踪技术的发展与研究.
话题检测与跟踪技术的发展与研究.

话题检测与跟踪技术的发展与研究

骆卫华刘群

{luoweihua, liuqun}@https://www.doczj.com/doc/244558138.html,

中国科学院计算技术研究所

摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。

关键词:话题检测与跟踪,向量空间模型,语言模型

Development and Analysis of Technology of Topic Detection and Tracking

Luo Weihua, Liu Qun

{luoweihua, liuqun}@https://www.doczj.com/doc/244558138.html,

Institute of Computing Technology, Chinese Academy of Sciences

Abstract: The paper introduces the origin and history of the development of technology of topic detection and tracking, and makes remarks on its prospect. It also describes systemically the methods adopted by the current systems of topic detection and tracking, and makes comparison among their performance.

Keywords: Topic Detection and Tracking, Vector Space Model, Language Model

1 应用背景

随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。

目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与跟踪(Topic Detection and Tracking,以下简称TDT技术就是在这种情况下应运而生的。通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。目前此方面的研究已经引起了人们的普遍兴趣。

TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来跟踪某个话题的来龙去

脉,进行历史性质的研究。

2发展历程

话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。

TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括

建立了一个针对TDT 研究的预研语料库。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音,让系统判断两个事件之间的分界,而

且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST每年都要举办话题检测与跟踪国际会议,并进行相

应的系统评测。2002秋季召开了TDT的第五次会议(即TDT 2002。这个系列评测会议作为DARPA支持的TIDES(Translingual Information Detection, Extraction and

Summarization,跨语言信息检测、抽取和总结项目下的两个系列会议(另一个是文本检索会议TREC之一,越来越受到人们的重视。参加该评测的机构包括著名的大学、公司和研究所,如IBM Watson研究中心、BBN公司、卡耐基-梅隆大学、马萨诸塞大学、宾州大学、马里兰大学、龙系统公司等。国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT 2000的某些子任务的评测。最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。

TDT会议采用的语料是由会议组织者提供并由语言数据联盟(Linguistic Data Consortium,以下简称LDC对外发布的TDT系列语料,目前已公开的训练和测试语料包括TDT预研语料(TDT Pilot Corpus、TDT2和TDT3,这些语料都人工标注了若干话题作为标准答案。TDT2和TDT3收录的报道总量多达11万6千篇,从而很大程度上避免数据稀疏问题的影响,同时也能很好地验证算法的有效性。总的来

看,TDT系列评测会议呈现两大趋势:一是努力提高信息来源的广泛性,不仅包括互联网上的文本数据,还包括来自广播、电视的语音数据;二是强调多语言的特性。从1999年开始,TDT会议引入了对汉语话题的评测,2002年又计划增加阿拉伯语的测试集。

可以看到,话题检测与跟踪和信息抽取研究一样,其建立与发展是以评测驱动的方式进行的。这种评测研究的方法具有以下一些特点:明确的形式化的研究任务、公开的训练与测试数据、公开的评测比较。它将研究置于公共的研究平台上,使得研究之间的比较更加客观,从而让研究者认清各种技术的优劣,起到正确引导研究发展方向的目的。

3 研究内容与现状

与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策或者某一类事件(如恐怖活动,而是一个很具体的“事件(Event”,如美国911事件、江泽民访美等等。为了区别于语言学上的概念,TDT评测会议对“话题”进行了定义:所谓话题(Topic,就是一个核心事件或活动以及与之直接相关的事件

或活动。而一个事件(Event通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物,并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相

关报道的集合1。“话题检测与跟踪”则定义为“在新闻专线(Newswire 和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。例如,“俄克拉荷马城爆炸案”这个主题包括1995年美国联邦大楼被炸、悼念仪式、州和美国联邦政府的一系列调查、对Timothy McVeigh 的指控等等。这个定义和其它与话题有关的研究不同,那些研究主要处理信息分类问题,比如任何与爆炸有关的事件。处理分类问题需要专门的分类体系,注解起来效率低而且主观色彩浓厚。TDT 与其它研究不同之处还在于它强调新事件的发现,希望找出不在人们意料之中的或没有人知道如何去查询的事件。

TDT 是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT 评测会议把话题检测和跟踪分成五个子任务。

表一 TDT 的技术任务

TDT 会议对参评的TDT 系统定下的目标是“实现一个功能强大、用途广泛的全自动算法用以判断自然语言数据的主题结构,同时要做到与来源、媒介、领域和语言无关”。目前的成果表明切分定界的性能已经和人工相差无几,话题跟踪技术也已基本实用,但话题检测技术还有待改进。尤其值得一提的是,单一语言的测试性能并不随语种的变化而发生很大变化,对汉语话题的跟踪和检测性能与英语十分接近。

为了对不同的系统进行量化比较,TDT 会议制订了一套评测规范。每一个参评系统的性能是由误报率和漏报率加权求和的结果进行衡量,称为检测错误开销C Det ,其计算公式是:

target non FA FA target Miss Miss Det P P C P P C C -??+??= C Miss 和C FA 分别是漏查和误报的开销;P Miss 和P FA 分别是漏查和误报的条件概率;P target 是目标话题的先验概率,P non-target =1-P target 。C Miss 、C FA 和P target 都是预设值,作为调节漏报率和误报率在评测结果中所占比重的系数。检测开销通常被归一化为0和1之间的一个值: arg arg (min{,}Det Det Norm Miss t et FA non t et C C C P C P -=??

一般直接用(C Det Norm 作为评价系统性能的分数。

1 显然,对这种相关性必须做一个界定,不能任由集合无限扩大。为此,TDT 会议组织者在构造TDT 语料时,对挑选出来的每个话题都定义了相关性判定规则。

2 在TDT 的评测中,“报道”定义为“论述某个话题的新闻片断,它包括两个以上独立表述该事件的说明语句”。

4 主要实现方法

构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。

因此我们介绍的实现方法也以这两个任务为主。总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:

(1话题/报道的模型化

(2话题-报道相似度的计算

(3聚类策略

(4分类策略(阈值选择策略

整个系统的流程大致是(以话题跟踪为例:

图1 话题跟踪系统流程

针对以上问题,我们将逐一介绍一些已经被广泛采用并得到实际评测验证的方法。

4.1 话题/报道模型

要判断某个报道是否和话题相关,首先就需要解决话题和报道如何表示便于计算和比较的问题,也就是话题/报道用什么模型来表示。目前常用的模型主要有语言模型(Language Model,LM和向量空间模型(Vector Space Model,VSM。

(1语言模型

语言模型是一种概率模型。假设报道中出现的词δn各不相关,则某则报道S和话题C 相关的概率:

P(C|S =

(| ((|

(

((

n

n n

P C P C P S C

P C

P S P

δ

δ

?

≈∏

其中p(C是任何一则新报道和话题C相关的先验概率,p(δn|C是表示词δn在某话题C中的生成概率。p(δn|C可以表示成一个两态的混合模型,如图2所示:

图2 p(δn |C的两态模型

其中一个状态是词在该话题中所有报道的分布,另一个状态是词在整个语料中的分布。这样就构成了一个词的生成模型。计算此模型中的两个状态采用的是最大似然估计(ML ,即该话题的所有报道中δn 出现的次数除以该话题所有报道包含的总词数。因为话题语言模型很稀疏,这里必须解决未见词的0概率问题,通常采用线性插值法把背景语言模型加入进去: p ’(δn |C = α·p(δn |C+(1-α ·p(δn

一般英语状态分布和话题状态分布采用期望最大化(EM 算法估算,EM 算法能

够对与话题相关的词汇赋予较高概率。

(2向量空间模型

向量空间模型是目前最简便高效的文本表示模型之一。其基本思想是:给定一自然语言文档D =D (t 1,w 1;t 2,w 2;…;t N ,w N ,其中t i 是从文档D 中选出的特征项,w i 是项的权重,1≤i ≤N 。为了简化分析,通常不考虑t k 在文档中的先后顺序并要求t k 互异(即没有重复。这时可以把t 1,t 2,…,t N 看成一个N 维的坐标系,而w 1,w 2,…,w N 为相应的坐标值,因而D (w 1,w 2,…,w N 被看成是N 维空间中的一个向量,而两个文档D 1和D 2之间的(内容相关程度常常用它们之间的相似度Sim (D 1,D 2来度量。当文档被表示为文档空间的向量,我们就可以借助于向量之间的某种距离来表示文档间的相似度。在实际的参评系统中,基本上都以词作为文本特征项。特征(词加权采用的是IR 系统中常用的tf*idf 加权策略。tf 是词在文档中的出现次数,表示词对于描述文档的重要程度,idf 是包含词的文档数的倒数,用于削弱那些在语料中频繁出现的词的重要程度,因为它们没有什么区分能力。某些系统把词分成命名实体和内容词两类,视其对文档表达的重要度的不同赋予不同的权重。

(3中心向量模型

中心向量模型实际是向量空间模型的一种变形。每个话题用一个中心向量表示,所谓中心向量就是在此类中所有报道的向量表示的平均值。输入的报道和每个话题的中心向量相比较,选择最相似的那个话题。如果报道和话题的相似度超过一个阈值θmatch ,则认为该报道“过旧”,如果相似度超过第二个阈值θcertain ,则把新报道加

入到该话题中并调整类的中心向量。如果相似度不超过θmatch ,则认为该报道为新,并创建一个新的话题,以此报道作为其中心向量。

无论选择哪种模型,一般都需要进行初始化,即消去禁用词,对于英语而言,还需要做词根还原的工作。

4.2 相似度计算

对所有的话题C 1、C 2、……C n ,要判断某一则报道S 属于哪一个话题,就需要计算报

P(S|C

道和各个话题之间的相似程度,最后把最高相似度和阈值进行比较,对于语言模型而言,就是寻找 k 满足: k = arg max P(Ci | S i 由前面的语言模型,上式其实就等于k = arg max ∏ i m P (δ m | Ci P (δ m P (δ m | C P (δ m 在实际应用中,常取log 值,因此,相似度计算公式就表示为D(S, C = log ∏ m 通常用语言模型算出的话题与话题之间的相似度不可比较,因为单个语言模型都有各自不同的概率特征,比如,有的话题所用的词很特殊,像“霍根班德在 200 米自由泳中击败索

普” ,而有的话题用词就很普通,像“克林顿总统访问中国” 。这样测试文档和不同话题之间算出的分数差异很大,不能用单一的阈值进行比较,此时必须进行归一化。一种简单方法是用分数除以文档长度。但考虑到用上面的 D(S,C算出的值基本上是一组独立的随机离散变量值,如果值足够多的话,由中心极限理论,其分布近似为高斯分布,假设τ为原来的概率, μ为所有报道对某话题概率的平均值,σ是这些概率的标准方差,则新的分值可以归一化为:τ’ = (τ-μ/σ 向量空间模型和

中心向量模型通常采用 cosine 公式来计算报道-话题的相似度,即求两者的内积,则相似度计算公式可表示为D(S,C = ∑q d ( ∑ q ( ∑ d i i 2 i 2 i 其中 qi、di 分别是报道和话题中的特征项的权值。cosine 相似度在比较两个长文档时比较有效,

此时如果两个文档的向量维数不进行任何压缩,系统性能最佳;当其中一个维数降低时,性能就会下降。因为本身已进行了长度归一化,所以 cosine 相似度不依赖于特定的特征加权方法。近来有些系统开始尝试用 OKAPI 公式来计算报道-话题相似度,其形式是:Ok(d1,d2;cl = ∑ w∈d 1 ∩ d 2 i 1 2 twtw (idf ( w + 2λ nw,d nw + ncl 所得结果表示文档和文档之间的距离,其中 d1,d2 是两个文档,cl 是 d1,d2 中较早出现的那 t 对其进行归一化处理使得个文档所属的话题。w 是词 w 在文档 i 中调整后的词频,i ∑ i w w t =1 独立于 d 的长度,idf(w是词 w 的倒文档频率, nw 是包含词 w 的文档数目, ncl 是话题 cl 中文档的数目, nw,cl 是话题 cl 中包含词

w 的文档的数目,λ是控制词的权值中和话题相关的那部分“动态权值”的可调参数。文档和话题之间的分数是一个平均值: Ok(d,cl = |cl|-1 ∑ Ok (d , d d ∈cl f f ; cl

在做跟踪训练时,把所有的训练报道分成一个或多个话题,然后对每一则测试报道计算它跟某个话题之间的分数。根据分数做两个阈值判断。如果分数超过高阈值Θm,则把该报道并。如果分数超过了低阈值Θd,则表示此报道与话入话题(因而通过 ncl 影响了将来的分数)题相关,但不把它并入聚类。 4.3 聚类分类策略判断某个新报道是属于已有话题还是一个新话题,往往是同时进行的。通常的做法是把新报道和已有话题进行比较,如果相似度高于某个阈值,则把新报道归入相似度最高的话题中,如果对所有话题的相似度都低于阈值,则创建一个新话题。但在具体实现中,还牵涉到选用哪些聚类、分类和根据反馈进行参数调整的策略。最简单的方法称为增量聚类算法,它顺序处理报道,一次处理一则,对每一则报道它执行两个步骤: 1.选择:选出和报道最相似的聚类 2.比较阈值:把报道和阈值相比较,决定是把报道分到聚类里还是创建一个新的聚类。这种算法非常直观,便于实现,但它的缺点也很明显:对一则报道只能做一次决策,因此早期根据很少的信息所做的错误判断累计到后面可能相当可观;随着报道的不断处理,计算开销会越来越大。对语料库处理的后期,系统可能需要把每则报道和几千个聚类相比较。针对这些缺点稍加改进,就形成了增量 k-means 方

法,它在当前报道窗口中进行迭代操作,每一次迭代都要做适当的改变。具体步骤是: 1. 使用增量聚类算法处理当前可调整窗口中的全部报道。 2. 把可调整窗口中的每一则报道和旧的聚类进行比较,判断每则报道是要合并到聚类中去还是用作新聚类的种子。 3. 根据计算结果立刻更新所有的聚类。 4. 重复步骤(2)-(3),直到所有的聚类不再变化 5. 查看下一批报道,转向(1)。 KNN 算法是一种常用的文本分类算法,它应用在话题跟踪上也有比较好的效果,其基本思想是把新报道和所有的报道逐一比较,计算其相似度,然后选择最相近的 k 个“邻居” (报道),在这 k 个邻居中,如果某个话题包含的报道数最多,则把新报道也归入该话题,并对话题模型重新训练。对于参数调整,各个系统也采用不同的策略。有些系统只根据正例(和话题相关)对话题模型进行调整,而有些系统则兼顾正例和反例。对以向量空间表示的话题而言,Rocchio 方法是一种较为有效的参数调整方法,其形式为:ω 'jc = αω jc + β ' ∑ i∈C xij nC ?γ ∑ i?C xij n ? nC 其中ω jc 是调整之后的权值,ω jc 是原来的权值,i 表示已处理的报道,C 表示某个话题, xij 是 i 中的特征项,n 是已处理报道的总数, nC 是正例的总数。除此之

外,有些研究机构也在尝试新的算法,比如支持向量机(Support Vector Machine)、最大熵(Maximum Entropy)、文档扩展等,但都还需要在评测中实际验证其效果。

4.4 性能比较 CMU 对各种分类器在 TDT 上的应用做了一个比较,结果如表

二、表三所示:系统(在 TDT1 上调整参数)kNN.avg1(k=5 Rocchio(γ=-2, n=200 LM(α=0.025 BORG(综合以方法系统(在 TDT3 上调整参数) kNN.avg1(k=2000 Rocchio(γ=-.25, n=200 LM(α=0.25 BORG(综合以上方法 AA .0033 .0022 .0035 .0021 表二 AA .0023 .0026 .0040 .0023 δ 0% 12% 43% AB .0030 .0033 .0040 .0027 δ 13% 21% 33% δ 34% 3% 40% AB .0063 .0060 .0045 .0028 δ 57% 55% 38% - 表三其中,括号内是各个方法设定的参数。表一中的 AA 表示在 TDT1 上训练并测试,AB 表示在 TDT1 上训练,在 TDT3 上测试。表二中的 AA 表示在 TDT3 上训练并测试,AB 表示在 TDT3 上训练,在 TDT1 上测试。δ是 BORG 方法相对于其它方法分数提高的百分比。测试分数是归一化之后的 CDet,显然,这个值越低越好。综上来看,TDT 系统采用的方法在各个子任务中已经取得了很大进展,尤其是话题

跟踪,已经取得了相当好的分数,但也有以下主要问题:(1)所用到的主要技术与文本分类聚类、信息检索、信息过滤、信息抽取等比较相似,可以直接用在相关的评测中;(2)针对 TDT 特定需求的方法基本上没有进展;(3)对话题本身的特征关注不够,比如可以考虑引入规则是否有效,这个想法基于以下事实,即:如果两则报道讨论的是在同一个地点发生的关于同一个人的事,那么这两则报道讨论的可能就是同一件事;(4)评测中最好系统的成绩虽然比以前有了很大提高,但和全面实用还有一段距离。 5 结束语目前来看,TDT 的研究呈现以下特点:(1)大多数已公开系统采用的方法主要还是传统的文本分类、信息过滤和检索的方法,专门针对话题发现与跟踪自身特点的算法还未形成;(2)要取得整体上比较满意的效果并不太困难,但对某个用户感兴趣的特定话题,现有系统都无法保证取得满意的效果,比如对于用户当前最为关注的“伊拉克战争” ,系统不能保证取得高于平均值的准确率;(3)综合使用多种相对成熟的方法,从长期来看在实际应用中可能效果最佳,同时这也是将来的一个研究发展方向。总而言之,TDT 是自然语言处理领域中的一个新兴的研究课题。通过评测驱动的方式, TDT 的研究已经取得了相当大的进展。但当前的研究主要还是基于传统的统计方法,这些方法在文本分类、信息检索、信息过滤等领域得到广泛的应用。将来的发展应主要关注话题

本身的特性,并考虑多种方法的综合运用。TDT 的发展和实际应用息息相关,它能够弥补信息检索的一些不足,在国家信息安全、企业市场调查、个人信息定制等方面都存在着实际需求。随着现有系统性能的不断提高,TDT 在各个领域必将得到越来越广泛地应用。参考文献[1]S.A. Lowe, “The Beta-Binomial Mixture Model forWord Frequencies in Documents with Applications to Information Retrieval,”Proceedings of Eurospeech ’99,Budapest, September 1999. [2]S.A. Lowe, “The Beta-Bi nomial Mixture Model and Its Application to TDT Tracking and Detection,” Proceedings of the DARPA Broadcast News Workshop, February 1999. [3]W. Lam and H. Meng and K. Hui. “Multilingual Topic Detection Using a Parallel Corpus”. In Proceedings of the DARPA TDT 2000 Workshop, November 2000. [4]Jin, H., R. Schwartz, S. Sista and F. Walls, “Topic Tracking for Radio, TV Broadcast and

Newswire,” Proceedings of the DARPA Broadcast News Workshop, Herndon, Va, 1999.

[5]Schwartz, R., Imai, T., Nguyen, L., and Makhoul, J., “A maximum Likelihood Model for Topic Calssification of Broadcast News,” in Proc. Eurospeech, Rhodes, Greece, September,1997. [6]Walls, F., Jin, H., Sista, S., and Schwartz, R., “Topic Detection in Broadcast News,” in Proceedings of the DARPA Broadca st News Workshop, Herndon, Va, 1999. [7]J.P. Yamron, I. Carp, L. Gillick, S.A. Lowe, and P. van Mulbregt,“Topic Tracking in a News Stream”, Proceedings of the DARPA Broadcast News Workshop, February 1999.

课时跟踪检测(二十四) 正弦定理和余弦定理

课时跟踪检测(二十四) 正弦定理和余弦定理 1.在△ABC 中,a 、b 分别是角A 、B 所对的边,条件“a cos B ”成立的( ) A .充分不必要条件 B .必要不充分条件 C .充要条件 D .既不充分也不必要条件 2.(2019·惠州模拟)在△ABC 中,a ,b ,c 分别是角A ,B ,C 所对的边.若A =π3,b = 1,△ABC 的面积为 3 2 ,则a 的值为( ) A .1 B .2 C.32 D. 3 3.(2019·“江南十校”联考)在△ABC 中,角A ,B ,C 所对的边分别为a ,b ,c ,已知a =23,c =22,1+tan A tan B =2c b ,则C =( ) A .30° B .45° C .45°或135° D .60° 4.(2019·陕西高考)在△ABC 中 ,角A ,B ,C 所对边的长分别为a ,b ,c ,若a 2+b 2 =2c 2,则cos C 的最小值为( ) A.3 2 B. 22 C.12 D .-1 2 5.(2019·上海高考)在△ABC 中,若sin 2 A +sin 2B

行人检测与跟踪国内外研究现状

行人检测与跟踪国内外研究现状 1.2行人检测与跟踪国内外研究现状 视觉跟踪和目标检测是计算机视觉领域内较早开始的研究方向。经过几十年的积累,这两个方向已经取得了显著的发展。然而,很多方法只是在相对较好地程度上解决了一些关键问题。并且仍旧有不少一般性的关键问题未得到有效的解决。国内外很多研究机构都在致力于研究和发展这两个方向。近些年这两个方向持续发展,涌现了很多比较优秀的方法。国外的很多大学和研究机构(如卡内基梅隆大学、南加州大学和法国国家计算机科学与控制研究所等)都有计算机视觉小组,长期地研究视频跟踪和目标检测。国内的很多大学和研究所等(如清华大学、上海交大和自动化所等)也有相关的研究小组,并取得了一些优秀的研究成果。 1.2.1行人检测技术国内外研究现状 中科院计算机科学重点实验室孙庆杰等人利用基于侧影的人体模型及其对应的概率模型,提出了一种基于矩形拟合的人体检测算法。中科院自动化所谭铁牛等对人运动进行视觉分析,其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行理解与描述,它主要应用在视觉监控领域和基于步态的身份鉴定。步态识别就是根据人们走路的姿势进行身份鉴定,依据人体行走运动很大程度上依赖于轮廓随着时间的形状变化的直观想法,提出一种基于时空轮廓分析的步态识别算法;基于行走运动的关节角度变化包含着丰富的个体识别信息的思想,提出一种基于模型的步态识别算法。实验结果表明该算法不仅获得了令人鼓舞的识别性能,而且拥有相对较低的计算代价。但是该方法只能检测出运动的行人。 西安交通大学郑南宁等研究了利用支持向量机识别行人的方法,通过稀疏Gabor滤波器提取行人样本图像中行人的特征,然后利用支持向量机来训练所提取的样本特征,并用训练得到的分类器通过遍历图像的方式将图像中可能属于行人的窗口提取出来。尽管用Gabor滤波器提取特征效果相对较好,但耗时很长,不适合于实时图像的处理。 上海交通大学田广等提出了一种coarse-to-fine的行人检测方法,将一个人建模成人体自然部位的组装,人体的所有部位包括头肩、躯干和腿、采用绝对值类Haar特征集和Edgelet特征集,在这些特征集上,采用softcascade训练各个部位的检测器和全身检测器。首先采用全身检测器在整个图像中产生候选行人区域,然后用基于贝叶斯决策的组合算法进一步确定候选区域中的行人。实验结果表明该算法有很好的检测性能能在杂乱的自然场景中有效的检测行人。但该方法的识别率是78.3%,识别率不高,且该模型比较难构建,模型求解也比较复杂。 目前,在国外许多文献中提出了基于机器视觉的行人检测方法,意大利帕尔玛大学的AlbertoBroggi教授在ARGO项目中采用一种基于外形的行人检测算法。算法首先根据行人相对于垂直轴有很强的垂直边缘对称性、尺寸和外貌比例等在

红外图像中弱小目标检测前跟踪算法研究综述

第37卷 第2期 激光与红外 V o.l 37,N o .2 2007年2月 LA SER & I NFRAR ED February ,2007 文章编号:1001 5078(2007)02 0104 04 红外图像中弱小目标检测前跟踪算法研究综述 张长城,杨德贵,王宏强 (国防科技大学电子科学与工程学院,空间电子信息技术研究所,湖南长沙410073) 摘 要:文中分析了低信噪比复杂背景中红外弱小目标检测与跟踪的难点,比较了DB T 与TBD 两种检测与跟踪算法的性能,分析了TBD 的检测机理,总结了典型的TBD 方法,展望了 TBD 的发展。 关键词:红外;弱小目标;低信噪比;复杂背景;检测前跟踪中图分类号:TP751 文献标识码:A A lgorit h m Surveys for Di m Targets Track before detect i n Infrared I m age Z HANG Chang cheng ,YANG D e gu,i WANG H ong qiang (Instit u te of Space E lectron i c T echnology ,Coll ege o f E lectr i c Science and Eng ineer i ng,NUDT,Changsha 410073,Chi na)Ab stract :T he d ifficu lties o f di m targe t de tecti on are ana l y zed i n the paper .T he perfor m ances of DBT and TBD are co m pa red ,and the theo ry o fT BD a re ana l y zed .T he m a i n m ethods of TBD are su mm arized .In the end ,prom i sing di recti on of t he fi e l d of T BD i s predicted . K ey w ords :i nfrared ;d i m ta rget ;l ow SNR;comp licated background ;TBD 1 引 言 现代战争要求红外探测系统能远距离发现、跟踪威胁目标,为指挥系统决策和武器系统赢得时间。红外探测系统采用被动方式工作,具有较强的抗干扰能力,隐蔽性好,但作用距离短。由于光学系统的空间分辨率已做到或接近理论极限水平 [1] ,比较实 际的方法就是通过提高目标检测算法性能,尤其是弱小目标的检测性能,弥补红外探测系统作用距离短的不足。 弱 和 小 指的是目标属性的两个方面,所谓 弱 是指目标红外辐射的强度,反映到图像上是指目标的灰度;所谓 小 是指目标的尺寸,反映到图像上是指目标所占的像素数 [2] 。红外弱 小目标检测识别难点是:对比度较低、边缘模糊、信号强度弱,缺乏纹理、形状、大小等结构信息,目标极易被噪声所淹没,单帧检测虚警率高,多帧处理增加了数据的存储量和计算量,固定的模板和算子很难有效检测弱小目标。因而,红外弱小目标检测与跟 踪问题成为当前研究的一个热点问题。 本文在综合国内外近年来对红外弱小目标检测 与跟踪研究成果基础上,根据检测与跟踪关系,对TBD (track before detect )和DBT (detect be f o re track)两类算法性能进行了比较,分析了检测前跟踪算法机理,重点研究了TBD 技术,并指出TBD 技术的发展方向。2 检测算法机理 经典的小目标检测与跟踪方法是DBT ,即先根据检测概率和虚警概率计算单帧图像的检测门限,然后对每帧图像进行分割,并将目标的单帧检测结果与目标运动轨迹进行关联,最后进行目标跟踪。算法流程如图1所示。 图1 先检测后跟踪算法流程 基金项目:国防预研基金(51401010405KG0170);国防装备预先研究项目(413010701-2)。 作者简介:张长城(1976-),男,国防科技大学硕士研究生,主要研究方向为红外图像采集处理及目标识别等。 收稿日期:2006 05 31;修订日期:2006 07 05

话题检测与跟踪技术的发展与研究.

话题检测与跟踪技术的发展与研究 骆卫华刘群 {luoweihua, liuqun}@https://www.doczj.com/doc/244558138.html, 中国科学院计算技术研究所 摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。 关键词:话题检测与跟踪,向量空间模型,语言模型 Development and Analysis of Technology of Topic Detection and Tracking Luo Weihua, Liu Qun {luoweihua, liuqun}@https://www.doczj.com/doc/244558138.html, Institute of Computing Technology, Chinese Academy of Sciences Abstract: The paper introduces the origin and history of the development of technology of topic detection and tracking, and makes remarks on its prospect. It also describes systemically the methods adopted by the current systems of topic detection and tracking, and makes comparison among their performance. Keywords: Topic Detection and Tracking, Vector Space Model, Language Model 1 应用背景 随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。

语文浙江专版:课时跟踪检测(二十四)+语言表达的简明、得体+Word版含答案.doc

课时跟踪检测(二十四)语言表达的简明、得体 1.阅读下面两段文字,回答后面的问题。(6分) (一)如今,许多外国人非常 ..①热衷于.②学习中文,有些还要学习使用筷子。他们把筷子 称之.③为东方饮食文化的象征。中国人对于筷子来说 ..④是.⑤再熟悉不过了,但其背后的文 化却未必人人清楚。筷子的历史起码 ..⑥有三千多年,其名称源自于.⑦江南水乡,筷子最早的名称为“箸”,但古代水乡船家忌讳言“住”,希望快快行船,故改“箸”为“筷”,并沿用至今。 (二)筷子有诸多美好寓意。民间吉祥话,说“筷子筷子,快快生子”;筷子送恋人,寓意“”;筷子送朋友,意味着“平等友爱,和睦同心”。使用筷子也有一些禁忌。如“执箸巡城”(满桌巡视,随意翻拣),“”(吮嘬筷子,品咂有声),“泪箸遗珠”(夹菜带汤,沿途淋漓),等等。 (1)文段(一)中有些加点的词语必须删去,请将其序号写在下面的横线上。(2分) 答: (2)在文段(二)中的横线处填写恰当的语句,使上下文内容相关、句式一致。(4分) 答: 答案:(1)①③④⑦(2)成双成对,永不分离品箸留声 2.阅读下面一段话,本着文字简明的原则,完成文后两题。(把序号填在横线处)(4分) 深圳南方公司,①在改革开放形势的推动下,②为了避免对来深圳南方公司应聘的人以是否名牌大学毕业而选择录用的先入为主的弊端,以聚集人才,③今年招聘大学毕业生,不再问毕业学校。他们认为,④任何一个一流企业如果不注重选拔人才注入新鲜血液,⑤如果仅凭是否名牌大学选择人才的话,将很难发展。 (1)应删去的两处语句是(写画线处的序号)。 (2)应简略的一处语句是(写画线处的序号),可简略为。 解析:本段文字主要介绍深圳南方公司用人的新理念,①是介绍时代背景,与选拔人才没有必然关系,应删去;④说的是“任何一个一流企业如果不注重选拔人才”,这与本公司用人的新理念没有关系,所以是多余的。②句冗长难以理解,应予以删减压缩。 答案:(1)①④(2)②为了避免先入为主的弊端 3.为使下面的语段简明顺畅,请指出必须改动和删掉的词语。(只填写应删词语的序号)(4分) 2018~2019年度,我校将扩大招生规模 ①,由原来的22个教学班级 ② 增加到28个。由于 我校教室本已十分 ③严重 ④ 不足,因此亟须新建教室。现在,虽然我们已多方进行 ⑤ 筹措,但经

图像定位及跟踪技术大解析

图像定位及跟踪技术大解析 在科学技术日新月异的今天,人们对机器设备的智能性、自主性要求也越来越高,希望其完全替代人的角色,把人们从繁重、危险的工作任务中解脱出来,而能否像人一样具有感知周围环境的能力已成为设备实现智能化自主化的关键。 广义的“图像跟踪”技术,是指通过某种方式(如图像识别、红外、超声波等)将摄像头中拍摄到的物体进行定位,并指挥摄像头对该物体进行跟踪,让该物体一直被保持在摄像头视野范围内。狭义的“图像跟踪”技术就是我们日常所常谈到的,通过“图像识别”的方式来进行跟踪和拍摄。 因为红外、超声波等方式,都受环境的影响,而且要专门的识别辅助设备,在实际应用中已经逐步被“图像识别”技术所替代。“图像识别”是直接利用了摄像头拍摄到的图像,进行NCAST图像差分及聚类运算,识别到目标物体的位置,并指挥摄像头对该物体进行跟踪。 图像跟踪系统采用特有的NCAST目标外形特征检测方法,被跟踪者无需任何辅助设备,只要进入跟踪区域,系统便可对目标进行锁定跟踪,使摄像机画面以锁定的目标为中心,并控制摄像机进行相应策略的缩放。系统支持多种自定义策略,支持多级特写模式,适应性强,不受强光、声音、电磁等环境影响。 目标物体的边缘检测 物体的形状特征在大多数情况下变化不多,基于目标形状轮廓的跟踪方法与基于区域的匹配方法相比,可以更精确的分割目标。 边缘是运动目标的最基本特征,表现在图像中就是指目标周围图像灰度有阶跃变化或屋顶变化的那些像素集合,它是图像中局部亮度变化最显著的部分。 边缘检测就是采用某种算法来定位灰度不连续变化的位置,从而图像中目标与背景的交界线。图像的灰度变化可以用灰度梯度来表示。

话题发现与跟踪技术

话题发现与跟踪技术 一:方案提出 1 利用网络爬虫Nutch将爬到的数据存储在表Crawler中 2 将表中数据(标题和正文)进行特征向量提取,得到VSM(Vector Space Model)向量空间模型 3 用KNN聚类算法进行第一次聚类得到微类集合 4 用单连通算法(Single-Pass算法)进行第二次聚类得到精确的聚类结果 5 根据热点事件发展曲线识别出热点话题 6 话题呈现 二:网络舆情分析 1 系统总体结构:

话题发现模型: 1 主题网络爬虫定义:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。 基本思路:按照事先给定的主题,分析超链接和已下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度。 2 信息采集流程: 1)输入WebURL 2)Web相应? 3)否就结束;是就进行下一步 4)初始化URL队列

5)数据流(读取数据流类) 6)信息分类存储(正则表达式匹配类) 7)数据库(操作数据库类) 8)添加到新URL队列 9)重复第2)步直到URL队列为空 3 热点分析过程 包括:热点分析起始时间,热点信息显示,舆情采集信息和话题活性图 4 存储记录 存储一条记录时,程序首先通过MD5将网络爬虫提取的每一个字段值联合成一个字符串进行加密,映射成32位长的UDDI,作为此数据的标识。实现去重功能 MD5去重复URL: Message-Digest是指字符串的Hash变换,即把一个任意长度的字符串变换成一定长的大整数。MD5加密以512位分组来处理输入的信息,且每一组又被划分为16个32为子分组,将这四个32位分组级联后将生成一个128位散列值。MD5算法是一个不可逆的字符串变化算法。特性: 1)任意两端明文书局加密以后的密文不含相同 2)任意一段明文数据经过加密后其具体结果必须永远是不变的 三:热点事件发现 1 TDT相关概念 话题(Topic),事件(Event),报道(Story),主题(Subject) TDT也把包括一个核心事件以及所有与之关联的事件的总和称为话题。即话题就是关于某个事件的所有报道的集合。 报道:指描述某个事件的新闻片段。 话题:不是指一个大的主题,而是一个具体的事件。 2 话题检测与跟踪 分为五个子任务: 1)报道切分(Story Segmentation) 2)新事件检测(New Event Detection) 3)关联检测(Link Detection) 4)话题检测(Topic Detection) 5)话题跟踪(Story Tracking) 话题发现任务的本质是将输入的新闻报道流划入不同的话题类,并在需要的时候建立新的话题类,其过程等同于无指导的聚类过程,且属于一种增量聚类,一般可划分为两个阶段:新事件检测阶段和后续的新闻报道流中的报道划入相应的话题类阶段。 3 热点事件内容特征自动抽取 网络新闻中热点事件的发现及热点事件内容特征的自动抽取。主要包括:1)Web新闻网页的自动采集 2)网页正文的抽取及去噪 3)事件发现算法 4)热点事件判别 5)对热点事件不同层面内容特征的自动抽取 事件发现算法:

课时跟踪检测(二十三) 电场能的性质

课时跟踪检测(二十三)电场能的性质 [A级——基础小题练熟练快] 1.(2019·湖北八校联考)下列说法正确的是() A.带电粒子仅在电场力的作用下一定做匀变速运动 B.带电粒子仅在电场力的作用下运动时,动能一定增加 C.电场力做正功,带电粒子的电势一定降低 D.电场力做正功,带电粒子的电势能一定减少 解析:选D只有电场是匀强电场时,带电粒子仅在电场力的作用下做匀变速运动,A 错误;如果电场力做负功,则动能减小,B错误;电场力做正功,电势能一定减小,负电荷从低电势向高电势运动,故C错误,D正确。 2.(2020·山东济南模拟)如图所示,等量异种点电荷P、Q连线中点 处有一电子,在外力F作用下处于静止状态。现让电荷Q沿连线向右 移动一小段距离,此过程中电子一直处于静止状态。下列说法正确的是() A.外力F逐渐减小,电子的电势能逐渐增大 B.外力F逐渐增大,电子的电势能逐渐增大 C.外力F逐渐增大,电子的电势能逐渐减小 D.外力F逐渐减小,电子的电势能逐渐减小 解析:选D由题意可知,外力F向右,则电场力向左,可知P带正电,Q带负电;当电荷Q沿连线向右移动一小段距离时,电子所在的位置场强减小,电势升高,则电子受的电场力减小,外力F逐渐减小,电子的电势能降低,故选项D正确,A、B、C错误。 3.(2019·浙江东阳中学模拟)如图所示,MN是由一个正点电荷Q产生的 电场中的一条电场线,一个带正电的粒子+q飞入电场后,在电场力的作用 下沿一条曲线运动,先后通过a、b两点,不计粒子的重力,则() A.粒子在a点的加速度小于在b点的加速度 B.a点电势φa小于b点电势φb C.粒子在a点的动能E k a小于在b点的动能E k b D.粒子在a点的电势能E p a小于在b点的电势能E p b 解析:选C由题图可知粒子受力应向左方,因粒子带正电,故电场线的方向应向左,故正点电荷Q应在N一侧,故a处的场强大于b处的场强,故粒子在a处的电场力大于b

课时跟踪检测 (二十) 指 数

课时跟踪检测 (二十) 指 数 层级(一) “四基”落实练 1.计算: -x 3=( ) A .x -x B .-x x C .-x -x D .x x 解析:选C 由已知,得-x 3≥0,所以x ≤0,所以-x 3= (-x )·x 2= -x ·x 2= -x ·|x |=-x -x ,选C. 2.设2a =5b =m ,且1a +1 b =2,则m 等于( ) A.10 B .10 C .20 D .100 解析:选A ∵2a =m,5b =m ,∴2=m 1a ,5=m 1b ,∵2×5=m 1a ·m 1b =m 1a +1b ,∴m 2=10,∴m =10.故选A. 3.已知a >0,将 a 2a ·3 a 2 表示成分数指数幂,其结果是( ) A .a 12 B .a 56 C .a 7 6 D .a 3 2 解析:选C a 2 a ·3 a 2 =a 2÷23·a a ?? ???1 2=a 526 -=a 76,故选C. 4.计算(2n +1)2·??? ?122n +14n ·8 -2 (n ∈N *)的结果为( ) A.1 6 4 B .22n + 5 C .2n 2-2n +6 D .????122n - 7 解析:选D 原式=22n +2·2-2n -1(22)n ·(23)-2=21 22n -6=27-2n =????122n -7. 5.(多选)下列式子中,正确的是( ) A .(27a 3) 1 3 ÷0.3a - 1=10a 2

B.2233a b ?? ???-÷1133a b ?? ??? +=a 13 -b 1 3 C.[]()22+32(22-3)2 1 2 =-1 D.4 a 3 a 2a =24 a 11 解析:选ABD 对于 A ,原式=3a ÷0.3a -1= 3a 2 0.3 =10a 2,A 正确;对于B ,原式=1111 3333113 3 a b a b a b ???? ???????-++=a 13-b 13,B 正确;对于C ,原式=[(3+22)2(3-22)2] 12=(3+ 22)(3-22)=1.这里注意3>22,a 12 (a ≥0)是正数,C 错误;对于D ,原式= = a 1124 = 24 a 11,D 正确. 6.使等式 (x -2)(x 2-4)=(x -2)x +2成立的x 的取值范围为________. 解析:若要等式成立.需满足x ≥2. 答案:[2,+∞) 7.计算:(0.008 1) 14 --????3×????560×130.2527818? ????? ????? ?? --+1 2 - -10×(0.027) 13 = ________. 解析:原式=103-3×????13+231 2--3=-83. 答案:-8 3 8.若a =2,b >0,则 12 2 12 a b a a b ++(a 12 -b 13 - )(a +a 12 b 13 - +b 23 - )的值为________. 解析:原式=a 3 2 +b -1+12a ?? ???3-13b ?? ??? -3=a 32+b -1+a 32-b -1=2a 32=2×232=4 2. 答案:4 2 9.计算下列各式: (1)(-x 13 y 13 -)(3x 12 - y 23)(-2x 16y 23 );

行人检测与跟踪研究内容及结构安排

行人检测与跟踪研究内容及结构安排 本文在阅读大量文献的基础上并结合当前行人检测与跟踪技术的研究现状,主要做了以下几方面的研究: 行人检测方面: (1)提出一种二维显著性纹理算子TS-LBP(Two-dimensional Significant Local Binary Pattern),将带有噪声门限的CS-LBP特征与带有阈值的显著性算子LST相结合,使得图像的纹理特征及局部显著性特征同时包含其中,取得较好的抗噪声性能。 (2)提出了一种基于感兴趣区域内颜色特征和显著性纹理特征相融合的行人检测算法,并通过Adaboost分类器进行行人检测实验。这种检测算法避免对整幅图像全局扫描,运行速度快,鲁棒性高。 行人跟踪方面: (1)提出一种局部显著性纹理算子SLBP(Significance Local Binary Patterns)又能够有效的体现图像的显著性纹理特征,能够反映目标区域内显著性比较及其纹理特征,能够有效的降低背景等外界物体的干扰。 (2)传统的基于单一颜色特征的MeanShift算法易受外界干扰,且一旦颜色特征跟踪失效将不能够对目标继续跟踪。将颜色特征与纹理特征相融合的方法能够更全面的描述目标特征,并且如果某一特征跟踪失效时可以利用另一特征继续对目标进行跟踪。由于背景干扰、光线变化等原因,跟踪过程中颜色特征与纹理特征不可能是同等重要的,因此本文提出了自适应的调整颜色特征与纹理特征的权重。同时,利用卡尔曼滤波器来预测行人的运动轨迹,可以有效节省跟踪目标所需要的时间。 本文章节的结构安排 本文共分为六章,各章节内容如下: 第一章绪论。介绍了本文的选题背景和意义,综述了目前国内外行人检测与 跟踪技术的研究现状,最后介绍了本文的主要研究内容和各章节安排。 第二章行人检测与跟踪算法中相关理论知识。阐述常用的描述物体特征的 方法,并介绍了图像增强的相关知识以及 AdaBoost 算法和支持向量机算法。第三章基于改进 LBP 特征的行人检测。针对传统的 LBP 算子只考虑了中心 像素点与邻域象素点之间的大小关系,没有加入它们之间的对比度,提出了复合局部二值模式(CLBP),将中心像素点与邻域象素点的对比度信息加入到 LBP 算子中,CLBP 特征算子对图像噪声和光照变化不太敏感,在光照条件不足场景中对行人有较强的描述能力。结合 SVM 分类器进行行人检测,检测结果证明该算法在光线不足的环境中能达到高效检测行人的目的。 第四章基于改进 AdaBoost 的双层行人检测算法。本章针对分类器的退化问 题和正负样本数量不均衡问题,对 AdaBoost 算法中权重的更新规则进行改进,并对正负样本进行权重归一化,来解决训练样本不平衡问题,算法改进后训练的

本科毕业设计__基于视频的目标跟踪及人群密度估计方法研究开题报告

上海交通大学 2012 级硕士学位论文开题报告登记表 学号姓名导师李建勋学科控制科学与工程学院(系、所) 电子信息与电气工程学院 学位论文题目稳健对地目标跟踪方法研究 研究课题来源国家自然科学基金、航天创新基金、中航613横向项目 课题的意义以及研究的主要内容 运动目标跟踪是视觉图像处理中的一个非常热门的话题,在多个领域有着广泛的应用。运动目标跟踪的应用领域和环境主要有:对大型公共场所进行智能化视频监控、基于视频的人机交互、交通流量监测、医疗诊断等。 本文从计算机视觉角度研究对地目标跟踪方法。由于视觉跟踪系统能在比较复杂的背景下,提取与分离市场内的目标、确定目标位置、估计目标运动趋势、实现对目标的实时跟踪,且具有跟踪精度高、跟踪状态平稳、抗干扰能力强、分辨率高和成本低等特点,在军事上很受重视。在民用领域,对地目标跟踪也有着广泛的应用:对大型公共场所进行智能化视频监控。例如在机场、商场、地铁站等场所进行智能化监控,其主要目的都是为了保障公众财产和信息安全。在人群监测、交通管理上实现智能化有非比寻常的意义。 以以上应用为背景,本文的对地目标跟踪技术包含以下几个主要技术模块:单目标跟踪技术、多目标跟踪技术、密集目标跟踪技术。分出这几个模块是为了应对不同的应用场景,或是在同一场景需要各模块的协同合作。例如地铁站的人群流量具有明显时段特征,早晚上下班高峰人流极大,而其他时段人流量明显减少,这就需要对不同时段采用不同的跟踪方法以达到最好的效果。在上下班高峰期,采用密集目标跟踪技术,而在其他时段,采用多目标跟踪技术,而在有特殊需要的时候,例如跟踪特定犯罪嫌疑人时,可采用单目标跟踪技术。 本文研究的主要内容具体有: ①粒子滤波基本方法研究,这是单目标跟踪方法的框架。在图像跟踪应用中,目标状态的后验概率分布往往是非线性非高斯多模态的,粒子滤波方法对于系统模型没有特殊要求,且能够保持状态的多模态分布,在跟踪领域得到了很大的发展。但常规粒子滤波跟踪算法存在计算量大、采样效率低等问题。 ②粒子群最优化思想研究,改进常规粒子滤波采样效率低的问题,提高采样效率。针对常规粒子滤波跟踪算法存在计算量大、采样效率低等问题,引入粒子群优化思想对目标状态后验分布进行最优搜索,找到后验分布的高似然区,并依据此高似然区来进行重采样。 ③变结构多模型的设计,以更好的表征目标的运动模型。几乎所有的方法对目标的运动状态都假定为平滑的,或者将运动限制在恒速或恒加速运动状态。而实际情况并非如此,例如机动目标的运动状态就很难用单一模型来表征。本文引入变结构多模型方法为目标建立变结构多运动模型。变结构多模型方法能够很好的表征目标的运动模型却又不增加过多的计算量,因此相比单一运动模型能够更好的估计目标的运动。

课时跟踪检测(二十四)化学反应速率解析

课时跟踪检测(二十四)化学反应速率 1.(2014·苏州模拟)下图所示为800 ℃时A、B、C三种气体在密闭 容器中反应时浓度的变化,只从图上分析不能得出的结论是() A.A是反应物 B.前2 min A的分解速率为0.1 mol·L-1·min-1 C.达平衡后,若升高温度,平衡向正反应方向移动 D.反应的方程式为:2A(g)2B(g) +C(g) 2.(2014·怀远联考)下列有关化学反应速率的说法中,正确的是() A.铁片与稀盐酸制取氢气时,加入NaNO3固体或Na2SO4固体都不影响生成氢气的速率 B.等质量的锌片分别与同体积、同物质的量浓度的盐酸、硫酸反应,反应速率不相等C.SO2的催化氧化是一个放热反应,所以升高温度,反应速率减慢 D.加入反应物,化学平衡常数增大,化学反应速率增大 3.把在空气中久置的铝片5.0 g投入盛有500 mL 0.5 mol·L-1硫酸溶液的 烧杯中,该铝片与硫酸反应产生氢气的速率v与反应时间t可用如图坐标曲 线来表示。 下列推论错误的是() A.0~a段不产生氢气是因为表面的氧化物隔离了铝和硫酸溶液 B.b~c段产生氢气的速率增加较快的主要原因之一是温度升高 C.t>c时产生氢气的速率降低主要是因为溶液中c(H+)降低 D.t=c时反应处于平衡状态 4.将4 mol A气体和2 mol B气体在2 L的容器中混合并在一定条件下发生如下反应:2A(g)+B(g)2C(g)。若经2 s后测得C的浓度为0.6 mol·L-1,现有下列几种说法: ①用物质A表示的反应平均速率为0.3 mol·L-1·s-1 ②用物质B表示的反应平均速率为0.6 mol·L-1·s-1 ③2 s时物质A的转化率为70% ④2 s时物质B的浓度为0.7 mol·L-1。 其中正确的是() A.①③B.①④ C.②③D.③④ 5.(2014·福州模拟)在容积不变的密闭容器中存在如下反应2SO2(g)+O2(g)催化剂 △ 2SO3(g)ΔH<0,某研究小组研究了其他条件下不变时,改变某一条件对上述反应的影响,下列分析正确的是()

课时跟踪检测(二十四) 对数函数的概念、图象及性质

课时跟踪检测(二十四)对数函数的概念、图象及性质 A级——学考合格性考试达标练 1.(2019·衡水高一月考)函数f(x)=ln(x2-x)的定义域为( ) A.(0,1) B.[0,1] C.(-∞,0)∪(1,+∞)D.(-∞,0]∪[1,+∞) 解析:选C 由x2-x>0,解得x<0或x>1,则定义域为(-∞,0)∪(1,+∞),故选C. 2.对数函数的图象过点M(16,4),则此对数函数的解析式为( ) A.y=log4x B.y=log 4 1 x C.y=log 1 2 x D.y=log2x 解析:选D 设该函数为y=log a x,由于对数函数的图象过点M(16,4),所以4=log a16,得a=2.所以对数函数的解析式为y=log2x,故选D. 3.函数y=log a(x-2)(a>0且a≠1)的图象恒过的定点是( ) A.(1,0) B.(2,0) C.(3,0) D.(4,0) 解析:选C 令x-2=1,得x=3.当x=3时,y=0,故函数的图象恒过定点(3,0).4.函数y=lg(x+1)的图象大致是( ) 解析:选C 由底数大于1可排除A、B,y=lg(x+1)可看作是y=lg x的图象向左平移1个单位.(或令x=0得y=0,而且函数为增函数) 5.若函数y=f(x)是函数y=a x(a>0,且a≠1)的反函数且f(2)=1,则f(x)=( ) 1

2 A .log 2x B .12x C . log 12x D .2x -2 解析:选A 函数y =a x (a >0,且a ≠1)的反函数是f (x )=log a x , 又f (2)=1,即log a 2=1,所以a =2.故f (x )=log 2x . 6.若f (x )=log a x +(a 2-4a -5)是对数函数,则a =________. 解析:由对数函数的定义可知, ?????a 2 -4a -5=0,a >0, a ≠1,解得a =5. 答案:5 7.已知函数f (x )=3log 13 x 的定义域为[3,9],则函数f (x )的值域是________. 解析:∵y =log 13 x 在(0,+∞)上是减函数, ∴当3≤x ≤9时,log 139≤log 13x ≤log 13 3, 即-2≤log 13 x ≤-1, ∴-6≤3log 13 x ≤-3, ∴函数f (x )的值域是[-6,-3]. 答案:[-6,-3] 8.已知m ,n ∈R ,函数f (x )=m +log n x 的图象如图,则m ,n 的取值范围分别是________. ①m >0,0<n <1 ②m <0,0<n <1

目标检测与跟踪

第九章图像目标探测与跟踪技术 主讲人:赵丹培 宇航学院图像处理中心 zhaodanpei@https://www.doczj.com/doc/244558138.html, 电话:82339972

目录 9.1 概论 9.2 目标检测与跟踪技术的发展现状9.3 目标检测与跟踪技术的典型应用9.4 图像的特征与描述 9.5 目标检测方法的基本概念与原理9.6 目标跟踪方法涉及的基本问题

9.1 概论 1、课程的学习目的 学习和掌握目标探测、跟踪与识别的基本概念和术语,了解一个完整信息处理系统的工作流程,了解目标探测、跟踪与识别在武器系统、航空航天、军事领域的典型应用。了解目标检测、跟踪与识别涉及的关键技术的发展现状,为今后从事相关的研究工作奠定基础。 2、主要参考书: 《目标探测与识别》,周立伟等编著,北京理工大学出版社; 《成像自动目标识别》,张天序著,湖北科学技术出版社; 《动态图像分析》,李智勇沈振康等著,国防工业出版社;

引言:学习目标检测与跟踪技术的意义 ?现代军事理论认为,掌握高科技将成为现代战争取胜的重要因素。以侦察监视技术、通信技术、成像跟踪技术、精确制导技术等为代表的军用高科技技术是夺取胜利的重要武器。 ?成像跟踪技术是为了在战争中更精确、及时地识别敌方目标,有效地跟踪目标,是高科技武器系统中的至关重要的核心技术。 ?例如:一个完整的军事战斗任务大致包括侦察、搜索、监视以及攻击目标和毁伤目标。那么快速的信息获取和处理能力就是战争胜利的关键,因此,目标的实时探测、跟踪与识别也成为必要的前提条件。

?随着现代高新技术的不断发展及其在军事应用领域中的日益推广,传统的作战形态正在发生着深刻的变化。 1973年的第四次中东战争,1982年的英阿马岛之战,1991年的海湾战争及1999年的科索沃战争,伊拉克战争等都说明了这一点。西方各军事强国都在积极探索对抗武器,特别是美国更是投入了巨大的物力、人力和财力积极研制弹道导弹防御系统。而图像检测、跟踪和识别算法作为现代战场信息环境作战成败的关键,具备抗遮挡、抗丢失和抗机动鲁棒性的智能跟踪器,将是现代战场作战必备品,具有广泛的应用前景。

红外弱小目标检测方法研究

本科毕业设计论文 题 目 红外弱小目标检测方法研究 _______________________________________ 专业名称 学生姓名 指导教师 毕业时间 2014年6月

毕业 任务书 一、题目 红外弱小目标检测算法研究 二、指导思想和目的要求 本题目来源于科研,主要研究红外弱小目标的特点,常用的检测算法,进而实现红外弱小目标的检测。希望通过该毕业设计,学生能达到: 1.利用已有的专业知识,培养学生解决实际工程问题的能力; 2.锻炼学生的科研工作能力和培养学生团队合作及攻关能力。 三、主要技术指标 1.掌握红外弱小目标的特点; 2.研究常用的红外弱小目标检测算法; 3.实现红外弱小目标的检测。 四、进度和要求 第01周----第02周: 参考翻译英文文献; 第03周----第04周: 学习红外图像及其弱小目标的特点; 第05周----第08周: 研究红外弱小目标的检测算法; 第09周----第14周: 编写红外弱小目标的检测程序; 第15周----第16周: 撰写毕业设计论文,论文答辩。 五、主要参考书及参考资料 1. 武斌. 红外弱小目标检测技术研究. 西安电子科技大学博士学位论文. 2. 史凌峰. 红外弱小目标检测方法研究. 西安电子科技大学硕士学位论文. 3. 杨丽萍. 空中红外弱小目标检测方法研究. 西北工业大学硕士学位论文. 4. 吴巍. 图像中目标特征的检测与识别. 华中科技大学博士论文。 5. 郑成勇. 小波分析在红外目标检测中的应用. 华中科技大学硕士论文。 6. 蔡智富. 基于自适应背景估计的复杂红外背景抑制技术. 哈尔滨程大学硕士论文。 学生 指导教师 系主任 设计 论文

网络舆情热点发现与跟踪研究

龙源期刊网 https://www.doczj.com/doc/244558138.html, 网络舆情热点发现与跟踪研究 作者:桑远超 来源:《中国科技博览》2015年第30期 [摘要]网络舆情监控系统中的原始数据处于报道层,分析和处置的对象则位于事件层。针对这两个层次间的差距,本文首先研究事件、话题、报道三者间的关系,提出使用话题发现与跟踪技术归类不同话题,提高信息呈现的有序性,提升事件发现及分析的效率。针对话题发现生成话题重要程度难以区分的问题,通过研究网络中热点话题的典型特征,提出了一种热点话题评价模型,该模型可以对话题发现生成的不同话题计算其相对热度。研究了网络舆情热点发现系统的设计方法。针对高效数据采集的需求,设计并实现了分布式的主题爬虫。针对于大量非结构化数据存储的需求,将非关系型数据库运用到系统实现中。 [关键词]网络舆情;话题发现与跟踪;文本聚类 中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2015)30-0114-01 一、引言 随着网民数量的增多,互联网资源的增加,网络媒体己经成为事实意义上的第四媒体,其影响也日趋深入于人们的日常生活。研究如何提早发现网络上的热点话题、敏感事件,并根据有关情况实施恰当的处理措施,成为了相关部门函待解决的一个问题。本文在基于相关的网络话题发现和追踪、热点话题发现以及搜索技术的研究基础上,研究如何实现自动热点话题发现与追踪,并基于以上技术实现网络舆情热点发现系统。该方法有助深入分析研究互联网舆情,实现热点信息、敏感信息的主动发现,为决策制订提供辅助信息;在提升互联网舆情的管理和控制,重大事件的应急响应能力方面能够发挥积极作用。 二、系统概述 1.1 数据采集功能 由于系统处理的是网络数据,首先需要实现对网页数据的自动收集功能。数据采集由指定页面开始,通过网页中的超链接访问指向的页面,收集到新的网页后重复获取链接访问页面的过程,在此过程中收集符合需求的网页数据。本系统中将新闻内容作为分析处理的数据来源,将采集的范围限制在指定网站的新闻板块。 信息采集是系统的基础功能,后续的相关分析处理都基于信息采集的数据来源进行。没有迅速、高效的信息收集就无法做到及时、准确的舆情分析。因此该信息采集部分一方面需要实现高效率的数据收集,另一方面需要覆盖足够数量的数据源,以保证数据收集的广度。 1.2 数据预处理功能

课时跟踪检测 (二十四) 对数的运算

课时跟踪检测 (二十四) 对数的运算 层级(一) “四基”落实练 1.若3a =2,则log 38-2log 36用含a 的代数式可表示为( ) A .a -2 B .3a -(1+a )2 C .5a -2 D .3a -a 2 解析:选A 由3a =2得a =log 32,所以log 38-2log 36=log 323-2log 3(2×3)=3log 32-2(log 32+log 33)=3a -2(a +1)=a -2. 2.化简 (log 23)2-4log 23+4+log 21 3 得( ) A .2 B .2-2log 23 C .-2 D .2log 23-2 解析:选B (log 23)2-4log 23+4=(log 23-2)2=2-log 23. ∴原式=2-log 23+log 23-1=2-2log 23. 3.(多选)若x >0,y >0,则下列各式中,恒等的是( ) A .lg x +lg y =lg(x +y ) B .lg x 2=2lg x C.lg x n =lg x n D .lg x 1n =lg x n 解析:选BD A 项,lg x +lg y =lg(xy ),B 项,lg x 2=2lg x ,C 项,lg x n =lg x -lg n ,D 项,lg x 1n =1 n lg x . 4.已知3x =4y =k ,且2x +1 y =2,则实数k 的值为( ) A .12 B .2 3 C .3 2 D .6 解析:选D 由3x =4y =k 得x =log 3k ,y =log 4k , 所以1x =log k 3,1 y =log k 4, 所以2x +1 y =2log k 3+log k 4=log k 36=2, 所以k 2=36,又k >0, 所以k =6.故选D.

汉语新闻报道中的话题跟踪与识别研究

话题识别与跟踪研究? 李保利,俞士汶 (北京大学计算机科学技术系,北京 100871) Email: libl@https://www.doczj.com/doc/244558138.html, 摘要:作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。本文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。 关键词:话题识别与跟踪,信息检索,自然语言处理 中图法分类号:TP391 RESEARCH ON TOPIC DETECTION AND TRACKING LI Bao-Li, YU Shi-Wen Department of Computer Science and Technology, Peking University, Beijing 100871 Abstract: As a new direction of research on natural language processing, Topic Detection and Tracking aims at developing technologies for event-based information organization, such as detecting stories on novel topic and tracking stories on known topics. Since 1997, a series of evaluation on this research have been conducted, and made it more and more popular in Natural Language Processing, especially in information retrieval. The research on topic detection and tracking in China is just starting. Several issues about this new research, such as task definition, history, technologies, and measurement, are discussed. Keywords: Topic Detection and Tracking, Information Retrieval, Natural Language Processing 1.引言 随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经由信息贫乏进入到一个信息极度丰富的时代。面对时时刻刻不断涌现的新信息,任何人都无法做到“眼观六路、耳听八方”。在这个时候,人们更加迫切需要自然语言处理技术的强力支持,以应对日益严重的信息爆炸问题。 话题识别与跟踪(Topic Detection and Tracking,TDT),作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线(Newswire)、广播、电视等媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道(News Story),监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息。这类新技术是现实中急需的,比如:自动监控各种信息源(如广播、电视等),并从中识别出各种突发事件、新事件以及关于已知事件的新信息,这可广泛用于信息安全、证券市场分析等领域。另外,还可以找出有关 ?本文发表在《计算机工程与应用》第39卷第17期(2003)。 本文得到国家自然科学基金项目(69973005)、国家973项目(G1998030507-4)和国家863项目(2001AA114040)支持。 作者李保利,男,1971年生,博士研究生,主要研究方向:中文信息处理。俞士汶,男,1938年生,教授,博士生导师,主要研究方向:中文信息处理。

相关主题
文本预览