当前位置:文档之家› 美赛优秀论文2010MCM的B特等奖翻译

美赛优秀论文2010MCM的B特等奖翻译

美赛优秀论文2010MCM的B特等奖翻译
美赛优秀论文2010MCM的B特等奖翻译

摘要:

该模型最大的挑战是如何建立连环杀手犯罪行为的模型。因为找出受害者之间的联系是非常困难的;因此,我们预测罪犯的下一个目标地点,而不是具体目标是谁。这种预测一个罪犯的犯罪的空间格局叫做犯罪空间情报分析。

研究表明:最暴力的连环杀手的犯罪范围一般在一个径向带中央点附近:例如家庭,办公室,以及其他一些犯罪行为高发区(例如城镇妓女集中区)。这些‘锚点’为我们的模型提供了基础。

我们假设整个分析域是一个潜在的犯罪现场。罪犯的活动不受到任何条件约束;并且该区域足够大包括所有的打击点。我们考虑的是一个可度量的空间,为预测算法创建了空间可能性。此外;我们假设罪犯为一个暴力的系列犯罪者,因为研究表明窃贼和纵火犯不可能遵循某一空间模式。

一个锚点与多个锚点有着实质性的不同,首先讨论单个锚点的案例,建立坐标系并把罪犯最后犯罪地点与犯罪序列表示出来,并估计以前案件发生地地点,评估模型的可靠性,并且我们得到未来可能发生犯罪行为的锚点。对于多个锚点的案例,我们通过聚类与排序的方法:将所给数据划分为几组。在每组中找一个最重要的锚点,每一个分区都给定一个权值。我们进行单点测试,利用以前的锚点预测最近的一个锚点,并且与其实际位置相比较。

我们从文献中摘录七个数据集,并且用其中四个改善我们的模型,检测其序列变化,地理集中位置和总锚点的数目。然后通过其他三点来评估我们的模型。

结果显示多个锚点的模型的结果比较优。

引言:

通过研究文献中以得出的连环案件罪犯地理空间往往是围绕罪犯日常活动的几个锚点附近的区域。我们建立的预测模型就是在其规律下建立的,并且预测出一个表面的可能值和度量值。

第一个方案是通过重心法寻找出单个可能的锚点。第二个方案是假设2到4个锚点,并且利用聚类算法的排序与分组的方法。两种方案都是利用统计方法来缩小预测未来犯罪的地点区域

背景:

1981年peter sutcliffe的逮捕是法医生物学家stuart kind 通过利用数理原理成功预测出约克郡开膛手的住处的一个标志

目前,信息密集型模型是通过热图技术建立确定特殊犯罪类型的热点或者是找出犯罪活动与某一地区之间的联系比率。

一个案件的地理分析必须要重视那些犯罪的锚点--(如家,工作场所)罪犯花费大量时间来往于犯罪与现实之间

canter 和larkin 观点认为一个连环案件的凶手的家往往是在一个圆区域内即半径为两个距离最远犯罪点的线段长度,并且在大多数情况下是成立的。canter也发现对于连环案件的收缩范围如果推广该方法将会平均缩小十倍

相比之下,预测罪犯的下一个犯罪地点将不会得到深入的研究。paulsen 和robinson发现大部分有着大量实用、合适方法的美国警察局,对于收集嫌疑犯详细数据的法律问题中,仅仅有16%的人们运用计算机绘图技术。

我们将采用锚点发现的方法来解决问题,生成表面上可能的区域锚点作为区域监控,巡逻,和搜索

假设:

假设搜索区域为一个城市

我们用城市的特点来描述该区域,简化我们的模型:该区域是一个潜在的犯罪现场,嫌疑犯的活动不受到任何条件的约束,并且该区域足够大能包括所有的搜索点。需要注意的是:罪犯的犯罪地点将会在郊区、农村、甚至延伸到城镇,犯罪经常发生的城市的某一地区。以下为三个城市化的条件

1、整个区域为一个潜在的犯罪现场:每一个小区域都包含一个可能犯罪地点。几乎所有的地理分析技术都这样假设。很明显每一区域都会不同程度的违反某一条件。但是所有的连环杀手都不会再一个湖的中心或城镇之间无人居住的农场。然而这一发现必须要通过模型自己智能的处理。换句话说,但我们假设整个区域为一个潜在的犯罪现场,警察可以轻易地排除我们所预测出来的“死点”

2、罪犯的活动不受限制。由于现实中量的实际距离很难计算,我们使用“曼哈顿假设”:城市内有足够的人行道和路线成网格状,并假设罪犯运动沿路线运动。肯特表明在一些连环案件中欧几里得距离与曼哈顿距离在预测锚点是可以互换

3、区域包括所有的搜索点。这个条件表明以上两个条件必须在区域足够大前提下。合起来,这三个条件是我们感兴趣的区域能够成为一个可以度量的区域在:1潜在的目标子集是致密的,2度量是L^2 .3空间是完整的:犯罪序列不会导致预测的锚点在所给区域外

一个罪犯实施的暴力连环犯罪

关注暴力罪行。一犯罪空间情报对于谋杀强奸的分析与串行窃贼和纵火犯一般的锚点预测算法将减少30% 二连环犯罪:我们认为连环犯罪为在30天或更多天内至少发生三起以上,并且在每一案件之间有一段时间的冷却期三单一犯罪

空间集中。所给的数据是有问题的。时间数据是不准确的。当研究者发现犯罪行为之间实践具有循环性,那么模式不直接预测下一个地理位置。在有序的地理位置什么样的趋势是有用的。因此我们忽略一些特殊的时间数据

构建一个连环案件测试集

一:现有罪犯资料集研究人员收集了系列犯罪的资料供自己使用:联邦调查局和西门菲莎大学数据库and LeBeau's San Diego Rape Case dataset ,and Canter’s Baltimore crime set .每个数据库都有其完整的特殊方法、特进行丰富资源。这些数据不会向我们开放,因此我们面临两个选择:1、模拟刑事数据2、用间接方式使用私人资料。

仿真问题:

在缺乏数据是,模拟是一个很好的方法。然而,完全的捏造犯罪序列不能肯定了假设模拟一个系列犯罪的空间序列预测模型的得到的集合。如果想让所有的人都信服我们的模型就必须使用真实的数据

模型的选择:犯罪点分析

我们自己发掘有效数据,in rossmo ,用特殊的方法分析连环强奸案中的连环犯罪模式in LeBeau。LeBeau 用散点图描述这些数据,我们将其栏格化并且按一定比例缩放。图一展示了这个过程,其中我们应用了七个罪犯的信息(4个杀人犯,3个强奸犯)强奸案序列是有明显的顺序,而谋杀却没有顺序。

我们假设警察效率于资源紧密相联的,通过模型给出一个位置的资源分配和其实际配置是成正比的。如果分配更多的警察资源在下一个犯罪地点那么我么就说该模型优于其他模型。

在每一个案生地的资源分配一致的情况下,我们通过比较每个模型的有效率来判定哪个模型更优。k是该点资源配置的比值,在总资源一样的情况下,我们计算k值,Zi是模型i的似然函数crime point是实际下一个案件发生那个地。,随即预测得出的每个案件发生那个地比例是一样的。我们比较我们的结果与随机预测结果的比值有效率。如果k=1那么我们的模型与随即也侧结果一样,如果小于一,则表示我们的模型结果不随机预测结果好

模型的健壮性:

我们也想我们的算法能成功地比较更多的数据库。

在总区域内,相同的犯罪活动下,我们比较不同模型结果的比值---有效率k是合理的。我们选定一定的标准让其实现。根据canter,larkin,paulsen,超过90%的预测在范围是一个正方形内边长为案件发生地的最大距离其中心是质心的数据。对于每一个数据集,我们构建这样一个正方形,其边长乘以3,构照一个面积为罪犯活动区域9倍的区域,这个比例能满足所有的数据集,能让我们更好地比较有效乘率

两种空间预测方案

对于暴力连环犯罪的连环犯罪的研究表明,连环犯罪是围绕罪犯的家庭、工作地点或者其他日常活动的地方[………];所以研究人员已经发现并评估了发掘这些犯罪中心的方法,将犯罪中心作为犯罪事件的锚点来研究。在大多数的研究中,锚点都是连环犯罪者的家。这个方法已经得到了验证,并且可以缩小搜索范围的10倍。

我们建立了两种方案,一个是单锚点方案,另一个是多锚点方案。

单锚点方案:重心法

图二展示了我们用单锚点算法预测犯罪地点的方法。

建立搜索区域—》计算犯罪地点的重心—》建立似然点—》调整预测犯罪趋势—》对先前的犯罪地点赋权—》输出可能的犯罪地点

图二:重心法的流程图

算法

建立搜索区域

我们构建能够包含所有先前犯罪地点的方域,然后把边长放大三倍。这就使得关于所有可能区域的基本假设都成立,而且这个相同的比例因子使我们能够在不同的数据库之间比较这个算法。

发现犯罪地点的中心

锚点定义为n个犯罪地点(xi,yi)的均值。

建立似然点

我们用“连环犯罪”模型来预测将来的犯罪地点,模型表明罪犯的围绕着一个锚点的空间犯罪模式不会改变。首次的粗略预测可能描绘出以从犯罪地点到锚点的最大距离为基础的,围绕这个锚点的多种形状(圆形、方形、多边形等)。与之前我们建立的最大圆预测方案相比,这个方法是非常无效的。

代替上述方法的是首先由Rossmo [1999]提出的成坑技术。二维的犯罪地点xi映射到它和锚点ai距离,也就是说,我们…………。集合ri后续用于产生围绕锚点的似然点。

围绕一个锚点的连环犯罪模式有两个支配性理论:

在锚点附近存在一个缓冲带。罪犯在一个以锚点为心的圆环域内实施犯罪[KocsisandIrwin1997]。这个理论经常用带有数列{ri}的均值和方差参数的高斯曲线的正半部分来模仿。

犯罪符合来自一个锚点的衰减的指数模式。这两个理论都得到了“连环犯罪”研究的验证。我们发现了一种符合每一个理论的分布,它决定犯罪序列的模式。对于这一点,我们考虑到伽马分布的灵活性,当点距离比较远时它有近似于可变的高斯模型的特征。但是当参数比较小的时候,曲线近似于负指数函数。

定义随机变量Xi为第i个犯罪点到锚点r的距离,我们令每一个Xi符合一个带有参数k和θ的分布:…………它的概率密度函数是…………我们假设Xi是独立的,用极大似然估计,通过MA TLAB中的ganfit 函数来估计参数k和θ。

然后,我们用分布结果建立了可能犯罪点的似然点。对于搜索范围内的每一个点,我们都计算它的密度。然后标准化使得似然面下的体积之和是精确的值1。

将这个方法用于Peter Sutcliffe的犯罪点集,我们得到了热图如图三:

调整预测犯罪趋势

我们希望我们的预测最终可以对任何放射趋势的犯罪(犯罪越来越大胆,犯罪地点更接近或更远离罪犯的家)作出解释:在ri中的向外或向内的趋势可能暗示下一次犯罪可能仍然遵循这个趋势[Kocsis and Irwin 1997].。…………这个最新的随机变量X~的期望给出了我们所要的趋势:

结果和分析

为了评价我们的模型,我们以三起连环强奸案的数据作为输入。

在每一个测试个例中,我们去除最后一次犯罪的数据点,生成一个似然面Z(x,y)。然后我们预测最后一次案发的地点并比较标准的有效率。

罪犯C

我们第一个测试数据集,对于罪犯C的,是相当成功的(图4)。得到ks=12,这是一个完全按照重要程度顺序,用这个模型而不是均分警力资源的更好的警力资源分布方式。

…………

下一个犯罪点估计会准确落入具有最大高度的等值线的径向带区域内;但这里的120个坐标方格被认为具有更大或者相同的可能性,这就意味着0.3km^2的范围内必须加以相同或者更大强度的巡逻。从绝对意义上来说,这个区域并不大;但是当给予了大量犯罪案件后,这个区域就变得相当大:在这种情况下犯罪区域扩大到1km^2。

当……,这种分布的修正就是微不足道的了;我们简单地预测它是一个放射状的符合地理分布的散点图。这个曲面图也展示了似然点附近区域内部的不合理性,正如地理分布明显的显示了一个重心附近更小的缓冲带。

罪犯B

我们第二个测试数据集,对于罪犯B的(如图5),同样是相当成功的,ks=12。

罪犯A

对于罪犯A,我们找到了一个我们模型明显不符合的例子。最后一次犯罪(看图6)是两个明显异常值中的一个,而且事实上,这个标准的有效率ks=0.4,我们的模型还不如随机预测的帮助性大。然而,我们的模型依然很好的描述出了大量的先前的犯罪,所以锚点可能位于似然区域内的假设也不是很糟糕。某些方案,一时兴致,或者外部影响都会导致罪犯偏离他先前的作案模式。

多锚点方案:聚类算法

我们的第二种方法明确假设至少两个锚点,(例如,家,工作地点)把每一个作为他们自己局部犯罪重心。这种方法确定一个适当数量的族群,这使得我们能够得到以前的犯罪地点。

算法

这个算法的根据是分层聚类分析[Jain,Murty, and Flynn 1999]。一旦群集被找到,以前的算法将被应用于每个群集的重心。

在犯罪续列中发现群集

我们分成两个小群集和四个大群集。聚类算法可以分三步完成:

1、用欧几里得距离计算所有犯罪地点之间的距离。

2、把所有的距离表示在聚类谱系图中,用树状图代表。树状图的数据点P1, . . . , PN通过第一次假定的每个数据点是它自己的群集建立起来,罪犯B的树状图如图7:3.合并这两个最靠近(它们的图心距)的群集,继续这样做直到这两个群集达到研究所想要的数据。在聚类图中绘制了这些群集合并的水平线,它们的高度是由两个合并群集之间的距离决定的。

为了确定最佳聚类的群集数,我们使用了silhouettes的概念。[Rousseeuw 1987]. 我们定义a(Pi)为Pi到它本身所在群集中每个点的平均距离,b(Pi,k)为Pi点到群集Ck(不包括Pi 的群集)中每个点的平均距离。然后Pi的silhouettes值为:(公式)

这个表达式在[1,-1]上取值,s(Pi)越接近1,则Pi越适合当前的群集,Pi的值越接近-1越不适合当前的群集。

为了优化群集的数量,我们计算了分为2,3, 4个群集的形式。然后对于每种不同数量的群集分类,我们计算了每一个点(不仅仅是群集内的点)的silhouettes值。(我们忽略单一点群集的silhouettes值,因为这个群集会影响平均数)然后我们要找3个平均silhouettes 值的最大值。对于犯罪者B,我们发现平均silhouettes值在2,3,4群集分别为0.52,0.50, 0.69。在这个案例中,我们找了4个群集,这些组群通过分组计算后被展示在图8中,因为silhouettes

的平均值与群集的数量的增加一致,我们把可能的群集限制到4。

群集循环算法

我们建立每个群集的似然面。

如果一个群集包含单个的点,我们不认为这种群集代表一个锚点,相反我们把这一点作为一个异常值。我们利用以一个点为中心的高斯分布(正态分布)作为似然面,同时对伽玛分布的期望求均值,并将其作为每个非单点群集的锚点的值。

结合群集预测(不太懂)

利用相互独立的似然面计算每一个群集,我们创建最终的表面作为一个规范化的个体表面的线性组合,对群集内更有可能成为案发地的点和案发时间最近的群集赋权。

结果与分析

这三个测试数据很方便地显示了聚类方法的优越性。

罪犯C: 由于图9中的数据点高度集中,这就说明重心法结果和这个聚类算法的结果区别很小。唯一的区别是聚类算法能够直接识别出异常点,因此在计算更大群集的重心时一般将其排除在外(可以认为这个单点群集在似然面上)。这能够稍微减少方差以及缩小拟合函数;因此,标准的有效数略微有所提升,大约从12上升到16。

罪犯B: 与之相比,通过图10可以看出聚类算法仍作用于该犯罪区域的边缘,由于silhouette最优程序可以确定集群数为4。这就说明对于这个数据集来说,重心法优于聚类算法;毕竟,实际的犯罪点不可能出现在极大似然面的最大径向带上。事实上是由于该模型中最大的群集权重最大但“案发最近”的群集次之。不过,虽然不能准确地预测犯罪者回到先前的活动的区域,但聚类算法在κs≈23仍然优于重心法。这是由于该数据集能够更好更准确的确定似然点,所以在没有犯罪可能的高度似然区域浪费的资源更少。

罪犯A: 不出所料地,通过图11可以看出聚类模型并不优于重心法模型。由于在更大的群集重心计算时排出了异常点,该模型的结果更依赖于这个集群,所以κs≈0。

P143

a.热度图 b.曲面图

图9. 根据群集模型通过先前的犯罪点对于罪犯B最后犯罪位置的预测。

图10。根据群集模型通过先前的犯罪点对于罪犯C最后犯罪位置的预测。

图11。根据群集模型通过先前的犯罪点对于罪犯A最后犯罪位置的预测。

P144

复合方案

基于进一步的工作在我们的简短的参赛论文中没有介绍,我们建立了一种组合方案,来确定重心法和聚类法哪个更好。两种方法利用先前的案发地预测下一个案发地,这种方案以两种方法得到的有效乘率为基础,

我们的组合方案将对a,b,c三个罪犯用聚类的方法。高度集中的单一数据群集,其没有异常值,这种情况下,重心法在任何条件下都优于聚类法。它应该是这样的,因为只有一个真正地锚点,在使用重心法之前,聚类法能拒绝三个统计异常值。这样能使我们预测结果更加准确

模型与随机猜测、直观性观察等方法相对比

虽然我们由于缺乏一些数据集而不能得出任何确定性的结论,但是相比而言,我们的模型在以下几个方面优于其他方法:

。该种预测方法是基于测试了在大量真实数据的连环杀人案的假设趋势下进行的【Canteret al. 2000; Kocsis and Irwin 1997; Paulsen and Robinson 2009】。

。类似的数学技术被用于锚点估计方案,当测试交叉数据样本时该技术始终优于随机猜测。

。对于我们所测试两三个真实数据集来说,该模型是成功的。

。在每个数据集的多次犯罪都可以预测的很好,甚至对我们模型最终所不能预测的、异常犯罪点,即:在一个16起犯罪的一个数据中,我们也经常能够通过前面14起犯罪预测到第15起犯罪,通过前面13起犯罪预测第14起犯罪等等,这些都要比随机猜测要好的多。

P145

我们并不能声称该模型在基于该地区的知识,一种罪犯的犯罪图案结构上的意识上和一些对于罪犯心理上的“直觉”,在执法上通过先前的经验等分配资源上会比一个警察局更好。

此外,研究表明,对于一个非正式的小培训, 在预测一个犯罪的起始位置上一些外行和锚点预测算法预测的几乎一样好[Snook, Taylor, and Bennell 2004].。因此,人们可能会认为一个通过趋近于它的数学优势的方式,通过智能估计加上将有广博的知识和经验来承担“直观的警察“将比整体模型要好的多。

执行总结

概述:模型的优点和缺点

我们给出一个关于一个罪犯基于先前的作案地点和时间,将要去哪个地方袭击下一个目标的模型。我们的算法创建了一个罪犯先前的作案周围地区的彩色编码地图, 该地图上的每一个点的颜色的深浅显示了罪犯对该点实施作案的可能性大小。该模型有以下几个主要优势:

。该模型不包含任意的参数。换句话说,该模型的大多数方面通过对许多连环犯罪的数据集所观察出来的趋势很容易判断出。

。该模型可以估计该预测的可信度。我们的模型首先检查它如何能更好的预测到罪犯先前的犯罪,为了提供一个如何能更好的预测未来的犯罪的一种估计。

。该模型推断出警察只是拥有有限的资源。特别是,如果我们是做出比较好的预测,上面描述的可信度水平变得很大,但如果将可信度缩小,我们的预测的范围将会变得很大,从而使预测毫无意义。

同时,我们的模型包含了一些基本的限制:

。该模型只适用于连环杀人案。我们认为该模型只适用与连环杀人案和强奸案,因为我们的研究显示通过非地理因素更不可预测和影响这系列窃贼和纵火犯。

。该模型不能预测下一个犯罪时间。当我们考虑之前的犯罪顺序以便预测犯罪位置时,我们却不能预测犯罪时间。

。该模型不能充分利用潜在的图中的数据。为了保持普遍性,我们不能做任何关于潜在地理学的假设,人类必须解释输出(例如,选择忽略一个预测在一个湖的中间)。

。这个模型还没有在一系列庞大的经验数据上被确认。

相当大的数据在连环犯罪中并没有被广泛的应用。

另外,这个标准的警告可以应用于任何地理空间情报分析中,这个输出不应该作为单一的预测而是作为一种工具去帮助预先考虑重点领域。被设计用于普遍情况但在特殊情况下是失败的,为了可靠的落实他,必须与人类的评估相匹配。也请注意,对于预测罪犯“本垒”的模型可以更好地被研究,总之,与一些运算规则宣称的预测下一个打击点相比更精确。一个警察局应该根据具体情况选择基础类型模型使用。

模型内部工作

投入

我们的模型需要一个连环案罪犯的犯罪以前的坐标位置,以及罪犯的犯罪顺序。

假设

1·罪犯倾向于打击的位置在个或多个锚点的位置,(通常,罪犯的家里)

2·在这个锚点周围可能有罪犯不能打极大的“缓冲区”。

3·如果罪犯存在多个锚点,从那些他经常打击或最近打击的地区周围更有可能性。

方法

两个不同模型不同算法的工具,然后决定哪个更好

方法一假设罪犯有单一锚点,在他过去犯罪的基础上建立区域可能性。

方法二假设存在多个锚点,计算出最好的锚点使用,决定在每个点的可能性。考虑每一个被罪犯显然首选的地区的周围。

最后,该算法测试两种模型,看看他们怎样更好的预测前面的罪行和更好地使用模型及录。

总结和推荐

我们的模型在现实生活测试期间,他强壮的理论基础,自我评价体制和意识到实际问题。能给警察局寻找预测罪犯下一个打击点提供了很好的选择。它的结果与人类的意识相结合间会有最大的实用性。

相关主题
文本预览
相关文档 最新文档