信息过滤技术及应用

  • 格式:doc
  • 大小:26.00 KB
  • 文档页数:3

下载文档原格式

  / 3
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息过滤技术及应用

【摘要】信息过滤作为解决网络信息超载问题而发展起来的技术与方法,目前主要集中运用于不良信息过滤和获取与用户需求密切相关的信息。本文对信息过滤技术的分类及应用进行了研究探讨。

【关键词】信息过滤;技术;应用

信息过滤(information filtering,IF)作为解决网络信息超载问题而发展起来的技术与方法,最初运用于新闻和电子邮件过滤,后来被用于各类信息源过滤。目前国内外关于信息过滤的研究主要集中在两个方面:一是不良信息过滤,主要目的在于维护网络信息的健康,净化网络环境;二是获取相关信息过滤,过滤掉无用或不相关的信息,主要目的在于获取与用户需求密切相关的信息。

本文着重探讨网上不良信息的过滤,不良信息是一个主观的、相对的概念,同一信息相对于不同的用户、不同的监管者和不同的环境条件来说,可能会有不同的定位。我国自1996年以来,已经制定了20多个涉及互联网非法内容的法律文件。一般情况下,凡是违背社会主义精神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德的各类文字、图片、音视频信息都可视为不良信息。

1.信息过滤技术的分类

目前国内外的各种不良信息过滤软件或系统,在网页信息鉴别上主要使用四种过滤技术,即基于因特网内容分级平台过滤(PICS)、数据库过滤(IP库、URL 库)、关键词过滤以及基于内容理解的过滤。

1.1基于因特网内容分级平台过滤(PICS)

为了保护用户免受网络不良信息的侵扰,W3C(World Wide Web Consortium)于1995年8月组织当时因特网上的主导力量共同商讨制定一套技术规范,即因特网内容分级平台(platform for Internet content selection,简称PICS),它是一种分级过滤软件标准,为网上信息内容的标记、分级提供一个平台,使用户或组织能够根据各自认同的分级体系对网络内容进行分级,分级体系(rating system)规定了分级的类目、类目的级别和分级的标准。

分级得到被称为分级标记(content rating)的数据集,分级标记产生以后,凡是遵循PICS技术规范开发的软件都可以对其进行处理。用户可以通过分级标记了解到分级机构和分级体系的情况,从而在使用时下载合适的过滤系统分级档案,并在浏览器中设置不同的向度,在浏览网页时,浏览器会依据用户设定的向度级别筛选出合适的信息。

利用网页内容分级法,采取人工分级方法过滤不良信息,其错误率相对较低,并可以准确地对图像、视频等多媒体信息进行准确分级,尤其是网页作者能主动采用标准的分级体系分级时,将对过滤不良信息、净化网络环境有较大的推动作用。但这与网页作者希望更多的人浏览其网页的初衷是相违背的,如果网页作者是恶意地传播不良信息的话,用户对其是无法控制的。

1.2数据库过滤

数据库过滤就是通过对网上各种信息进行分类后,精确地匹配URL和与之对应的页面内容,形成一个预分类的网址库。网址库有两种类型的列表,一种为“黑名单”,包括禁止访问的目标网站的URL,另一个是“白名单”,包括允许访问的目标网站的URL。在用户访问网页时,依据数据库中的IP地址或URL来判

定是否需要过滤掉相应的内容。数据库必须依赖事先列出的特定网址,对非法URL的覆盖程度不高,此外这种方法对许多寄生在综合性网站内的不良信息也无法过滤。但数据库过滤的过滤速度快,准确率比较高,且经过系统的不断训练反馈,通过一定时间一定规模的积累之后,禁用地址数据库将动态地修改完善,在一定程度上可以满足用户要求。

1.3基于关键词的过滤

基于关键词的过滤原理简单,就是给定一系列描述文档特征的关键字或索引词,或者时间、作者姓名等个性信息。在过滤过程中,它以数据流中是否包含关键词或衡量与关键词的相似度,判断是否要过滤掉该页面。这种方法的性能取决于是否建立精确完备的禁用关键词库,它过滤速度快,但往往不考虑上下文的关联性,漏报、错报率较高,而且有些信息内容的发布者可能有意避开使用这些词,用其他的词或图片替代,使得基于关键词的信息过滤机制不能识别。

1.4基于内容理解的过滤

基于内容理解的过滤是指对获取的网络信息内容进行识别、判断、分类,确定其是否为需要过滤的目标内容,并对已确定的目标内容进行过滤等检测控制的技术。它是根据不良信息的一些内容所呈现的特征来进行判断的一种识别过滤方法。基于内容理解的过滤技术具有适应性强、精度高等特点,能有效地解决基于数据库和关键词的过滤技术不能处理好的问题,包括文本内容理解过滤、图像内容分析过滤、视频内容分析过滤和智能混合过滤等。

1.5其他过滤策略

基于提高过滤不良信息的整体性能和运行速度考虑,分级匹配过滤的策略也被提出来。第一级过滤是基于查询关键词的过滤和基于数据库的过滤,这两种过滤方式过滤速度快,可以快速剔除一部分不良信息,缓解了系统压力。第二级过滤是基于内容理解的过滤,是主要的过滤环节。两种过滤方式的有机结合,在一定程度上提高了过滤的效率和准确率。

2.信息过滤技术的应用

通过在服务器端或是计算机终端安装过滤产品,信息过滤技术已经被广泛地应用于网络环境的净化。公安、安全网络监察部门广泛采用各种信息过滤产品,实现对互联网接入单位网络出口的信息审计管理。教育部、财政部、工业和信息化部、国务院新闻办2009年4月下发通知,为各中小学校联网的计算机终端免费提供绿色上网过滤软件,以净化校园网络环境。中国电信、中国网通等运营商也陆续在全国各地推出绿色上网业务,为用户提供不良信息过滤服务,这些举措都可以为部队网络管理部门所借鉴。

目前,经过公安部审核颁发销售许可证的硬件或软件的信息过滤产品已达30余种,可以实现IP过滤、自动收集、识别网上的各种信息,具有智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的报警等功能。基于中间服务器过滤的网络安全管理系统或网关型产品,对于部队网络管理部门来说是一个良好的选择,所有的信息都要经过它的过滤才能进出内网,可以对不良信息进行有效控制,实现把内网安全管理由被动防护转变为主动检测,根据用户工作性质设置管理策略,对用户网上行为进行监管、审计、追踪等,能够有效提高网络信息管理水平。

依靠专门的网络信息过滤产品,在隔离不良信息方面虽然能起到明显的作用,但任何一种过滤策略不可能剔除网上所有的不良信息。创建良好的网络环境,引导和督促使用者养成良好的上网习惯,加强对上网行为的严格管理是关键。在