基于词性选择的文本预处理方法研究

  • 格式:pdf
  • 大小:271.32 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1引言

面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力。二是存在分类结果一致性不高的问题。网络信息的激增一方面增加了对于快速、自动文本分类的迫切需求,另一方面又为基于机器学习的文本分类方法准备了充分的资源。电子化信息的自动分类处

理技术正越发显示着其优越性,文本自动分类及其

相关技术的研究也正日益成为一项研究热点。

目前,文本分类的研究已经很成熟,各种分类器显示出各自不同的性能,影响文本分类精确度的关键因素之一是中文文本的预处理,其过程比较烦琐。在预处理过程中,分词器对文本进行分词处理,经过去除停用词获得文本的关键词向量。只有去掉没有实意的虚词和类别色彩不强的中性词,才能大大提高文本分类准确度,而这些词条的过滤需要建立起完善的停用词表。停用词表的建立不仅需要大量的实验,而且需要众多分类专家的参与,才能精确地将

基于词性选择的文本预处理方法研究

(河北北方学院图书馆,河北张家口075000)

要:预处理是文本分类中的一个重要环节,预处理结果的好坏不仅关系到分类的准确度,而且

关系到训练时间的长短和影响到分类的速度。采用一种基于词性选择的文本预处理方法进行文本预处理,该方法与传统方法进行了实验对比,结果显示,该方法降低了特征维数,同时保证了分类性能。实验表明该方法能够获得较好的分类效果。关键词:文本分类;停用词;词性;文本预处理中图分类号:TP391

文献标识码:A

文献编号:1007-7634(2009)05-0717-03

Research on the Text Pretreatment Based on

Part of Speech Selection

LI Ying

(Library of Hebei North University ,Zhangjiakou 075000,China )

Abstract :The text pretreatment is in a text classification important link ,the pretreatment result qual -ity not only relates the classification the accuracy ,moreover relates the training time the length and af -fects the classified speed.This article used one kind to carry on the text pretreatment based on the lex -ical category choice text pretreatment method ,this method and the conventional routes have carried on the experiment contrast ,finally demonstrated that this method reduced the characteristic dimension ,simultaneously has guaranteed the classified performance.The experiment indicated that this method can obtain the good classified effect.

Key words :text categorization ;stop-words ;part of speech ;text pretreatment

收稿日期:2009-03-18作者简介:李

英(1971-),女,天津武清人,副研究馆员,学士,从事文本分类、信息处理研究.

Vol.27,No.5May ,2009

情报科学

第27卷第5期2009年5月

一些虚词和没有浓重类别信息的中性词剔除掉。国内目前尚无中文停用词表的建立标准,大多数分类系统只是根据所研究对象的不同有针对性地过滤掉一部分停用词达到期望的分类效果。针对此问题本文提出了一种新的文本预处理方法—基于词性选择的文本预处理。

2分类过程结构图

中文文本自动分类模型包括五个方面:文本预处理、特征抽取、特征选择、利用分类算法提取分类模型、对分类模型进行质量评估。各个环节独立存在,也紧密相连,目前特征选择方法与分类算法功能比较完善,一些研究人员在特征抽取方向做了一定的研究,预处理技术是整个分类过程的首模块,它对于分类是至关重要的。文本自动分类工具的实现过程如图1所示。

图1文本自动分类过程结构图

3文本预处理方法

3.1文本预处理过程描述

图2停用词表的部分截图

文本预处理通常做法包括分词处理,关键部分加权,去除停用词。经过分词处理,意义连贯的文档变成词的列表,同时统计的还有各个词在文档中出现的次数。去除停用词,主要是去掉一些对文章的内容没有什么表现力的字词。停用词过滤是建立一个停用词典,在文本特征提取阶段将这些停用词过滤掉。停用词指的是一些出现频率很高但没有实际意义的词,如:“是”、“的”、“所”、“到”、“从而”、“能”、“比”等一些功能词。如图2所示。

3.2预处理过程实现

目前,在文本信息处理过程中,一般可以选择字、词或词组作为文本的特征项,但普遍认为选取词作为特征项要优于字和词组。但是在基于向量空间模型的分类系统中,中文分词器切分出来的所有词条中含有大量的单个独立字,并且经过研究发现这些单个独立字不仅所携带的文本信息量较少,而且还对其他实词起到一定的抑制作用,降低了分类系统的处理效率和准确度【1-2】,因此,文本预处理过程有必要将所有的单个独立字过滤。

文献【3】中,广州工业大学的周钦强运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。有效增强了文本向量的中文纯度。

4基于词性选择的文本预处理

通常一篇文章的特征是通过一组词或词组来表示的,一个文件集合可能会包含数十万个不同的特征,同时停用词表的建立是一个长期的过程,在没有建立起完善的停用词表的情况下,一个不全面的停用词表会对特征的提取存在一定的影响。对如此高维的特征空间不仅会增加分类算法的处理时间,对算法的精度也会产生不利的影响。

在文献【4】中,李彦平,张佳冀在特征选择上采用了词性过滤技术,根据分词结果的词性标注信息,经过停用词过滤和词性过滤后只保留名词、动词和缩略词这些实词。在文献【5】中,北京航空航天大学的谢科也采用了词性筛选方式对名词词语进行了筛选,他们都采用了利用文本相似度来计算聚类与分类,均取得了不错的效果。

基于上述情况,提出了基于词性选择的文本预处理方法,本文采用中科院计算所汉语词法分析系统ICTClAS分词系统,该系统可以在分词的同时对词性进行标记,

并对词性进行筛选以过滤掉文本中718情报科学27卷