词语搭配抽取的统计方法及计算机实现

  • 格式:doc
  • 大小:125.00 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词语搭配抽取的统计方法及计算机实现

邓耀臣王同顺

(上海交通大学外国语学院,上海200240 )

摘要:计算机语料库的发展为词语搭配研究提供了新的方法。然而,也同样受到资源共享困难和语料分析工具不足的困惑。本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro (VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法并对这种方法的可行性和结果的可靠性进行了评估。

关键词:词语搭配;统计方法;计算机实现

Statistics in Collocation Extraction and Computer Implementation

DENG Yaochen, WANG Tongshun

(College of Foreign Studies, Shanghai Jiao Tong University, Shanghai 200240, China) Abstract: The development of computer corpora provides a new approach for collocation study. However, the corpus-based collocation study is restricted by difficulties in resource share and inefficiency of current analysis tools. This paper, on the basis of the introduction to three commonly-used statistics in collocation extraction, proposes a method to calculate the collocation measures and to extract collocations automatically by combining a free concordance software and Visual Foxpro. An evaluation test confirms its practicability and reliability.

Key words: collocation, statistics, computer implementation

语料库语言学的发展为语言研究开辟了一个新的领域,词语搭配以其在语言产生、语言理解和语言学习中的重要作用无疑处于该领域的中心地位。然而,基于语料库的词语搭配研究也同样受到资源共享困难和语料分析工具不足的困惑。目前词语搭配研究中较为权威可靠的工具要么属于商业性软件,如WordSmith,Sara等,价格昂贵,不是一般的研究人员所能拥有;要么功能不全,如TACT仅提供Z-值并且对语料库的大小有严格限制,WordSmith 仅提供MI-值,只能抽取出显著性最高的10个搭配词。由此可见,现有工具远不能满足语料库深入研究的需要。本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro(VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法。通过与TACT和WordSmith 抽取结果的对比,对这种方法的可行性和结果的可靠性进行了评估。

1 词语搭配抽取的统计方法

词语搭配指的是词与词的结伴使用这种语言现象,是词语间的典型共现行为(Firth

作者简介:邓耀臣(1967—),男,汉,博士研究生。研究方向:语料库语言学与二语习得。

王同顺(1955—),男,汉,教授,博士生导师。研究方向:二语习得,大纲设计。

1957:12)。词语搭配的典型性取决于搭配的概率属性,因为任何搭配都是可能的,只不过一些比另一些更为恰当(Sinclair 1966:411)。因此,抽取“更为恰当”的、典型的搭配成为词语搭配研究的一个重要方面。在基于语料库的词语搭配研究中,运用概率信息自动抽取典型词语搭配的方法主要有三种:1)统计搭配词与节点词的共现频数 2)统计测量共现词项间的MI-值 3)统计测量共现词项间的T-值(或Z-值)。

1.1 搭配词与节点词共现频数的统计

该方法首先利用检索工具对节点词作带有语境的检索(KWIC ),然后提取一定跨距内与节点词共现的所有词项,并统计这些共现词项的频数。所谓节点词就是研究者要在语料库中观察和研究其搭配行为的关键词。跨距指的是节点词的左右语境,以词形为单位计算。跨距的确定直接关系到搭配词提取的结果 。以往研究结果表明就英语而言,将跨距界定为-4/+4或-5/+5 是较为合适的。但是跨距的界定也受所研究文本的语体、文体和语域等因素的影响,因此也要视文本的具体性质和特点而定(卫乃兴 2002:42)。通常情况下,只有在语料库中与节点词共现频数达到3次以上的词项才可被认为是节点词的搭配词,只出现一次或两次的搭配序列可能是语言使用中的偶然行为。当然,这也与研究所用语料库的大小有关,如果使用的语料库较小,也可将最低共现频数设为2。

搭配词的共现频数可使研究者清楚看出哪一些词与节点词经常在一起搭配使用。但是,该方法也存在严重的不足。由于界定跨距忽略句子界限,并且一些共现词与节点词本来没有语法限制关系,对节点词也没有任何预见作用,只是由于他们是英语中的高频词汇而有可能被当作某一节点词的搭配词。另外,仅根据共现频数的高低,研究者也无法确定每一个搭配词是否为显著搭配词。要确定某一搭配词的显著性,就必须运用统计测量的手段,检验每一个搭配词与节点词之间的相互预见和相互吸引程度,判断它们的共现行为在多大程度上体现了词语组合的典型性。常用的测量方法是计算共现词项间的T-值和MI-值。

1.2 T-值和MI-值的计算

计算T-值和MI-值都是通过比较搭配词的观察频数和期望频数的差异来确定某一词语搭配在语料库中出现概率的显著程度(Hunston 2002:70)。

MI-值(Mutual Information Score,互信息值)表示的是互相共现的两个词中,一个词对另一个词的影响程度或者说一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。MI 值越大,说明节点词对其词汇环境影响越大,对其搭配词吸引力越强。因此,MI 值表示的是词语间的搭配强度。MI-值的计算公式为:

)()();(2);(log y x y x y x P P P MI ⨯==)()(),(2log y x y x F F N F ⨯⨯

公式中x ,y 代表两个相互共现的词项,P (x) ,P (y)分别表示词项x ,y 在语料库中出现的概率, F (x),,F (y)分别表示词项x, y 在语料库中出现的频率,F (x,y)表示词项x, y 在语料库中的共现频数,N 表示语料库的总词次数(token )。

如果x 和y 之间存在真正的连结关系,那么观察概率将远大于期望概率,结果为I (x,y)>0。如果两个词相关程度不高,那么观察概率接近期望概率,结果为I (x,y)≈0。如果I (x,y)<0,说明其中一个词出现时,另一个词不出现,即二者呈互补分布( Church & Hanks 1990:24 )。基于语料库的词语搭配研究中通常把MI 值等于或大于3 的词作为显著搭配词(Hunston 2002:71)。

T-值是根据假设检验中的t 检验计算得来的。假设检验主要通过检验某一样本的平均数与正态分布总体的平均数之间的差异是否显著来断定该样本取自总体的可能性有多大。或者说二者之间的差异是否由偶然性造成。运用t 检验断定搭配词的显著性时,首先形成零假设:两个共现词之间没有联系,不能构成搭配。然后以标准差来衡量观察频数和期望频数的差异