东北大学毕业设计(论文)开题报告

  • 格式:pdf
  • 大小:226.64 KB
  • 文档页数:8

下载文档原格式

  / 8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

东北大学计算机科学与工程学院

毕业设计(论文)开题报告

设计(论文)题目:基于文本语义的复杂实体识别

系统的设计与实现

姓名:学号:2012

专业:计算机科学与技术班级:计算机1206班指导教师:

实习单位:东北大学计算机科学与工程学院

开题日期:2016年3月21日

目录

1课题提出 (1)

1.1课题背景、目的与意义 (1)

1.2国内外现状 (1)

1.3研究内容 (2)

2设计方案论证 (2)

2.1业务描述 (2)

2.2数据模型 (3)

2.3实现功能 (4)

2.4关键技术及难点 (4)

2.5解决方案 (5)

3开发环境及系统实现 (5)

4论文进度计划 (5)

5参考文献 (6)

1课题提出

1.1课题背景、目的与意义

在进入21世纪后,经过互联网和通信技术的迅速发展、应用和普及,信息量急速增长,使得海量信息以电子文档的形式出现在人们眼前。面对这样的情况,人们迫切地希望计算机能对网上出现的文本信息实现自动化的处理。从而,实体识别技术成为了人们研究的焦点,因为实体识别是文本智能处理过程中的关键技术、基础技术,渗透到自然语言处理的多个方面,如信息检索、文本分类、自动问答、自动摘要、信息抽取等。尤其是在信息技术不断发展的带动下,广泛而深刻地影响着人们生活中的各个方面。

中文文本由于不含有西方语言的一些形态特征如大小写字母、分隔符、空格符等,给实体识别技术的研究带来了一些挑战,具体表现在以下几个方面:一、缺乏明显的特征标志,英文文本大多首字母大写,因此易于识别,而中文文本不具有这样的特征,就增加了识别的难度;二、分词的准确性会影响实体的识别,采用不同的分词方法很可能造成命名实体的边界错误,混淆文本语义;三、不同种类的命名实体间存在歧义问题,主要可以分为边界歧义和分类歧义,边界歧义是指命名实体边界的不同会有不同的识别结果,分类歧义是指一个命名实体可以标为几种各不相同的实体类型。面对这样一些困难,基于文本语义的研究就显得尤为重要。因为经过语义分析后的中文文本可以有效地避免由分词错误而引起的实体识别错误。

1.2国内外现状

随着近些年来,自然语言处理技术的不断发展和进步,基于中文文本的实体识别已成为人们研究的热点课题,国内外众多学者和专家都对此进行了深入的研究。根据他们的研究结果,我们可以知道目前基于中文的实体识别的主要方法是:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。

尤其是近几年,应用机器学习方法进行复杂数据上的实体识别技术的研究相当活跃。基于统计的机器学习的方法,利用人工标注的语料进行训练,代价小,这类系统在移植到新的领域时可以不做或者做很少的改动。许多研究者们将复杂数据上的实体识别看作是规则学习、序列标记问题或实体分类聚类问题,从而以各种方式尝试了很多不同的算法或模型,最常用的有隐马尔科夫模型、最大熵模型、支持向量机、条件随机场、转换规则学习等。应用机器学习而研究的实体识别技术具有很好的领域可移植性,并在性能方面有良好的表现。

然而就目前来讲,基于文本语义的实体识别技术的研究仍然处于起步阶段,国内

外关于中文文本的实体识别的准确率和召回率的报告一般在90%左右。这是因为文本语义中缺乏字形变化信息,常用手写语法规则并结合词频信息的方法来识别命名实体。现有的中文文本实体识别研究方案可以根据研究范围的不同可以分为两个方向:一是个别解决方案,只识别某一类命名实体,具体如贝叶斯算法等;二是一体化解决方案,可以同时识别多种命名实体,具体如基于层叠隐马尔科夫模型、基于决策树的方法等。

1.3研究内容

本文研究的是实体识别技术,即基于文本在语义方面的相似性来对复杂实体进行识别。目前针对中文文本的实体识别系统绝大部分采用的是基于规则与统计方法相结合的方式,二者可以相互弥补各自的不足,从而获得更加优异的性能。

对于本文所做的研究,其应用主要是根据文章的标题和摘要来计算文章之间的相似度,具体可分为以下几个部分:

(1)利用现有的中文分词系统将待处理文本进行合理地分词,得到一个易于处理的文本,并尽可能地保证分词的精确度(达到95%以上)和分词速度(达到千字/s);

(2)构建过滤词表,对经过分词处理的文本进行预处理,尽量过滤掉一些语义无关词(如“的”、“和”、“了”等),以降低实体识别的复杂度,提高响应速度;

(3)建立合适的分析模型(考虑最大熵模型),主要分析文章的标题和摘要,并利用经过预处理的语料来计算文章相似度;

(4)设计有效的评估机制,通过计算实体识别的准确率、召回率以及F值来对分析结果的准确性进行合理的评估,以得到一个可靠的输出结果。

2设计方案论证

2.1业务描述

本文主要研究实体识别技术,针对网络上出现的海量文本信息进行详细的语义分析和信息整合,达到文本内容快速识别和文本相似度准确比较的目的。以此为出发点,本次设计的业务描述如图2.1所示:

中文电子文本分词预处理

词性过滤

分析模型处理

输出结果

最大熵模型

过滤词表

结果评估

准确率,召回率

图2.1业务流程图过滤词表

分析结果语法规则评估结果分析结果数据语义关键词

文本原始语料文本标题、摘要初始文本分词预

处理词性过滤

文本相似性分

结果评

估用户

图2.2系统数据流图

2.2数据模型

本文的研究对象为中文文本,数据来源主要是网络上的电子文档,故数据模型可

以依据文本结构特点、中文语法规则和文本内容摘要来建立。系统处理过程中的主要数据类型可以分为初始文本、原始语料集、分析结果数据、评估结果数据等,其具体设计如图2.2所示:

2.3实现功能

本文所做的复杂数据的实体识别研究,其应用主要是根据文章的标题和摘要来计算文章之间的相似度,故可以具体实现的功能有:词性过滤、相似性分析、结果评估等。系统功能层次如图2.3所示:

中文电子文本

分词预处理

词性过滤

估图2.3系统功能层次图

2.4关键技术及难点

本文研究的对象主要是中文文本,因其不含有西方语言的一些形态特征如大小写字母、分隔符、空格符等,给实体识别技术的研究带来了一些挑战,具体存在于:(1)中文文本没有类似于英文文本中空格之类的显示地标识出每个词的边界,并且缺乏明显的特征标志,英文文本大多首字母大写,因此易于识别,而中文文本不具有这样的特征,就增加了识别的难度;

(2)分词的准确性会影响实体的识别,采用不同的分词方法很可能造成命名实体的边界错误,混淆文本语义;

(3)现代中文文本,尤其是网络上的电子文档,经常会有中英文的交替使用,这样中文实体识别的任务就必须包括识别文本中的英文实体;

(4)不同种类的命名实体间存在歧义问题,主要可以分为边界歧义和分类歧义,