当前位置：文档之家› 基于文本的实体—关系抽取技术研究

基于文本的实体—关系抽取技术研究

摘要............................................................................................................................ I ABSTRACT .................................................................................................................. II 第一章绪论 (1)

1.1课题背景与意义 (1)

1.2国内外研究现状 (3)

1.3主要研究内容 (5)

1.4论文组织结构 (6)

第二章信息抽取技术研究 (7)

2.1信息抽取概述 (7)

2.1.1信息抽取任务 (7)

2.1.2信息抽取系统结构 (8)

2.1.3信息抽取系统评价 (10)

2.2命名实体识别 (10)

2.2.1知识工程方法 (11)

2.2.2统计模型方法 (12)

2.3实体关系抽取 (13)

2.3.1有监督关系抽取 (13)

2.3.2无监督关系抽取 (16)

2.3.3弱监督关系抽取 (17)

2.4本章小结 (18)

第三章基于主动学习与自学习的命名实体识别 (20)

3.1预备知识 (21)

3.1.1基于条件随机场的命名实体识别 (21)

3.1.2主动学习 (22)

3.1.3自学习 (23)

3.2主动学习与自学习结合的命名实体识别 (24)

3.2.1思想基础 (24)

3.2.2算法处理的具体流程 (26)

3.3实验结果和分析 (27)

3.3.1实验一 (27)

3.3.2实验二 (29)

3.3.3实验三 (30)

3.3.4实验四 (30)

3.4本章小结 (32)

第四章基于改进TRI-TRAINING算法的关系提取 (33)

4.1相关概念 (33)

4.1.1弱监督学习中的协同训练方法 (33)

4.1.2SVM分类器 (35)

4.2算法的思想和流程 (36)

4.2.1Tri-Training算法分析 (36)

4.2.2改进策略与算法流程 (39)

4.3实验与分析 (41)

4.4本章小结 (45)

第五章基于文本数据的信息抽取与关联分析可视化原型系统设计与实现 (46)

5.1图数据库及Neo4j简介 (46)

5.2文本数据关联可视化分析系统框架 (47)

5.3系统实现 (48)

5.3.1数据转换功能 (48)

5.3.2人机交互功能 (50)

5.3.3关联分析功能 (51)

5.3.4布局展示功能 (53)

5.4本章小结 (55)

第六章总结与展望 (56)

6.1研究工作和成果总结 (56)

6.2进一步的研究方向 (57)

致谢 (59)

参考文献 (61)

作者在学期间取得的学术成果 (66)

表2-1 ACE08定义的实体类型 (11)

表2-2 三种模型对比 (12)

表2-3 ACE08定义的关系种类 (13)

表3-1 模版及其意义 (27)

表3-2 实验一数据 (28)

表3-3 实验二数据 (29)

表3-4 实验三数据 (30)

表3-5 实验四数据 (31)

表3-6 不同区间对应的贡献度 (31)

表4-1 三类弱监督学习方法 (34)

表4-2 协同训练方法对比 (35)

表4-3 Tri-training实验结果 (42)

表4-4 使用评价函数1的结果 (43)

表4-5 使用评价函数2的结果 (43)

表4-6 仅使用主动学习的结果 (43)

表4-7 评价函数1+主动学习 (43)

表4-8 评价函数2+主动学习 (43)

表5-1 系统的运行环境 (48)

图2-1 MUC-7子任务 (7)

图2-2 ACE2005子任务 (8)

图2-3 Cardie框架 (8)

图2-4 Hobbs结构 (9)

图3-1 SACRF算法框架 (24)

图3-2各种方法F值对比 (28)

图3-3不同u值对应的F值与标注量 (29)

图4-1 Tri-Training算法流程图 (37)

图4-2 对比柱状图 (44)

图5-1 Neoclipse启动界面和主窗口 (47)

图5-2 系统架构与处理流程 (47)

图5-3 打开文本文件 (49)

图5-4 显示界面和主要功能分区 (49)

图5-5 放大缩小操作和节点属性修改 (50)

图5-6 改变布局的中心节点 (50)

图5-7 更换背景图片 (51)

图5-8 查询特定实体 (52)

图5-9 挖掘局部社区 (52)

图5-10 增大搜索深度 (53)

图5-11 六种布局策略 (54)

图5-12 社区布局算法 (55)

摘要

信息抽取（Information Extraction）技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等，形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务，也是研究的热点问题。随着文本数据的爆炸式增长，如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题，在这方面，以有监督为代表的传统方法表现不佳，采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上，对弱监督的命名实体识别和关系抽取进行了改进，并取得了良好的效果。

在命名实体识别方面，本文提出了SACRF（Self-training with Active learning based on CRF）方法，依据少量的初始训练语料和大量未标注数据，采用条件随机场作为基础分类器，使用自学习方法自动扩展未标注语料，并使用主动学习标注置信度低的样本。实验表明，该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时，能够显著降低人工标注的工作量。

在关系抽取方面，基于传统弱监督方法存在的噪声引入以及准确率不高问题，本文改进了Tri-Training算法的投票策略，并引入主动学习思想来进一步提高准确率。在关系抽取实验中，改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。

最后，本文基于所提出方法，实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示，同时具备初步的关联分析和人机交互功能，以辅助用户分析决策。

关键词:信息抽取；命名实体识别；关系抽取；弱监督学习；自学习；主动学习；Tri-Training