信息抽取调研结果及研究方案
汇报人汇报人::郎君
2004年5月30日
概要
0 项目成员简介
研究意义、、国内外研究现状
1 研究意义
研究内容、、研究目标及拟解决的关键问题
2 研究内容
3 拟采取的研究方案及可行性分析
4 展望
0 项目成员简介
秦兵秦兵::项目整体设计与实施
车万翔车万翔::关系抽取及整体框架搭建
于海滨于海滨::事件模板抽取
郎君郎君::指代消解
廖先桃廖先桃::命名实体识别 秦兵秦兵、、陈尚林陈尚林::多文档自动文摘
1 研究意义研究意义、、国内外研究现状
信息抽取的相关概念
信息抽取与相关领域的区别与联系
问题研究的意义
国内外研究现状
IE 系统设计的两大方法
自由式自由式、、结构化结构化、、半结构化文本和网页 信息抽取系统的体系结构
信息抽取的相关概念
互联网的迅猛发展=>信息爆炸=>信息抽取
信息抽取(Information Extraction)是指从一段文本中抽取指定的事件抽取指定的事件、、事实等信息事实等信息,,形成结构化的数据并填入一个数据库中供用户查询使用的过程填入一个数据库中供用户查询使用的过程。。即它从文本中抽取用户感兴趣的事件本中抽取用户感兴趣的事件、、实体和关系实体和关系,,然后进入数据库数据库,,分析趋势分析趋势,,给出文摘给出文摘,,或进行在线服务或进行在线服务。。信息抽取还可以看作是信息检索的进一步深化息抽取还可以看作是信息检索的进一步深化,,研究指定信息的查找定信息的查找、、理解和抽取理解和抽取,,并将指定信息以适当的方式输出方式输出。。信息抽取本身也是多种基本自然语言处理技术的综合应用技术的综合应用,,因此应用领域十分广泛因此应用领域十分广泛。。
信息抽取是浅层的或者说简化的文本理解技术 处理对象是自然语言文本尤其是非结构化文本
信息抽取与相关领域的区别与联系 对比于信息检索–不同
功能不同.
处理技术不同.
适用领域不同.
发展历史不同.–互补
IE 以IR 为输入为输入((方便处理海量文本方便处理海量文本))
IE 为IR 服务服务((提高IR 性能性能))
结合二者更好的服务于用户的信息处理需求
信息抽取与相关领域的区别与联系con.
对比于自动文摘对比于自动文摘、、文本理解–自动文摘和文本理解是广域的–IE 是特定域的是特定域的((“特定”程度需要用户协助确定程度需要用户协助确定))
与单文档自动文摘的关系–NE for SDA.–CR for SDA.–RE for SDA.–ST for SDA. 与多文档文摘之间的关系–RE+ST=>事件合并=>输出文摘=>降低冗余度
问题研究的意义
信息抽取的宗旨在于抽取指定的信息信息抽取的宗旨在于抽取指定的信息,,它突破了信息检索中必须由人来阅读了信息检索中必须由人来阅读、、理解理解、、抽取信息的局限性息的局限性,,实现了信息的自动查找实现了信息的自动查找、、理解和抽取抽取。。
信息抽取可以进一步精化信息检索的结果
信息抽取的每一个模块都可以作为输出应用 具有非常广泛的应用领域
–应用于传统的信息检索.–可以集成到一些数据库应用系统.–直接用于各种文本信息的处理过程之中.