当前位置：文档之家› 基于规则的中文人名识别与抽取关键技术研究

基于规则的中文人名识别与抽取关键技术研究

基于规则的中文人名识别与抽取关键技术研究摘要：新兴媒体时代的发展使大量的信息涌入了我们的视线和大脑，广大网名用户在面对网上的信息时需要找寻符合自己的资料，在这种情况下，信息抽取发展起来了。国内的信息抽取技术起步时间较短，又由于中文信息的复杂性，所以在中文信息抽取领域，此技术还不是特别的成熟。在本文中，作者对基于规则的中文人名抽取技术进行了初步探索和研究。

关键词：自然语言处理，信息抽取，命名实体识别，人名识别

1 有关背景

信息时代的发展，我们每天都会面临大量的信息，不同的用户接触的信息虽然不同，但用户都需要从这些大量的信息中抽取出自己感兴趣和有实际用途的信息，信息抽取技术在这种情况下慢慢地发展了起来。目前，信息抽取的主要任务是将文字中大量的信息准确地进行分词、识别、整理，提取出人和事的关键特征词，组织成关键语句，方便于查询检索，提高检索效率。在互联网时代，信息抽取技术是信息检索技术的技术支撑，它既可以提高检索效率，又能准确的抓取面对用户有用的信息。例如，信息抽取系统可以从用户感兴趣的信息中分词抽取出时间、地点、关键人物、原因等，将抽取结果保存在数据库中，为用户进一步查询和分析提供支持和帮助。信息抽取的关键任务包括：命名实体识别、句法分析、篇章分析与推理、知识获取等。