当前位置:文档之家› 0409_82_李保利_信息抽取研究综述

0409_82_李保利_信息抽取研究综述

0409_82_李保利_信息抽取研究综述
0409_82_李保利_信息抽取研究综述

信息抽取研究综述ж

李保利陈玉忠俞士汶

(北京大学计算机科学与技术系计算语言学研究所北京 100871)

摘要:信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。

关键词:自然语言处理;信息抽取;信息检索;命名实体识别

中图法分类号:TP391

RESEARCH ON INFORMATION EXTRACTION: A SURVEY

LI Bao-Li, CHEN Yu-Zhong, YU Shi-Wen

Department of Computer Science and Technology, Peking University, Beijing 100871

Abstract: The research on Information Extraction aims at providing more powerful information access tools to help people overcome the problem of information overloading. Unlike Information Retrieval, Information Extraction Systems extract factual information directly from natural language texts. In the last decade, Information Extraction has become an important sub-field of Natural Language Processing. Its unique development track, i.e. accelerating research via systematical and large scale evaluation, and some successful experience, such as the effectiveness of partial-parsing techniques and the importance of fast development cycles, have made it a great and most important impetus to the research of NLP in the last decade. Moreover, Information Extraction has built a more effective connection between NLP researchers and NLP system developers. It will be helpful to review the history and investigate the state of the art of Information Extraction.

Key words: Natural Language Processing; Information Extraction; Information Retrieval; Named Entity Recognization

1. 引言

随着计算机的普及以及互联网(WWW)的迅猛发展,大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的。

信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factual information)。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。

与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息检索存在差异,主要表现在三个方

ж本文得到国家自然科学基金项目(69973005)、国家973项目(G1998030507-4)和北大985项目支持。

作者李保利,男,1971年生,博士研究生,主要研究方向:中文信息处理。陈玉忠,男,1963年生,副教授,博士研究生,主要研究方向:中文信息处理、机器翻译等。俞士汶,男,1938年生,教授,博士生导师,主要研究方向:中文信息处理、计算语言学等。

面:

① 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息

抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。

② 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags

of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过

对文本中的句子以及篇章进行分析处理后才能完成。

③ 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是

领域相关的,只能抽取系统预先设定好的有限种类的事实信息。

另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。

信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解(Text Understanding)还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题[1]。因此,信息抽取只能算是一种浅层的或者说简化的文本理解技术。

一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。在这里,我们只讨论狭义上的信息抽取研究,即针对自然语言文本的信息抽取。

下面首先回顾了信息抽取研究发展的历史,然后介绍信息抽取系统的体系结构以及一些关键技术,最后对信息抽取研究未来的方向做了展望。

2. 信息抽取研究的发展历史

从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表[2]。

美国纽约大学开展的Linguistic String项目[3]开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式(Information Formats),这种信息格式实际上就是现在我们所说的模板1(Templates)。

另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统[4]是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动(top-down,脚本)与数据驱动(bottom-up,输入文本)相结合的处理方法。这种方法被后来的许多信息抽取系统采用。

从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议(MUC,Message Understanding Conference)的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。

从1987年开始到1998年,MUC会议共举行了七届,它由美国国防高级研究计划委员会(DARPA,the Defense Advanced Research Projects Agency)资助。MUC的显著特点并不是会议本身,而在于对信息抽取系统的评测[5]。只有参加信息抽取系统评测的单位才被允许参加MUC会议。在每次MUC会议前,组织者首先向各参加者提供样例消息文本和有关抽取任务的说明,然后各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前,各参加者运行各自的系统处理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议,由参与者交

1遵循MUC(Message Understanding Conference)系列会议建立的术语,我们把信息抽取最终的输出结果称为模板(Template),模板中的域称为槽(Slot),而把信息抽取过程中使用的匹配规则称为模式(Pattern)。另外,我们把要提取的特定事件或关系称为一个场景(Scenario),而领域(Domain)的概念要宽泛一些,通常一个领域可以包含多个场景。比如,在金融领域的新闻中,可能包含有建立合资公司、股票转让等很多个场景。

流思想和感受。后来,这种评测驱动的会议模式得到广泛推广,如1992年开始举行的文本检索会议TREC2等。

从历次MUC会议,可以清楚地看到信息抽取技术发展的历程。

1987年5月举行的首届MUC会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。

MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。

MUC-3于1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。

MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER 文本项目3。

MUC-5于1993年8月举行,共有17个系统参加:美国14个,英国、加拿大、日本各一个。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR, Error Per Response Fill)作为主要评价指标。与以前相比,MUC-5抽取任务的复杂性更大,比如公司合资场景需要填充11种子模板总共47个槽,光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。

MUC-5的一个重要创新是引入了嵌套的模板结构。信息抽取模板不再是扁平结构(flat structure)的单个模板,而是借鉴面向对象和框架知识表示的思想,由多个子模板组成。模板中每个槽的取值除了可以是文本串(如公司名)、格式化串(如将日期、时间、金额等文本描述转化为某种规范形式)、有限集合中的元素(如组织类型可以分为公司、政府部门、研究机构等)外,还可以是指向另一个子模板的指针。

MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC-6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充任务外,又引入三个新的评测任务:命名实体(Named Entity)识别、共指(Coreference)关系确定、模板元素(Template Element)填充等[5][6]。

命名实体识别任务主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类;共指关系确定任务是要识别出给定文本中的参照表达式,并确定这些表达式之间的共指关系;模板元素填充任务是要识别出特定类型的所有实体以及它们的属性特征。

最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。除MUC-6已有的四项评测任务外,MUC-7又增加了一项新任务——模板关系任务,它意在确定实体之间与特定领域无关的关系 [6]。共有18家单位参加了MUC-7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。

在MUC中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准确率[7]。召回率等于系统正确抽取的结果占所有可能正确结果的比例;准确率等于系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能,通常还计算召回率(REC)和准确率(PRE)的加权几何平均值,即F 指数,它的计算公式如下:

2 https://www.doczj.com/doc/d1447431.html,/

3 TIPSTER文本项目(https://www.doczj.com/doc/d1447431.html,/iaui/894.02/related_projects/tipster/)由美国国防高级研究计划委员会组织,1991年开始实施,1998年秋天终止。该项目致力于推动和促进提高文本处理技术水平,重点是文档检索(Document Detection)、信息抽取(Information Extraction)、自动文摘(Summarization)等技术,共分三个阶段实施。

REC

PRE beta REC PRE beta MEASURE F ++=?)*)((**)0.1)((22 其中,beta 是召回率和准确率的相对权重。beta 等于1时,二者同样重要;beta 大于1时,准确率更重要一些;beta 小于1时,召回率更重要一些。在MUC 系列会议中,beta 取值一般为1、1/2、2。表1给出了MUC3-7分任务最优评测结果 [8]。

表1、MUC3-7分任务最优评测结果

说明: R-召回率 P-准确率 F-F 指数(相对权重取1) JV-合资

E-英语 C-汉语 J-日语 S-西班牙语 ME-微电子

MUC 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。MUC 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事实上的标准。

近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB 信息抽取(Wrapper)以及对时间信息的处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽取技

术产品为主的公司出现,比较著名的有:Cymfony 公司4、Bhasha 公司5、Linguamatics 公司6、Revsolutions

公司7等。

目前,除强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术

研究所(NIST )组织的自动内容抽取(ACE ,Automatic Content Extraction )评测会议8。这项评测从1999

年7月开始酝酿,2000年12月正式开始启动,迄今已经举办过两次评测(2000年5月、2002年2月),最近正在进行第3次评测(2002年9月)。这项评测旨在开发自动内容抽取技术以支持对三种不同来源(普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本)的语言文本的自动处理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。最近一次评测(ACE Phase 2 summer evaluation )主要有两大任务:实体识别与跟踪

4

https://www.doczj.com/doc/d1447431.html,/index.html 5 https://www.doczj.com/doc/d1447431.html,/ 6 https://www.doczj.com/doc/d1447431.html,/index.html 7 https://www.doczj.com/doc/d1447431.html,/index.shtml 8 https://www.doczj.com/doc/d1447431.html,/iad/894.01/tests/ace/

(EDT,Entity Detection and Tracking)、关系识别与描述(RDC,Relation Detection and Characterization)[9]。

与MUC相比,目前的ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。

图1、纽约大学PROTEUS信息抽取系统体系结构

中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索阶段。其中,国立台湾大学(National Taiwan University)和新加坡肯特岗数字实验室(Kent Ridge Digital Labs)参加了MUC-7中文命名实体识别任务的评测[10][11]。Intel中国研究中心的ZHANG Yi-Min和ZHOU Joe F等人在ACL-2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习(MBL,Memory-Based Learning)算法获取规则用以抽取命名实体及它们之间的关系[12]。

3. 信息抽取系统的体系结构

Hobbs曾提出一个信息抽取系统的通用体系结构 [13] ,他将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。

Hobbs认为典型的信息抽取系统应当由依次相连的十个模块组成:

1、文本分块:将输入文本分割为不同的部分——块。

2、预处理:将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的

属性(如词类)组成。

3、过滤:过滤掉不相关的句子。

4、预分析:在词汇项(Lexical Items)序列中识别确定的小型结构,如名词短语、动词短语、并列

结构等。

5、分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。

6、片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合

成整句的一棵分析树或其他逻辑表示形式。

7、语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。

8、词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。

9、共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表

示合并到先前的处理结果中。

10、模板生成:由文本的语义结构表示生成最终的模板。

当然,并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完全遵循以上的处理顺序,比如6、7两个模块执行顺序可能就相反。但一个信息抽取系统应当包含以上模块中描述的功能。

图1给出了美国纽约大学Proteus信息抽取系统[14]的体系结构,具有一定的代表性。

4. 信息抽取中的关键技术

5.1 命名实体识别

命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。

命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据MUC评测结果 [8],英文命名实体识别任务的F-指数(召回率与准确率的加权几何平均值,权重取1)能达到90%以上。

命名实体识别的难点在于:

1、在不同领域、场景下,命名实体的外延有差异;

2、数量巨大,不能枚举,难以全部收录在词典中;

3、某些类型的实体名称变化频繁,并且没有严格的规律可以遵循;

4、表达形式多样;

5、首次出现后往往采用缩写形式;

命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。

5.2 句法分析

通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术,这主要是由于以下三方面原因造成的[15]。

首先是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数量有限的事件或关系。这样,文本中可能只有一小部分与抽取任务有关。并且,对每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特定关系就行了,得到的只是完整分析树的部分子图。

其次是部分分析技术在MUC系列评测中的成功。

SRI公司在其参加MUC-4评测的FASTUS系统 [16] 中开始采用层级的有限状态自动机(Cascaded Finite-State Automata)分析方法。该方法使FASTUS系统具有概念简单、运行速度快、开发周期短等优点,在多次MUC评测中都居于领先地位。

最后,部分分析方法盛行也是因为目前我们尚没有其他更好的选择。现在,完全分析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。

但是,另一方面,我们也要清醒看到:部分分析技术只能使信息抽取系统的处理能力达到目前的水平(F-指数小于60% [17]),要想使其性能有大的飞跃,必须探索更有效的分析技术。

5.3 篇章分析与推理

一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。

初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因为在信息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析是相当困难的。

除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也比真实文本要规范,并且理论本身也没有在大规模语料上进行过测试。

信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的(跨文本的)共指问题。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事件、同一个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同的词代表一个意思。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的能力。

由MUC-6和MUC-7对信息抽取系统部分篇章处理能力(即指称短语的共指消解)的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究与改进。

5.4 知识获取

作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词典(Lexicon),存放通用词汇以及领域词汇的静态属性信息;一个抽取模式库(Extraction Patterns Base),每个模式可以有附加的(语义)操作,模式库通常也划分为通用部分和领域(场景)专用部分;一个概念层次模型(Ontology),通常是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。除此之外,可能还有篇章分析和推理规则库、模板填充规则库等。

如前所述,信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性决定了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层次不高,通常只适用于特定应用领域,很难在其他领域复用。如果要把一个信息抽取系统移植到新的领域或场景,开发者必须要为系统重新编制大量的领域知识。一般说来,手工编制领域知识往往是枯燥的、费时的、易错的,费用较高,并且只有具有专门知识(应用领域知识、知识描述语言知识,熟悉系统的设计与实现)的人员才能胜任这种工作。另外,由于自然语言中存在的“长尾”综合效应(”long tail” syndrome)或称Zipf法则9,人工编制的知识库很难达到很高的语言覆盖面。因此,知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除了影响系统的可移植性外,也是影响系统性能的主要因素。正因为如此,近几年召开的多次专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息抽取系统为主题的。

9绝大多数事实采用经常出现的、非常少量的表达方式来描述,而剩余的事实却需要大量的、不经常出现的表达方式才能覆盖。

领域知识获取可以采用的策略通常有两种:手工+辅助工具(图形用户接口);自动/半自动+人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了一些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有指导的、无指导的或间接指导的机器学习技术从文本语料中自动或半自动获取领域知识,人工干预程度较低。实际上,这两种策略不是完全对立的,只是自动化程度高低不同而已。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的真正出路。近几年有不少研究者采用自扩展(Bootstrapping)技术从未经标注的语料中学习抽取模式[18]。

5. 展望

信息抽取经过二十多年尤其是最近十多年的发展,已经成为自然语言处理领域一个重要的分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP(Natural Language Processing)系统开发的必要性、知识工程研究以及软件工程技术的重要性等等[19],都极大地推动了自然语言处理研究的发展,迫使NLP研究人员面向实际的应用重新考虑他们的研究重点,开始重视解决以前曾被忽视的一些深层问题,如语义特征标注、共指消解、篇章分析等等。

目前,影响信息抽取技术广泛应用的两个最主要的因素是:系统性能和系统可移植能力[18]。因此,今后信息抽取研究将紧紧围绕如何克服和解决这两个问题展开,重点解决知识获取、篇章分析、高效句法分析等问题,不断提高信息抽取系统的性能、增强其可移植能力。

未来的信息抽取系统将是动态(Dynamic)的、开放域(Open Domain)的[20],前景光明。

致谢

感谢Chinchor Nancy、Cardie Claire、王厚峰博士等提供宝贵见解和文献资料。

参考文献

[1]Applet D E, Israel D J, Introduction to Information Extraction Technology, A Tutorial for IJCAI-99, 1999

[2]Gaizauskas R, Wilks Y, Information Extraction: Beyond Document Retrieval. Journal of Documentation, 1997.

[3]Sager N, Natural Language Information Processing, Reading, Massachusetts: Addison Wesley, 1981.

[4]Dejong G, An Overview of the FRUMP System. In: LEHNERT, W., & RINGLE, M.h. (eds), Strategies for Natural

Language Processing. Lawrence Erlbaum, 1982, 149-176.

[5]Grishman R, Sundheim B, Message Understanding Conference-6: A Brief History, In Proceedings of the 16h

International Conference on Computational Linguistics (COLING-96), August 1996

[6]Chinchor N, Marsh E, MUC-7 Information Extraction Task Definition (version 5.1), In Proceedings of the Seventh

Message Understanding Conference, 1998

[7]Douthat A, The Message Understanding Conference Scoring Software User's Manual, In Proceedings of the Seventh

Message Understanding Conference, 1998

[8]Chinchor N, Overview of MUC-7/MET-2, In Proceedings of the Seventh Message Understanding Conference, 1998

[9]The ACE 2002 Evaluation Plan, ftp://https://www.doczj.com/doc/d1447431.html,/ace/doc/ACE-EvalPlan-2002-v06.pdf, Site visited on August

30th , 2002

[10]Chen H H, Ding Y W, Tsai S C, et al, Description of the NTU System Used for MET2, In Proceedings of the Seventh

Message Understanding Conference, 1998

[11]Yu S H, Bai S H, Wu P, Description of the Kent Ridge Digital Labs System Used for MUC-7, In Proceedings of the

Seventh Message Understanding Conference, 1998

[12]Zhang Y M, Zhou J F, A Trainable Method for Extracting Chinese Entity Names and Their Relations, In Proceedings

of the Second Chinese Language Processing Workshop, Hong Kong, Oct. 2000

[13]Hobbs J, The Generic Information Extraction System. In Proceedings of the Fifth Message Understanding Conference

(MUC-5), pages 87-91. Morgan Kaufman, 1993

[14]Yangarher R, Grishman R, NYU: Description of the Proteus/PET System as Used for MUC-7, In Proceedings of the

Seventh Message Understanding Conference, 1998

[15]Grishman R, Information Extraction: Techniques and Challenges. In M-T. Pazienza, editor, Information Extraction: a

Multidisciplinary Approach to an Emerging Information Technology, Springer, Berlin, 1997

[16]Hobbs J, Appelt D, Bear J, et al, FASTUS: A Cascaded Finite-State Transducer for Extracting Information from

Natural-Language Text, in Roche and Schabes, eds. Finite State Devices for Natural Language Processing, MIT Press, Cambridge MA, 1996.

[17]Appelt D E, Introduction to Information Extraction, AI COMMUNICATIONS, V ol. 12 No. 3, 1999

[18]Yangarber R, Scenario Customization for Information Extraction, Ph.D. Thesis, New York University, January 2001

[19]Cowie J, Lehnert W, Information Extraction. Communications of the ACM, V ol. 39 No. 1, 1996

[20]Grishman R, Adaptive information extraction and sublanguage analysis, In Proceedings of IJCAI-2001 Workshop on

Adaptive Text Extraction and Mining, 2001

CRM客户关系管理系统文献综述

CRM 客户关系管理系统文献综述 1 毕业设计材料:文献综述 课题名称:CRM 客户关系管理系统 专业:软件开发与测试 学生姓名:李祥坤 班级:0813113 学号:30 指导教师:卢正洪 完成日期:2011-10-23 CRM 客户关系管理系统文献综述 摘要:随着经济的全球化和网络化成为世界经济发展的必然趋势,以及公司之间的竞争日趋激烈, 客户己经成为企业与公司争夺的焦点。客户关系管理(Customer Relationship Management ,CRM) 系统作为一种新型的客户关系管理系统应运而生。本文简要介绍了CRM 系统的结构和分类,以及CRM 的发展,同时对CRM 系统的设计原理和基本功能作出了描述,在此基础上详细分析了客户关系管理应用系统设计的模式。 关键词:客户关系管理、管理系统、CRM 系统、客户 一、CRM 概述 1、CRM 的体系结构

CRM 是一种旨在改善企业与客户之间关系的管理机制,利用现代信息技术在企业和客户之间建立一种数字、实时、互动的交流管理系统[1 ] 。从逻辑模型角度来讲,一个完整的CRM 系统分为三个层次:界面层、功能层和支持层。其中,界面层是用户与系统之间进行交互、获取或输入信息的接口。通过直观的、简便易用的前台界面,为各项用户操作提供方便。功能层是由各种功能模块构成包括销售自动化、营销自动化、客户支持与服务、呼叫中心、电子商务以及辅助决策等功能模块,执行CRM 的各项基本功能。支持层是保证整个系统正常运行的基础,通常包括数据库管理系统、网络通信协议等。 2、CRM 分类 通常,CRM 系统分为操作型、分析型和协作型三类。 (1)运营型CRM 。运营型CRM 为分析和客户的服务支持提供依据。运营型CRM 收集大量的客户信息、市场活动信息和客户服务的信息,使得销售、市场、服务一体化、规范化和流程化,主要包括销售、市场和服务三个过程的流程化、规范化、自动化和一体化。在销售方面, 包括销售信息管理、销售过程定制、销售过程监控等。在市场营销方面,提供从市场营销活动信息管理、计划预算、项目追踪等功能。 (2)分析型CRM 。分析型CRM 主要是将大容量的销售、服务、市场以及业务数据进行整合,使用决策支持技术,将完整的和可靠的数据转化为有价值的、感兴趣的、可靠的信息,并将信息转化为知识,对未来的发展趋势做出必要而有意义的预测,为整个企业提供战略和战术上的商业决策,为客户服务和新产品的研发提供准确依据,提高企业的竞争能力。 (3)协作型CRM 。协作型CRM 是为了实现全方位地为客户提供交互服务与

内部审计毕业论文参考文献一

[1] 孙光国,杨金凤,郑文婧?财务报告质量评价:理论框架、关键概念、运行机制J].会计研究.2013(03) [2] 孙光国,杨金凤?财务报告质量评价研究:文献回顾、述评与未来展望J].会计研究.2012(03) [3] 王颖.高等学校内部审计运行模式研究[D].北京林业大学2008 [4] 张宁.关于中国电信战略转型的内部审计研究[D].南京理工大学2007 [5] 谢涤宇.利益相关者共同治理与企业内部审计的演进[D].湘潭大学2007 [6] 王玉兰,简燕玲?上市公司内部审计机构设置及履行职责情况研究J].审计研究.2012(01) [7] 程新生,孙利军,耿祎雯?企业内部审计制度改进了财务控制效果吗?--来自中国上市公司的证据[J].当代财经.2007(02) [8] 程娟.内部审计机构在我国上市公司中的定位问题研究[D].首都经济贸易大学2009 [9] 庄江波.内部审计职业化建设与发展[D].厦门大学2001 [10] 张欣?我国企业内部审计主要问题探析[D].江西财经大学2006 [11] 傅黎瑛?公司治理的重要基石:治理型内部审计[J].当代财经.2006(05) [12] 王光远,瞿曲.公司治理中的内部审计--受托责任视角的内部治理机制观[J].审计研究.2006(02) [13] 耿建新,续芹,李跃然.内审部门设立的动机及其效果研究--来自中国沪布的研究证据[J].审计研究.2006(01) [14] 刘国常,郭慧.内部审计特征的影响因素及其效果研究--来自中国中小企业板块的证 据[J].审计研究.2008(02) [15] 戴耀华,杨淑娥,张强.内部审计对外部审计的影响:研究综述与启示[J].审计研究.2007(03) [16] 王光远.现代内部审计十大理念[J].审计研究.2007(02) [17] 屈耀辉,时现.企业内部审计人员胜任能力评估(一)--基于上海市深圳市44家企业的调查数据[J].中国内部审计.2011(06)

信息抽取调研结果及研究方案

信息抽取调研结果及研究方案 汇报人汇报人::郎君 2004年5月30日

概要 0 项目成员简介 研究意义、、国内外研究现状 1 研究意义 研究内容、、研究目标及拟解决的关键问题 2 研究内容 3 拟采取的研究方案及可行性分析 4 展望

0 项目成员简介 秦兵秦兵::项目整体设计与实施 车万翔车万翔::关系抽取及整体框架搭建 于海滨于海滨::事件模板抽取 郎君郎君::指代消解 廖先桃廖先桃::命名实体识别 秦兵秦兵、、陈尚林陈尚林::多文档自动文摘

1 研究意义研究意义、、国内外研究现状 信息抽取的相关概念 信息抽取与相关领域的区别与联系 问题研究的意义 国内外研究现状 IE 系统设计的两大方法 自由式自由式、、结构化结构化、、半结构化文本和网页 信息抽取系统的体系结构

信息抽取的相关概念 互联网的迅猛发展=>信息爆炸=>信息抽取 信息抽取(Information Extraction)是指从一段文本中抽取指定的事件抽取指定的事件、、事实等信息事实等信息,,形成结构化的数据并填入一个数据库中供用户查询使用的过程填入一个数据库中供用户查询使用的过程。。即它从文本中抽取用户感兴趣的事件本中抽取用户感兴趣的事件、、实体和关系实体和关系,,然后进入数据库数据库,,分析趋势分析趋势,,给出文摘给出文摘,,或进行在线服务或进行在线服务。。信息抽取还可以看作是信息检索的进一步深化息抽取还可以看作是信息检索的进一步深化,,研究指定信息的查找定信息的查找、、理解和抽取理解和抽取,,并将指定信息以适当的方式输出方式输出。。信息抽取本身也是多种基本自然语言处理技术的综合应用技术的综合应用,,因此应用领域十分广泛因此应用领域十分广泛。。 信息抽取是浅层的或者说简化的文本理解技术 处理对象是自然语言文本尤其是非结构化文本

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

管理信息系统文献综述

管理信息系统文献综述 班级:信管11302 姓名:王丽健学号:201306609 摘要:随着社会的发展,管理信息系统越来越受到人们的关注,信息技术的飞速发展,将世界带人了知识经济时代。信息技术越来越成为新生产力的代表,建立一个优良的信息系统,有利于信息的处理。管理信息系统专业的培养目标是培养企业信息化人才。随着当前信息化人才的分工细化,在专业培养方案中可以采取大专业中的不同培养方向。这既符合企业的不同需求,也符合因材施教的原则。 关键词:信息管理与信息系统专业培养方案建设的思考 引言 为了适应社会对信息技术人才的需求,我校于2006年起开办了信息管理与信息系统本科专业。目前国内大多数院校都开设了该专业。为了提高所培养的学生的综合素质和应用能力,我进行了积极的探索和研究。在美国大学的本科专业设置中,信息管理与信息系统是信息科学专业下的分支方向。作为一门交叉学科,信息管理与信息系统专业既要求学生学习管理类知识,又需要与信息技术有机的融合,因而对专业建设提出了更高、更新的要求。 一、专业培养方案更新的建设意见和思路 培养目标的细分和完善根据目前的培养方案,信息管理和信息系统专业的培养目标是培养企业信息化人才。在培养方向上可有以下三个方向。 l、企业管理信息系统方向培养目标是培养可以担当企业信息化中管理信息系统的建设和维护工作。目前大中型企业特别是在中外合资企业和外商独资企业中,管理信息系统被广泛使用。企业资源规划(ERP)的概念已经被广泛所接受。该方向应该以管理信息系统和企业资源规划为培养重点。利用目前管理学院与国内知名的企业管理软件制

造企业金蝶所共同建立的企业资源规划(ERP)的实验室,开展符合企业生产、经营实际的案例教学,特别是重视企业资源规划(ERP)的课程设计,要求学生在校期间要熟练掌握ERP的使用,了解企业运作的业务流程,并对其中的某个流程如产品生产、供应链管理等相当熟悉。 2、网络安全和网络管理培养目标是培养可以担当企业中或专业汀服务机构的网络安全和网络管理工作的人才。现在越来越多的企业运用网络技术开展生产经营活动。而来自企业内外部的信息安全威胁已经为企业的正常运作埋下了隐患。大部分建立了自身网站的企业缺乏网络人侵防御机制,没有响应的安全策略和措施,一旦遭到黑客的人侵,企业的重要信息将泄漏,并给企业造成巨大的损失。另一方面企业的内部网络(D扛RENET)也需要进行严格管理,对网络的运行进行维护和管理。作为企业中的网络管理员,应合理调配资源,控制企业中的不良访问。伴随着企业信息化的进程,不少企业开始采用远程分销体系,例如温州的美特斯·邦威集团公司采用了远程分销体系给企业带来了明显的经济效益。总部远程调控,实时掌握各门店的销售信息、库存信息、财务信息等,并加以综合分析。而这一切都归功于企业虚拟网(VrN)因而在该方向的培养中应该以计算机网络、企业网络应用和网络安全为重点。建设相应配套的先进网络技术和网络安全实验室被提到议事日程上来,这将有利于学生在实验室中就可以直接以企业的实际运作方式进行网络管理的模拟,以及网络信息安全的实践学习。 3、多媒体技术信息管理和信息系统管理专业的培养不能拘泥于既定的课程体系,也要适应当前形势发展的需要。网络传输技术飞速发展,目前正处nN4向正佰的过渡中,因此多媒体技术在新的网络条件下又有了新的发展动向。流媒体点播已成为当前的热点并成为一种新的网络盈利模式。而月少6H动画的风靡更证明多媒体技术成为了网络经济的新动力,并形成了产业。应充分考虑社会的需求而进行调整,在教学中应把最新的技术发展趋势介绍给学生,并引导学生从事多媒

民营企业内部审计问题研究【文献综述】

毕业论文(设计)文献综述 题目:民营企业内部审计问题研究 专业:会计学 一、前言部分 (一)写作目的 内部审计作为企业内部管理的一个重要组成部分,其对民营企业完善企业公司治理结构、提升企业竞争力具有重要意义。然而,我国民营企业内部审计的设立不同于国有企业内部审计的设立,它是企业基于提高自身经营活动的效益性而做出的一种主动选择,其内部审计的设立具有很大的随意性,内部审计制度的建立缺乏系统性。政府作为行政机构则无意干涉民营企业内部审计制度的建立问题,缺乏对民营企业内部审计磬要的指导和管理。这就导致民营企业内部审计存在着诸如机构设置混乱、审计业务不规范等诸多弊病。因此,健全内部控制制度、完善内部审计制度已成为民营企业建立现代企业制度的一个关键因素。 (二)相关概念 1、民营企业的相关概念 所以的非公有制企业均被统称为民营企业。在《公司法》中,是按照企业的资本组织形式来划分企业类型的,主要有:国有独资、国有控股、有限责任公司、股份有限公司、合伙企业和个人独资企业等。按照上面对民营企业内涵的界定,除国有独资、国有控股外,其他类型的企业中只要没有国有资本,均属民营企业。 民营不等于私营,民营化也不能等于私有化。从广义上看,民营只与国有独资企业相对,而与任何非国有独资企业是相容的,包括国有持股和控股企业。因此,归纳民营企业的概念就是:非国有独资企业均为民营企业。从狭义的角度来看,民营企业仅指私营企业为主体的联营企业。 2、内部审计的相关概念 1999年6月,内部审计师学会董事会通过了内部审计的如下定义:“内部审计是一项独立、客观的咨询活动,用于改善机构的运作并增加其价值。通过引入一种系统的、有条理的方法去评价和改善风险管理、控制和公司治理流程的有效性,内部审计可以帮助一个机构实现其目标。

学科领域信息可视化研究--以管理信息系统领域为例[文献综述]

(2011届) 毕业论文(设计)文献综述 题目:学科领域信息可视化研究--以管理信息系统领域为例 学院:商学院 专业:信息系统与信息管理 班级: 学号: 姓名: 指导教师:

一、前言部分 随着信息的日益丰富和互联网技术的发展,如何在海量数据中获取有效信息这一问题促使信息可视化领域成为当前的研究热点之一。信息可视化(information visualization),有时也被称作数据可视化(data visualization),近几年在国际上得到了广泛的重视。所谓信息可视化,就是将抽象数据用可视的形式表示出来,以利于分析数据、发现规律和支持决策。信息可视化的一个重要分支是引文分析可视化。自从加菲尔德创立引文索引数据库以来,引文分析法越来越多地被用来进行科学结构的分析、科学技术史及其发展规律的研究、科研绩效的评价等方面。它借鉴了很多科学可视化的技术,但又不同于科学可视化。科学可视化中的数据主要是物理世界、自然科学中的数据,例如卫星传回的数据等;而信息可视化中的数据来自社会现实和社会科学的各个方面,一般是比较抽象的数据,如金融数据、商业信息、文献等。信息可视化有以下几个比较突出的优点[1]: 1 提供了一条直观理解大量数据的途径。通过可视化,能够立刻辨别出最重要的信息 2 能够查询到没有预想到的现象。 3 能够发现数据本身的问题。合适的可视化方式可以揭示出数据本身以及人为造成的数据错误。 引文分析主要运用数学和逻辑学等方法对期刊、论文、专著等研究对象的引用和被引用现象和规律进行分析,以便揭示其数量特征和内在规律[2]。因为引文分析要处理大量的抽象的引文数据,信息可视化所具备的诸多优势无疑能促进引文分析应用这项技术。因此引文分析可视化最近几年在国外得到了蓬勃的发展,已经被应用于科学史研究、科学结构分析、知识领域显现等。但我国在这方面的研究层次较低,更多的是理论上的探讨,因此分析探讨国外在这方面研究中所采取的技术与方法对我国的研究无疑具有很强的借鉴意义。 近年来,随着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大。目前已进入前所未有的信息时代。我们每天都处在各种信息的包围之中,需要一种快捷有效的方式帮助我们发现隐藏在庞杂信息当中的模式和知识,帮助我们决策。可视化的目标就是帮助人们增强认知能力,此即信息可视化的意义所在。信息的日益丰富决定着未来用户界面主要是一种信息界面,就某种意义而言,信息可视化代表着下一代用户界面的方向[2]。因为引文分析

冰川信息提取方法综述 20151101002

基于遥感的冰川信息提取方法综述 全球气候环境变化及其影响已成为当今世界各国政府、科学家和政策决策者所共同关注的重大焦点问题。政府间气候变化委员会(IPCC第四次评估报告指出[1],过去 100 a)(1906~2005 年)全球地表平均气温上升了0.74℃,而最近 50 a的升温速率几乎是接近过去 100 a 升温速率的两倍。冰川对气候变化十分敏感,被视为气候变化的指示器,升温已导致全球大多数冰川在过去 100 多年里处于退缩状态,尤其是最近的几十年呈加速退缩态势[1,2]。尽管大量的冰储存于两极冰盖中,但山地冰川和冰帽的储量损失在过去几十年和未来一个世纪对海平面上升、区域水循环和水资源可获取性均有重要影响[3-5]。 青藏高原及其毗邻地区蕴藏着世界上两极之外最大的冰雪储量,被称为“第三极”,该区气候变化引发的冰川变化不仅影响到周边地区十个国家的15亿人口的农业、发电等生产活动的水资源供应[3, 6, 7],而且会引发区域乃至北半球的大气环流格局的变化[8],从而使其成为国际冰川变化研究的热点地区。此外,青藏高原很多内陆湖泊近期水位上涨、湖泊面积增大导致草场淹没以及冰湖溃决和泥石流滑坡等山地灾害,对周边地区的生态与环境及农牧民的生活造成了严重影响[9]。 因此,监测青藏高原冰川变化时空分异特征,对于更加清楚地认识该地区对全球气候变化的响应具有重要的科学意义,对于及时提供湖泊水量变化信息,制定当地农牧民的应对措施具有重要的现实意义。本文系统梳理和总结了国内冰川监测相关研究进展,并探讨了当前该领域研究的不足以及未来的研究方向,旨在为我国冰川变化监测提供有益借鉴。 一、传统野外监测 传统的冰川观测主要基于野外实地考察,开展较早。世界上很多地区在一个多世纪以前就开始系统地观测冰川与冰盖的变化[10]。1930s 之前一直依靠实测冰川末端的变化或对比小冰期冰碛物的位置获得冰川变化的信息,1940s 后期开始了冰川物质平衡研究,截止到 2008 年全球已获取了 1803 条冰川自19 世纪后期的冰川长度变化和 226 条冰川过去 60 年内的物质平衡观测结果[10],分别占 1970s 估计的全球冰川总数 160000条[11]的 1.1%和 0.1%,观测数量很有限。我国冰川研究事业开创于1958年祁连山冰川考察[11],截止到 2007 年,基于野外考察共有 27 条冰川的长度变化和 5 条冰川的物质平衡的较长时间观测记录[12],分别为我国冰川总数46377[13]条的 0.06%和 0.01%,远低于前述全球尺度的相应观测比例,且没有一条位于我国冰川分布中心之一的喀喇昆仑地区。实地观测通常在容易到达、安全且不是太大的冰川进行,不能代表所有冰川的规模、海拔分布、坡度和朝向。所以,仅靠少数野外考察资料很难反映全球或区域尺度冰川变化的空间特征,所获得的冰川变化趋势及其对气候变化的响应的结论也难免存在局限性。 二、冰川面积变化遥感监测 遥感观测可以在瞬时获取较大范围的地面综合信息,适合对不同地理环境下的冰川变化进行长期而持续的监测,早期主要进行面积变化遥感研究。1940s 以后,人们可以借助于航空摄影技术测绘冰川末端位置[14]。1970s 之后,随着卫星遥感技术的发展和观测精度的提高,陆地资源系列卫星(Landsat MSS、TM 和

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

高校信息管理系统文献综述

高校信息管理系统文献综述 徐振兴 摘要:随着现代高校的学生日益增多,高校的信息管理越来越复杂。以前 的管理模式很快就适应不了现在庞大的数据信息量。基于此,开发一个针对高校的信息管理系统变得有必要,此系统可以让所有的管理学校信息的工作人员从繁重的工作中解脱出来,提高工作效率。 关键词:高校,信息管理,工作效率 一.前言 高校信息管理系统是典型的信息管理系统(MIS), 是一个由管理人员和计算机组成的用以进行信息的收集、传输、加工、存储、维护和使用的系统。它代替传统的人工模式,提高学生信息管理的效率,也是学校的科学化、正规化管理,与世界接轨的重要条件。对于推动我国管理信息处理的现代化起了重要的作用。其开发主要包括后台数据库的建立和维护以及前端应用程序的开发两个方面。对于前者要求建立起数据一致性和完整性强、数据安全性好的库。而对于后者则要求应用程序功能完备,易使用等特点。 二.国内相关研究及现状 高校信息管理是教学管理中的一项重要工作,成绩管理是一项工作量大、时间性强、易于出错且具有一定保密性的业务。特别是随着高校的不断扩招,进入高校的大学生越来越多,高校信息管理工作量将大幅度增加,如果全由手工完成,耗时巨大,效率却很低。在信息时代的今天,数据库技术在数据处理方面的应用已经非常广泛,作为高校教育工作一部分的高校信息信息管理更应赶上时代的步伐。因此,开发一套适合学校专业设置的计算机化高校信息管理系统,不仅可以提高学校的管理效率,而且可以使我们的教学管理水平更上一层楼。系统的开发主要包括后台数据库的建立、维护以及前端应用程序的开发两个方面。对于前者要求建立数据一致性和完整性强、数据安全性好的数据库。而对于后者则要求应用程序以尽可能的方便用户使用为宗旨,还要尽可能的实用。纵观目前国内研究现状,在数据安全性和信息更新化方面仍存在有一定的不足,各现有系统资料单独建立,共享性差;在以管理者为主体的方式中,信息取舍依赖管理者对于信息的认知与喜好,较不容易掌握用户真正的需求,也因此无法完全满足用户的需求。例如,在现已开发设计的高校信息管理系统中,有些系统仍需较多的人工干预及用户操作,有些系统的人机界面不是很好,有些系统则出现了各个独立的子系统能够较好地运行,而子系统之间却不能很好地“协同”工作,数据共享性差的情况。另外,各个子系统之间在界面风格上也相差甚远。这样,给软件系统的

审计专业文献综述

2008 级 学院:会计学院 专业:审计班级: 08A 学生姓名:谷欣星学号: 2113808A07 完成日期: 2011年8月20日 2011 年 8 月

中小企业内部控制建设 摘要:中小企业已成为国民经济的重要组成部分,对经济的发展与社会的稳定起着举足轻重的作用。然而在发展过程中,一些中小企业存在着内部管理薄弱、经济效益较差的现象。其主要原因是没有建立和完善内部控制制度,致使其经济发展受到严重的制约。因此,加强中小企业内部控制制度的建设是促进企业健康发展、良性循环的重要途径。随着2007年12月深圳证券交易所的《中小企业板上市公司内部审计工作指引》及2008年6月财政部等五部委的《企业内部控制基本规范》等相关政策的出台,中小企业在内部控制的设计、制定、实施等方面初步取得了一些成效。近年来,针对上市公司内部控制建设众多学者作了分析,促进上市公司的良性发展发表了意见。但是,对中小企业内部控制建设问题的研究尚不多见,为此,进一步研究其内部控制建设问题就显得尤为迫切 关键词:中小企业;内部控制;建设 正文:1内部控制的概述 实施内部控制是新时代提高企业竞争力以及其经营效率的必然要求。企业要想在竞争激烈的市场环境中立足并获得长远的发展,巩固基础、完善并加强企业内部控制至关重要。企业会计内部控制是内部控制机构中非常重要的因素之一,在内部控制整个体系中能够发挥重要作用。 1.1内部控制制度的含义 内部控制制度是指企业为了达到其预期的经营目标,是资产得以完整、安全,是会计资料能够保持可靠、准确,使会计资料能够保持可靠、准备,使经营方针得以贯彻落实,使企业所有经营活动能够高效、经济而在企业内部开展并且实施一系列的自我评价、约束、控制、规划、调整等措施、手续、方法的总称。内部控制的最终目标是提供企业的经济效益、完善其经营管理。内部控制是伴随着强化经济管理的理念应运而生的,并且经济的发展能够推动其发展并且日益完善。

开放式文本信息抽取--非常好的综述

开放式文本信息抽取 赵军,刘康,周光有,蔡黎 (中国科学院自动化研究所模式识别国家重点实验室,北京100190) 摘要:信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。本文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。 关键词:开放式信息抽取;知识工程;文本理解 Open Information Extraction ZHAO Jun, LIU Kang, ZHOU Guangyou, CAI Li (National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, 100190, China) Abstract:The research on information extraction is being developed into open information extraction, i.e. extracting open categories of entities, relations and events from open domain text resources. The methods used are also transferred from pure statistical machine learning model based on human annotated corpora into statistical learning model incorporated with knowledge bases mined from large-scaled and heterogeneous Web resources. This paper firstly reviews the history of the researches on information extraction, then detailedly introduces the task definitions, difficulties, typical methods, evaluations, performances and the challenges of three main open domain information extraction tasks, i.e. entity extraction, entity disambiguation and relation extraction. Finally, based on our researches on this field, we analyze and discuss the development directions of open information extraction research and its applications in large-scaled knowledge engineering, question answering, etc. Keywords:Open information extraction; Knowledge engineering; text understanding 1 引言 文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术[1]。例如从有线新闻和广播电视的文本中抽取相关恐怖事件情况:时间、地点、作案者、受害者、袭击目标等信息。从二十世纪八十年代开始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。MUC从1987年到1997年总共进行了七届,其五大评测任务是命名实体识别、同指关系(Co-reference)消解、模板元素(Template element)填充(类似于实体属性抽取)、模板关系(Template relation)确定(类似于实体关系抽取)和场景模板(Scenario Template)填充(类似于事件抽取)。数据来源是限定领域语料,例如海军军事情报、恐怖袭击、人事职位变动等;ACE从1999年到2008年总共进行了九届,涉及实体检测与跟踪(Entity Detection and Tracking, EDT)、数值检测与识别(Value Detection and Recognition, VDR)、时间识别和规范化(Time Expression Recognition and Normalization, TERN)、关系检测与描述(Relation Detection and Characterization, RDC)、事件 基金项目:国家自然科学基金项目(60875041,61070106) 作者简介:赵军(1966-),男,研究员,博士生导师;刘康(1981-),男,博士,助理研究员;周光有(1983-),男,博士生;蔡黎(1981-),男,博士生;研究方向皆为自然语言处理、信息抽取和问答系统。

计算机图形学文献综述

计算机图形学论文 学号: 11001010123 专业:信息与计算科学 班级: 110010101 姓名:王俊才 指导教师:傅由甲

一.摘要 计算机图形学(Computer Graphics,简称CG)是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学。简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。计算机图形学作为计算机科学与技术学科的一个独立分支已经历了近40年的发展历程。一方面,作为一个学科,计算机图形学在图形基础算法、图形软件与图形硬件三方面取得了长足的进步,成为当代几乎所有科学和工程技术领域用来加强信息理解和传递的技术和工具。计算机图形学在我国虽然起步较晚,然而它的发展却十分迅速。我国的主要高校都开设了多门计算机图形学的课程,并有一批从事图形学基础和应用研究的研究所。在浙江大学建立的计算机辅助与图形学国家重点实验室,已成为我国从事计算机图形学研究的重要基地之一。 关键词:实现2D/3D 图形的算法,纹理映射,发展简史,发展趋势 二、计算机图形学中运用到的技术算法 (1)OpenGL 实现2D/3D 图形的算法 OpenGL(全写Open Graphics Library)是个定义了一个跨编程语言、跨平台的编程接口的规格,它用于三维图象(二维的亦可)。OpenGL是个专业的图形程序接口,是一个功能强大,调用方便的底层图形库。OpenGL是个与硬件无关的软件接口,可以在不同的平台如Windows 95、Windows NT、Unix、Linux、MacOS、OS/2之间进行移植。因此,支持OpenGL 的软件具有很好的移植性,可以获得非常广泛的应用。由于OpenGL是图形的底层图形库,没有提供几何实体图元,不能直接用以描述场景。但是,通过一些转换程序,可以很方便地将AutoCAD、3DS/3DSMAX等3D图形设计软件制作的DXF和3DS模型文件转换成OpenGL 的顶点数组。 OpenGL是一个开放的三维图形软件包,它独立于窗口系统和操作系统,以它为基础开发的应用程序可以十分方便地在各种平台间移植;OpenGL可以与Visual C++紧密接口,便于实现机械手的有关计算和图形算法,可保证算法的正确性和可靠性;OpenGL使用简便,效率高。它具有一下功能: 1.建模:OpenGL图形库除了提供基本的点、线、多边形的绘制函数外,还提供了复杂的三维物体(球、锥、多面体、茶壶等)以及复杂曲线和曲面绘制函数。 2.变换:OpenGL图形库的变换包括基本变换和投影变换。基本变换有平移、旋转、变比镜像四种变换,投影变换有平行投影(又称正射投影)和透视投影两种变换。 3.颜色模式设置:OpenGL颜色模式有两种,即RGBA模式和颜色索引(Color Index)。 4.光照和材质设置:OpenGL光有辐射光(Emitted Light)、环境光(Ambient Light)、漫反射光(Diffuse Light)和镜面光(Specular Light)。材质是用光反射率来表示。

基于Java的人事管理系统文献综述

学校代码:11517 学号:201011002240 HENAN INSTITUTE OF ENGINEERING 文献综述 题目基于Java 的人事管理系统 的设计与实现 学生姓名许耀辉 专业班级信息与计算科学1042班 学号201011002240 系(部)理学院 指导教师(职称)董西广(讲师) 完成时间2014年3月4日

基于Java的人事管理系统的设计与实现 摘要:随着计算机的发展,科技的发展,现阶段的人事管理系统越来越不能满足企业的需要,特别是对于一些企业仍然采用人工管理的方式,这种方式不仅增加了企业的成本,而且极其容易出错,设计一种基于Java的人事管理系统就应运而生了,人事管理系统基本实现了企业人事管理的基本应用,包括人事信息管理的增、删、改、查,考勤信息管理的增、删、改、查,个人简历信息管理等基本应用,设计的人事管理涉及MySQL数据库的操作,Eclipse以及jdbc数据库的连接等相关知识。 关键词:Java/MySQL/Eclipse/人事管理 1 引言 21世纪最激烈的竞争当属人才的竞争,一个具有多学科知识的复合性人才或许是一个企业发展壮大所不可或缺的重要因素。因此人力资源已逐步成为企业最重要的资源,人力资源管理(Human Resource Management,HRM)也成为现代企业管理工作中的重要内容之一。随着社会的发展,科技的进步,计算机的应用在社会各领域中都得到了普及,越来越多的人都感受到利用计算机进行各类管理的科学和便捷;认识到管理信息系统对于管理工作的重要性[1]。 本次论文创作的主要目的是设计一款简单、易操作的现代人事管理系统,在论文创作的过程中,我借助学校和个人收集的相关资料,利用图书馆和网络等渠道,广泛查阅相关资料,分析前人成果的基础上,明确系统设计思路。 2 人事管理系统的发展 2.1人事管理系统的国外的发展 人事管理系统的发展经过三个阶段的发展。 人事管理系统的发展历史可以追溯到20世纪60年代末期。由于当时计算机技术已经进入实用阶段,同时大型企业用手工来计算和发放薪资既费时费力又容

复杂网络构建中信息抽取技术综述

复杂网络构建中信息抽取技术综述 周峰吴斌石川 (北京邮电大学智能通信软件与多媒体北京市重点实验室,北京100876) 摘要复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。本文首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。 关键字复杂网络信息抽取实体抽取属性抽取实体解析实体关系抽取 Information extraction technology on construction of complex network (Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunications, Beijing) Abstract: Complex network provide us a new view to resolve the complex problem, so more and more scholars focus on it recently. Information Extraction is the foundation of automated information processing as a maturing technology. Integrating with IE and complex Network, we can extract the information of vertexes and edges through the technology of IE that can provide basic data for the construction of complex network, and greatly expand the complex network applications. In this paper, we introduce the basic concept and type of IE, and then describe and analysis the technology on construction of complex network. Keywords: Complex Network 、Information Extraction 、Entity Extraction、Attribute Extraction、Entity Resolution、Relation Extraction 1.引言 近年来,真实网络中小世界效应和无标度特性的发现激起了各界对复杂网络的研究热潮。复杂网络的研究,为我们提供了一个复杂性研究的新视角、新方法,并且提供了一个比较的视野,可以在复杂网络研究的旗帜下,对各种复杂网络进行比较、研究与综合概括。随着复杂网络分析算法的不断成熟和完善,针对复杂网络的应用,其构建已成为关键。通过网络分析所得到信息的丰富和完整程度,往往取决于其构建过程中每个节点和边所包含的信息量。而现实的大多数应用中,待构建网络的节点和边往往隐藏在非结构化或半结构化的文本信息中,如何从中准确而全面的抽取节点和边信息,成为构建复杂网络的关键问题。 信息抽取是一门正走向成熟的技术,在信息处理自动化中具有基础性的地位,将信息抽取融合到复杂网络中,能够有效的抽取网络的节点和边信息,为复杂网络的构建和表示提供数据准备,这将大大扩展复杂网络的应用范围。XinLi等[1]通过信息抽取技术,将复杂网络的应用范围扩展到web页面,先抽取命名实体构建网络,再通过社区发现等方法在web上挖掘出知识来。Dennis M. Wilkinson等[2]通过信息抽取技术,提取出与某一疾病相关的共现基因,而后构建成网络,划分一些相关基因的社区,从而能够帮助专家们发现出基因间的相互作用和它们之间的一些潜在联系。这些网络构建与分析方法都为复杂网络的应用提供了新的思路。

相关主题
文本预览
相关文档 最新文档