当前位置:文档之家› 一种全文检索技术的思路和实现

一种全文检索技术的思路和实现

一种全文检索技术的思路和实现
一种全文检索技术的思路和实现

河南农业大学

本科生毕业论文(设计)

题目一种全文检索技术的思路和实现学院经济与管理学院

专业班级信息管理与信息系统 2006级1班学生姓名刘盈凯

指导教师王彩霞

撰写日期: 2010 年 5 月 5 日

目录

1.引言 (1)

2.全文检索技术和系统开发的背景 (1)

2.1全文检索的概念和现状 (1)

2.2系统目标和技术架构 (3)

3.系统核心算法实现 (4)

3.1索引算法及其实现 (4)

3.2索引数据结构和索引数据存储算法 (9)

3.3索引模式实现方法 (11)

4.检索方法实现 (14)

4.1检索过程 (14)

4.2关键词高亮 (15)

结语 (15)

参考文献 (17)

ABSTRACT (19)

中文摘要

为了全面有效的获取到知识,从古到今人们一直在不断的探索各种不同的信息检索方式。本文从信息检索领域的一个小处即从本地文件系统出发的全文检索。本文正文部分首先对全文检索进行了介绍,分析了当前国内全文检索领域发展存在的问题,提出了笔者对全文检索的看法,并根据笔者的思路开发了一套较为完整的系统,在此基础上引出本系统的开发思路,通过流程图辅以实现代码和思路的方式,剖析了程序的核心思路和算法。重点讲述了系统在切词、建立索引、索引同步、检索过程等部分。本系统采用SrpingMVC框架,全面采用面向对象的方式进行开发,设计较为合理。在切词效率和检索效率方面性能优越。可以说是一个较为完善的中文全文检索系统。

关键词:信息系统,全文检索,倒排索引

1.引言

在图书馆学和情报学领域,信息被定义为事物(Thing)或记录(Record)。信息检索也并不是web所特有的一个研究课题,早在本世纪50年代,当计算机被图书馆等部门用于存储和管理文档时信息检索就作为一个研究领域而诞生了。随着计算机技术的飞速发展,各种全文检索产品也踊跃出现,但几乎所有的全文检索产品都被作为商业机密保护起来了,笔者在阅读了相关理论知识的基础上做了该领域具体的实践工作,并且形成了一个较为完善的全文检索系统,本系统切词采用正向最大模式切词,建立索引采用的是倒排索引技术,排序使用TF-IDF的统计方法,达到的目的就是简单,迅速,准确的找到用户所需要的信息。本检索系统采用java做为实现语言,采用WEB的方式进行信息检索,适用于各种实现静态化的网站系统和文本(包括html,txt,pdf,word)形式的文件系统。本文的索引策略参考了很多资料,其中也包括该领域比较有名的Lucene。总之,搜索将成为编程领域的热门话题。

2.全文检索技术和系统开发的背景

由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,在排序方面也存在非常严重的问题。而通过全文检索技术就能高效地管理这些非结构化数据。而全文检索技术正为了解决这些问题而产生的,全文检索是一个全文检索克服了RDBMS的模糊查找的局限性。具有快速,全面的特点。

本系统是在全文检索领域的一个尝试,由于知识水平的有限在一些较为关键的地方存在问题。本文将在后文中一一介绍。

2.1全文检索的概念和现状

一个站点内容积累在万级以上,站内全文检索就会是用户定位最主要的手段,而关键词检索是用户最熟悉的方法。因此基于数据库的传统WEB应用在全文检索需求还是很大的。

但是可怕的%like%数据库操作可能会吃掉数据库服务器90%以上的CPU。Oracle MSSQL等数据库服务器中数据库内置的全文检索基本上都不太适合WEB应用。而数据库另外一个的弊端在于对于条件简单的查询返回结果集非常大:数据库并不知道如何面向用户最关心的的头100条结果进行优化。根据以前的统计:头100条结果往往已经可以满足95%以上用户需求。

全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。目前主流的RDBMS提供了全文检索的功能,检索的效率成了人们关注的重点,目前关系型数据库的检索一般是应用在进行字段查询的系统中,而非全文检索。全文检索是当前搜索引擎的核心技术之一,全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先简历的索引进行查找,并将查找的结果反馈给用户的检索方式。这种思想来源于书目索引。目前的全文检索尚缺乏对web后台数据库内容查询的支持,用户所需的深层次信息无法获得,这是一个web搜索引擎目前不能做到的,也是小型网站和信息系统正需要的。本系统在扩展到检索数据库方面留有接口。目前的全文检索大都是商业化的全文检索,web搜索引擎都是商业化的搜索引擎,因为其运营成本极高。另外一种越来越受到关注的全文检索是垂直搜索引擎,垂直搜索引擎可以实现行业内主题的精准搜索。近年来,情报界的学者已经对文献信息检索进行了大量的理论探讨与实践,本系统是在参考了大量的理论文章的基础上进行实践的。

目前主流的全文检索模型有倒排索引、署名文件、位图等,其中以倒排索引模型的综合性能最好,应用也最为成熟。本系统使用的是倒排索引模型。

2.1.1倒排索引

倒排索引是从数目索引中受到启发而诞生的,文本可以用一系列的关键词来描述。倒排索引为每个关键词建立一个索引,关键词是文本中的所有词(根据词库切词而得到)。本系统中使用word表来存储这些关键词,在关键词的属性中存放了本关键词在文章中的位置信息。基于关键词的的索引过程要借助于“词库”,从文本中分离出有意义的词,也就是去除无意义的词——“停止词”。这一过程通常被称为“切词”,对于中文来说,分词算法很不简单。这是索引过程中的关键技术。笔者将在后文详细介绍系统中的实现方法和存在的问题。

2.1.2按词检索方法

全文检索的方法主要分为按字检索和按词检索两种。按字检索式指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义词处理也相对容易。中文等亚洲文字则需要切分词,以达到按词检索的目的,关于这方面的问题,是当前全文检索技术尤其是中文检索技术中的难点,本系统在建立索引时为检索提供了较为便捷的方法,即通过TF-IDF算法排序实现和倒排索引的索引模型实现达到快速、准确查找到所需内容。

2.1.3 目前该领域的一些研究成果

目前最活跃的全文检索工具就是lucene,lucene是一个相当优秀的全文检索工具包,封装了大量的主要方法。在分词领域有中科院ictclas4j中文分词系统、IKAnalyzer、paoding、等开源分词工具包。这些都是优秀而且成熟的产品。与之相比本系统在切词性能上比IKAnalyzer快,但是比paoding慢,在检索速度上比lucene快。

2.2系统目标和技术架构

2.2.1系统目标

本全文检索系统是为了降低全文检索的难度,本系统适用于中小型不同架构实现静态化的网站系统和基于文件系统的信息系统,这个本系统的首要目的。二是达到面向中文的精确切词。三是保证快速查找到目标数据。这三方面对系统性能要求很高,就是系统应该在检索效率和质量上达到要求。系统本地运行一万组数据测试,每组平均长度为56个字符的情况下,分词用时1.17秒。这是一个比较优秀的成绩。同样的数据使用Lucene和IK分词器需要4.23秒。

2.2.2技术架构

本系统开发环境为:

操作系统:windows xp sp3

开发语言:Java

Web 服务器:Apache Tomcat 6.0.24

数据库:Mysql 5.x

IDE:MyEclipse 7.5

内存:1G

CPU:Intel Pentium Dual-Core E5300 2.6GHZ

系统的软件设计架构为J2EE中的Spring框架。数据库级别的操作中使用原生的JDBC 操作,达到最高效的操作,并且大量的使用了批量化的数据库操作。

3.系统核心算法实现

全文检索系统包含索引子系统和查询子系统。衡量系统查询质量的标准有查全率和查确率两种。查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。在全文检索系统中,查全率是指检出的相关文献与系统中相关文献的百分比。查确率则用来衡量搜索系统过滤非相关文档的能力。

3.1索引算法及其实现

3.1.1切词算法实现

目前的全文检索技术,对于亚洲文字来说最理想的分词方法就是基于一个词库的按词进行的分词方法。按词分词是为了进行以词为单位的检索。这个方法的原理就是使用自己已经建立好的词的集合通过一种算法去匹配目标内容,当词库中的词与目标内容的词匹配的时。将词切分出来。这其中词库的建设是一个关键的部分。词库将在对系统内容进行索引的时候发回十分重要的作用。这是因为在对系统建立索引的阶段,索引项是基于词库对被索引内容进行分词操作而取得的。

不同行业对词库的要求也是不一样的,因此选择一个适合自己系统的词库是非常重要的环节。随着网络的高速发展,信息资源也向海量方向不断的发展,崭新的术语层出不穷,同时旧的术语概念也被赋予了新的含义。

本全文检索系统采用的是自己做的词库,其实词库是搜索的关键因素,本文旨在尝试性的讲清楚思路。本系统词库有大约23万个中文词汇。这是一个极小的词库,理论上讲,词库越大,检索的查全率就越高。本词库虽小但是是一个可扩展的词库,包含了基本词库(base.dic)、计量单位、姓氏、公司企业、地名和国际组织等17种不同种类的词库。

在中文里面“的”“在”、“你”、“我”、“他”、“的”等等一些常用词,这些词因为使用频率过高,几乎每个网页上都存在,所以各种检索系统里面都将这一类词语全部忽略掉。还有一些是特殊符号,或者是标点符号,为了系统的安全性,系统将特殊符号当做停止词来处理。本系统共有停止词122个。

本系统中切词接口Cutter是文本切割类的根接口,主要有三个方法:一个事将句子切成词返回集合类,一个是设置编码,另一个是关键词高亮的方法。

图1

中文切词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是切词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本系统采用基于字符串匹配的分词方法,这种分词方法简单,易用,对于构建非商业的全文检索来说。是非常实用的。但是也应该看到,这只是在一定程度上满足了人们的需要,但还远远不够。

正向最大切词算法来自于最大匹配算法思想,对于文本中的ABC,A∈W,AB∈W,ABC!∈W W为词典,那么切词的结果是AB C。

正向最大匹配方法是把一个句子中最长的词给切分出来,下面举例说明这个过程:本文将反复使用下面这句话进行测试:“河南农业大学是一所学风很好的本科院校”。这是本系统中切词算法的执行过程。每次去掉一个汉字字符,直到找到一个在词库中最大的词。下面这段代码完成了正向匹配算法。

@Override

public Collection cutSentenceToWord(String s) {

ArrayList words = new ArrayList();

while (s != null && s.length() > 0) {

boolean isChanged = false;

for (int j = s.length(); j > 0; j--) {

String subS = s.substring(0, j);

if (dict.isExist(subS)) {

words.add(subS);

s = s.substring(j-1, s.length());

isChanged = true;

break;

}

}

if (s.length() < 1) {

s = null;

} else {

if (!isChanged)

words.add(s.substring(0, 1));

s = s.substring(1, s.length());

}

}

return words;

}

测试(JUnit)方法:

@Test

public void testCutSentenceToWord(){

String tString ="河南农业大学是一所学风很好的本科院校";

SimpleCJKCutter cjkCutter = new SimpleCJKCutter();

cjkCutter.cutSentenceToWord(tString);

}

河南农业大学是一所学风很好的本科院校

……(省略部分结果)

河南农业大学是

河南农业大学

得到“河南农业大学”一词以后就把河南农业大学这个词放入到存放本语句词汇里面去,切掉“河南农业大学”继续上面的过程直到字符串长度为0为止。这个算法即是正向最大匹配算法。切词技术是信息检索中一个技术非常深的领域。但是这种基于规则的字符串匹配算法的准确率直接与词典相关(即歧义性问题),并且不能识别各种未登录词。所以分词准确度受到很大限制。“相关性”主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。这是对“相关性”概念的一种粗泛的描述,切词的效果可以反映出检索程序提供信息相关性的水平。下面是本系统切词结果和商业搜索引擎切词结果的对比:

本切词算法的切词结果:河南农业大学一所学风很好本科院校

微软Bing的切词结果:河南农业大学是一所学风很好本科院校

百度的切词结果

这里只是列出了一个例子,并不能说明检索系统的功能的问题。这个例子达到了笔者的设计要求:能够把句子切分为日常需要的词。由于语言的不断变化,新的词语词汇不断的出现,词库的动态维护也是建立检索系统的重要之处。在实际的操作中很难动态的维护词库,而且动态维护词库后对于新增词和已经建立的索引又有不一致的地方。这种机械的切词方法很难做到把语言中的各种意思表达出来。

3.1.2 建立索引

索引操作是所有检索系统的核心概念:为了进行快速查找,就需要把数据处理成一种高效的,可交叉的查找表格式。

大部分信息系统希望对自己的文章内容进行检索,这样会更加准确的检索到所需要的信息。另一种方式是写程序遍历文件系统或者数据库,来匹配所需要的信息。这种做法在数据非常大的情况下效率很低。在图书管管理中对整个图书馆的书籍建立索引可以快速准确的找到每一本图书。同样的,对一个拥有庞大数据的信息系统建立索引页可以快速的找到包含某一个词语或者某一句话的那篇文章。

建立索引的过程,在系统中只要调用ISearchIndexService.createIndex();方法就可以建立

索引,事实上这是一个比较复杂的过程,这个方法完成的功能是将数据转换为文本,分析文本并将分析后的文本存入索引数据库中。系统中提供了Html转化为文本的方式。对于其他形式的文档,没有提供。Html文本解析使用了htmlparser工具包,通过这个开源工具包,可以得到过滤掉Html标签的文本。把文本封装到Page类里,即可实现进行切词建索引的操作,下面的流程图可以明确的说明这些过程。

图2

系统主要通过以下三个接口来完成建立索引的操作。

图2

在一个比较完善的信息检索系统中应该实现定时的去更新自己的索引。本系统在定时任务方面做了尝试,但是并没有完成。笔者在这方面的尝试源自于更加开放式的想法,对于一个信息系统文件系统本系统可以检索,对于另一个也是可以检索的。如果实现同时执行不同的任务或者是可以管理不同的任务。这就意味着本系统可以对外提供服务,对不同的信息系统进行服务。这将是一个功能强大的信息检索系统。出于可扩展性的考虑,笔者在索引的过程中增加了一个job的标识,这意味着每一个job都是一个单独的任务。这个标识的添加使本系统变的庞杂而不易控制。

3.1.3 排序算法

系统使用了TF-IDF(term frequency–inverse document frequency)统计方法对结果进行排序,TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。本系统实现了一种得到TF-IDF值的方法。

系统中采用对文件频率取对数的公式实现了该统计方法。改方法在Searchservice. calculateTFIDF(double, double)中实现。其getAllPageNum()方法是得到系统中所有文章的数目。

protected double calculateTFIDF(double tf,double pageNum){

double idf = Math.log(this.getAllPageNum()/pageNum);

double tfidf = tf*idf;

return tfidf;

}

3.2索引数据结构和索引数据存储算法

本小节介绍了倒排索引在系统中的实现方法和数据库操作时的原则。

3.2.1索引数据表结构及表之间关联关系

建立索引是完成本系统的首要任务也是最关键的任务。本系统提供了page和word两个类,来支持这个索引的过程。下面是这两个类的在数据库中的结构。

图3

这两给表是系统中索引实体存在的数据表。Page存放了文件的url、内容、标题、拥有词的数量和任务Id(系统扩展)。Word表是保存了系统中所有可以被检索的词的表。其中wordindex最重要,这个字段存放了一个词出现在哪篇文章的哪个位置,以及他的重要性(TF-IDF值)。

这两张表反映本系统中采用了倒排索引。Word表中的每一个词都包含了该词语在page 表中所有的位置信息,这是一个一对多的关系。倒排索引时信息检索系统中比较通用的做法。

3.2.2索引数据插入方法

笔者尝试了单条数据插入和批量插入两种方法,得到的结论是,批量插入可能会导致内存紧张,尤其是在进行大量文本批量插入的时候。现在系统采用的策略是每个文本插入一次。对word表进行批量的插入。纵然是单文件插入,也可能导致内存紧张。这与JVM 的设置有关。在此不赘述。

在插入的时候系统采用了缓存表的方式对数据进行插入。这种插入方式在更新的时候安全性高。

3.2.3索引数据更新方法

在对索引库进行插入的时候,如果库中已经存在某个词语,那么应该更新这个单词所在的那条记录。在笔者的实践中直接把所有的词语项插入word表,可能会导致数据库崩溃。而且这是一个非常复杂的sql语句。笔者选择了使用缓存表的策略。这样会更加安全。

索引数据更新的过程:将词语项存入缓存表wordtmp,从缓存表将word表中不存在的数据插入到word表,从wortmp表中删除已经插入到word表的数据,得到临时表中所有在word表中存在的数据,将数据更新到word表中。

3.3索引模式实现方法

本系统索引模式有两种,一种是完全模式,一种是增量的模式,两种模式通过实现接口: createIndex(String job, String[] urls, String indexModel, String indexType , String fileTypes, String jobDir);来完成两种不同方式的任务。

参数:

Job 任务标识

Urls 索引地址数组:例如{d:/project/jobx, d:/project/jobx/channel}使用绝对路径indexModel 索引模式

indexType 索引文件模式:最大化索引:Constans.INDEX_TYPE_MAX 最小化索引Constans.INDEX_TYPE_MIN

fileTypes 文件类型以;分割

jobDir: 针对该job的附加索引文件目录

说明:Constans :全局常量类,系统用到的常量都定义在该类中。

3.3.1完全索引模式实现

完全模式是完全的删除本任务下的所有page和word记录重新建立新的索引库。系统中使用Constants.INDEX_MODEL_FULL来代表该索引模式。这个功能是一个全文检索系统所应该具备的基本功能,根据本系统的特点,完全模式实现中不仅仅是删除了索引库中的索引,也删除了相应的索引问标志文件,就是以“.index”结尾的文件。下面流程图清晰的说明了这一完全索引模式任务执行的流程。

图4

3.3.2增量索引模式实现

增量索引模式是指在对索引库进行更新的时候采取的一种索引模式,该模式以增量的模式索引用户文件系统,两种文件可以被本模式索引到,一种是经过修改的,一种是用户系统中新增的文件。另外,被删除的文件应该同步的删除其在索引库中的索引。

对于用户每一个修改过的文件系统都应该对其重新建立索引,在系统的设计中,每一个被索引过的数据源文件A都有一个在服务器项目根目录下的一个对应的索引文件B,在索引过后,A的修改时间一定小于B的创建时间。如果在索引过后A文件被修改,那么系统应该对其进行重新索引。对于每一个被索引的文件都是如此。

被删除的文件应该删除掉其在数据库中的索引,遍历jobDir 中的.index 文件,查询与该文件相对应的目标文件是否存在,如果不存在则删除目标文件的索引。

图5

4.检索方法实现

信息检索在全文检索中是面向用户的环节,也是全文检索的目的所在。无论系统如何设计,最终都是为了信息检索。为用户提供服务,因此,信息检索是在系统架构基础上,一个全文检索的关键部分,全文检索的好坏对用户来说,取决于检索系统,包括信息检索的界面,功能,响应速度,方便程度,信息更速度等。

4.1检索过程

本系统信息检索过程可以用下面的流程图来描述。

图6

如前文所述,分不同任务的索引是设计本系统时的一个目标,未完全完成。不过带有任务标识的检索方法已经实现。在检索的过程中根据不同的任务进行区分是十分简单的,而且对程序的执行效率没有任何影响。各个任务之间是彼此隔离的。

4.2关键词高亮

因为系统使用的是同一个切词方法,所以对同一段文字来说系统切词得到的结果是相同的。根据这个原理可以得到如下的关键词高亮方法。

参数:text:命中结果

query:用户输入文字

c:颜色

返回值:加高亮后的命中结果

public String highlight(String text, StringBuffer query, Color c) {

for (Cutter cutter : cutterBox) {

String[] sentences = cutArticleToSentence(text);

Collection keywords = cutter.cutSentenceToWord(query);

StringBuffer tempText = new StringBuffer(text.length()

+ text.length());

for (String sentence : sentences) {

tempText.append(cutter.highlight(sentence, keywords, c));

}

text = tempText.toString();

}

return text;

}

结语

本系统具备了高效全文检索的特性,比如倒排索引、正向的最大匹配和TF-IDF统计方法。在切词和检索方面效率表现优秀。在同步数据和索引文件方面本系统有所创新,采用了增量的模式建立索引。

系统也存在一些不足之处,比如在进行大批量文本的检索的时候会出现内存溢出的问题。这是全文检索技术中十分棘手的问题。检索词提示也没有实现,相关性算法只是使用出现的频率进行计算,相关性是信息检索中一个关键性概念,它是衡量一个信息检索系统效

率的重要指标。由于当前大多数的网站都采用虚拟主机的方式建站,所以这对本系统的植入造成了一定的困难。针对这个问题笔者将会对本检索的接口进行改造。使其以服务的形式对外服务。当然,定领域的研究或应用,提高方法和技术的实施效率不仅十分必要,而且也有很大空间。笔者也会继续努力。

目前的站内搜索技术(所谓的信息管理系统cms的全文检索)都是基本的查找功能,连腾讯都不例外,大多只是简单的利用SQL语句进行数据库检索,技术上的低就造成了实际价值被掩埋。这种情况的解决一来需要管理层有足够认识,二来需要有更多精通搜索技术的技术人员(不是那种会写SQL语句的)才会有新的天地。本系统下一步将对系统进行改造,为广大中小网站提供全文检索服务。这也是本系统未来的价值所在。另外信息提取与文本挖掘在信息检索中具有重要作用,这虽不在本文的讨论中,但是这一点非常重要。

本文介绍了本全文检索系统的各个重要部分,这些部分涉及到了全文检索技术的主要方面。

参考文献

[1]ISBN:9787302211617 冯大淦、萧允治、张宏江:多媒体信息检索与管理,清华大学出版社,2009。

[2]王继成、萧嵘、孙正兴、张福炎:web信息检索研究进展,计算机研究与发展,2001.2,第三十八卷第二期,187~193。

[3] ISBN 7-121-03217 Otis Gospodnetic 、Erik Hatcher:Lucene In Action,电子工业出版社,2007。

[4] 车东:基于Lucene/XML的站内全文检索解决方案:WebLucene,https://www.doczj.com/doc/a818532837.html,/tech/weblucene.html,2003.5。

[5] 1671-4521(2005)04-007-03 朱虹、吴林:倒排索引压缩及在RDBMS全文检索中的实现,华中科技大学学报(自然学科版),2005.4,第33卷第四期,7~9。

[6] 1007-7634(2005)03-0426-05 邓长寿、赵秉炎:下一代搜索引擎探讨,情报科学,2005.3,第23卷第三期,426~430。

[7] 1009-3044(2009)21-5785-03 张斌、周尔宁:基于Nutch的分布式纺织垂直搜索引擎的研究,电脑知识与技术,2009年7月,第5卷第21期,5785~5787。

[8] 朱毅华:能搜索引擎中同义词识别算法研究,硕士学位论文,2001.6,南京农业大学。

[9] 1008-082(2007)10-0223-03 陈立:全文检索引擎的设计研究,现代情报,2007.9,第10期,223~225。

[10] 赵捷、张倩:中文词库在组织机构基础信息检索引擎中的应用,标准科学,2009.2,2009年第二期,85~89。

[11] 章成志、苏新宁:面向信息检索的词汇知识发现, 现代图书情报技术,2007。

[12] 宗成庆,自然语言理解,中科院自动化研究所模式识别国家重点实验室,2004。

全文检索系统整体方案设计

1全文检索系统方案 1.1全文检索需求 1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检 索、跨库检索等多种检索途径; 2)支持字索引和词索引; 3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复 合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关 键词查询优先级的设置; 4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检 索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询 结果集; 5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实 现关键字检索; 6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接 口以支持特殊文档格式的全文检索; 7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为 最新,即支持增量索引机制; 8)用户可自行设定时间,让系统自动定时进行更新索引; 9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得 超过10秒; 10)提供跨数据源、数据格式的搜索; 11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来; 12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索; 13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网 页能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏 览器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果; 14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符 合关键词出现的内容片断; 15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文 字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的 位置; 16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条 件进行排序; 17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索 时,不在标记过的文件中进行查询; 1.2全文检索系统总体方案 系统将采用以下全文检索流程。

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

网站全文检索方案

政务公众网全文检索系统 技 术 方 案

第一部分对系统需求的理解 1.1前言 互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富,网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的信息却变得越来越困难,于是很快就失去耐心,离开这个网站。 借鉴门户网站的经验,通过搜索引擎的方式,建立基于网站内部页面的导航系统——网站全文检索系统,就成为解决以上问题的主要措施。然而,政务公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。 本方案中采用浙江天宇信息技术有限公司开发的新一代智能化的互联网天信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。

1.2需求分析 1.2.1应用目标 通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX 各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。 1.2.2功能需求 根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解XX 市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。 采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支持对各类格式信息的采集。 管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。 检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索方式。 另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。

法规标准库及全文检索系统

法规标准库及全文检索系统 一、产品研发背景 为了使电力企业相关人员更方便的查询到国家、行业发布的各种法律、法规及行业标准,避免企业自己搜索各种文件时,不能保证文件信息、版本的正确性和及时性,提高工作效率。开发法规标准库及全文检索系统。 二、产品特点 内容齐全 由中电方大上传和管理软件数据库中文件,上传文件包括电力行业的法律、法规、行业标准和各企业集团规定,还包含一些对这些法律、法规解读的文章或论文,对法律、法规进行更深层次的挖掘理解。企业在生产、培训时使用该软件可以更方便的查询到需要的文件。 文件实时更新 系统中的文件由中电方大进行管理,对每一个文件的过期或作废等,中电方大都保持实时更新,保持系统的与时俱进,保证文件为实时适用的最新版本。 文件查询方便 文件的查询搜索功能,即能输入文件名或关键字在数据库中全部搜索,又能按照法律、法规、标准或是生效年份等不同条件进行查询搜索。 全文所搜功能 此功能是系统的一大亮点。为了便于查询文件及对应文件内容的搜索,系统支持全文搜索功能。如在搜索界面输入“压力容器”,在结果列表中即会显示相关文件的名称,也会显示部分带有关键字的内容。

三、产品功能 系统支持相关法律法规的全面搜索及预览功能。 四、产品解决问题 系统解决了企业在需要获取相关法规文件时不能确定文件的准确性、最新性等问题。 五、提供的产品服务 ◆提供本产品终身更新服务 ◆提供功能个性化开发服务 六、产品适用范围 产品适用于各类企业 七、公司简介 北京中电方大科技股份有限公司,成立于2004年,新三板挂牌上市公司(证券代码430411,简称:中电方大)。 本公司是处于软件和信息技术服务业的安全与应急服务提供商,为电力企业用户提供安全与应急管理及信息化及对应的整体解决方案。公司于2012年获得国家电监会(现国家能源局)颁发的电力安全生产标准化一级评审机构资质,从事发电企业、电力建设企业的安全生产标准化评审业务。于2014年获得国家能源局指定的电力安全培训机构资质,为发电企业、电网企业相关负责人和安全生

搞清概念:技术路线和研究方法

技术路线 一般是指研究的准备,启动,进行,再重复,取得成果的过程。 多见于理工科和软科学。 技术路线是指申请者对要达到研究目标准备采取的技术手段、具体步骤及解决关键性问题的方法等在内的研究途径.合理的技术路线可保证顺利的实现既定目标.技术路线的合理性并不是技术路线的复杂性. 技术路线是指进行研究的具体程序的操作步骤,应尽可能详尽.每一步骤的关键点要阐述清楚并具有可操作性.如有可能,可以使用流程图或示意图加以说明,以达到一目了然的效果. 在开题报告中,可以先写技术路线,再写研究方法,再略述可行性分析。论文研究方法 (在一个课题研究过程中,根据不同的研究目的和要求,往往会用到两种以上方法。在开题报告中说明两~三个即可) 调查法 调查法是科学研究中最常用的方法之一。它是有目的、有计划、有系统地搜集有关研究对象现实状况或历史状况的材料的方法。调查方法是科学研究中常用的基本研究方法,它综合运用历史法、观察法等方法以及谈话、问卷、个案研究、测验等科学方式,对教育现象进行有计划的、周密的和系统的了解,并对调查搜集到的大量资料进行分析、综合、比较、归纳,从而为人们提供规律性的知识。 调查法中最常用的是问卷调查法,它是以书面提出问题的方式搜集资料的一种研究方法,即调查者就调查项目编制成表式,分发或邮寄给有关人员,请示填写答案,然后回收整理、统计和研究。 观察法 观察法是指研究者根据一定的研究目的、研究提纲或观察表,用自己的感官和辅助工具去直接观察被研究对象,从而获得资料的一种方法。科学的观察具有目的性和计划性、系统性和可重复性。在科学实验和调查研究中,观察法具有如下几个方面的作用:①扩大人们的感性认识。②启发人们的思维。③导致新的发现。 实验法 实验法是通过主支变革、控制研究对象来发现与确认事物间的因果联系的一种科研方法。其主要特点是:第一、主动变革性。观察与调查都是在不干预研

《信息检索系统》方案设计

HX-2055信息检索系统方案

目录 一项目意义 (2) 二系统设计 (3) 2.1技术原理 (3) 2.2系统构架 (5) 三系统功能 (6) 3.1信息采集 (6) 3.2中文自然语言处理 (6) 3.3全文检索功能 (7) 3.4格式文件检索 (8) 3.5性能指标 (8)

一项目意义 随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息,但是也存在很多弊端。 百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即便是抓到了也不一定能够在众多数据中展现出来。所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。 通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据下快速做出正确的决定。 据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。 搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。 搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:

全文检索需求及选型

全文检索需求 档案管理系统 需求整理 1、一个文档有多个附件; 2、文档支持格式:pdf,CEB,txt,html,office(world、excel)、wps 文档,tf、tff; Ceb格式,目前在档案系统已经存在一个对应的txt文件; 现在有两种方案来处理ceb格式:一是把档案系统中的ceb对应的txt文件,迁移过来;二是ceb文件重新转换一次。 3、权限管理,权限有个人、角色、部门分类; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;可以分多个字段查询(比如:档案类型、查询年份) 5、准确显示摘要和高亮显示; 6、矩阵分析(智能分析相似文档,数据挖掘的一部分); 档案的现在方案 a)使用lucene2.x 版本; b)系统是二级部署;

c)每个网点比如福建,按地市创建索引文件。每个地市的索引文 件的大小在800M左右,这样单个档案系统的一个网点的索引 总大小应该在10G左右(目前的大小)。 d)每个地市只可以单独查询,目前没有实现合并查询。 e)新建索引和增量索引是分开处理的。 f)权限控制,目前是用户在请求单个文档的时候才验证权限;在 索引和检索两个层次上没有做控制。 其他特点 知识管理系统 需求整理 1、目前是一个文档对应一个附件,但以后有可能支持多个附件; 文档支持格式:知识管理中各种文档都会存在,尽量支持大部分数据格式。 2、支持的格式可以灵活扩展。 3、权限管理,权限有个人、角色、组织、部门等层次; 4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询; 5、准确显示摘要和高亮显示; 6、智能分析(相似文档,数据挖掘的一部分);

研究方法和技术路线

研究方法和技术路线 调查法 调查法是科学研究中最常用的方法之一。它是有目的、有计划、有系统地搜集有关研究对象现实状况或历史状况的材料的方法。调查方法是科学研究中常用的基本研究方法,它综合运用历史法、观察法等方法以及谈话、问卷、个案研究、测验等科学方式,对教育现象进行有计划的、周密的和系统的了解,并对调查搜集到的大量资料进行分析、综合、比较、归纳,从而为人们提供规律性的知识。 调查法中最常用的是问卷调查法,它是以书面提出问题的方式搜集资料的一种研究方法,即调查者就调查项目编制成表式,分发或邮寄给有关人员,请示填写答案,然后回收整理、统计和研究。 观察法 观察法是指研究者根据一定的研究目的、研究提纲或观察表,用自己的感官和辅助工具去直接观察被研究对象,从而获得资料的一种方法。科学的观察具有目的性和计划性、系统性和可重复性。在科学实验和调查研究中,观察法具有如下几个方面的作用:①扩大人们的感性认识。②启发人们的思维。③导致新的发现。 实验法 实验法是通过主支变革、控制研究对象来发现与确认事物间的因果联系的一种科研方法。其主要特点是:第一、主动变革性。观察与调查都是在不干预研究对象的前提下去认识研究对象,发现其中的问题。而实验却要求主动操纵实验条件,人为地改变对象的存在方式、变化过程,使它服从于科学认识的需要。第二、控制性。科学实验要求根据研究的需要,借助各种方法技术,减少或消除各种可能影响科学的无关因素的干扰,在简化、纯化的状态下认识研究对象。第三,因果性。实验以发现、确认事物之间的因果联系的有效工具和必要途径。 文献研究法 文献研究法是根据一定的研究目的或课题,通过调查文献来获得资料,从而全面地、正确地了解掌握所要研究问题的一种方法。文献研究法被子广泛用于各种学科研究中。其作用有:①能了解有关问题的历史和现状,帮助确定研究课题。②能形成关于研究对象的一般印象,有助于观察和访问。③能得到现实资料的比较资料。④有助于了解事物的全貌。 实证研究法 实证研究法是科学实践研究的一种特殊形式。其依据现有的科学理论和实践的需要,提出设计,利用科学仪器和设备,在自然条件下,通过有目的有步骤地操纵,根据观察、记录、测定与此相伴随的现象的变化来确定条件与现象之间的因果关系的活动。主要目的在于说明各种自变量与某一个因变量的关系。 定量分析法 在科学研究中,通过定量分析法可以使人们对研究对象的认识进一步精确化,以便更加科学地揭示规律,把握本质,理清关系,预测事物的发展趋势。

网站技术方案

XXXXXXXX有限公司 网站系统 技术方案

目录 第一章网站系统分析 1.1系统现状与问题 1.2需求说明与分析 第二章网站系统项目建设目标 第三章项目内容与范围 第四章网站技术方案设计报告 4.1 设计原则与标准 4.2 系统结构 4.2.1 网络拓扑结构 4.2.2 系统体系架构 4.2.3 系统技术及应用软件架构 4.3 各功能模块设计 4.3.1 首页 4.3.2 关于我们 4.3.3 新闻中心 4.3.4 产品中心 4.3.5 客户服务 4.3.6 人才中心 4.3.7 联系我们 4.3.8 中英文切换 4.3.9 企业邮箱登录 4.3.10 在线交谈 4.3.11 信息发布管理 4.3.12 栏目管理 4.3.13 权限管理 4.3.14 用户管理 4.3.15 统计管理 4.3.16 日志管理 4.4 系统安全解决方案 4.4.1 可能的安全问题分析 4.4.2 系统防护解决方案 4.4.3 完善的事件处理 4.4.4 其他安全防护 4.5 技术方案总结报告

第五章项目建设配套要求 5.1 运行环境 5.2 硬件环境 第六章项目清单及系统资产 6.1 软硬件设备 6.1.1 主要内容 6.1.2 清单及系统资产 6.2 软件开发 6.2.1 网站功能清单 6.3 项目实施及培训

第一章网站系统分析 1.1网站系统现状与问题 目前我公司还没有自己的对外网站系统,公司信息资源传播较为滞后,没有得到有效的共享,且缺乏与客户间的交流互动。主要问题如下: 1、公司信息资源没有得到有效的共享,未能及时的面向客户及用户公开, 不利于客户及用户及时了解我司产品的最新动态。 2、缺乏与客户和使用者沟通交流,不方便公司了解产品在使用过程中所出 现的问题。 3、没有一个网络的平台,展示公司形象以及向社会推广新开发的产品。 1.2需求说明与分析 公司网站系统对于宣传公司形象、新产品推广的开展起到了重要的作用,为了能够更好的提高服务质量,畅通交流渠道,这就迫切的需要一个技术先进、内容全面、功能合理的平台来收集、综合、管理、发布公司各类信息。 现结合现状,对公司网站系统的应用提出以下方面的需求: 1、性能可靠、可扩展性好、运行安全稳定、高效便捷、易于维护。 2、网站栏目内容具备灵活性和可配置性,可单个或批量增删改信息,支持 多种发布方式,如纯文本、文本+图片、文本+附件、Office文档,视频、投票等。 3、具备出色的安全性,可过滤敏感内容,限制文件上传类型,可防止SQL 注入、防跨站脚本攻击。 4、具备强大的内容编辑功能,类似word,支持可视化编辑、预览等。平台 操作、维护简单实用,信息页面展示多样、灵活,分类明确。 5、网站风格要求简明、淡雅、沉稳、实用。 第二章网站系统项目建设目标 通过本网站的建设,建立功能强大、信息丰富、管理先进、界面美观、使用方便的网站系统,系统应具有强大的内容管理功能,实现对网站内容进行全生命周期的工作流管理。以内容管理为核心,建设全文检索、站群管理等应用系统,提供一个高性能的专业底层支撑系统。网站技术平台需采用业界一流的成熟软件。 第三章项目内容与范围 本网站系统采用(B/S)模式,部署在XXXXXXXX有限公司网站服务器上,面向互联网用户,为用户提供公司各类公告、产品信息,同时提供在线咨询、投诉等服务,提高网站与用户的互动。 本网站功能划分为前台展现与后台管理两个部分,前台可划分为七个大板块,包括: 首页、关于我们、新闻中心、产品中心、客户服务、人才中心、联系我们;后台部分 功能包括信息发布管理、权限管理、用户管理、栏目管理、统计管理、日志管理。同 时优化网站的性能,增强安全防范措施,保证网站的安全稳定运行。 第四章网站技术方案设计报告

毕业论文的研究方法或技术路线

毕业论文的研究方法或技术路线 研究思路、研究方法、技术路线和实施步骤 1、研究什么?——怎样确定研究课题 一切科学研究始于问题——问题即课题;教学即研究(掌握方法很重要,否则就不是研究);进步与成果即成长。 教育科研课题主要来源于两大方面: A.实践来源——客观存在的或潜在的教育实际问题,教育教学实践本身存在的问题。 教育教学与其外部的矛盾(教师与家长、教师与学校、学校与社会、教育与社会发展)。 B.理论来源——现有教育理论所揭示的问题以及理论体系中的空白和矛盾点(例如《关于“信息技术与课程整合”的冷思考》一文产生的过程) 2、怎样进行研究课题的论证? 我们既然已选定了一个课题,我们就必须对这个课题的所有情况进行全面的了解。了解这个课题目前在国外、国内的研究情况,包括研究已取得的成果和存在的问题,了解这一课题所属的理论体系等等。对课题的全面了解,可以使我们在研究过程中少走弯路,确立研究的主攻方向,这就是我们常说的:“知己知彼,百战百胜”。 怎样对一个课题进行论证呢?论证一个课题主要是弄清如下几个问题: A.所要研究的问题是什么性质和类型的问题? B.要研究的问题具有什么现实意义?它的理论价值(即在理论上预计有哪些突破?) C.要研究的问题目前已有哪些研究成果?研究的方向是什么? D.要研究的问题所应具备的条件分析。 E.课题研究的策略和步骤如何? F.课题研究的成果及其表现形式有哪些? 3、教育课题研究的基本方法有: ⑴ 观察法⑵ 调查法⑶ 测验法⑷ 行动研究法⑸ 文献法⑹ 经验总结法⑺ 个案研究法⑻ 案例研究法 ⑼ 实验法(在一个课题研究过程中,根据不同的研究目的和要求,往往会用到两种以上方法) 3.1 观察法:为了了解事实真相,从而发现某种现象的本质和规律。 观察法的步骤:观察法的实施分为以下三个步骤,步骤之一就是进行观察研究的设计,此步骤可分为如下几个方面: 3.1.1 作大略调查和试探性观察。 这一步工作的目的不在于搜集材料,而在于掌握基本情况,以便能正确地计划整个观察过程。例如:要观察某一教师的教学工作,便应当预先到学校大致了解这位教师的工作情况,学生的情况,有关的环境和条件等等。这可以通过跟教

全文检索系统整体方案

1全文检索系统方案 1.1 全文检索需求 1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检 索、跨库检索等多种检索途径; 2)支持字索引和词索引; 3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复 合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关 键词查询优先级的设置; 4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检 索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询 结果集; 5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实 现关键字检索; 6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接 口以支持特殊文档格式的全文检索; 7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为 最新,即支持增量索引机制; 8)用户可自行设定时间,让系统自动定时进行更新索引; 9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得 超过10秒; 10)提供跨数据源、数据格式的搜索; 11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来; 12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索; 13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网页 能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览 器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果; 14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符 合关键词出现的内容片断; 15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文 字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的 位置; 16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条 件进行排序; 17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索 时,不在标记过的文件中进行查询;

整合全文检索系统解决方案

用友知识管理检索系统解决方案 维思比科技(北京)有限公司 2010年4月20日

目录 (一)现状及总体目标 (1) 1.1、背景介绍 (1) 1.2、现状 (1) 1.3、总体目标 (1) 1.4 总体设计 (2) 1.4.1 系统结构图 (3) 1.4.2信息采集工作原理 (3) 1.4.2.1 数据采集 (3) 1.4.2.2 数据分析 (5) 1.4.2.3 数据写入 (5) (二)功能及界面设计 (5) 2.1整合搜索 (6) 2.1.1拼音提示.............................................................................. 错误!未定义书签。 2.1.2拼音纠错 (7) 2.1.3 相关推荐 (7) 2.1.4 多维度智能导航 (7) 2.1.5 二次检索 (7) 2.1.6 精确查询与模糊查询 (7) 2.1.7多维度排序 (7) 2.2 硬件配置 (7) 2.7.1 服务器配置 (7) 2.7.2 网络带宽配置 (8) 2.7.3 软件配置 (8) (三)开发进度安排 (8) 3.1 实施流程 (8) 3.2 实施进度 (8) (四)投资概算 (9) 4.1 软件产品 (9) 4.2 定制开发 (9) 4.3 培训费用 (9) 4.4 总体预算 (9) (五)运行维护和培训 (12) 5.1 维护 (10) 5.2 培训 (11) 5.2.1.培训人员 (11) 5.2.2.培训目标 (12) 5.2.3. 培训内容 (12) 5.2.4. 培训方式 (12) 5.2.5. 培训时间 (12) (六) 附录 (13)

调查报告的方案设计及技术路线范文

调查报告的研究方案及技术路线 一、研究背景及意义分析 1、研究背景 随着我国蔬菜生产力的提高,蔬菜产业成为农民增收的重要产业,蔬菜供应也由短缺到供需平衡,并出现结构性过剩,大大提高了人们的生活水平。但我国蔬菜质量并未同步跟进,由于农药、化肥等农业投入品的过度不合理使用,使得蔬菜中农药等有害物质残留超标问题突出。蔬菜质量安全问题不仅影响着蔬菜产业的持续发展,影响农民增收,也影响着大众消费安全,影响社会和谐定。基于此,本课题拟对呈贡区蔬菜生产过程中农药的使用情况做出调查,以了解当前呈贡区蔬菜生产中存在的问题,并提出相应对策及建议。 2、研究意义 蔬菜质量安全工作,是一项涉及生态、环境、资源、经济、人口、社会等问题的系统工程,因此,选择“呈贡县蔬菜质量安全控制的研究”,发展无公害蔬菜产销事业,顺应了当前的国际、国内形势,是农业、农村经济发展到现阶段的客观需要,对于推进农业结构调整,全面提高蔬菜产品竞争力,切实增加农民收入具有较强的现实意义。 本研究试图通过调查呈贡县蔬菜生产过程中存在的问题,分析造成蔬菜质量安全问题的原因及对农民增收的影响,找出主要因素,重点从蔬菜生产过程中的投入品使用、管理等生产源头方面探索有效的蔬菜质量安全控制措施,以为推动呈贡区蔬菜无害化生产、提升蔬菜产品质量、保障消费安全、增强呈贡蔬菜的市场竞争力、实现农业增效和农民增收提供有益的借鉴。 二调查方案设计、研究内容及技术路线 1、研究内容 本论文的研究内容主要包括以下几部分: (1)、呈贡县蔬菜质量存在的问题及原因。通过对呈贡县农药、肥料等农业投入品经营使用情况、违禁农药销售使用情况、农药残留超标情况等的调查,分析存在问题的主要因素。 (2)、呈贡县蔬菜质量安全管理现状及存在问题。调查分析呈贡县蔬菜质量安全管理现行体制、采取的措施、制度、蔬菜标准化生产管理情况,目前管理取得的成效及存在的漏洞。 (3)、进一步保证和加强呈贡县蔬菜安全生产的对策建议。通过前文对呈贡县蔬菜安全生产中存在的问题及原因的分析,对如何保证蔬菜的安全生产给出针对性的对策建议。 2、研究方法 本研究立足呈贡市实际,研究方法主要有: (1)、实地调研法 ①对呈贡县蔬菜生产全过程进行实地调查,采用问卷法和访谈法获得第一手资料,了解农户农药、化肥使用的品种、数量、安全间隔期、使用次数等情况,了解当前蔬菜主要种植品种。 (2)、定性分析和定量分析相结合。 在实地调查的基础上,对呈贡县蔬菜质量状况及蔬菜质量安全控制现状进行

XXXX网站项目技术设计方案

上海证券有限责任公司 网站项目 技术方案 (讨论稿)

作者 公布日期 批准人 文件名 版本0.1 项目经理 所属团队 开发员 测试员 文档修改日志 序号版本修改内容修改日期修改人1 0.1 创建2009-05-27

1上海证券网站的总体建设目标 上海证券本次网站改版的总体目标为 (一)可扩展性 (二)可靠性 (三)易于维护管理 (四)易用性 (五)安全性 (六)高效性 (七)跨平台原则

2网站系统需求分析 2.1 系统建设需求 公司及公司产品宣传 面向互联网用户,向用户展现证券公司及其各种服务,特别是资料分析资讯等的基本信息。实现将普通社会公众培养为潜在投资者、将潜在投资者引导为证券公司股票投资者的宣传功能。 客户服务系统对来自互联网的客户提供服务功能 互联网客户服务系统必须整合证券公司主页和以上两项功能,在同一平台上对功能加以必要的完善,突出开放式投资和理财服务两项功能。 能够满足海量用户访问的系统负载要求 能够满足证券公司主动服务和客户自助服务的要求 增强的网站粘滞性 增强的网站SEO,通过搜索引擎主动为网站带来更多的流量。 能够满足现代网络安全性规范的要求 系统在运行后,网络日常维护重点便在于网站的安全性,我们通过我们的系统设计和日常维护规范等方面的工作,都可以保证网站安全性。 建立基于新型技术平台构建的网站门户系统(含后台分析管理系统),全面提升门户营运效能,变被动服务为主动服务。 基础构架要求支撑全站或指定页面的定制布局,可快速发布新页面。支持全站或指定页面的链接流量收集,全站或指定页面的客户行为收集。 后台系统配置灵活,具备一定的分析统计及客户行为的数据挖掘功能,为公司的客户分析系统做好数据收集准备。 建立以客户为中心的网站系统,和客服及相关系统整合,全面提升人机界面及客户体验。 对客户及相关系统作出更加有机的整合,进一步实现系统之间的联接和信息共享。包括:网站的交易、查询、论坛等全面实现单点登陆;网站和call-center邮件、短信、信息全面整合联动,杜绝信息孤岛(比如客户邮件投递失败,网站不知道,客户电话过客服中心而网站后台无体现)。 基于新的网站门户特定子系统的定制开发。 配合性的升级和建设一些适应新时期需求的子系统及特色功能,包括:

全文检索工具

通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。 尤其是中文全文检索技术的研究始于1987年左右,已经有一些商品化的软件。Internet 的普及使得全文检索技术日益成熟起来,其应用已突破传统的情报部门和信息中心的局限性,使该技术的最广大用户变成互联网的用户和桌面用户,而不再仅局限于情报检索专家。 全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。它是搜索引擎的核心技术,同时也是电子商务网站的支撑技术。全文检索技术可应用于企业信息网站、媒体网站、政府站点、商业网站、数字图书馆和搜索引擎中。我们知道,企业信息化是电子商务的基础,企业建立自己的商务站点,构建企业内部信息发布平台,并与其他网站间建立安全的信息发布通道和交换通道,建立电子商务的应用并以数据为中心建立应用平台等方面都离不开全文检索。该检索技术可跨越所有的数据源,支持多种数据和信息格式,对检索结果可按商业分类规则进行排列,也能满足用户特定的知识检索请求,将所有不同信息查询中的命中结果按相关性或分类排列,提供不同格式的信息浏览功能。 [1] 从搜索结果来源的角度,全文搜索工具又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 “网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到

谈门户网站技术方案

谈门户网站技术方 案

门户网站技术方案 一、内容设置 1、椒江概览 介绍椒江方方面面的基本概况,包括:椒江的行政区划、历史文化、自然地理、人口就业、经济发展、城市建设、投资环境、科学技术、社会事业、旅游名胜以及前景目标等信息。完整的介绍椒江的过去、现在、将来,展示椒江社会的进步与发展,体现椒江开拓进取的时代精神。 2、政务新闻(含图片新闻):政府综合新闻栏目,包括区政府以及各部门组织、参与的活动、政府重大新闻报道、领导讲话等。 3、政务公开:主要包括政府领导、政府机构设置、政策法规、公务员

信息、政务资讯等,公开政府文件、政策法规和政务动态等内容。主要栏目:机构设置、政务领导、法律法规、政府文件、部门文件、政府工作报告、实事工程、政府公告、大事记、发展规划、统计月报等。4、网上审批:主要包括办事指南、政务公开、表格下载、在线受理、网上审批、网上查询和政策查询等栏目,在介绍椒江区政府各部门和重要办事机构、办事项目、办理程序和规范的同时,开发设计一个通用的网上审批平台,为分散在各部门的审批项目提供表格下载、网上提交、预审、状态和结果查询等功能。网上审批系统的建设已经另外招标,本次门户网站建设只考虑在门户网站首页和菜单中将网上审批纳入。5、公告:政府公告内容是干部选拨任用、公务员录用、两办及相关部门需在网上公布的内容;便民公告内容是停电、停水、缴费等通告以及区各部门认为和群众生活密切相关的事项。

6、政府文库 及时发布政府文件和规章等信息,提高政策透明度。集中介绍政府规章、政府机关制定的规范性文件以及与经济、社会管理和公共服务相关的其它文件;土地征用、房屋拆迁的批准文件、补偿标准、安置方案等情况;扶贫、优抚、教育、社会保障、劳动就业等方面的标准、条件及实施情况;提供全文检索、关键字检索、日期检索、标题列表及分类检索等多种检索和服务。 7、企业展台。建立专门的企业网上介绍平台,对椒江区重点企业进行分门别类的介绍和链接,是椒江区重点企业对外宣传的窗口,为企业提供安全、可靠、方便的信息交流平台和初步的电子商务平台。 8、招商引资:包括投资环境、投资政策、投资项目、投资程序、服务

SQL Server 2005全文检索技术

SQL Server 2005全文检索技术 1. 前言 1.1 应用背景 随着我国政府和企业信息化的快速普及和发展,来自于供应链、企业生产系统、办公自动化(或公文行文)系统、人事绩效系统、财务管理系统等无一不在积累着各类数据。不仅如此,来自于企业门户网站、通过各种手持移动设备传递的会议通知、保存在业务员笔记本和PDA中的离线产品报价和短期个人销售信息也不一而足。可以说信息无处不在、无时不在、无设备不在,但是它们是否可以在您的手中,即政府和企业的信息系统是否可以把员工需要的信息呈送到他们的指尖之下,这恐怕是另一回事了。信息化普遍实施后,数据获取方式、获取手段的局限,是国内信息化建设主要面临的尴尬现状。 图1:Your Data,Any Where、Any Time、Any Device. But not on your finger. 1.2 主要检索技术的区别 有了数据但是没有被使用,那么这些数据不应该被称为信息。它们无非是不断充斥设备和网络的比特而已,但是如何把数据提供给必要的人员,检索技术是其中非常有效的途径之一。本文笔者主要基于微软平台,针对SQL Server 2005提供的全文检索技术进行介绍。与关系数据查询、多维数据库查询和基于XML 的XQuery、XPath不同,全文检索技术主要处理对象是基于超大数据量的文本数据和结构化的二进制数据上类似LIKE的模糊查询。主要区别见下表。

表1:全文检索与关系数据库查询、多维数据查询、XML查询的对比 2. 全文检索技术简要介绍 2.1 基本概念 如上文所说,全文检索主要应用领域如下: (1)大数据量、超大数据量的结构化平文本数据和模糊匹配查找(Char、Varchar、Nvarchar)。 (2)大数据量、超大数据量的层次型XML数据展开后的查找---含模糊查找(Xml type)。 (3)标准格式的二进制非结构化Word数据的查找(VarBinary[max]、Image)。 与其他检索技术不同的是,全文检索不仅仅提供词汇层次的查询支持,而且可以根据语言环境、不同语言的特点,甚至于用户自定义的配置提供不同语义级的大容量数据模糊匹配检索支持。为了提供语义层次的检索,SQL Server 2005的全文检索明确了如下几个概念: (1)断字符(Word Breaker):因为对于不同的语言,哪些符号可以用于词汇的分割是不同的,因此全文检索支持不同语言环境的不同断字符。 (2)标记(Token):是由断字符标识的词或字符串。由于划分是基于特定语言完成的,因此也可以做到语义层次的支持。 (3)干扰词(Noise Word):主要是那些经常出现,但是对于检索没有多少帮助的词汇。例如:英语中的“a”、“and”、“is”、“the”,汉语中的“的”、“不”、“以”、“了”等。SQL Server 2005中提供配置文件,允许用户自定义自己语言、甚至与本行业、本企业的检索干扰词。 (4)词干分析器(Stemmer):通过断字符分割后,根据具体的语言和该语言的语法规程生成的特定词汇的变形。

全文检索系统整体方案

1 全文检索系统方案 5.1 全文检索需求 1)系统提供模糊检索、分类搜索、高级复合搜索、全文检索、图片内容检 索、跨库检索等多种检索途径; 2)支持字索引和词索引; 3)检索条件具有完整的关键词布尔逻辑运算AND、OR、NOT能力,支持复 合式布尔逻辑运算查询,并且可以配合多组左括号"("与右括号")"作关 键词查询优先级的设置; 4)提供用户多次递进查询的功能,用户可根据上一次查询关键词得到的检 索结果集,增加查询关键词与缩小搜索日期范围,而得到更准确的查询 结果集; 5)能够支持对以上文件中的中文(简体/繁体)、英文、日语、韩语内容实 现关键字检索; 6)支持对Word、TXT、PDF等多种主流文档格式全文检索,并提供开发接 口以支持特殊文档格式的全文检索; 7)在数据源数据发生更新时,能在索引库中反映出来,保证搜索的信息为 最新,即支持增量索引机制; 8)用户可自行设定时间,让系统自动定时进行更新索引; 9)对于百万级记录数的搜索以及结合模糊搜索等查询方式,搜索时间不得 超过10秒; 10)提供跨数据源、数据格式的搜索; 11)同过相关性搜索,能够把和搜索条件相关联的信息搜索出来; 12)不但能够对图片的描述信息进行搜索,还能对图片内容的检索; 13)提供COM与SOAP的搜索接口(Interface) 可让其它应用程序或查询网页 能够提供用户查询入口和查询结果的呈现,用户可通过应用程序或浏览 器访问全文检索服务器,提交查询条件,可在浏览器中查看检索结果; 14)查询结果集中应包含结果集总数、命中的结果文件的完整路径,以及符 合关键词出现的内容片断; 15)在搜索结果集中,关键词应被标识出来,用特殊的字体及颜色和其他文 字进行区别,查询者可在查询结果片断中一目了然的看到关键词出现的 位置; 16)查询结果可按照关键词命中次数,命中结果文件的修改时间,大小等条 件进行排序; 17)可提供用户对检索命中结果文件在索引库中进行标记,从而再次检索 时,不在标记过的文件中进行查询;

相关主题
文本预览
相关文档 最新文档