北京大学学士学位论文
- 格式:pdf
- 大小:215.48 KB
- 文档页数:26
北大论文格式要求论文是研究生培养质量和学术水平的集中体现。
高质量、高水平的学位论文不仅要在内容上有创造性和创新性,而且在表达方式上应具有一定的规范性和严谨性。
这是店铺为大家整理的北大论文格式要求,仅供参考!北大论文格式要求一、学位论文版式、格式1、论文开本及版芯论文开本大小:210mm×297mm(A4纸)版芯要求:左边距:30mm,右边距:25mm,上边距:30mm,下边距:25mm,页眉边距:23mm,页脚边距:18mm2、论文用中文撰写3、标题:论文分三级标题一级标题:黑体,三号或16pt,段前、段后间距为1行二级标题:黑体,四号或14pt,段前、段后间距为1行三级标题:黑体,小四号或12pt,段前、段后间距为1行上述段前、段后间距可适当调节,以便于控制正文合适的换页位置;4、正文字体:正文采用小四号宋体,行间距为18磅;图、表标题采用五号黑体;表格中文字、图例说明采用小五号宋体;表注采用六号宋体;5、页眉、页脚文字均采用五号宋体,页眉左侧为“北京大学公共管理硕士学位论文”,右侧为一级标题名称;页眉下横线为“ ”(3磅);单面打印;页码采用阿拉伯数字五号宋体,排在页脚居中位置;页码从第一章开始按阿拉伯数字连续编排,第一章之前的页码用罗马数字单独编排。
6、文中表格均采用标准表格形式(如三线表,可参照正式出版物中的表格形式);7、文中所列图形应有所选择,照片不得直接粘贴,须经扫描后以图片形式插入;8、文中英文、罗马字符等一般采用Time New Roman正体,按规定应采用斜体的采用斜体。
二、学位论文各组成部分学位论文一般由封面、版权声明、中文摘要、英文摘要、目录、插图和附表目录、论文正文、参考文献、附录、致谢、原创性声明和使用授权说明等部分组成,并按前后顺序排列。
具体要求可参看第三部分书写要求。
1、封面:公共管理硕士学位论文封面(见附件1)、书脊(见附件3)要求如下:(1) 公共管理硕士学位论文题目应能概括论文的主要内容,切题、简洁,不超过26字,可分两行排列;题目采用小二号黑体;(2) 院系统一填写政府管理学院;(3) 专业为公共管理;(4) 日期:学位论文提交时间。
基于几何内容的三维模型比较与检索算法研究Research on 3D Model Similarity Measure and Retrieval姓名:刘一指导教师:查红彬教授基于几何内容的三维模型比较与检索算法研究 Research on 3D Model Similarity Measure and Retrieval摘要随着三维建模技术的日益成熟和计算机软硬件技术的飞速发展,三维模型的数量在最近的十年中有了飞跃性的增长。
充分利用已有的三维模型数据资源,可以大大减轻设计新模型的工作量,同时也可以促进三维数据的流通和在各领域的应用。
这就需要提出有效的方法,根据几何内容对三维模型进行分类和检索。
基于内容检索的关键问题是如何将三维模型的特征进行量化,并在此基础上进行相似度的定义。
由于三维模型作相似变换后,仍被视为是同一个模型,因此抽取具有相似变换不变性的几何特征是十分必要的。
相似变换可以分解成三种基本的变换-平移变换,尺度变换和旋转变换。
对模型的位置和尺寸进行归一的方法相对简单,相对来讲旋转自由度的归一则具有较差的稳定性。
因此,人们期望定义的物体形状描述算子具有自身的旋转不变性。
为了不依赖坐标系的选择,我们利用快速球面调和变换,将三维几何信息分解到SO(3)变换下的一系列不变子空间中,从而获得所提取特征的旋转不变性。
作为和Fujitsu公司的横向合作项目,论文作者和普建涛博士后共同开发了基于几何内容进行三维模型检索的原型系统,在深入研究已有算法的基础上,提出了几个新算法,并验证了有效性。
本文共分五个章节。
第一章介绍三维网格模型的概念和基本应用。
第二章介绍三维模型检索系统的流程与用户界面设计框架。
第三章介绍基于随机过程的三维几何特征提取方法。
第四章介绍球面调和变换的概念和若干以检索为目的的快速球参数化方法,并对作者提出的新算法进行详细讨论。
第五章对实验结果进行总结并展望今后工作。
关键词:数字几何处理、三维模型检索、球面调和变换Key Words: Digital Geometry Processing, 3D Model Retrieval, Spherical Harmonic Transform第一章 三维模型和数字几何处理的概念与应用1.1三维网格模型的概念和应用我们生活在一个三维的世界中,传统的照相技术只能获得三维物体的二维影像,而无法精确的记录物体的三维几何特征。
北京大学关于保存、使用学位论文的管理办法随着网络技术的发展,学位论文电子版有比印刷版更方便更快捷的保存和使用方式,北京大学于2001年建立并实行了博士、硕士学位论文电子版与印刷本同时呈缴的制度。
为保护著作权人的合法权益以及其学位论文在学校范围内合理使用,更好地为教学和科研服务,北京大学图书馆作为北京大学委托保管学位论文并提供服务的主要部门,根据“中华人民共和国著作权法实施条例”和教育部“高等学校知识产权保护管理规定”,特制定学位论文的管理办法如下:一、印刷本学位论文(无密级)1. 印刷本学位论文保存在图书馆学位论文阅览室,不提供外借但提供室内阅览服务。
2.读者阅览任何一篇学位论文前,必须登记所查阅的论文篇目,若读者提出部分复印要求,应登记所复印的页码,图书馆负责保存登记档案。
3.为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务,并保存交流档案。
“存在馆际合作关系的兄弟高校用户”是指同北京大学签署有正式馆际合作协议的各高校图书馆、国家图书馆等图书馆用户。
二、电子版学位论文(无密级)北京大学将根据国家著作权法的有关规定和作者许可对学位论文电子版进行合理使用,具体如下:1.为校内用户提供检索和阅览服务。
“校内用户”指北京大学校区内学生和教职员工;2.北京大学通过必要技术措施来实现用户控制,以保护著作权人的合法权益;3.制作者在浏览页面发布保护论文作者合法权益的声明。
三、保密学位论文1. 保密学位论文的印刷本将在图书馆另辟地点,严格遵守国家保密法规和北京大学保密委员会的有关规定保管,在保密期限内不提供读者服务。
2.论文解密后将存放学位论文阅览室提供服务,管理与服务方式同1。
3.论文电子版在其保密期限内不提供任何服务,解密后服务方式同2。
本办法经学校研究生院讨论通过,图书馆保证严格按照本办法执行学位论文的管理和服务。
如果国家和学校出台新的管理办法,图书馆将参照新的管理办法执行。
北京大学研究生院北京大学图书馆2002年7月2日。
北京大学研究生学位论文的基本要求与书写格式(2005年6月修订)一、学位论文的基本要求硕士学位论文,要求对所研究的课题有新见解或新成果,并对本学科发展或经济建设、社会进步有一定意义,表明作者掌握坚实的基础理论和系统的学科知识,具有从事学术研究或担负专门技术工作的能力。
学位论文应在导师指导下,由硕士研究生本人独立完成。
博士学位论文,要求对所研究的课题在材料、角度、观点、方法、理论等方面或某方面有创新性成果,并对学术发展、经济建设和社会进步有较重要的意义,表明作者掌握坚实宽广的基础理论和系统深入的学科知识,具有独立从事学术研究的能力。
学位论文应在导师指导下,由博士研究生本人独立完成。
学位论文应当用规范汉字进行撰写,除古汉语研究中涉及的古文字和参考文献中引用的外文文献之外,均采用简体中文撰写。
学位论文必须是一篇[或一组相关论文组成的一篇]系统完整的、有创造性的学术论文。
不符合上述要求的,一律不接受其学位论文答辩申请。
二、学位论文的一般格式学位论文一般应依次包括下述几部分:1. 封面(参见附件1)。
2. 版权声明。
3. 题目:应准确概括整个论文的核心内容,简明扼要,让人一目了然。
一般不宜超过20个字。
4. 中文摘要:内容摘要要求在3000字以内,应简要说明本论文的目的、内容、方法、成果和结论。
要突出论文的创新之处。
语言力求精炼、准确。
在本页的最下方另起一行,注明本文的关键词(3-5个)。
5. 英文摘要:英文摘要上方应有题目,内容与中文摘要相同。
在英文题目下面第一行写研究生姓名,专业名称用括弧括起置于姓名之后,研究生姓名下面一行写导师姓名,格式为Directed by...。
最下方一行为英文关键词(Keywords 3-5个)。
参见附件2。
6. 目录:既是论文的提纲,也是论文组成部分的小标题。
7. 序言(或序论、导论):内容应包括本课题对学术发展、经济建设、社会进步的理论意义和现实意义,国内外相关研究成果述评,本论文所要解决的问题,论文运用的主要理论和方法、基本思路和论文结构等。
北京大学学位论文格式【篇一:北京大学本科毕业论文格式标准】北京大学本科毕业论文格式要求(草案)(2011年3月1日)为规范我院成人教育本科(包括函授、网络教育、成人脱产班、自学考试等形式的本科专业包括:金融学、国际经济与贸易、财务管理、保险学、人力资源管理、市场营销)毕业论文写作提高论文质量特制定本《要求》学生在写作论文时必须符合本《要求》的规定以前有关规定与此要求不相符合的请按照此规定执行;本要求未能够规定的一些具体情况请论文作者征求指导老师的意见在写作论文之前请一定先看关于写论文的课件在将论文(包括初稿)提交给导师之前请作者认真阅读完本要求并仔细检查自己的论文是否符合此要求一、论文装订论文一律用a4纸打印不得小于或大于此规格字迹清晰论文一律在左边装订成册装订顺序为:(1)封面(2)论文评定页(3)目录(4)论文提要(5)论文正文参考文献(7)个人声明请使用统一提供的封面不得使用封面的复印件并将封面上的有关信息填写准确、完整、清晰论文提要单独使用一张a4纸一般在300-600字论文提要下有本文章的关键词关键词一般3-5个格式举例如下:论文提要(黑体四号字)中国经济发展xxxxxxxxxxxxxxxxxxxxxxxxxx (宋体小四号字) 6)(关键词(黑体小四号字):经济发展、公平与效率、收入分配(宋体小四号字)个人声明单独使用一张a4纸上面书写:个人声明(黑体四号字)在论文导师的指导下本文确为本人独立完成并愿意承担因违反学术规范而应该承担的全部责任签字:年月日(宋体小四号字)二、正文格式示例论文标题(黑体小三号字)一级标题使用黑体四号字居中注释使用宋体5号字其它均使用宋体小四号字1基本版式正文内容以word 文档、a4纸、宋体小四号字(论文标题、一级标题和注释除外)打印2标题序号(1)文章中标题序号按照一、(一)、1、第一顺序排列根据文章的叙述层次不需要全使用时可以适当减少(2)一、1后面加、号(一)后面不加任何标点第一后面加号3图表(1)论文中含有数学公式、表格、曲线图以及其它图表请使用计算机制作相关内容保证其中的符号、数字、文字、图线清晰、规范(2)表格序号用表1、表2等表示表格标题置于表格上方(3)图序号用图1、图2等表示图标题置于图上方4当页脚注(1)脚注以①②③......表示仅在当页连续排序(2)脚注中有文献引用的参照参考文献的体例编排(3)正文中脚注号的位置一般在标点符号之后如①、②等除非专门用来说明句子中的某个词如......凯恩斯主义①......一篇论文一般至少应该有3个以上的脚注三、参考文献参考文献:(黑体五号字)1中文文献(宋体5号字)(1)张三:《论市场》[j]〈〈经济研究〉〉1989年第6期(2)张三:〈〈论计划〉〉[m]经济出版社2001年(3)李四:〈〈论计划经济与市场经济〉〉[m]原载王五主编〈〈计划与市场〉〉(论文集)经济出版社2001年(4)张三:〈〈市场经济中的计划〉〉[n]〈〈xx日报〉〉1993年3月20日(5)李四:〈〈计划与市场关系的研究〉〉[d]博士学位论文1994年2英文文献(1)johnd.1956on demand[j]american economic reviewvol.9feb.pp15-25.四、其它事项1注意用语的规范性例如:(1)2006年不要简写成06年(2)不要使用今年、去年等词2006年12月31日说今年和2007年1月1日说今年是不同的时间2注意资料引用的规范性所有数据资料都应该说明来源(一般用脚注的方式)例如:某同学在2006年12月写论文时候看到一篇资料资料上说截止到今年10月......该同学引用该资料在2007年3月提交的论文上也出现了截止到今年10月...... 在2009年3月提交的论文中出现了这样的资料:今年5月上海市住房交易量为......很难解释作者是怎么在2009年3月就能够知道2009年5月的数据3论文中不宜引用政府官员的语录不要出现xxx副省长指出:.......4认真进行文字校对错别字、标点符号错误达到一定比例、图表不准确清晰将严重影响论文成绩5不要犯常识性的错误举例:[1]很多论文中出现1949年中国建国以来......中国作为一个国家有很长的历史了怎么会是1949年才建国的呢?[2]2009年的某些论文中分析2020年的中国经济或其它问题写到未来20年内......不知道作者是如何计算的按照一般的算法2009年到2020年怎么也不用经历20年的时间6本科论文一般不要按照章节的格式来写7本科论文是严谨的学术论文请注意行文风格不要写成散文、议论文、杂文等形式????????【篇二:北大硕士论文格式】北京大学公共管理硕士学位论文撰写格式与标准学位论文是研究生培养质量和学术水平的集中体现。
北京大学研究生学位论文的基本要求与书写格式(2005年6月修订)一、学位论文的基本要求硕士学位论文,要求对所研究的课题有新见解或新成果,并对本学科发展或经济建设、社会进步有一定意义,表明作者掌握坚实的基础理论和系统的学科知识,具有从事学术研究或担负专门技术工作的能力。
学位论文应在导师指导下,由硕士研究生本人独立完成。
博士学位论文,要求对所研究的课题在材料、角度、观点、方法、理论等方面或某方面有创新性成果,并对学术发展、经济建设和社会进步有较重要的意义,表明作者掌握坚实宽广的基础理论和系统深入的学科知识,具有独立从事学术研究的能力。
学位论文应在导师指导下,由博士研究生本人独立完成。
学位论文应当用规范汉字进行撰写,除古汉语研究中涉及的古文字和参考文献中引用的外文文献之外,均采用简体中文撰写。
学位论文必须是一篇[或一组(3篇以上)相关论文组成的一篇]系统完整的、有创造性的学术论文。
不符合上述要求的,一律不接受其学位论文答辩申请。
二、学位论文的一般格式学位论文一般应依次包括下述几部分:1. 封面(参见附件1)2. 版权声明3. 题目:应准确概括整个论文的核心内容,简明扼要,让人一目了然。
一般不宜超过20个字。
4. 中文摘要:内容摘要要求在3000字以内,应简要说明本论文的目的、内容、方法、成果和结论。
要突出论文的创新之处。
语言力求精炼、准确。
在本页的最下方另起一行,注明本文的关键词(3-5个)。
5. 英文摘要:英文摘要上方应有题目,内容与中文摘要相同。
在英文题目下面第一行写研究生姓名,专业名称用括弧括起置于姓名之后,研究生姓名下面一行写导师姓名,格式为Directed by...。
最下方一行为英文关键词(Keywords 3-5个)。
参见附件2。
6. 目录:既是论文的提纲,也是论文组成部分的小标题。
7. 序言(或序论、导论):内容应包括本课题对学术发展、经济建设、社会进步的理论意义和现实意义,国内外相关研究成果述评,本论文所要解决的问题,论文运用的主要理论和方法、基本思路和行文结构等。
北京大学本科生学位论文深圳天音通信公司购销存系统设计与部分实现姓名:俞诗鹏学号: 09601127院系:数学科学学院专业:信息科学导师:林作铨教授2000年6月目录摘要 (2)关键字 (2)一、客户机/服务器计算模式 (3)1.1 C/S结构概述 (3)1.2 两层C/S模型 (3)1.2.1 结构简图 (3)1.2.2 结构优缺点 (3)1.3 三层C/S模型 (4)1.3.1 结构简图 (4)1.3.2 结构描述及优缺点 (5)1.3.3 最近发展 (6)二、深圳天音通信公司购销存系统 (6)2.1 系统背景 (6)2.1.1 公司营销网络 (6)2.1.2 系统流程 (7)2.2 系统设计 (8)2.2.1 系统开发构架 (8)2.2.2 系统信息流构架 (9)2.2.3 系统模块设计 (9)三、传输组件设计与实现 (10)3.1 传输组件概述 (10)3.2 组件工作流程 (11)3.3 传输预处理 (12)3.4 传输库表设计 (13)3.4.1 服务器端传输表设计 (14)3.4.2 客户端传输表设计 (16)3.5 传输组件应用 (17)四、基于菜单的权限管理 (18)4.1 权限管理综述 (18)4.2 库表设计 (19)4.3 程序结构设计 (20)4.4 用户界面及其具体实现 (21)4.5 不足之处与下一步研究方向 (24)致谢 (25)参考文献 (25)摘要深圳天音通信公司是一个销售网络遍布全国的大型公司。
由于公司管理机构庞杂,购、销、存数据在公司内部流动缓慢,严重影响了公司的日常运作以及工作效率。
企业迫切需要一个方便、快捷的工具来对所有销售数据进行管理,以便为计划部门提供真实可靠的依据。
针对天音公司的具体需求,我们采用三层客户机/服务器的模式,为公司设计了一个基于广域网的购、销、存管理系统。
我们力求在系统设计上充分考虑到公司运作的实际情况,并且包含必要的通用性和扩展性,为公司今后发展B2B 的电子商务平台做好准备。
论文摘要本文首先介绍了Internet及WWW的迅速发展状况,分析了Internet信息资源的特点。
在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。
随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。
然后,文章介绍了“天网”系统中的信息统计子系统。
信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。
本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。
关键词:搜索引擎、信息统计、机器学习新词目录目 录 (2)第一章 背景介绍 (3)§1.1 Internet 和 WWW 的发展与现状 (3)§1.2 搜索引擎技术的发展与现状 (5)第二章 系统概述 (6)§2.1 系统的总体结构 (6)§2.2系统技术特征 (6)§2.3总体性能 (8)第三章 信息统计子系统 (10)§3.1 系统的改进需求 (10)§3.2 信息统计子系统的总体结构 (10)§3.3 运行条件 (11)§3.4 使用界面 (11)第四章 数据库信息处理的实现 (14)§4.1 设计目标 (14)§4.2 数据库处理 (14)§4.3 引用次数排行表 (15)§4.4 HASH 表 (16)§4.5 统计各个域内的主机数目 (18)§4.6 主机情况查询 (19)第五章 日志文件信息处理的实现 (20)§5.1 设计目标 (20)§5.2 文件处理 (20)§5.3 新词学习 (22)致谢 (25)参考文献 (26)第一章背景介绍§1.1 Internet 和 WWW 的发展与现状Internet是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。
Internet的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。
组建ARPANET的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。
后来,人们才逐渐认识到它作为通讯手段的好处。
1983年后,ARPANET中有关军事的部分被隔离为MILNET。
其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。
90年代初到现在,是Internet增长最迅速的时期。
1993年,Internet的增长速度是341%。
截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。
Internet上的信息资源随着Internet 的发展也呈现出以下特点:z信息量大而且分散z自治性强z信息资源多种多样z信息变化快z不一致和不完整性这些特点对网络软件的性能提出了很高的要求。
World Wide Web(WWW)是全球性的网络信息系统。
一九八九年,位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了WWW的研究工作。
随后,许多其它的研究机构、大学和公司也加入WWW研究者的行列,并相继开发出各自的WWW软件。
这些WWW软件的运行平台覆盖了目前主流的计算机硬件和操作系统。
在此过程中,WWW也不断完善和发展。
同时,为了保证不同WWW软件之间的互操作性,一系列WWW协议和标准也正在使用和完善之中。
WWW是基于超文本(Hypertext)和超媒体(Hypermedia)的分布式信息系统。
超文本和超媒体是信息的一种组织形式,如图1.1所示:在超文本文件中,包含有许多指针,这些指针被称为超文本链(Hyperlink)。
每一个超文本链都指向其它的超文本信息。
这些超文本信息可能存放在同一台计算机中,也可能存放在WWW信息系统的其它计算机中。
读者并不关心这些超文本信息存放在何处,如果他们想了解这些信息,他们就可以通过超文本链得到。
超媒体是对超文本的扩展。
在超媒体系统中,超媒体链可以指向任何媒体信息,包括图象、音频、视频等等。
超文本和超媒体为用户进行信息检索提供了极大的方便。
§1.2 搜索引擎技术的发展与现状随着WWW的迅速发展,Internet上出现了WWW信息查询服务,它们通常被称作搜索引擎。
这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW 页面,将访问的信息存入数据库。
然后将数据库中的信息建立索引,并提供给用户WWW的查询界面。
搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。
目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。
分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。
国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。
虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对中文信息的处理上尚存在很多不足,如不能准确切词,不能在上下文环境中理解语义等等。
第二章系统概述§2.1 系统的总体结构“天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。
本系统的研制列入CERNET应用系统课题项目,其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。
它符合相关的INTERNET标准,能够自动对WWW 信息进行定向搜集,同时建立WWW资源索引数据库,以满足远程WWW浏览器的交互式查询请求,并将查询的结果以HTML文件的形式返回给用户。
本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS 收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。
其总体结构如图2.1所示。
§2.2系统技术特征本系统有以下技术特征:1.信息收集符合Internet的相关协议和标准。
因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有关协议和标准的支持作为一个重要的目标。
这些协议和标准包括:HTTP协议、MIME、HTML语言、WWW Robots标准、NNTP协议。
2.实用、高效的信息分析方法。
本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置,并结合使用中文分词、词频统计和一定的自然语言理解技术,智能化地提取该页面的关键词和摘要。
3.高度智能性和适应性的信息发现方法我们在本系统中主要使用程序方式自动收集WWW信息,即WWW机器人方式。
在该方式中,有一个能自动在WWW网中获取信息并进行漫游的程序根据HTML文档中的超链,自动收集和索引WWW信息.这种方式速度快、基本不需人工干预。
4.中文信息处理技术中文信息处理与英文存在很大不同,这是因为中文信息处理具有很多自己的特点,这使中文信息的词语切分(切词)成为汉语信息处理的第一道关口,也是建立中文信息发现和检索系统的关键性技术之一。
我们使用以带词类标记的词典为基础、以切词与标注相结合的方法处理中文信息,较好地解决了汉语的切词问题。
5.可伸缩的分布式结构本系统主要由信息收集子系统和信息检索子系统两部分组成。
这两个子系统之间既相互联系,又相互独立,可以分布在不同的主机上分别运行。
6.基于词的大型、高效的信息索引数据库和快速、准确的检索方法。
本系统主要采用基于词的索引,以达到较快的速度和较高的准确性,同时减少索引信息对磁盘空间的占用。
在索引库中采用分级的优化索引结构和多级索引技术,将较小的一级索引驻留内存,检索操作过程大部分在内存中进行,尽量减少对硬盘文件的访问。
因而大大提高了检索的响应速度。
索引库支持增量修改和索引。
以减少数据复制时产生的网络流量,提高索引速度。
7.智能化、多功能的用户检索接口。
用户可以通过浏览器直接访问本系统,还可以使用Email查询接口。
§2.3总体性能WebGather由于采用了可伸缩的分布式结构、内存Cache、索引数据库和检索数据库分开等先进、有效的技术,使得系统占用资源少、信息收集速度快、用户查询响应时间快(系统对96.7%以上的查询可在1秒钟之内作出响应)、查准率和查全率较高,基本达到了实用化程度。
系统在设计和实现过程中,充分考虑到了用户和管理员的使用习惯,提供了浏览器、电子邮件、中英文用户接口和方便易用、功能丰富的管理工具,因而有很好的可用性和易用性。
天网从1997年10月在CERNET上提供服务以来,得到了用户的欢迎和好评。
统计数字表明了系统的使用情况:时间 1998年 1999年3月 1999年4月平均每天访问人次 2200 10113 15333由于天网功能全面、性能突出,《软件世界》杂志1998年第7期将天网评价为国内最好的中英文搜索引擎。
第三章信息统计子系统§3.1 系统的改进需求经过测试和改进,到1998年,天网搜索引擎已经可以很好地为广大网络用户服务了。
在CERNET上,平均每天有几千人次访问天网搜索引擎。
许多研究人员、教师都把天网搜索引擎作为他们工作中的重要工具。
为数众多的大中院校学生每天通过天网搜索引擎查询专业信息,了解社会动态,和娱乐消遣。
随着系统的广泛使用,对索引数据库以及用户查询记录进行处理,从中提取出有用的信息,帮助系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求,成为一个急待解决的问题。
信息统计子系统就是为这个目的而设计的。
该子系统通过处理索引数据库产生关于网上页面、主机状况的信息,如页面的平均长度、页面的被引用情况、页面的编码类型、主机上的页面数等等;通过处理用户查询记录文件产生关于用户需求的信息,如用户的访问次数、访问类型、常查询的词语,并可以自动学习新词。
§3.2 信息统计子系统的总体结构信息统计子系统的总体结构如图3.1所示。
信息统计子系统主要分为三大模块。
第一部分是数据库信息处理程序,它启动运行后,从索引数据库中读取数据,统计出信息,写在结果文件中。
这部分内容又可分为统计页面信息和统计主机信息两部分。