基于网络爬虫的文献检索系统的研究和实现_杨洋

格式：pdf
大小：485.26 KB
文档页数：4

下载文档原格式

/ 4

基于网络爬虫技术的网站信息搜集与分析研究

基于网络爬虫技术的网站信息搜集与分析研究一、引言随着互联网的迅速发展，人们在日常生活和工作中对大量的网站信息进行搜集与分析的需求也日益增加。

而基于网络爬虫技术的网站信息搜集与分析研究，成为解决这一需求的重要手段和方法。

本文将就基于网络爬虫技术的网站信息搜集与分析进行深入探讨。

二、信息搜集技术的发展与特点1.信息搜集技术的发展信息搜集技术经历了多年的发展，从最初的手动搜集，到后来的自动化搜集，再到如今基于网络爬虫技术的信息搜集。

基于网络爬虫技术的信息搜集，能够实现规模化、高效率的数据搜集，大大提高了搜集效果。

2.信息搜集技术的特点基于网络爬虫技术的信息搜集具有以下几个特点：（1）规模化：网络爬虫技术能够快速地爬取大量的网页，并提取出所需的信息，满足大规模数据搜集的需求。

（2）高效率：网络爬虫技术能够在短时间内搜集到大量的信息，大大提高了搜集效率。

（3）多样性：网络爬虫技术可以搜集多种形式的信息，如文本、图片、视频等，满足了用户不同的搜集需求。

（4）自动化：网络爬虫技术能够自动化地搜集信息，减少了人工操作的繁琐，提高了工作效率。

三、基于网络爬虫技术的网站信息搜集与分析方法1.网页爬取网页爬取是基于网络爬虫技术的信息搜集的首要步骤。

通过编写网络爬虫程序，可以自动化地下载网页的源代码，并保存到本地。

在爬取网页时，需要注意合理设置爬虫的速度和请求频率，以免给网站服务器造成过大的压力。

2.信息提取信息提取是基于网络爬虫技术的信息搜集的核心环节。

通过解析网页的源代码，可以提取出所需的信息。

常用的信息提取方法有正则表达式、XPath、CSS选择器等，根据网页的结构和特点选择适合的提取方法。

3.数据清洗与预处理搜集到的网页可能存在一些无效信息或者噪声数据，需要进行数据清洗与预处理，以提高后续分析的质量。

常见的数据清洗与预处理方法有去重、过滤无效信息、处理缺失值等。

4.数据存储与管理搜集到的信息需要进行存储与管理，以便后续的分析和应用。

基于网络爬虫的数据抓取及提取技术研究

基于网络爬虫的数据抓取及提取技术研究随着互联网的不断发展，数据也变得越来越丰富，这些数据包含了许多信息和知识。

然而，对这些数据的获取和利用也越来越困难，因此我们需要一种高效的技术来获取并提取这些数据。

网络爬虫是一种非常有效的技术，它能够自动抓取互联网上的数据，并将其转化为结构化的数据。

网络爬虫广泛应用于网站搜索引擎、商业数据分析等领域，具有重大的实际应用价值。

一、网络爬虫的原理网络爬虫的原理是通过一组指定的网页链接，并对这些链接进行递归的搜索与访问，直到抓取到所需数据，并将这些数据存储下来。

实现网络爬虫的技术通常包括网络通信、网页解析、数据存储等多种技术，而其中的网页解析技术是关键。

二、网络爬虫的分类网络爬虫通常分为通用爬虫和专用爬虫两种。

通用爬虫主要用于数据采集和搜索引擎，它们可以通过指定一些关键词，从互联网上搜索相关的网页，并将搜索引擎结果返回给用户。

专用爬虫则主要用于特定领域的数据爬取和采集，比如价格监测、舆情分析、财经新闻等领域。

专用爬虫需要通过指定一些特定的页面，比如商业网站或论坛，进行数据抓取。

三、网络爬虫的应用网络爬虫可以广泛应用于多个行业，接下来就以商业领域为例，阐述网络爬虫的应用。

1. 价格监测由于市场竞争的日益激烈，商家之间的价格战也愈发白热化。

为了便于掌握市场动态和掌握竞争对手的动态，商家常使用网络爬虫技术进行价格监测。

通过爬取各个竞争对手的产品价格、销售额等信息，可以更好地制定产品定价策略，拓展销售渠道。

2. 营销策略除了价格监测，网络爬虫还可用于SEO及SEM策略的制定。

对于SEO来说，商家可以利用爬虫监测搜索引擎关键词排名、研究竞争对手的页面结构、优化其网站。

对于SEM来说，在广告投放及分析上利用网络爬虫可以提高广告效果，提升转化率。

3. 舆情监测随着社交媒体和新闻媒体对人们生活的深度渗透，商家需要时刻关注网民对其品牌的评价和口碑。

网络爬虫可以对搜索引擎、微博、微信等网络平台上的品牌声誉、客户留言、事件反应等进行实时监测，及时了解品牌形象和认同度。

基于网络爬虫的搜索引擎优化技术研究

基于网络爬虫的搜索引擎优化技术研究搜索引擎优化技术在当今互联网时代具有重要意义。

网络爬虫作为搜索引擎优化技术的核心工具之一，它的作用是在全网范围内抓取网页并建立索引。

本文将探讨基于网络爬虫的搜索引擎优化技术的研究，并介绍其中的关键技术和挑战。

一、概述随着互联网的快速发展，网络上的信息爆炸性增长，人们对搜索引擎提供准确、快速的搜索结果的需求也越来越高。

搜索引擎优化技术作为提升搜索结果排名和用户体验的方法之一，成为了网站拓展和推广的重要手段。

而其中基于网络爬虫的搜索引擎优化技术更是核心和关键。

二、网络爬虫的作用网络爬虫是搜索引擎优化技术中的重要组成部分，其作用是通过抓取网页并进行索引建立，从而让搜索引擎能够快速获取和展示相关的搜索结果。

爬虫遵循特定的算法，自动抓取互联网上的网页，并将其存储到搜索引擎的数据库中。

三、搜索引擎优化的关键技术1. 内容优化内容优化是搜索引擎优化的核心，它包括关键词的使用、网页信息结构的优化等。

针对具体的关键词进行内容优化，可以提高网页在搜索引擎中的排名。

同时，合理的网页结构和标签的应用也能让搜索引擎更好地理解和解析网页内容。

2. 外部链接优化外部链接优化是指通过获取外部的高质量链接，并将其指向自己的网站，从而提高网站的权威性和可信度。

而网络爬虫在确定网站排名时会考虑外部链接的数量和质量，因此外部链接优化对于提升搜索引擎排名非常重要。

3. 网络爬虫协议网络爬虫协议是爬虫在访问和抓取网页时要遵循的规则。

例如，Robots.txt是一种常用的爬虫协议，网站所有者可以在该文件中指定哪些页面允许被爬虫抓取，哪些页面禁止被爬取。

合理使用网络爬虫协议可以让爬虫更加高效地工作，并提高搜索引擎优化效果。

四、网络爬虫的优化挑战虽然网络爬虫在搜索引擎优化中起着重要作用，但也面临着一些挑战。

1. 反爬机制为了保护网站的隐私和安全，很多网站会设置反爬机制，例如IP封闭、验证码等。

这给网络爬虫的抓取工作带来了很大的困难。

Python网络爬虫实践爬取科研论文与学术资源

Python网络爬虫实践爬取科研论文与学术资源近年来，随着互联网的快速发展和科技信息的爆炸式增长，科研人员和学术工作者在获取相关研究论文和学术资源方面面临着巨大的挑战。

而Python网络爬虫的出现，为他们提供了一种高效、快捷的方式来实现自动化的资源爬取。

本文将探讨如何使用Python网络爬虫来实践爬取科研论文与学术资源。

一、了解科研论文与学术资源爬取的需求作为科研工作者，我们经常需要查阅过去的研究成果，以进一步完善我们的论文和研究方向。

然而，随着时间的推移，众多的论文数据库和学术资源网站涌现出来，这给我们查找相关资源带来了很大的困难。

因此，我们需要一种能够自动化地从网络上获取这些资源的方法。

二、选择合适的爬虫框架在开始编写爬虫代码之前，我们需要选择合适的爬虫框架。

Python提供了很多开源的爬虫框架，例如Scrapy、Beautiful Soup等。

根据我们的需求来选择适合的框架很重要，可以提高开发效率和爬取速度。

三、设计爬虫代码结构在设计爬虫的代码结构时，我们可以采用面向对象的思想，将爬虫功能模块化，提高代码的可读性和可维护性。

一般而言，一个典型的爬虫程序包括以下几个模块：URL管理器、网页下载器、网页解析器和数据存储器。

四、实现论文资源爬取功能通过使用Python网络爬虫框架，我们可以实现科研论文资源的自动化爬取。

首先，我们需要确定需要爬取的资源网站，并了解其网页结构和数据获取方法。

然后，我们根据网页结构编写相应的解析器，提取所需的论文信息。

最后，将提取的数据存储到数据库或本地文件中，以备后续使用。

五、应对反爬机制为了防止恶意爬虫的出现，一些网站会采取一些反爬机制，例如设置验证码、限制访问频率等。

因此，在实践爬取科研论文与学术资源时，我们需要对这些反爬机制进行处理，以确保我们的爬虫程序能够正常运行。

六、遵守法律和道德准则在进行网络爬虫活动时，我们必须遵守相关的法律法规和道德准则。

科研论文和学术资源的爬取应该是合法的和道德的，不得侵犯他人的专利权、著作权等合法权益。

基于网络爬虫的文献检索系统的研究和实现_杨洋

Abstract： This system has realized intelligent search and external academic resources capture based on netw ork craw ler technique． It uses ontology technology to identify each article and automatically store the resources into local repository． Dow nloading subsystem in this system applies load balance method to distribute dow nloading tasks equally to each dow nload server． Protobuf，a high－efficiency communication mechanism，provides dow nloading service w ith high availability and accuracy in this system． At the same time，this system has solved the problem of repeated dow nloading and access recording by offering a unique entrance to the w hole institute． Access control is also designed to eliminate malicious and excessive dow nloading． System automatically saves user searching data，w hich makes information retrieval becomes traceable，providing data support for library information management and research． This system can effectively reduce expense on digital academic resources for institute and netw ork bandw idth． Key words： netw ork craw ler； ontology； thesis retrieval； Web； MVC； load balancing

基于网络爬虫的搜索引擎的设计与实现

7、性能优化与维护：在实现基本功能的基础上，进行性能优化和维护，提高系统的稳定性和可靠性。
四、总结
基于网络爬虫的垂直搜索引擎设计和实现具有很大的现实意义和市场价值。通过合理的设计和实现方法，可以高效地获取特定领域或主题的信息，提供精准和深入的搜索结果，满足用户的个性化需求。然而，在实际应用中还需考虑诸多因素，如法律合规性、用户体验等。因此，在设计和实现垂直搜索引擎时，需要综合考虑各种因素，确保系统的稳定性和可靠性。
感谢观看
一、网络爬虫
网络爬虫（Web Crawler）是一种自动化的网页抓取工具，能够根据一定的规则和算法，遍历互联网上的网页，并抓取所需要的信息。网络爬虫是垂直搜索引擎的基础，通过它，我们可以获取到特定领域或主题的大量数据。
在设计网络爬虫时，我们需要考虑以下几个方面： 1、爬取策略：如何有效地遍历和爬取网页，避免重复和遗漏。
二、网络爬虫的设计原则
1、有效性：网络爬虫必须能够有效地找到目标信息。为了提高爬虫的有效性，可以采用诸如分布式爬取、使用HTTP缓存等技术手段。
2、可用性：网络爬虫在爬取过程中不应给目标网站带来过大的负担。因此，需要设计高效的爬取策略，避免对目标网站造成过大压力。
3、可扩展性：网络爬虫应当能够处理大规模的数据和复杂的网络结构。为实现可扩展性，可以使用分布式计算和存储等技术。
连接人与万物的智能中间下未来的搜索引擎将会变得更为智能化会更好地满足用户需求并能够根据用户需求为用户提供个性化的服务而实现人机交互；从这一点上来看未来搜索引擎将会变成一个机器人的角色并且越来越为智能化可以更好地理解人的语言与人进行对话与交流为用户提
3、Yahoo
Yahoo是另一个流行的搜索引擎，它提供基于Bing的搜索结果。Yahoo搜索结果的质量和广告数量略低于Google和Bing。此外，Yahoo还提供一些有用的功能，例如天气预报、新闻摘要、电影评分等。Yahoo还提供许多实用的工具，例如 Yahoo Mail、Yahoo Finance等。

基于网络爬虫的信息抓取与分析技术研究

基于网络爬虫的信息抓取与分析技术研究在数字化时代，信息是第一生产力，人们渴望获得各个领域的最新信息。

因此，信息采集和分析技术愈发重要。

而网络爬虫（Web Crawler）作为一种较为成熟的信息抓取技术，应用广泛。

本文将介绍网络爬虫的定义、发展历程、原理以及相关技术等内容。

一、定义网络爬虫，又称网络蜘蛛、网络机器人等，是在互联网上自动抓取信息的程序。

其通过一定的算法，按照规定的方式检索网页并将所需信息提取出来。

网络爬虫已经成为互联网上信息采集的主要手段之一。

人们可以使用网络爬虫来获取各类信息，如新闻、股票、房地产、招聘信息等等。

二、发展历程网络爬虫最早闪现出来于1993年，是由Wanderer项目的Matthew Gray所开发的。

Wanderer是世界上第一个搜索引擎经典例子。

此后，“蜘蛛”一词在信息技术行业得到推广，随之而来的是一大批专业人士献身于网络蜘蛛技术的研究和开发。

随着网络技术的不断发展，网络爬虫技术也不断完善和更新。

目前，大量的搜索引擎和应用程序都使用了网络爬虫技术，如百度、谷歌等搜索引擎。

三、原理网络爬虫主要有三个组成部分：爬虫调度器、URL管理器和网页解析器。

其中，爬虫调度器用来控制整个爬虫的运行流程；URL管理器负责管理爬虫待爬取的URL集合以及已经爬取过的URL集合；网页解析器则用来解析网页，提取其中的信息。

网络爬虫的原理可以简单概括为：从一个初始的URL开始，将其作为种子URL通过URL管理器加入待爬取的URL集合中，然后逐一进行抓取并解析，将有用的信息保存到本地或数据库中。

四、相关技术1. 数据存储技术网络爬虫爬取的信息是原始数据，需要对其进行处理和存储。

数据存储技术是对数据处理的基础，目前主流的存储方式包括文本文件存储、XML文件存储和数据库存储等。

2. 反爬技术由于网络爬虫的存在，一些网站会采用反爬技术以保护自己的数据。

常见的反爬技术包括：验证码、IP限制、接口限制等。

基于网络爬虫的搜索引擎设计与实现—毕业设计论文

本科毕业设计题目：基于网络爬虫的搜索引擎设计与实现系别：专业：计算机科学与技术班级：学号：姓名：同组人：指导教师：教师职称：协助指导教师：教师职称：摘要本文从搜索引擎的应用出发，探讨了网络蜘蛛在搜索引擎中的作用和地住，提出了网络蜘蛛的功能和设计要求。

在对网络蜘蛛系统结构和工作原理所作分析的基础上，研究了页面爬取、解析等策略和算法，并使用Java实现了一个网络蜘蛛的程序，对其运行结果做了分析。

关键字：爬虫、搜索引擎AbstractThe paper，discussing from the application of the search engine，searches the importance and function of Web spider in the search engine．and puts forward its demand of function and design．On the base of analyzing Web Spider’s system strtucture and working elements．this paper also researches the method and strategy of multithreading scheduler，Web page crawling and HTML parsing．And then．a program of web page crawling based on Java is applied and analyzed．Keyword: spider, search engine目录摘要 (1)Abstract (2)一、项目背景 (4)1.1搜索引擎现状分析 (4)1.2课题开发背景 (4)1.3网络爬虫的工作原理 (5)二、系统开发工具和平台 (5)2.1关于java语言 (5)2.2 Jbuilder介绍 (6)2.3 servlet的原理 (6)三、系统总体设计 (8)3.1系统总体结构 (8)3.2系统类图 (8)四、系统详细设计 (10)4.1搜索引擎界面设计 (10)4.2 servlet的实现 (12)4.3网页的解析实现 (13)4.3.1网页的分析 (13)4.3.2网页的处理队列 (14)4.3.3 搜索字符串的匹配 (14)4.3.4网页分析类的实现 (15)4.4网络爬虫的实现 (17)五、系统测试 (25)六、结论 (26)致谢 (26)参考文献 (27)一、项目背景1.1搜索引擎现状分析互联网被普及前，人们查阅资料首先想到的便是拥有大量书籍的图书馆，而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网．如果说互联网是一个知识宝库，那么搜索引擎就是打开知识宝库的一把钥匙．搜索引擎是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术，用于帮助互联网用户查询信息的搜索工具．搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的．目前搜索引擎已经成为倍受网络用户关注的焦点，也成为计算机工业界和学术界争相研究、开发的对象．目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等. 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler 系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着W eb 信息资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们正面临着巨大的挑战. 以何种策略访问Web, 提高搜索效率, 成为近年来专业搜索引擎网络爬虫研究的主要问题之一。

基于网络搜索技术的文献检索系统设计与实现研究

基于网络搜索技术的文献检索系统设计与实现研究近年来，随着互联网的普及和发展，如何快速、准确地检索到所需的文献成为了学术研究者和学生们共同关注的问题。

基于网络搜索技术的文献检索系统应运而生，为广大人民解决了繁琐的检索过程，方便了学术研究。

本文旨在探讨基于网络搜索技术的文献检索系统的设计与实现方法，以期为相关领域的学者和开发者提供一些借鉴意义。

一、需求分析在开发文献检索系统之前，需要先了解用户的需求，明确系统应该具备哪些功能。

一般来说，用户需要进行文献的全文检索、关键词搜索、相关文献推荐、数据统计分析等。

此外，系统还应该具备图形化界面和可扩展性等基本特征。

根据用户需求，我们可以将文献检索系统的任务分为两项：数据整合和搜索引擎。

数据整合是指从各种文献数据库中收集和整合文献数据，包括文献的元数据和全文信息等。

搜索引擎则是以高效的算法和优秀的性能来实现快速的检索功能，提供给用户一个友好的交互界面。

在实现文献检索系统的过程中，数据整合和搜索引擎的设计应该同时考虑。

二、数据整合文献检索系统的数据整合主要包括采集、清洗和存储三个方面。

1、采集为了实现文献的全面检索，需要从不同的文献数据库中收集数据，如知网、万方、CNKI等。

在采集文献时，应该注意遵循版权法等相关法律法规，同时也要注意数据规范化、去重等问题。

2、清洗在采集的过程中会产生大量冗余信息，比如HTML标签、图片等。

而这些信息对于文献检索来说没有实际价值，因此需要在其采集到的文献信息进行清洗，去除其中的冗余信息。

除此之外，由于不同的文献数据库之间的格式存在差异，因此也需要进行文献数据格式的规范化处理。

3、存储采集到的文献数据需要进行存储，以便为用户提供检索服务。

不同的数据库采用的数据存储方式可能会不同，因此需要针对不同的数据库进行不同的存储策略。

可能会采用关系型数据库、文件存储等方式，选择何种方式应该根据具体情况做出合理的选择。

三、搜索引擎搜索引擎是文献检索系统的核心部分，是保证文献检索系统能够快速、准确地响应用户请求的基础。

基于网络爬虫技术的中文搜索引擎优化研究

基于网络爬虫技术的中文搜索引擎优化研究随着互联网的快速发展，搜索引擎已成为人们获取信息的主要途径之一。

而中文搜索引擎在中国市场中扮演着重要的角色。

然而，由于中文的语义复杂性和表达方式的多样性，中文搜索引擎的优化相对较为困难。

在这篇文章中，我们将研究基于网络爬虫技术的中文搜索引擎优化策略。

网络爬虫技术是一种自动化的数据采集方法，通过从网页中提取信息，形成一个包含网页信息的数据库。

在中文搜索引擎优化中，网络爬虫技术的应用可以大大提高搜索引擎的收录效率和搜索结果的准确性。

首先，使用网络爬虫技术进行中文搜索引擎优化的第一步是确定抓取网页的策略。

为了提高搜索引擎的覆盖范围和深度，网络爬虫需要在不同的网页上进行抓取。

然而，中文网页的数量庞大，搜索引擎的爬虫在有限的时间和资源内必须做到高效地遍历整个互联网。

一个好的抓取策略可以帮助搜索引擎更好地维护和更新数据库，并提供准确的搜索结果。

其次，中文搜索引擎的优化还需要考虑关键词的选择和索引构建。

在中文文本中，不同的词语可能有多种表达形式，例如同义词、近义词和一词多义等。

因此，在进行关键词选择时，需要考虑这些多样性，并重新设计词库和索引库，以提高搜索结果的准确性和覆盖范围。

此外，中文搜索引擎优化还需要考虑用户搜索意图的理解和分析。

由于中文的语义复杂性，搜索引擎需要更好地理解用户的搜索目的，以提供更准确的搜索结果。

为了实现这一目标，我们可以通过构建语义模型和使用机器学习算法来进行搜索意图的分析和理解。

这将帮助搜索引擎更好地理解用户的搜索需求，并提供更加准确和个性化的搜索结果。

最后，中文搜索引擎的优化还需要考虑网页排名算法的优化。

网页排名算法是决定搜索结果的重要因素，它需要根据搜索词的相关度和网页的权威性来为搜索结果进行排序。

在中文搜索引擎中，网页的相关度和权威性的评判更为复杂。

因此，研究和开发适用于中文搜索引擎的网页排名算法是十分关键的。

综上所述，基于网络爬虫技术的中文搜索引擎优化研究是一个复杂而具有挑战性的任务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图 2 系统流程图（ 2）论文唯一性识别。系统必须能唯一识别一篇论文，才能判断用户提出下载的某篇论文是否已缓存在本地。该系统基于本体论［6 －8］的方法，对论文对象进行抽象，建立了论文的本体模型，声明了论文的元数据结构，如表 1 所示。
表 1 论文的本体模型
元素标题作者摘要关键字出版时间出版期刊
2 系统功能的实现
2． 1 下载身份验证部分电子学术资源服务商在通过 IP 地址进行授
权访问的同时，还要求在 IP 地址范围内的用户提供用户名密码。因此下载服务器在请求下载页面时需要将用户名密码通过 POST 方式发送给下载页面，验证成功后，电子学术资源服务商才会提供论文下载。以下是具体实现的 Java 代码：
UＲL url = new UＲL（ fileUrl）； HttpUＲLConnection con = （ HttpUＲLConnection） url． openConnection（）； con． setＲequestMethod（ " POST" ）； String urlParameters = " username = ＊＊＊＆password = ＊＊＊" ； DataOutputStream wr = new DataOutputStream（ con． getOutputStream（））； wr． writeBytes（ urlParameters）； wr． flush（）；
YANG Yang1，2 ，LI Xiao －feng1，2 ，ZHAO He1，3 ，LIU Bing1，2
（ 1． Hefei Institutes of Physical Science，Chinese Academy of Sciences，Hefei 230031，China； 2． University of Chinese Academy of Sciences，Beijing 100049，China； 3． University of Science and Technology of China，Hefei 230026，China）
·36·
计算机技术与发展
第 24 卷
1 系统设计
1． 1 系统架构系统包含了两个子系统，即 Web 服务系统和论文
下载系统，分别部署于不同的服务器以减小服务器的压力。系统组成架构如图 1 所示。Web 服务系统基于． NET MVC 提供 Web 服务，实现信息记录、关键字的搜索、关键信息的抓取、论文一致性检测等功能。下载子系统基于 Java 和 Protobuf socket［2］，提供高速的论文下载功能。
3．中国科学技术大学，安徽合肥 230026）
摘要：文中系统基于网络爬虫技术实现了文献资源的智能搜索和关键信息的抓取功能，把采集到的信息采用本体论的
方法进行分类识别，并自动存储文献资源到本地服务器。下载子系统采用负载均衡的方法把下载任务分配到多个服务
提高了系统运行效率。爬虫抓取的内容依赖于网页格式，为了将爬虫行为与网页格式解耦，系统将网页格式信息抽象为配置文件，在运行时读取配置来定制爬虫的行为，使得系统可以适应网页格式的变化［5］。
图 1 系统架构图 Web 子系统采用了． NET MVC 框架开发，． NET 框架是微软的统一技术平台，开发人员用不同的语言开发的程序被编译成微软中间语言后可以在任何微软的平台上运行，提高了开发效率和代码的复用性。而 MVC 是一种在图形化界面程序中很流行的架构设计模式，MVC 是 Model （模型）、View（视图）及 Controller （控制器）的缩写。正因为 MVC 在其他语言获得了巨大的成功，微软也响应． Net 开发人员的期待推出了． NET 的 MVC 框架，使用． NET 的 MVC 框架进行 Web 开发时能高效地实现逻辑和前端展现的解耦，使得前端开发和后台逻辑能很好地隔离，降低了程序开发和后期维护的成本。 Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言。Java 技术具有突出的通用性、高效性、平台移植性和安全性，同时拥有全球最大的开发者社区。为了后期能够部署在不同的平台上构成一个异构的分布式平台，下载服务器选择了 Java 进行开发。 1． 2 系统流程图系统流程图如图 2 所示。 1． 3 算法的分析（ 1）网络爬虫。网络爬虫是一个抓取网页内容的程序，利用网页格式特征进行网页分析［3］。系统利用网页的标签结构分析出论文的相应信息，如标题、摘要、关键字等。为了提高抓取效率和准确度，系统内的网络爬虫有针对性地做了一些优化改进［4］。如一些热门关键字往往会被反复检索，就没有必要每次都重复爬取搜索结果，因此系统在服务器端这些热门搜索结果进行缓存处理，
Abstract： This system has realized intelligent search and external academic resources capture based on netw ork craw ler technique． It uses ontology technology to identify each article and automatically store the resources into local repository． Dow nloading subsystem in this system applies load balance method to distribute dow nloading tasks equally to each dow nload server． Protobuf，a high－efficiency communication mechanism，provides dow nloading service w ith high availability and accuracy in this system． At the same time，this system has solved the problem of repeated dow nloading and access recording by offering a unique entrance to the w hole institute． Access control is also designed to eliminate malicious and excessive dow nloading． System automatically saves user searching data，w hich makes information retrieval becomes traceable，providing data support for library information management and research． This system can effectively reduce expense on digital academic resources for institute and netw ork bandw idth． Key words： netw ork craw ler； ontology； thesis retrieval； Web； MVC； load balancing
器。系统采用高效的 Protobuf socket 通信手段，提供高效准确的内部下载服务。通过对内提供统一门户入口的方式对检
索和下载行为进行记录，有效避免了同一资源的重复下载，也使得文献检索和下载行为变得可追溯，为图书文献情报管理
和研究工作提供了数据支撑。该系统可有效减少科研机构获取学术资源所需的资金投入并减少网络带宽占用。
收稿日期： 2013－12－30
修回日期： 2014－04－07
网络出版时间： 2014－09－11
基金项目：中国科学院重点项目（院 1221）
作者简介：杨洋（ 1990－），男，江西九江人，硕士研究生，研究方向为软件工程；李晓风，博士生导师，研究方向为计算机应用和网络安全等。
网络出版地址： http： / / www． cnki． net / kcms / detail /61． 1450． TP． 20140911． 1009． 042． html
科研机构十分关注的问题。针对这一问题，本系统通过对学术资源提供商的
网站研究和分析，实现了智能搜索和文献资源下载［1］。由于下载服务器具有网络带宽优势，并且部分论文已下载到本地服务器，下载速度较之前得到明显提高。系统的应用可帮助科研机构减少为获取学术资源所需的资金投入，也可有效减少网络带宽占用。
2． 2 搜索结果和论文关键信息抓取为了实时地搜索论文的关键信息，系统把用户输
入的关键字发送到电子学术资源服务器处理，获取返回搜索的结果后解析成论文实体信息，显示到 Web 页面上展示给用户。下面是某个学术资源提供商某个检索结果页面的 html 代码。
＜div class = " wz_tab" ＞＜div class = " wz_content" ＞＜ h3 ＞＜a href =［论文详情页面地址］＞［标题］＜ / a＞＜a href =［论文下载地址］＞＜img src = " download－icon． jpg" / ＞＜ / a＞＜ / h3＞＜div class = " width715" ＞＜span class = " text" ＞［论文摘要］＜ / span＞＜ / div＞＜span class = " year－count" ＞［论文发表年份］＜ / span＞＜span class = " count" ＞［论文下载次数］＜ / span＞＜ / span＞＜ / div＞＜ / div＞

网络爬虫技术(新)

页数:5
网络爬虫应用介绍

页数:19
网络爬虫的系统实现

页数:4
网络爬虫简介

页数:47
网络爬虫的设计与实现(完整版)

页数:28
Python网络爬虫技术第1章 Python爬虫环境与爬虫介绍

页数:15
网络爬虫基本原理

页数:10
网络爬虫和抽取系统设计

页数:25
网络爬虫技术的概述与研究

页数:6
201809网络爬虫系统_项目建设方案详细

页数:17

基于网络爬虫的文献检索系统的研究和实现_杨洋

合集下载

基于网络爬虫技术的网站信息搜集与分析研究

基于网络爬虫的数据抓取及提取技术研究

基于网络爬虫的搜索引擎优化技术研究

Python网络爬虫实践爬取科研论文与学术资源

基于网络爬虫的文献检索系统的研究和实现_杨洋

基于网络爬虫的搜索引擎的设计与实现

基于网络爬虫的信息抓取与分析技术研究

基于网络爬虫的搜索引擎设计与实现—毕业设计论文

基于网络搜索技术的文献检索系统设计与实现研究

基于网络爬虫技术的中文搜索引擎优化研究

文档推荐

最新文档