基于共现词查询的主题爬虫研究

格式：pdf
大小：1.26 MB
文档页数：3

下载文档原格式

/ 3

基于爬虫技术的网络舆情监测与分析研究

基于爬虫技术的网络舆情监测与分析研究网络舆情监测与分析是当今社会中重要的研究领域之一。

随着互联网的快速发展，人们对信息的获取和传播变得更加方便和迅速，网络舆情监测与分析成为了政府、企事业单位以及学术界的热门关注点。

本文将重点讨论基于爬虫技术的网络舆情监测与分析的相关研究。

网络舆情是指人们在网络上表达的情绪、态度和观点。

通过对网络舆情的监测与分析，可以了解公众对于某个事件、产品或者政策等的态度和评价，明确社会舆论的走向，为政策制定和舆论引导提供依据。

爬虫技术是一种自动从网页中提取信息的方法。

爬虫程序可以通过获取网页源代码，分析、提取和存储感兴趣的信息。

在网络舆情监测与分析中，爬虫技术可以用来抓取各种网络媒体的文章、评论以及用户的发帖和评论内容。

在进行网络舆情监测与分析之前，首先需要确定监测的目标。

可以根据研究的对象和领域，选择相关的网络媒体和平台进行监测。

例如，可以选择新闻网站、微博、微信公众号等多个平台来获取全面的舆情信息。

接下来，需要编写爬虫程序来抓取所选媒体和平台上的内容。

通过分析网页的HTML结构，可以确定所需信息的位置和提取方法。

爬虫程序可以使用Python等编程语言编写，并使用相关的爬虫框架和库来提高效率。

在编写爬虫程序的过程中，需要注意合法性和隐私权等法律和道德问题，避免侵犯他人的权益。

抓取到的数据需要进行清洗和整理，以便后续的分析。

清洗数据主要包括去除重复信息、过滤噪声数据、转换数据格式等操作。

整理数据可以按时间、地点、关键词等进行分类和归类，方便后续的统计和分析。

在网络舆情分析中，可以使用文本挖掘、情感分析、主题模型等方法来挖掘和分析抓取到的数据。

文本挖掘可以用来发现和提取关键词、短语和主题，以了解舆情的焦点和热点。

情感分析可以判断用户对某个事件或产品的情感倾向，推测舆情的正负面。

主题模型可以对大规模数据进行聚类和归纳，发现隐藏在海量数据背后的潜在主题和规律。

在网络舆情监测与分析的研究中，还可以将数据与其他外部数据进行关联和分析。

基于Python的网络爬虫技术研究

基于Python的网络爬虫技术研究随着互联网的发展，越来越多的信息可以在网上获取。

但是，要想获取大量的数据，手工收集显然不太可行。

在这种情况下，网络爬虫就应运而生。

本文将介绍基于Python的网络爬虫技术研究。

第一部分：网络爬虫的基本概念所谓网络爬虫，就是通过模拟用户访问网站的行为，自动地抓取网页上的信息。

它是一种自动化数据采集的技术。

网络爬虫的基本流程是，首先访问起始网址，然后解析网页，抽取所需要的信息，最后存储到本地或者数据库中。

网络爬虫技术有很多应用场景，比如搜索引擎中的网页抓取，数据挖掘，舆情分析等等。

无论用途是什么，网络爬虫都需要掌握一些基本的技能，比如如何编写爬虫脚本，如何解决反爬虫措施等。

第二部分：Python网络爬虫的基本工具Python网络爬虫涉及到的基本工具主要有以下几种：1. Requests：它是一种在Python中发送网络请求的库。

通过调用它的API，可以模拟用户的请求，比如GET，POST等。

2. Beautiful Soup：它是一个Python库，可以用于解析HTML或XML文件。

通过解析HTML文件，我们可以抽取所需的信息，比如网页标题，超链接等等。

3. Scrapy：它是一个Python的爬虫框架。

使用Scrapy，可以快速开发一个Python爬虫，同时也能够支持网络爬虫的高级功能。

4. Selenium：它是一种自动化应用程序测试工具。

通过调用Selenium API，可以模拟用户在浏览器中的行为，比如点击链接、滚动等等。

以上这些工具都可以通过Python进行调用，我们可以根据需要选择合适的工具来编写爬虫脚本。

第三部分：网络爬虫的实现过程下面以Python爬取豆瓣电影的剧情简介为例，来介绍网络爬虫的实现过程。

1. 分析网页首先，我们需要找到目标网页。

在豆瓣电影中，每个电影都有一个唯一的ID，通过该ID我们就可以找到对应的网页。

比如，电影《肖申克的救赎》的ID为1292052，对应的网址为https:///subject/1292052/。

主题爬虫基本特征

主题爬虫基本特征
主题爬虫（Topic-based crawler）是一种网络爬虫，它根据主题进行网页的抓取和收集。

其基本特征包括：
1.主题导向：主题爬虫是由主题导向的，它只关心特定的主题和领域。

当爬虫抓取新的页面时，它会比较页面内容与其维护的主题列表，只有符合主题的页面才会被保存。

2.深度控制：主题爬虫通常有一个深度控制策略，从而可以限制搜索深度或者深度优先搜索、广度优先搜索。

3.增量更新：主题爬虫可以针对已被抓取的页面进行增量更新。

当页面内容发生变化时，主题爬虫会识别这些变化并对其进行更新，从而保证数据的新鲜度。

4.多种选择：主题爬虫可以选择不同的抓取方式，包括直接从网络上抓取、从已有的缓存或永久存储中查找等。

5.效率高：主题爬虫通常采用并发处理和分布式计算技术，从而可以并行地获取、处理和存储网页，提高了效率。

总的来说，主题爬虫是一种基于主题导向、深度控制、增量更新、多种抓取选择和高效率的网络爬虫。

基于Python的网络爬虫技术研究

基于Python的网络爬虫技术研究随着互联网的快速发展，网络爬虫技术成为了信息获取和数据分析的重要工具。

而Python作为一种简洁、灵活且易于学习的编程语言，被广泛应用于网络爬虫的开发和研究。

本文将探讨基于Python的网络爬虫技术的原理、应用和发展趋势。

一、概述网络爬虫是一种自动化程序，能够模拟人类在互联网上的浏览行为，获取网页内容并进行进一步的处理。

基于Python的网络爬虫技术主要利用Python的强大的文本处理能力和丰富的第三方库，实现对网页的抓取、解析和数据提取。

二、原理1. URL请求和响应网络爬虫首先通过URL发送请求获取网页内容，然后根据网页的响应状态码判断是否获取成功。

Python的requests库和urllib库是常用的URL请求库，能够方便地发送HTTP请求并接收响应。

2. 网页解析获取网页内容后，网络爬虫需要对网页进行解析以提取所需的信息。

Python的Beautiful Soup库和XPath是常用的网页解析技术，能够快速、高效地提取目标数据。

3. 数据存储网络爬虫获取到的数据需要进行存储和管理。

Python的sqlite3模块和MySQLdb模块提供了方便的数据库操作功能，可以将数据存储在本地数据库中。

此外，还可以使用Python的pandas库将数据保存为CSV 或Excel文件。

三、应用基于Python的网络爬虫技术在各个领域有广泛的应用。

1. 数据采集网络爬虫可以帮助我们自动化地从互联网上获取大量的数据。

比如，在电商行业，利用网络爬虫可以获取商品信息、评论数据等，用于市场分析和竞争情报；在金融行业，可以获取股票、财经新闻等数据，用于量化交易和投资决策。

2. 舆情分析网络爬虫可以从社交媒体平台、新闻网站等获取用户的评论和观点，用于进行舆情分析。

比如，在政府部门中，可以通过分析网民的意见和情绪，了解公众对政策的反应；在企业中，可以通过分析用户的评价和意见，改进产品和服务。

网络爬虫软件的研究与开发

网络爬虫软件的研究与开发摘要：作为一种快捷、高效访问网络海量数据的工具，通用搜索引擎自诞生以来备受人们喜爱。

然而在设计上它却存在着很多不足，并且随着万维网的快速发展而日益不能满足人们的需求。

基于这种背景，用于对网页进行定向抓取的主题爬虫应运而生。

主题爬虫的设计理念是利用最少的资源，尽可能快而准确地抓取网络中用户关心的网页，目前已经有着非常广泛的应用。

首先，了解主题爬虫提出的历史背景及当前国内外的发展状况，分析与主题爬虫设计相关的技术知识，如HTTP协议、HTML解析、中文分词等。

其次，提出使用向量空间模型进行主题相关度计算。

为了能够充分利用网页中丰富的启发式信息，综合运用了网页内容分析和网页链接分析技术。

最后，基于对主题爬虫设计与实现方法的研究，使用Java开发一个多线程主题爬虫。

关键词：主题爬虫；向量空间模型；主题相关度；爬虫阻止协议1 背景及发展状况万维网诞生以来，其独特的魅力极大地激发了人类创作的积极性，短短十几年便发展成为了目前世界上规模最大的公共数据源。

然而人类的接受能力却是十分有限的，因此便产生了一种能够高效访问网络资源的需求。

在这种背景下，通用搜索引擎应运而生，如比较知名的Baidu、Google。

爬虫（Crawler），又称蜘蛛（Spider）或者机器人（Robot），是一种能够高效抓取网络资源的程序。

通用搜索引擎设计中用于抓取网络资源的爬虫被称为通用爬虫，这种爬虫的设计目标是尽可能快而多地抓取网络中的各种资源，具有很强的通用性。

但是，随着万维网的不断发展及人类的进步，通用爬虫的应用暴露出了很大的局限性。

比如大量不相关网络资源被抓取、严重浪费网络带宽、不能够支持语义查询等等。

为解决所面临的问题，用于定向抓取网络资源的主题爬虫被提上了研究日程。

最佳优先爬虫是一种简单、高效的主题爬虫。

在页面主题相关度评价上，它采用了经典的向量空间模型；而在对页面中所含链接进行主题相关度预测打分时则充分考虑了链接锚文本、链接所在页面的主题相关度、兄弟链接等等各种启发式信息。

基于主题相关概念和网页分块的主题爬虫研究

隧道” ；采用文本内容和链接结构相结合的策略计算候选链接优先级，并在ＨＩＴＳ算法的基础上提出了Ｒ．ＨＩＴＳ算
法计算链接结构对候选链接优先级的贡献。实验结果表明，利用该方法实现的主题爬虫查准率达６６％、信息量
总和达５３％，在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。
关键词：主题爬虫；主题相关概念；网页分块；优先级计算；Ｒ — ＨＩＴＳ
中图分类号：ＴＰ３９１．３
文献标志码：Ａ
文章编号：１００１ — ３６９５（２０１３）０８ — ２３７７－０４
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１０ｏ１．３６９５．２０１３．０８．０３４
第３０卷第８期
２０１３年８月
计算机应用研究
ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ
Ｖｏｌ＿３０Ｎｏ．８Ａｕｇ．２０１３
基于主题相关概念和网页分块的主题爬虫研究水
ｗｈｉｃｈｗａｓｇｅｎｅｒａｔｅｄｂｙｃａｔｅｇｏｒｙｔｒｅｅｔｏｄｅｓｃｉｒｂｅｔｏｐｉｃ，ａｎｄｉｔｉｎｔｒｏｄｕｃｅｄｐａｇｅｓｅｇｍｅｎｔａｔｉｏｎａｆｔｅｒｄｏｗｎｌｏａｄｉｎｇａＷｅｂｐａｇｅｔｏ

主题网络爬虫研究综述

术 , 包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法 , 并比较了各种方法优缺点 ; 最后对未来的研究方向进行了展望。关键词 : 主题网络爬虫 ; 信息检索 ; Web 挖掘中图分类号 : TP391 文献标志码 : A 文章编号 : 1001 - 3695( 2007) 10- 0026- 04
0
引言
随着网络上海量信息的爆炸式增长 , 通用搜索引擎面临着
步要抓取的网页 URL, 并重复上述过程 , 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储 , 进行一定的分析、过滤 , 并建立索引 , 对于主题网络爬虫来说 , 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。定义 3 网页。定义 4 如果超链接 l 指向网页 t, 则网页 t 称为子网页 , 又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题, 分析超链接和已经下载的网页内容 , 预测下一个待抓取的 URL 以及当前网页的主题相关度 , 保证尽可能多地爬行、下载与主题相关的网页 , 尽可能少地下载无关网页。相对于通用网络爬虫 , 主题网络爬虫需要解决以下四个主要问题 : a) 如何描述或定义感兴趣的主题 ( 即抓取目标 ) ? b) 怎样决定待爬行 URL 的访问次序 ? 许多主题网络爬虫根据己下载网页的相关度 , 按照一定原则将相关度进行衰减 , 分配给该网页中的子网页 , 而后将其插入到优先级队列中。此时的爬行次序就不是简单地以深度优先或广度优先顺序, 而是按照相关度大小排序 , 优先访问相关度大的 URL。不同主题网络爬虫之间的区别之一就是如何计算 URL 的爬行次序。 c) 如何判断一个网页是否与主题相关? 对于待爬行或己下载的网页可以获取它的文本内容 , 所以可以采用文本挖掘技术来实现。因此不同主题网络爬虫间的区别之二就是如何计算当前爬行网页的主题相关度。如果网页 p 中包含超链接 l, 则 p 称为链接 l 的父

面向图书主题的爬虫算法研究

第44卷第11A期2017年11月计算机科学

COMPUTER SCIENCE

Vol. 44 No. 11A

Nov. 2017

面向图书主题的爬虫算法研究张莉婧曾庆涛李业丽孙华艳字云飞(北京印刷学院信息科学技术学院北京102600)

摘要针对图书信息爬取结果中包含大量无用数据的问题，提出一种面向图书主题的爬虫算法。该算法主要由两

部分组成：一部分是基于开放式分类目录系统(ODP)的动态关键词扩充的主题描述方法；另一部分是基于词项语义扩展度的向量空间模型（VSM)主题相关度算法。通过实验对新算法、基于关键词的VSM算法以及基于ODP的VSM

算法进行了对比分析，结果表明新算法在图书主题爬虫中更具有优势。关键词主题爬虫，开放式分类目录系统，向量空间模型，语义扩展度

中图法分类号TP302.1 文献标识码A

Research on Crawler Algorithm for Theme of BooksZHANG Li-jing ZENG Qing-tao LI Y^li SUN Hua-yan ZI Yun-fei (School of Information Science and Technology,Beijing Institute of Graphic Communication,Beijing 102600,China)

Abstract Aiming at the problem that the information crawling result of a book contains a lot of useless data,a kind of

crawler algorithm was proposed, which is based on the book topic. The algorithm mainly consists of two parts,one part is based on the ODP (Open Directory System) dynamic keyword expansion method to describe the subject, the other part is the semantic extension of lexical entry based on VSM (Vector Space Model) topic correlation algorithm. The new algorithm, the VSM algorithm based on keywords and VSM algorithm based on ODP were analyzed through experiment. The result indicates that the precision and the recall rate of the new algorithm are higher than that of other two algorithms.Keywords Focused crawler，ODP，VSM，Semantic extension

毕业论文爬虫

毕业论文爬虫近年来，随着互联网的快速发展，网络数据的获取和处理成为了一个重要的研究领域。

在这个背景下，爬虫技术作为一种自动化获取网络数据的工具，被广泛应用于各个领域。

本文将探讨毕业论文中关于爬虫技术的研究和应用。

首先，我们需要明确什么是爬虫技术。

爬虫技术，又称网络爬虫、网络蜘蛛，是一种模拟浏览器行为，自动化获取互联网数据的技术。

通过编写程序，爬虫可以自动访问网页，提取所需信息，并将其存储或进一步处理。

爬虫技术的核心是对网页的解析和数据的提取，因此对HTML、CSS、JavaScript等前端技术的理解是必不可少的。

在毕业论文中，爬虫技术可以应用于各个领域。

举个例子，我们可以以电商数据分析为研究对象。

通过爬虫技术，我们可以自动抓取电商网站上的商品信息、价格、评论等数据，并进行整理和分析。

这样的研究可以帮助电商平台优化商品推荐算法，提高用户购物体验。

同时，也可以为消费者提供更准确的商品信息，帮助他们做出更明智的购买决策。

此外，爬虫技术还可以应用于舆情监测和情感分析。

通过爬虫技术，我们可以自动抓取新闻网站、社交媒体等平台上的用户评论、新闻报道等信息，对舆情进行监测和分析。

这对于政府、企业等机构来说，可以及时了解公众对于某一事件或产品的态度和情感倾向，从而做出相应的决策和调整。

除了上述应用，爬虫技术还可以用于学术研究。

例如，我们可以利用爬虫技术获取学术论文数据库中的论文信息，并进行数据分析和挖掘。

这样的研究可以帮助学者们了解某一领域的研究热点、学术合作网络等情况，为他们的研究提供参考和指导。

然而，我们也要认识到爬虫技术的合法性和道德性问题。

在使用爬虫技术时，我们需要遵守相关的法律法规，尊重网站的使用规则，不进行恶意攻击和侵犯隐私的行为。

此外，我们也需要考虑到爬虫行为对网站服务器的负载和流量的影响，避免给网站带来过大的压力。

在毕业论文中，我们可以对爬虫技术进行深入研究和创新。

例如，我们可以探索如何提高爬虫的效率和稳定性，如何应对网站的反爬虫机制等问题。

基于网络爬虫技术的网页内容抽取与分析研究

基于网络爬虫技术的网页内容抽取与分析研究一、引言网络爬虫技术在信息获取、舆情监测、信息分析等领域中扮演着重要的角色。

而其中的网页内容抽取与分析研究更是基于网络爬虫技术的重要研究方向之一。

本文将从网络爬虫的相关概念入手，阐述基于网络爬虫技术的网页内容抽取与分析研究的原理与方法，同时也介绍了一些目前常用的相关工具与应用。

二、网络爬虫的概念网络爬虫，也称网络蜘蛛、网络机器人等，是一种通过程序自动地遍历互联网的技术。

其工作过程包括在互联网上下载网页，解析网页结构，提取有价值的信息，并进行保存、处理、分析等。

现如今，网络爬虫已经成为了信息获取的重要途径，涉及范围包括搜索引擎、舆情监测、价格比较、网站策划等。

三、网页内容抽取与分析的原理与方法1.原理网页内容抽取与分析的核心在于从海量的网页中提取有用的信息并加以分析。

其主要原理是通过网络爬虫技术获取网页源代码，接着通过一定的算法模型，对其进行信息的抽取和提取，最终得到所需的有用信息。

2.方法网页内容抽取与分析研究的方法主要包括以下步骤：（1）确定所需的网页信息：首先需要明确从互联网上所需的信息范围以及抓取的相关约束条件。

（2）获取网页原始数据：通过网络爬虫技术获取网页的源代码。

爬取的效率和可靠性是爬虫效果的关键。

（3）网页预处理：对所爬取的网页源代码进行预处理，包括网页结构分析、文本清洗、格式统一等操作。

（4）信息抽取：使用文本挖掘、自然语言处理等算法对已预处理的网页数据进行信息抽取，提取有用的信息。

（5）数据分析：结合业务需求，对已挖掘到的有用信息进行分析，形成数据分析报告。

四、相关工具与应用1.相关工具（1）BeautifulSoup：一种基于Python的HTML/XML信息抽取工具。

（2）Scrapy：Python编写的Web爬虫框架，提供了方便的数据抽取接口。

（3）WebHarvy：一种可视化Web数据抽取工具，支持自定义数据模板。

2.相关应用（1）商业竞争情报：通过进行网页内容分析，以获取对竞争对手的了解，并进行相关战略部署。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

—286— 基于共现词查询的主题爬虫研究葛玲，蒋宗礼 (北京工业大学计算机学院，北京 100124) 摘要：通过建立一个共现词库改进主题模型，以提高下载网页的主题相关度及质量，并且能描述其语境的上下文，揣测用户意图，调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统，该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先级。实验表明其效果良好。关键词：主题爬虫；共现词；FDC主题模型；FDC_Topic Sensitive PageRank算法

Research of Co-occurrence Words Search-based Topic Crawler

GE Ling, JIANG Zong-li (College of Computer, Beijing University of Technology, Beijing 100124)

【Abstract】This paper improves the topic mode through a co-occurrence words database. The topic mode can advance the rate of relationship andquality. Besides, it can describe the environment of key words, conjecture the purpose of users and adjust the rank of search result. Atopic crawlersystem which employs topic sensitive FDC-PageRank to predict the priority of Web page is designed and implemented. Experiments show thesystem performs well. 【Key words】topic crawler; co-occurrence words; FDC topic model; FDC_Topic Sensitive PageRank algorithm

计算机工程Computer Engineering第36卷第8期

Vol.36 No.8 2010年4月

April 2010

·开发研究与设计技术·文章编号：1000—3428(2010)08—0286—03文献标识码：A

中图分类号：TP311.5

1 概述相对通用搜索引擎，主题搜索引擎的检索范围较小，所需计算机资源较少，查准率和查全率易于保证。主题爬虫是主题搜索引擎的基础与核心。基本思想是在爬行过程中按预先定义好的主题有选择地收集相关网页。其核心技术是网页的主题相关性预测与网页优先级的计算，通过对待爬网页的主题相关度的预测，赋予不同优先级，并对其进行排序、过滤和裁剪，以便集中处理主题相关的网络区域，减少资源开销。目前的主题爬虫主要采用简单的关键字匹配来实现，对信息的内容缺乏知识处理和理解，把信息检索从基于关键词层面提升到基于知识层面是解决问题的关键。为此，本文通过考虑语义相关的信息改进主题模型，并采用改进的主题敏感FDC-PageRank算法来计算优先级，提高下载网页的主题相关度及质量。 2 主题爬虫系统框架主题爬虫根据一定的网页分析算法，过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列中。然后，根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复以上过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。图1是主题爬虫的系统组成。如图1所示，爬行工作区模块维护一个Crawl Worker Pool，每个Crawl Worker是独立运行线程，有各自的WorkerId

与任务队列。Crawl Worker通过Coordinator从任务队列取出URL，下载完成后送往Selector解析网页，抽取链接信息与网页文本，通过调用FDC-Topic Model计算主题相关度，并按照相关度大小放入优先队列中。

SelectorCoordinatorURL Priority QueueFDC-Topic

Model

Visit

ReturnAdd URLs

Fetch URLs

Crawl Worker PoolAssign TaskReturnInitialize URLs

图1 主题爬虫系统组成图协调模块(Coordinator)负责整个爬行过程的控制、不同模块的交互与同步，以及共享资源的一致访问。网页选择器(Selector)解析所下载的网页，通过访问FDC-Topic Mode预测网页的相关度，计算决定待爬网页的优先级。优先级队列(Priority Queue)按照Best-First策略，由FDC-Topic Mode所预测的网页的相关度决定待爬网页的优先级，并排序。对于主题相关的网页所包含的链接URL赋予较高的优先权。系统运行过程分为爬行与优先级计算2个阶段。在爬行阶段，协调者不断从优先级队列取出URL，提取URL的主机部分(host)，根据其Hash值将其添加到一个相应Crawl

作者简介：葛玲(1983－)，女，硕士研究生，主研方向：搜索引擎，主题爬虫；蒋宗礼，教授收稿日期：2009-10-27 E-mail：geling613@gmail.com —287—

Worker的任务队列中，取 WorkerId=Hash(host)%WorkerNumber 这样可以保证属于一个主机的所有URL只在一个线程

中下载，这是一种简单的冲突规避策略。一旦优先级队列为空，协调者启动Selector，进入网页优先级计算阶段，完成后协调者将优先级排前N的URL加入优先级队列(实验中N取200)，于是系统又进入爬行阶段，如此周而复始。 3 主题爬虫相关技术 3.1 主题特征主题的特征分为2个层次。第1个层次叫作主题词组，第2个层次叫作主题相关词组。按定义，后者总是包含前者。为提取主题特征，借鉴类别区分词的特征选择方法。类区分词指的是有着极强的类别指示意义，类别区分性相当好的词。比如说，如果把文档分为国际、环保、经济、军事、科教、生活、时政、文娱这8大类，那么“军舰”在文章中的出现就有理由猜测该文章属于军事类；同理，出现“软着陆”的文档极有可能属于经济类。 3.2 面向查询的FDC主题模型传统的主题模型都是采用以词为单位建立向量空间，计算特征词的权重，构成特征向量表示文档。但这种模型中的每个词之间是相互独立的，词和词之间的语义没有体现出来。为了能反映关键词的应用场景，并描述其语境上下文，有助于用户分清自己要查询的具体领域，本文利用关键词的共现词集合来进行扩展查询。设文档集合为D，｜D｜=n, dj∈D, j{1,∈2,…,n}；文档集

所有词汇的集合为T，｜T｜=m, ti∈T, i{1,∈2,…,m}；关键词

集合为K，取k∈K；k的共现词集合SkT⊂，且KT⊂。

it∀∈T且tik≠，ti在dj中出现的词频为djif，如果不出现则dif=0。ti与k在dj中共现频度为ddjjikff⋅。ti与k在dj

中的距离远近也反映了两者共同出现时的亲密关系，词间距离指两词间词汇的个数。因为在文档dj中2个词均可能多次出现，所以取它们在共现时的最短距离，用()dj

r−

表示。如果

ti, k没有共同出现于dj中，则()djikr−=∞，实际计算中将其设为构成dj的所有词汇数。 ti相对于k的共文档率：kD∩itD/kD。共文档率体现的是关键词及其共现词在整个文档集合中的关系。用Fik−表示ti与k在文档中的共现频度关系；Rik−表示ti与k在文档中的距离关系；Pik−表示ti

与共文档率：

,1()ddjjjnikikdDjFff−∈=

=⋅∑ (1)

(),1(1)djjnikikdDj

−∈=

=∑ (2)

()iikktkPDDD−=∩

(3)

定义ikC−表示在包含关键词k的所有文档中，ti和k共现的密切程度，即

ikC−=ikikikFPR−−−⋅

(4)

对于lkK∀∈, l∈[1,L]，利用式(1)~式(4)可以求出反映T

中每个词与kl共同出现的一系列，likC−, i∈[1,m]。排序取前

u个元素，找到T中对应的词，就可以求出共现词集lkS。因此，共现词集是在与主题相关的网页中，建立以所选

主题查询词为关键词条的共现词的集合。处理关键词对应的文档集D，按上述式(1)~式(4)计算D中各个词对关键词的共现情况，用来表示文档的相关性，即密切程度大的相关性高，密切程度小的相关性低。 3.3 网页优先级计算 3.3.1 网页优先级计算主要思路网页优先级的计算主要有以下几种思路：(1)根据Linkage Locality现象，用网页主题相关性的判别来预测链接网页的优先级，即相关于某一主题的页面所链接到的页面趋于同一主题，应优先下载，如Fish算法。(2)利用链接提供的信息，认为每个链接附近的说明文字(例如anchor text信息)对此链接所指向的页面主题有着相当高的预测能力，并且被预测为相关的链接有很高的准确性。如文献[1]计算优先权时参考网页链接提供的信息(如链接文本、地址等)。(3)利用网页链接关系评估(链接分析)网页重要性。经典的有PageRank, HITS[2]等，这些方法往往只考虑网页链接关系，而没有考虑

网页内容信息，容易发生主题漂移。在此基础上人们提出了一些主题敏感的链接分析，如Topic Sensitive PageRank[3]。但是，它们仍然存在着不少的缺陷，如只是基于关键词，并没有上升到语义的阶段。 3.3.2 FDC_Topic Sencitive PageRank算法 PageRank算法认为一个网页的权威性来源于其他网页的链接，被链接得越多，就意味着该网页的权威度越高。设()Ranku表示网页u的权威度，v为指向u的网页，()Cv为v

指向其他网页的链接数，N为网页总数，α为衰减

因子，含义来源于网络冲浪模型，通常取0.85。

()()/()(1)1/vuRankuRankvCvN

αα

→=+−∑ (5)

通过对式(1)的不断迭代计算达到收敛，从而获得稳定的网页权威度向量。但是，PageRank仅考虑网页之间的相互链接关系，不考虑页面内容与主题的相关性，评分高的网页未必是主题相关网页。FDC_Topic Sencitive PageRank 对原始PageRank算法进行了改进，该算法不仅考虑网页之间的相互链接关系，并且结合关键词的应用场景、语境的上下文来揣测用户意图，获得高质量网页的同时，一定程度上保证这些网页的主题相关性，缓解了主题漂移现象。具体如下： ()()/(1)/uwutvuvwt

基于共现词查询的主题爬虫研究

合集下载

基于爬虫技术的网络舆情监测与分析研究

基于Python的网络爬虫技术研究

主题爬虫基本特征

基于Python的网络爬虫技术研究

网络爬虫软件的研究与开发

基于主题相关概念和网页分块的主题爬虫研究

主题网络爬虫研究综述

面向图书主题的爬虫算法研究

毕业论文爬虫

基于网络爬虫技术的网页内容抽取与分析研究

文档推荐

最新文档

基于共现词查询的主题爬虫研究

合集下载

基于爬虫技术的网络舆情监测与分析研究

基于Python的网络爬虫技术研究

主题爬虫基本特征

基于Python的网络爬虫技术研究

网络爬虫软件的研究与开发

基于主题相关概念和网页分块的主题爬虫研究

主题网络爬虫研究综述

面向图书主题的爬虫算法研究

毕业论文 爬虫

基于网络爬虫技术的网页内容抽取与分析研究

文档推荐

最新文档

毕业论文爬虫