基于主题网络爬虫的信息数据采集方法的研究与应用
- 格式:doc
- 大小:17.41 KB
- 文档页数:6
基于网络爬虫的地理空间信息采集方法作者:缪治任敏敏来源:《电脑知识与技术》2019年第18期摘要:在网络爬虫的地理空间信息的采集方法上,也就是说在网络的环境下对地理空间信息进行获取和相关资料的搜集工作,对于地理空间信息的研究具有十分重要的作用,是地理空间研究领域获取信息最为重要的途径之一。
在网络空间下对数据的主题信息的采集工作是进行地理空间信息采集的重要工作内容,是地理空间信息进行研究最基本的根据之一。
数据网络中,对于地理空间信息的采集具有以下几个特点:一是数据采集主题的门类比较多,采集的方法各种各样,数据的格式也是千差万别,对于如何快速、准确、高效地获取地理空间信息来说是一个复杂的问题。
关键词:信息采集;网络爬虫;地理空间;采集方法中图分类号:TP311; ; ; ; 文献标识码:A文章编号:1009-3044(2019)18-0009-02Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is acomplex problem.Key words: information collection; web spider; geographic space; collection method隨着互联网技术的迅猛发展,信息化的社会发展已经进入了大数据的发展时代,人们可以通过信息的采集发现用户的喜好,进而进行精准化的营销活动。
数据爬取基础1. 什么是数据爬取?数据爬取(Data Crawling),又称为网络爬虫(Web Spider)或网络机器人(Web Robot),是指通过自动化程序从互联网上获取数据的过程。
数据爬取可以用于从各种网站、社交媒体平台、论坛等获取特定的数据,如文本、图片、视频等。
2. 数据爬取的应用领域数据爬取在各个领域都有广泛的应用,以下列举了几个常见的应用领域:2.1 搜索引擎搜索引擎是最常见和广泛使用数据爬取技术的领域之一。
搜索引擎通过自动化程序不断地抓取互联网上的网页,并建立索引,以便用户能够方便地找到所需信息。
2.2 电子商务电子商务平台需要实时监测竞争对手的价格和产品信息,并及时更新自己的商品信息。
通过数据爬取,可以快速获取竞争对手的商品信息,并进行分析和比较。
2.3 社交媒体分析社交媒体平台如Facebook、Twitter等每天产生大量用户生成内容(User Generated Content),包括文字、图片、视频等。
通过数据爬取,可以获取用户在社交媒体上的行为和观点,进行舆情分析、用户画像等。
2.4 新闻媒体新闻媒体需要时刻关注各种信息源,及时报道新闻事件。
通过数据爬取,可以从各大新闻网站抓取最新的新闻内容,并进行分类、归档和展示。
2.5 学术研究学术研究需要获取大量的文献资料和数据集。
通过数据爬取,可以从学术搜索引擎、数据库等获取所需的文献和数据。
3. 数据爬取的基本原理数据爬取的基本原理是通过自动化程序模拟人类浏览器行为,访问网页并提取所需的信息。
以下是数据爬取的基本步骤:3.1 发送HTTP请求使用编程语言中的HTTP库发送HTTP请求到目标网页的URL,并接收服务器返回的响应。
3.2 解析HTML解析服务器返回的HTML响应,提取出页面中所需的信息。
常用的HTML解析库有BeautifulSoup、XPath等。
3.3 提取数据根据页面结构和规则,使用正则表达式、CSS选择器或XPath等方法提取所需的数据。
网络数据采集框架Nutch及其应用研究一、Nutch框架概述Nutch是一种全文搜索引擎和网络爬虫框架,是由Apache Lucene和Hadoop等开源软件组成的平台。
它包括爬虫、索引器和搜索器等模块,可以对互联网上的文本、图像、视频等数据进行采集、存储、处理和检索。
Nutch的设计目标是实现一个高度可扩展的网络爬虫系统,支持定制化开发和快速性能优化。
Nutch的架构基于分布式计算,由多个节点协同工作完成大规模数据采集和处理任务。
它使用Hadoop作为底层的分布式计算框架,可以支持海量数据的并行处理和计算。
同时,Nutch也提供了灵活的配置选项和丰富的插件机制,可以根据不同的需求和场景进行自定义开发和扩展功能。
1. 开源:Nutch是一种开源软件,可以自由获取和使用,具有较低的开发和维护成本。
2. 可扩展性强:Nutch采用分布式计算和插件机制,可以方便地增加和扩展新的功能模块和算法。
3. 支持多语言:Nutch可以支持多种语言的分词和搜索,包括英语、中文、日语等。
4. 支持自定义:Nutch可以根据用户的需求和场景进行自定义开发和优化,例如自定义爬虫策略、页面过滤规则、索引器等。
5. 数据可视化:Nutch可以将采集的数据进行可视化处理,例如生成统计图表、地理信息图等。
1. 信息检索Nutch可以通过网络爬虫批量采集互联网上的文本、图像、视频等信息,再通过索引器建立数据索引,最终通过搜索器实现信息检索。
在这一过程中,Nutch可以支持多种搜索算法和检索模式,并提供定制化开发选项。
2. 情感分析通过采集互联网上的社交媒体、博客、新闻等数据,Nutch可以支持情感分析的研究。
情感分析是指通过自然语言处理和机器学习技术,对文本内容进行情绪分类和评价的过程。
Nutch可以支持多语言的分词和情感分析,例如中文、英语等。
3. 数据挖掘通过采集互联网上的数据,Nutch可以为用户提供数据挖掘的服务。
数据挖掘是指通过计算机技术分析、提取、过滤和预测数据的过程,可以应用于商业分析、科研、市场调研等领域。
网络数据采集与分析的技术方法随着互联网的普及和发展,网络数据采集与分析也成为了一个非常重要的技术领域。
网络数据采集与分析技术的主要目标就是从网络上获取数据,并对这些数据进行分析处理,以便提供有关信息的决策依据。
本文将介绍网络数据采集与分析的技术方法和应用场景。
一、网络数据采集方法1、网页抓取技术网页抓取技术是一种可以自动抓取网页上的信息的方法。
这种技术可以让用户通过指定关键字或者URL的方式,抓取指定的网页上的信息,并将其转化为结构化的数据。
网页抓取技术可以用于创建新闻聚合网站、产品价格比较网站、社交媒体监测系统等应用。
2、API接口获取数据API(Application Programming Interface)是一种用于获取特定数据的接口。
这种技术可以通过已经定义好的API来获取需要的数据。
API可以获取各种类型的数据,包括文本、图片、音频和视频等。
API接口获取数据可以用于创建社交媒体应用、在线零售平台、移动应用程序等应用。
3、爬虫技术爬虫技术是一种可以自动收集特定数据的技术。
爬虫可以使用搜索引擎的API和互联网上公开的爬虫工具等方式获取数据。
爬虫技术可以用于收集数据,如获取比特币价格、采集新闻文章等。
二、网络数据分析方法1、文本分析文本分析是一种用于将文本转换为可处理的结构化数据的方法。
这种方法可以将文本转换为主题、情感等方面的数据,并进行分析。
文本分析可以用于数据挖掘、社交媒体监测、品牌声誉分析等应用。
2、数据挖掘数据挖掘是一种用于探索和分析数据的方法。
数据挖掘的目标是发现结构、角色、关系和模式等隐藏在数据背后的信息。
数据挖掘可以用于推荐系统、客户细分、诈骗检测、市场预测等应用。
3、机器学习机器学习是一种基于统计学、人工智能和计算机科学的技术,它可以自动改善和提升算法的性能。
这种技术可以从数据中学习,从而自动进行分类和预测。
机器学习可以用于自然语言处理、图像识别、医疗诊断等应用。
三、网络数据采集和分析应用1、社交媒体监测社交媒体监测是一种用于监测社交媒体上的品牌、产品、竞争对手和消费者的方法。
基于网络爬虫技术的网络招聘信息分析目录一、内容综述 (2)1. 网络招聘信息的重要性 (3)2. 网络爬虫技术在网络招聘信息分析中的应用背景 (5)二、网络爬虫技术基础 (6)1. 网络爬虫的定义与工作原理 (7)2. 网络爬虫的类型 (8)3. 网络爬虫技术的发展趋势 (9)三、网络招聘信息获取 (10)1. 招聘网站的选择与使用 (11)2. 招聘信息的抓取策略 (12)3. 招聘信息的预处理 (13)四、网络招聘信息分析方法 (14)1. 数据清洗与预处理 (16)2. 数据挖掘与模式识别 (16)3. 社交网络分析 (17)4. 机器学习在网络招聘信息分析中的应用 (18)五、网络招聘信息分析的应用 (19)1. 企业招聘效果评估 (21)2. 行业人才需求预测 (22)3. 招聘流程优化与自动化 (23)六、网络爬虫技术的挑战与未来 (24)1. 法律法规与道德规范 (26)2. 技术安全性与隐私保护 (27)3. 网络爬虫技术与人工智能的结合 (28)七、结论 (29)1. 网络爬虫技术在网络招聘信息分析中的价值 (30)2. 对未来网络招聘信息分析发展的展望 (31)一、内容综述随着互联网技术的迅猛发展,网络招聘信息量呈现爆炸式增长。
网络爬虫技术作为获取网络数据的重要手段,其在网络招聘信息分析中的应用日益广泛。
本章节将对基于网络爬虫技术的网络招聘信息分析进行内容综述,旨在探讨该领域的研究现状、方法、工具及应用场景。
网络爬虫技术在网络招聘信息获取方面发挥着关键作用,通过编写网络爬虫程序,可以自动抓取招聘网站上的职位信息、公司介绍、工作要求等数据。
这些数据经过清洗和整理后,可为招聘企业和求职者提供丰富的数据支持。
在网络招聘信息分析领域,文本挖掘和自然语言处理技术得到了广泛应用。
通过对招聘信息中的文本数据进行深入挖掘,可以提取出关键信息,如职位关键词、行业趋势、薪资范围等。
这些信息对于企业和求职者来说具有重要的参考价值。
基于 Python的网络爬虫程序设计内蒙古自治区呼和浩特市 010057摘要:网络信息量的迅猛增长,从海量的信息中准确的搜索到用户需要的信息提出了极大的挑战。
网络爬虫具有能够自动提取网页信息的能力。
对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。
同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。
关键词:Python的网络爬虫程序;设计;应用一、概述1、Python 语言。
Python 语言语法简单清晰、功能强大,容易理解。
可以在 Windows、Linux 等操作系统上运行;Python 是一种面向对象的语言,具有效率高、可简单地实现面向对象的编程等优点。
Python 是一种脚本语言,语法简洁且支持动态输入,使得 Python在很多操作系统平台上都是一个比较理想的脚本语言,尤其适用于快速的应用程序开发。
2、网络爬虫。
网络爬虫是一种按照一定的规则,自动提取 Web 网页的应用程序或者脚本,它是在搜索引擎上完成数据抓取的关键一步,可以在Internet上下载网站页面。
爬虫是为了将 Internet 上的网页保存到本地,爬虫是从一个或多个初始页面的 URL[5],通过分析页面源文件的 URL,抓取新的网页链接,通过这些网页链接,再继续寻找新的网页链接,反复循环,直到抓取和分析所有页面。
这是理想情况下的执行情况,根据现在公布的数据,最好的搜索引擎也只爬取整个互联网不到一半的网页。
二、网络爬虫的分类网络爬虫作为一种网页抓取技术,其主要分为通用网络爬虫、聚焦网络爬虫两种类型。
其中通用网络爬虫是利用捜索引擎,对网页中的数据信息进行搜索、采集与抓取的技术,通过将互联网网页下载到本地,来保证网络内容的抓取、存储与镜像备份。
首先第一步是对网站 URL 低质进行抓取,解析 DNS 得到主机IP 地址,并对相应的 URL 网页进行下载。
基于网络爬虫的四川大学资讯整合网站的研究与设计摘要:由于工作与生活节奏的加快,人们的时间呈现出碎片化,新媒体因迎合这种现状而生。
随着互联网信息呈“爆发式”增长,人们更需要新媒体能够及时、准确地提供资讯,资源整合就成了其中的必要环节。
以四川大学为例,利用网络爬虫技术整合四川大学学生经常浏览的教务处网站、团委网站、学生工作处网站的通知及新闻,以计算机科学技术解决问题,满足学生群体对新媒体运营效果的期望。
关键词:网络爬虫新媒体研究设计中图分类号:tp393 文献标识码:a 文章编号:1007-3973(2013)007-063-031 引言随着新媒体的飞速发展与逐渐成熟,新媒体这一媒体形式凭借其便利、便捷的特点获得了人们的认可和关注。
由于新媒体平台的数量增长,人们已经逐渐迷失在浩瀚的网络中,无法在有限的时间内及时、准确地获得想要的信息,所以对新媒体进行有效的资源整合成了解决这一问题的首要途径。
本文以四川大学教务处网站、四川大学团委网站、四川大学学生工作处网站为研究背景,结合计算科学技术,提出了新媒体资源整合的方法,使广大的学生群体在有限的课余时间内准确、高效地了解校内外的资讯。
本文主要工作包括:(1)研究四川大学网络媒体现状;(2)提出新媒体平台数量增长背景下,如何及时、高效地获取资讯的办法;(3)介绍新媒体资源整合的核心技术—网络爬虫技术及相关关键技术;(4)结合网络爬虫技术设计资源整合网站,整合四川大学教务网站、学生工作处网站、团委网站的资讯。
2 四川大学网络媒体现状分析经调查,四川大学学生最经常访问的校园官方网络平台有“四川大学教务处网站”、“四川大学团委网站”、“四川大学学生工作处网站”,其主要原因在于以上几个网络媒体平台经常颁布贴近学生校园生活的资讯信息,学生急需从中获取及时的资讯了解校园内的实时动态。
现阶段,四川大学官方网络媒体具有以下几个特点:2.1 资讯重复出现,缺乏系统性新媒体飞速发展,其主要原因在于其便捷和便利的特点。
数据采集的方法有数据采集是指从各种来源收集数据的过程,它是数据分析和数据挖掘的第一步,也是非常重要的一步。
数据采集的方法有很多种,下面将介绍几种常见的数据采集方法。
1. 网络爬虫。
网络爬虫是一种自动获取网页信息的程序,它可以自动访问网页、提取信息、存储数据等。
网络爬虫可以根据需求定向抓取网页数据,并将数据保存到本地或者数据库中。
通过网络爬虫可以采集各种网页上的数据,比如新闻、商品信息、论坛帖子等。
2. 传感器数据采集。
传感器是一种能够感知环境并将感知到的信息转化为电信号的设备。
通过传感器可以采集各种环境参数,比如温度、湿度、压力、光照等。
传感器数据采集广泛应用于气象、环境监测、工业生产等领域。
3. 调查问卷。
调查问卷是一种常见的数据采集方法,通过设计问卷并向受访者发放,可以收集到受访者的各种信息。
调查问卷可以用于市场调研、社会调查、学术研究等领域。
4. 日志文件分析。
日志文件是记录系统运行情况的文件,通过分析日志文件可以获取系统运行的各种信息。
日志文件分析广泛应用于网络安全、系统性能优化、用户行为分析等领域。
5. 数据仓库。
数据仓库是一个集成的、面向主题的、相对稳定的数据集合,它可以用于数据分析、报表生成、决策支持等。
通过数据仓库可以采集到企业内部各个系统的数据,实现数据的统一管理和分析。
6. 社交媒体数据采集。
社交媒体是人们交流、分享信息的重要平台,通过采集社交媒体上的数据可以了解用户的兴趣、情绪、行为等。
社交媒体数据采集可以用于舆情监控、用户画像构建、社交网络分析等领域。
7. 传统媒体数据采集。
传统媒体包括报纸、杂志、电视、广播等,通过采集传统媒体上的数据可以了解社会热点、舆论动向、广告效果等。
传统媒体数据采集可以用于舆情分析、广告投放决策、新闻事件跟踪等领域。
总结。
数据采集是数据分析的基础,选择合适的数据采集方法对于后续的数据分析和挖掘非常重要。
不同的数据采集方法适用于不同的场景,需要根据具体的需求选择合适的方法。
面向航天领域知识管理的信息采集与分类应用研究我国航天事业蓬勃发展,在日益发达的互联网、大数据和知识经济时代,为应对海量信息资源,作为知识密集型的航天从业机构,开始引入知识管理相关理论与技术,以有效挖掘、组织、管理、利用和传承领域的核心知识资源。
知识获取是知识管理过程中的基础环节,而知识获取相关系统的设计实施需要诸多关键技术支撑,如信息采集、文本分类、信息抽取、知识图谱、语义网络等自然语言处理、数据挖掘相关的技术。
近年来,对信息的获取与处理技术在学术界和实际应用中有了突飞猛进的发展,本文将对航天领域知识管理系统中知识获取环节的信息采集和文本自动分类两个关键技术进行应用研究。
航天领域的知识信息冗杂多样,包含于相关企业及科研机构的生产研究过程中产生的大量文档,也贮藏在巨大庞杂的互联网信息资源中。
针对航天领域信息的这些特点,实施有效知识管理首先迫切需要的关键技术是如何高效准确获取行业情报信息,并能有效组织管理信息,进而才能实现进一步的信息抽取、知识挖掘。
对于航天情报信息的高效获取,能够在满足科研人员对航天情报数量大、专业性强、新颖及时、完整准确需求的同时,避免从庞杂异构的互联网中大海捞针,降低信息获取成本;而对于航天信息的自动分类,可以准确高效地组织已有的或获取到的杂乱无章的信息,能够帮助快速建设航天领域知识库,优化信息检索系统的信息组织结构和检索效果,满足从业人员对领域知识的进一步的挖掘需求。
因此本文面向航天领域知识管理进行的信息采集与文本自动分类关键技术的应用研究具有重要的现实意义和实用价值。
本文的主要研究工作如下:(1)介绍面向航天领域知识管理进行信息采集和文本分类两个关键技术应用研究的背景及意义;调研知识管理及其在航天领域应用的发展现状,信息采集和文本分类技术及其在航天领域内应用的发展现状。
(2)研究基于主题爬虫的航天领域情报采集方法,设计航天情报采集主题爬虫的总体框架,实现相关程序部件,并基于主题向量空间模型和支持向量机(SVM)二类分类器两种方法实现主题判定模型,与基于关键词匹配的方法进行对比实验验证。
基于主题网络爬虫的信息数据采集方法的研究与应用
互联网上的各种信息以数百万级的方式增长着,而这
些信息又大多是散乱分布的,无法满足人们所要求的整合信
息分析的需求,传统的采集和收集方法又很难满足要求。因
此本文提出利用主题网络爬虫的概念和方法,运用正则表达
式去匹配出网页中所需要的特定信息数据,有效的增强爬虫
程序的适用性、缩短用户获取信息的时间。并将此方法应用
于二手房信息数据采集中,包括价格、户型、楼层等基本数
据,建立起了一个统一的二手房数据库。
【关键词】主题网络爬虫 正则表达式 二手房
1 引言
互联网上的信息数据以爆炸式的方式增长着,而这些信
息数据内容又大多是基于页面形式的,其中包含一些非结构
化的数据,如文字、图像、视频等。如果只是采用人工化的
方式对信息数据进行采集,已经很难满足人们的要求了。因
此有必要采用某种技术或手段从互联网上自动采集信息数
据。
网络爬虫能实现对互联网信息数据的自动采集,从而弥
补了人工采集的缺陷。网络爬虫是随着搜索引擎发展而产生
的一种通用信息采集技术,是搜索引擎中的核心部分,它根
据用户要求从互联网上下载网页,尽可能多的抓取网页中的
相关链接和内容,并能沿着链接继续爬行,是一种能力强大
的信息采集程序。
2 主题网络爬虫
主题网络爬虫是在通用网络爬虫的基础上进行的延伸,
根据某一领域内特定的主题进行相关信息的查询,搜索互联
网抓取下载网页,从网页中采集相关信息数据和超链接。它
并不会访问所有的网页,而是在访问前就判断超链接、锚文
本、文本等与主题的相关度,按照相关度的高低来决定访问
的优先级顺序。
主题网络爬虫的主要思想就是:把用户搜索的查询词作
为主题,从选定的初始URL出发,访问网页中的所有超链接,
根据某种搜索策略对这些URL进行主题相关度预测,将符合
要求的URL加入待访问队列中,并按照某种优先级排序从队
列中抽取URL来作为下一次要访问的对象,按照这种规律执
行下去,直到待访问队列为空或者满足某种停止条件为止。
3 基于主题网络爬虫的信息数据采集方法与应用
通过分析网站页面时发现,页面中关于某一项主题的结
构和框架都是一样的,因此可以考虑运用正则表达式去匹配
出页面中我们所需要的链接和内容。下面以安居客网站为例
进行二手房数据的采集。
3.1 网站页面分析
3.1.1 链接地址页面分析
通过观察安居客青岛市二手房的房源列表,我们发现,
每一条房源信息的组织结构是一样的,如房源地址的链接是
上下结构排列的,价格,面积等信息的结构排列都是在同一
个位置的。深入分析页面源代码发现,每一个房源链接的地
址都是在herf=” ”引号之间,因此可以得出匹配房源链接
地址的正则表达式:"\s* 3.1.2 房源具体信息页面分析
网站具体页面中包含有房屋的售价、面积等基本信息,
我们所建立的二手房数据库就是把这些字段全部收集起来,
放到一个数据表中以供后期使用。观察网页源码我们可以发
现,有些内容的源代码前后的HTML标签是不一样的,因此,
就有必要对我们所需要的每一项内容写一个正则表达式,以
匹配面积内容为例,可以得到正则表达式为:面积\s*([^,
括号中为匹配结果。
3.2 采集流程
用户选取要抓取的网站,系统由初始URL开始访问网站,
下载分析URL的源代码,利用编写好的正则表达式去匹配出
此页中的超链接和文本内容,将超链接加入到待抓取队列中
的同时,将文本内容存入数据库中,根据先进先出的次序从
待抓取队列中抽取出新的URL开始访问,依次进行下去,直
到待抓取队列为空或者满足系统停止条件为止。
3.2.1 获取网页源代码
爬虫对网页抓取的原理是通过Http协议请求访问指定
的URL资源,URL资源以html文档的形式返回给爬虫,然后
通过对html文档的解析完成信息的采集任务。首先,获得
URL后,系统通过Http协议发出访问请求,一般采用GET方
法;其次,根据HTTP响应判断是否已成功加载此URL,如
果成功加载,就会将网页送到Html解析器中,根据UTF-8
编码形式,将语言转换成一个统一的编码形式,否则得到的
就会是乱码;最后,将得到的网页源码返回到一个变量中。
3.2.2 获取房源链接地址列表
在系统设计的时候,定义了三个存储URL的队列:预读
房源队列、已读房源队列、错误房源队列。预读房源队列用
于存储将要访问的URL队列,已读房源队列用于存储已经访
问过并成功采集信息的URL,错误房源队列用于存储不能访
问到的URL队列。这3个队列都是用动态数组进行存储和表
示的。
对选定的初始URL进行访问和处理,由于Http响应的网
页是以字符串类型返回的,其中包含了大量的html代码,这
时就需要事先编写好的正则表达式对其进行匹配,可以从
title、meta等标签中提取出所需要的信息。通过上文描述的
匹配房源链接地址的正则表达式来匹配出初始网页所含有
的房源超链接地址,将其加入到预读房源队列中,同时利用
正则表达式下一页\s>;"匹配出下一页的链接地址,并以
下一页的链接地址为初始URL,循环执行这一过程,直到下
一页的地址为空或者满足停止条件为止。得到的匹配结果如
图1所示。
3.2.3 获取房源信息数据
判断预读房源队列是否为空,如果队列为空,说明没有
要继续爬行访问的URL了,此时就结束爬行了,如果队列不
为空,则从预读房源队列中取出队首的URL进行访问,如果
成功加载网页,得到网页的源代码,根据编写好的正则表达
式对其进行匹配,并把匹配下来的内容保存到二手房数据库
中。最后,将当前URL加入到已读房源队列中,如果访问不
成功,就将此URL加入到错误房源队列中。循环执行这一过
程,直到预读房源队列为空或者满足停止条件为止。
网页展现给用户的主要内容是它的文本信息。因此,在
获得网页源代码后,需要针对网页抽取出它的特定内容。从
预读房源队列中取出URL,解析其源代码,利用正则表达式
匹配出其页面的具体信息,存入到数据库中。以小区、户型、
面积为例,其正则表达式如图2所示。
根据要求,创建二手房数据库后,将匹配到的房产信息
数据存入到数据库中。得到的二手房数据库部分结果如图3
所示。
4 总结
本文实现了一种切实可行的通过正则表达式去匹配信
息数据的方法,满足用户对特定信息的需求,并将此方法应
用于了二手房信息数据的采集中,成功抓取了网站上的二手
房信息数据,建立起了一个二手房数据库。
参考文献
[1]孙骏雄.基于网络爬虫的网站信息采集技术研究[D].大
连海事大学,2014.
[2]Dikaiakos M D,Stassopoulou A, Papageorgiou L.An
investigation of web crawler behavior: characterization and
metrics[J]. Physical Chemistry Chemical Physics, 2001,3(5):
867-872.
[3]罗刚.自己动手写网络爬虫[M].北京:清华大学出版社,
2010.
[4]杨文刚, 韩海涛.大数据背景下基于主题网络爬虫的
档案信息采集[J].兰台世界(旬刊),2015(20):20-21.
作者单位
中国海洋大学信息科学与工程学院 山东省青岛市
266100