网络矿工复杂数据采集教程
- 格式:doc
- 大小:373.00 KB
- 文档页数:6
网络矿工采集器数据加工操作详解网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释:1、输出时去掉网页符号很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<></>标签,或</>标签。
2、输出时附加前缀也很容易理解,在采集的数据前面增加字符串;3、输出时附加前缀在采集的数据尾增加字符串;4、左起去掉字符从采集的数据起始位置开始,删除指定数量的字符;5、右起去掉字符从采集的数据尾开始,删除指定数量的字符;6、替换其中符合条件的字符<OldValue:><NewValue:> OldValue:原有字符;NewValue:新字符譬如采集的数据是:网络矿工数据采集软件,需要将“数据采集软件”替换成“采集器”,最终字符串味:网络矿工采集器<OldValue: 数据采集软件><NewValue: 采集器>如果替换成空字符,则等同于删除某些字符。
注意:此方式不支持通配符;7、去掉字符串的首尾空格不解释;8、输出时采用正则表达式进行替换也是字符串替换,但支持正则,意味着替换的字符换可以更加灵活和方便。
<OldValue:><NewValue:> OldValue:原有字符匹配的正则;NewValue:新字符。
可以全部替换,全部替换则意味着可以输入一个固定值。
替换成空字符也等同于删除。
9、根据指定的条件删除整行采集数据的时候,规则相同,数据就全部采集下来了,但有时有些数据我们并不一定全部需要,就可以通过此进行处理,譬如:如果为空的数据我们可以删除,指定此选项即可,或者包含某些字符的数据我们也不需要,也可以指定条件删除即可。
10、必须包含指定的条件原理同上,只是换了一种条件的指定方式,必须包含某个字符串,不包含的全部删除。
基于大数据的网络数据抓取方法概述:网络数据抓取是指通过互联网抓取数据的过程,大数据技术的发展为网络数据抓取提供了更高效、更准确的方法。
本文将详细介绍基于大数据的网络数据抓取方法,包括数据抓取的流程、常用的抓取工具和技术、数据清洗与处理等方面的内容。
一、数据抓取的流程1. 确定抓取目标:明确需要抓取的网站或者数据源,并确定所需的数据类型和范围。
2. 制定抓取策略:根据抓取目标,制定相应的抓取策略,包括确定抓取频率、抓取的深度和广度等。
3. 选择抓取工具:根据抓取策略选择合适的抓取工具,常用的工具有Python的Scrapy框架、Apache Nutch等。
4. 开始抓取:根据抓取工具的要求配置相关参数,启动抓取任务,开始抓取数据。
5. 数据存储:将抓取到的数据存储到数据库或者文件中,以备后续的数据清洗和处理。
二、常用的抓取工具和技术1. Python的Scrapy框架:Scrapy是一个强大的Python网络抓取框架,提供了丰富的抓取功能和灵便的配置选项,适合于各种类型的数据抓取任务。
2. Apache Nutch:Nutch是一个开源的网络抓取工具,具有高度可扩展性和灵便性,支持分布式抓取和多种数据存储方式。
3. Selenium:Selenium是一个自动化测试工具,也可以用于网络数据抓取,特殊适合于需要摹拟用户行为的抓取任务。
4. API接口:许多网站提供了API接口,可以直接通过调用API获取数据,这种方式通常更加稳定和高效。
三、数据清洗与处理1. 数据去重:由于网络数据抓取可能会浮现重复数据,需要进行数据去重处理,常用的方法有哈希算法、SimHash算法等。
2. 数据清洗:抓取到的数据通常包含噪声和无效信息,需要进行数据清洗,包括去除HTML标签、过滤非法字符、去除空白行等。
3. 数据格式化:将抓取到的数据进行格式化,使其符合统一的数据结构,方便后续的数据分析和挖掘。
4. 数据存储:将清洗和格式化后的数据存储到数据库或者文件中,以备后续的数据分析和应用。
网络矿工复杂数据采集教程(图文版)复杂数据并不一定是采集数据有多难,数据本身可能会很容易采集,但想成批的将数据采集、并按照网站的数据关系组织输出,可能会有很大的难度。
或者根本就无法实现这样的采集,或者说采集下来的只是一些没有关系的零散数据,不具备使用价值。
当前很多网站在防采方面都做了限制,其中将数据打散,分布到各个网页中,然后通过url请求并将数据重新组织起来进行展示,这也是一种防采限制,数据分散了,对于采集软件如何识别这种数据关系将是很大的考验,如果识别不了这种数据对应关系,那么采集下来的数据就是一堆无意义的数据。
网络矿工在这方面有突出的优势,通过导航和多页的操作,可以将这种复杂的数据关系在采集的过程中根据网站的规则自动关联起来进行输出。
我们先以一个比较简单的数据采集为例,后续我们会将更加复杂的数据对应关系的采集,当前先通过这个例子让大家熟悉网络矿工在这方面的采集应用。
今天的讲解会比较复杂一些,请先熟悉网络矿工的基本操作及数据采集的基础概念,再阅读本文。
有关网络矿工的基本使用,可参见网络矿工的基本使用图文教程,在此不再进行过多讲解。
我们需要采集的网站为:/BuildList.pub,这是一个导航页(列表页),点击每一个楼盘的名称,可以打开楼盘的详细页,如:/BuildInfo.pub?blid=101903,我们将需要采集的数据在下图中标明:同时在此页面,点击“房屋明细”,打开此楼盘房屋明细表,并采集明细表数据,如下:通过上面的介绍,这个数据采集貌似不复杂,实际做两层导航即可实现。
通过列表页导航进行楼盘信息页,再通过楼盘详细页导航进行房屋明细页,但如果我们继续分析,就远不是这样就可以实现的,下面我们进行采集分析讲解。
1、楼盘的导航页,这个页面直接导航即可;并不复杂;2、再看楼盘的详细页,/BuildInfo.pub?blid=101903,这个页面中有一个iframe,在iframe中显示楼盘的详细信息,iframe请求的网址是/ifrm_BuildBasic.pub?blid=101903,这个页面是楼盘真正的详细页面,对此,通常的做法是还可以再做一层导航进行采集,但我们还要采集楼盘的房屋明细,所以,在此我们不做导航,而是做多页处理;3、再看楼盘的房屋明细,楼盘的房屋明细是一个iframe请求了房屋的明细,通过嗅探器我们可以找到此地址为:/ifrm_HouseList.pub?blid=101903,这个页面显示了房屋的明细列表,也就是我们需要采集的数据;4、小结:通过楼盘的详细页,实际是做了两次导航操作,两次平级的导航,第一次请求楼盘的详细信息,第二次请求楼盘房屋的明细,而且是属于1*N的关系,一个楼盘对应多个房屋信息,针对此种需求,我们无法再用导航来实现,所以,我们采用多页的形式进行配置;下面我们进行此采集规则的配置,新建一个采集任务,首先配置采集网址,采集网址为:/BuildList.pub,我们做一层导航,进入楼盘详细页的主页面,/BuildInfo.pub?blid=101903,然后在此进行多页采集的配置,多页采集为两个页面,第一个为楼盘详细页,第二个为楼盘房屋页,因为是一对多的关系,所有首先配置楼盘详细页,再配置楼盘房屋页,如下点击“确定”退出,下一步我们配置采集数据规则,我们需要根据配置的多页进行相应规则的配置,楼盘名称所属采集页;预(销)售许可证、开发商、行政区、区位属于第一个多页,楼盘详细页;房屋代码、幢号、单元号、室号、用途、户型、建筑面积属于第二个多页,楼盘房屋页;配置如下:配置完成后,测试一下:可以看到,系统会自动将数据进行合并输出,而且是按照我们需要的形式进行数据,没有问题。
大数据采集与存储的操作步骤1.确定需求:首先需要明确采集大数据的目的和需求。
这可以包括业务问题、分析目标、数据类型和数据源等方面的要求。
2.确认数据源:根据需求确定数据源。
数据源可以包括数据库、文件、传感器、社交媒体、网络爬虫等。
3.设计采集方案:根据数据源的特点和需求,设计数据的采集方案。
这包括采集的频率、采集的数据类型(结构化、非结构化、半结构化)、采集的方法和技术(例如API、网络爬虫、传感器数据采集等)等。
4.部署采集技术:根据设计的采集方案,实际部署采集技术。
这可以包括开发自定义的数据采集软件、配置现有的数据采集工具或框架等。
5.数据清洗和预处理:采集到的原始数据通常需要进行清洗和预处理,以去除噪声数据、处理缺失值、转化数据格式等。
这个步骤可以使用数据清洗工具、编程语言和算法等。
6.数据存储:清洗和预处理后的数据需要存储起来以便后续使用。
在数据存储方面,有很多选择,包括传统的关系型数据库、NoSQL数据库、分布式文件系统等。
根据数据的特点和需求选择合适的存储技术。
7.数据管理和维护:对于大规模的数据,合理的数据管理和维护是必要的。
这包括数据的备份、数据的安全性和隐私性保护、数据的索引和查询优化等。
8.数据治理和合规性:对于一些特殊行业或国家的数据,可能需要遵守特定的法规和政策。
在采集和存储数据的过程中,需要考虑数据治理和数据合规性的问题。
9.数据质量控制:采集和存储过程中,需要对数据进行质量控制。
这包括数据的一致性、准确性、完整性和可靠性等方面。
10.数据备份和恢复:为了防止数据的意外丢失或损坏,需要进行数据备份和恢复。
这可以通过定期备份数据、使用冗余存储、设置灾备计划等方法来实现。
11. 数据同步和共享:如果有多个数据源或多个数据存储系统,可能需要进行数据同步和共享。
这可以通过ETL(Extract-Transform-Load)工具、API调用和数据集成工具等实现。
12.数据安全和隐私保护:在采集和存储大数据的过程中,需要确保数据的安全性和隐私性。
基于大数据的网络数据抓取方法一、引言网络数据抓取是指通过网络技术获取互联网上的各种信息,并将其保存、分析和应用。
随着大数据时代的到来,网络数据抓取变得越来越重要。
本文将介绍基于大数据的网络数据抓取方法,包括数据抓取的流程、技术工具以及应用案例等。
二、数据抓取的流程1. 确定抓取目标在进行网络数据抓取之前,首先需要明确抓取的目标是什么。
例如,我们可以选择抓取某个特定网站的数据,或者抓取某个特定领域的相关信息。
2. 制定抓取策略在确定了抓取目标后,需要制定相应的抓取策略。
这包括确定抓取的频率、抓取的深度、抓取的范围等。
根据不同的需求,可以选择全量抓取或增量抓取。
3. 选择合适的工具和技术在进行网络数据抓取时,可以利用各种工具和技术来实现。
常用的工具包括网络爬虫、数据抓取框架等。
而技术方面,可以采用分布式爬虫、反爬虫策略、自动化抓取等。
4. 开始数据抓取根据制定的策略和选择的工具,开始进行数据抓取。
这包括获取网页内容、解析网页结构、提取所需数据等步骤。
同时,要注意处理异常情况和错误信息,确保数据的准确性和完整性。
5. 数据清洗和预处理在抓取到的数据中,可能存在噪声、重复、缺失等问题。
因此,需要进行数据清洗和预处理,以提高数据的质量和可用性。
常见的处理方法包括去重、去噪、填充缺失值等。
6. 数据存储和管理抓取到的数据需要进行存储和管理。
可以选择将数据存储在数据库中,或者使用分布式文件系统进行存储。
同时,为了方便后续的数据分析和应用,需要建立相应的数据管理系统。
7. 数据分析和应用最后,对抓取到的数据进行分析和应用。
可以利用大数据分析技术,如数据挖掘、机器学习等,挖掘数据中的潜在信息和规律。
同时,可以将抓取到的数据应用于各种领域,如市场调研、舆情分析、智能推荐等。
三、技术工具1. 网络爬虫网络爬虫是一种自动化的工具,用于获取互联网上的信息。
常见的网络爬虫框架包括Scrapy、BeautifulSoup等,它们提供了方便的API和功能,可以帮助我们快速抓取数据。
基于大数据的网络数据抓取方法简介:网络数据抓取是指通过自动化程序从互联网上收集、提取和保存数据的过程。
大数据的兴起使得网络数据抓取变得更加重要,因为大量的数据可以用于分析、预测和决策。
本文将介绍基于大数据的网络数据抓取方法,包括数据抓取的流程、技术工具和注意事项。
一、数据抓取的流程1. 确定数据需求:在进行网络数据抓取之前,需要明确所需数据的类型、来源和范围。
例如,如果需要抓取某个电商网站的商品信息,就需要确定商品名称、价格、评论等数据。
2. 确定抓取策略:根据数据需求,制定相应的抓取策略。
这包括确定抓取的网站、页面和数据结构,以及抓取的频率和深度。
3. 编写抓取程序:根据抓取策略,使用合适的编程语言(如Python、Java)编写抓取程序。
程序应该能够模拟浏览器行为,自动化地访问网页、提取数据并保存到数据库或文件中。
4. 数据清洗和处理:抓取的数据可能存在噪音、重复和不完整的情况,需要进行数据清洗和处理。
这包括去除重复数据、填充缺失值、格式转换等操作。
5. 存储和管理数据:抓取的数据需要进行存储和管理,以便后续的分析和使用。
可以选择使用关系型数据库(如MySQL)或NoSQL数据库(如MongoDB)来存储数据。
二、技术工具1. 网络爬虫框架:网络爬虫框架是进行数据抓取的核心工具。
常用的网络爬虫框架包括Scrapy、BeautifulSoup和Selenium等。
这些框架提供了丰富的功能和接口,可以简化数据抓取的过程。
2. 数据库:选择合适的数据库来存储和管理抓取的数据。
关系型数据库如MySQL和PostgreSQL适用于结构化数据,NoSQL数据库如MongoDB和Elasticsearch适用于非结构化数据。
3. 分布式计算框架:如果需要处理大规模的数据,可以考虑使用分布式计算框架来加速数据处理的速度。
常用的分布式计算框架包括Hadoop、Spark和Flink等。
4. 反爬虫技术:在进行数据抓取时,有些网站可能会采取反爬虫措施,比如设置验证码、限制访问频率等。
工业物联网中数据采集技术的使用教程随着工业物联网技术的发展与应用,数据采集成为了工业领域中不可或缺的一环。
工业物联网的核心目标之一就是通过数据采集、传输和分析,实现生产过程的监控与优化,提高生产效率并降低成本。
本文将介绍工业物联网中常见的数据采集技术,并提供相应的使用教程。
1. 传感器与物联网设备选择在工业物联网中,首先需要选择合适的传感器和物联网设备来采集数据。
传感器可通过不同的方式收集各种不同类型的数据,如温度、湿度、压力、振动等。
常用的传感器包括温度传感器、湿度传感器、压力传感器、加速度传感器等。
在选择物联网设备时,需考虑设备性能、通信协议和数据传输能力。
常见的物联网设备包括工业网关、嵌入式传感器节点等。
选择合适的物联网设备可保证数据采集的稳定性和可靠性。
2. 数据采集与传输数据采集是工业物联网的核心环节,采集到的数据需要及时传输到数据中心进行处理。
数据采集可通过有线、无线等方式进行。
其中,有线方式包括以太网、RS485、RS232等,无线方式包括Wi-Fi、蓝牙、LoRa、NB-IoT等。
选择合适的通信方式取决于工业场景的具体需求,如数据传输距离、带宽、可靠性等。
在数据采集过程中,需注意保证数据的准确性和完整性。
可通过校验、冗余和差错检测等方式确保数据的可靠性。
同时,建议在采集前对传感器和设备进行校准和测试,以提高数据采集的准确性。
3. 数据处理与分析采集到的数据需要经过处理和分析,以提供有价值的信息和决策支持。
数据处理的目标通常包括数据清洗、数据变换和数据集成。
数据清洗可过滤和纠正异常数据,确保数据的可靠性和一致性。
数据变换可将原始数据转换为可用于分析和决策的形式,例如数据平滑、插值和滤波等。
数据集成则将不同来源和类型的数据整合起来。
数据分析是数据采集的重要环节,通过对数据进行建模、挖掘和分析,可获得更深入的洞察和理解。
常用的数据分析方法包括统计分析、机器学习和人工智能等。
数据分析结果可用于预测和优化生产过程,提高工业效率和质量。
基于大数据的网络数据抓取方法一、引言网络数据抓取是指通过网络爬虫程序从互联网上采集、提取和存储数据的过程。
随着互联网的快速发展和大数据时代的到来,网络数据抓取变得越来越重要。
本文将介绍基于大数据的网络数据抓取方法,包括数据抓取的流程、技术工具和应用场景。
二、数据抓取的流程1. 确定抓取目标:根据需求确定要抓取的网站或者数据源,例如电商网站、新闻网站等。
2. 分析网页结构:通过分析目标网页的HTML结构,确定所需数据的位置和标签。
3. 编写爬虫程序:使用编程语言(如Python)编写爬虫程序,根据分析结果定位和抓取目标数据。
4. 数据清洗和处理:对抓取到的数据进行清洗和处理,去除噪声、重复数据等,并进行格式转换。
5. 存储数据:将清洗和处理后的数据存储到数据库或者文件中,以备后续分析和应用。
三、技术工具1. 网络爬虫框架:常用的网络爬虫框架有Scrapy、BeautifulSoup等,它们提供了丰富的功能和API,方便开辟人员进行数据抓取。
2. 数据库管理系统:用于存储和管理抓取到的数据,常用的数据库管理系统有MySQL、MongoDB等。
3. 数据清洗工具:用于对抓取到的数据进行清洗和处理,常用的数据清洗工具有OpenRefine、Pandas等。
4. 分布式计算框架:当需要处理大规模数据时,可以使用分布式计算框架如Hadoop、Spark等,以提高数据处理的效率和速度。
四、应用场景1. 商业情报分析:通过抓取竞争对手的产品信息、价格等数据,进行商业情报分析,为企业决策提供参考。
2. 舆情监测:通过抓取新闻网站、社交媒体等平台的数据,进行舆情分析和监测,了解公众对某一事件或者话题的态度和情绪。
3. 金融数据分析:通过抓取金融网站、财经新闻等数据,进行金融数据分析和预测,为投资决策提供依据。
4. 社交网络分析:通过抓取社交网络平台的用户信息、社交关系等数据,进行社交网络分析,发现用户之间的关联和影响。
工业互联网中的数据挖掘技术教程工业互联网是将传统工业与互联网技术相结合的新兴领域,它的发展对于工业制造领域的提升和创新具有重要意义。
而在工业互联网中,数据挖掘技术被广泛应用,能够帮助企业从海量数据中发现隐藏的知识和规律,并为决策提供支持。
本文将针对工业互联网中的数据挖掘技术进行介绍和讲解。
一、数据挖掘技术概述数据挖掘是从大规模数据集中提取知识和规律的一种技术方法。
在工业领域,通过对大量数据进行分析和挖掘,可以帮助企业发现潜在的商业机会、改善工业过程、提高生产效率等。
数据挖掘技术主要包括以下几个方面的内容:1. 数据预处理:数据预处理是数据挖掘的第一步,它包括数据清洗、数据集成、数据变换和数据规约等过程。
通过数据预处理,可以提高数据的质量,减少噪声和冗余信息,以便更好地进行后续的数据挖掘工作。
2. 特征选择:特征选择是从数据集中选择出与目标变量相关性较高的特征。
在工业互联网中,选择合适的特征可以提高模型的准确性和可解释性,从而更好地支持决策和预测。
3. 数据挖掘算法:数据挖掘算法是数据挖掘的核心部分,它包括分类、聚类、关联规则挖掘、时序模式挖掘等多种算法。
在工业互联网中,需要根据具体的问题选择适合的算法,以便发现潜在的知识和规律。
4. 模型评估和优化:模型评估和优化是数据挖掘的最后一步,它可以评估模型的准确性、鲁棒性和可解释性,并通过调整模型参数来优化模型的性能。
二、工业互联网中的数据挖掘应用1. 预测和优化生产过程:通过对工业互联网中的传感器数据进行分析和挖掘,可以实现对生产过程的预测和优化。
例如,可以通过预测设备故障来避免生产线停机,减少损失;通过优化生产计划来提高生产效率和资源利用率。
2. 质量控制和异常检测:通过对工业互联网中的生产数据进行分析和挖掘,可以实现对产品质量的控制和异常检测。
例如,可以通过分析生产数据中的关键指标和特征来提前发现潜在的质量问题,减少不良品率和客户投诉。
3. 供应链管理和物流优化:通过对工业互联网中的供应链和物流数据进行分析和挖掘,可以实现对供应链管理和物流优化的支持。
随着信息化时代的到来,网络数据处理技术已经成为了各行各业必不可少的一部分。
在这个过程中,数据采集方法是其中一个至关重要的环节。
数据采集是指将各种来源的数据,如网页、数据库、文本、图片、视频等,通过一定的技术手段获取到系统中,以便后续的数据处理和分析。
在网络数据处理技术中,常见的数据采集方法有网页抓取、API接口、爬虫技术等。
本文将对这些数据采集方法进行介绍和分析。
网页抓取是一种常见的数据采集方法。
它通过模拟浏览器的行为,获取网页中的数据信息。
网页抓取可以通过编程语言,如Python中的BeautifulSoup库和Selenium库,来实现。
使用这些工具可以方便地获取网页中的各种信息,如文本、图片、链接等。
网页抓取适用于对于网页内容进行大规模的数据采集,比如搜索引擎抓取网页内容建立索引。
API接口是另一种常见的数据采集方法。
API(Application Programming Interface)是应用程序接口的缩写,它是一组预先定义的函数和数据结构,用于应用程序之间的交互。
通过调用API接口,可以获取到其他应用程序中的数据。
许多网站和应用程序都提供了API接口,用于获取其数据。
比如,社交媒体网站提供了API接口,用于获取用户信息、帖子信息等。
利用API接口,可以方便地获取到各种网站和应用程序中的数据。
爬虫技术是数据采集中的又一种重要方法。
爬虫是一种自动地从网络上下载网页并提取信息的程序。
它通过模拟人的浏览行为,访问网页并提取其中的信息。
爬虫技术广泛应用于搜索引擎、数据挖掘、舆情监控等领域。
爬虫技术相对来说更加灵活,可以根据需求定制爬取规则,对网页中的各种信息进行抽取。
除了上述三种常见的数据采集方法之外,还有一些其他的数据采集方法,比如数据仓库导出、日志文件分析等。
数据仓库导出是指从数据仓库中导出数据进行分析和处理。
数据仓库是一个面向主题的、集成的、相对稳定的数据存储,它可以用于支持管理决策的过程。
网络矿工复杂数据采集教程(图文版)
复杂数据并不一定是采集数据有多难,数据本身可能会很容易采集,但想成批的将数据采集、并按照网站的数据关系组织输出,可能会有很大的难度。
或者根本就无法实现这样的采集,或者说采集下来的只是一些没有关系的零散数据,不具备使用价值。
当前很多网站在防采方面都做了限制,其中将数据打散,分布到各个网页中,然后通过url请求并将数据重新组织起来进行展示,这也是一种防采限制,数据分散了,对于采集软件如何识别这种数据关系将是很大的考验,如果识别不了这种数据对应关系,那么采集下来的数据就是一堆无意义的数据。
网络矿工在这方面有突出的优势,通过导航和多页的操作,可以将这种复杂的数据关系在采集的过程中根据网站的规则自动关联起来进行输出。
我们先以一个比较简单的数据采集为例,后续我们会将更加复杂的数据对应关系的采集,当前先通过这个例子让大家熟悉网络矿工在这方面的采集应用。
今天的讲解会比较复杂一些,请先熟悉网络矿工的基本操作及数据采集的基础概念,再阅读本文。
有关网络矿工的基本使用,可参见网络矿工的基本使用图文教程,在此不再进行过多讲解。
我们需要采集的网站为:/BuildList.pub,这是一个导航页(列表页),
点击每一个楼盘的名称,可以打开楼盘的详细页,如:/BuildInfo.pub?blid=101903,我们将需要采集的数据在下图中标明:
同时在此页面,点击“房屋明细”,打开此楼盘房屋明细表,并采集明细表数据,如下:
通过上面的介绍,这个数据采集貌似不复杂,实际做两层导航即可实现。
通过列表页导
航进行楼盘信息页,再通过楼盘详细页导航进行房屋明细页,但如果我们继续分析,就远不是这样就可以实现的,下面我们进行采集分析讲解。
1、楼盘的导航页,这个页面直接导航即可;并不复杂;
2、再看楼盘的详细页,/BuildInfo.pub?blid=101903,这个页面中有
一个iframe,在iframe中显示楼盘的详细信息,iframe请求的网址是
/ifrm_BuildBasic.pub?blid=101903,这个页面是楼盘真正的详细页
面,对此,通常的做法是还可以再做一层导航进行采集,但我们还要采集楼盘的房
屋明细,所以,在此我们不做导航,而是做多页处理;
3、再看楼盘的房屋明细,楼盘的房屋明细是一个iframe请求了房屋的明细,通过嗅探
器我们可以找到此地址为:/ifrm_HouseList.pub?blid=101903,这
个页面显示了房屋的明细列表,也就是我们需要采集的数据;
4、小结:通过楼盘的详细页,实际是做了两次导航操作,两次平级的导航,第一次请
求楼盘的详细信息,第二次请求楼盘房屋的明细,而且是属于1*N的关系,一个楼
盘对应多个房屋信息,针对此种需求,我们无法再用导航来实现,所以,我们采用
多页的形式进行配置;
下面我们进行此采集规则的配置,新建一个采集任务,首先配置采集网址,采集网址为:/BuildList.pub,我们做一层导航,进入楼盘详细页的主页面,/BuildInfo.pub?blid=101903,然后在此进行多页采集的配置,多页采集为两个页面,第一个为楼盘详细页,第二个为楼盘房屋页,因为是一对多的关系,所有首先配置楼盘详细页,再配置楼盘房屋页,如下
点击“确定”退出,下一步我们配置采集数据规则,我们需要根据配置的多页进行相应规则的配置,
楼盘名称所属采集页;
预(销)售许可证、开发商、行政区、区位属于第一个多页,楼盘详细页;
房屋代码、幢号、单元号、室号、用途、户型、建筑面积属于第二个多页,楼盘房屋页;
配置如下:
配置完成后,测试一下:
可以看到,系统会自动将数据进行合并输出,而且是按照我们需要的形式进行数据,没有问题。
保存退出,这个采集任务讲解告一段落。
从我们今天讲解的复杂关系数据采集的角度而言,我们的讲解已经结束,但从实际的角度讲,这个采集规则,还没有真正配置完成,因为楼盘房屋信息页存在翻页的情况,我们需要逐一翻页将所有的房屋信息采集下来,这样才能满足我们的实际需求。
多页的配置不存在翻页的处理,那该如何进行?这样我们就又回到了最初所讲,通过导航进行关系处理,但同一个页面要进行两次平级导航,那该如何进行呢?
在此我们简单讲解一下,请有兴趣的朋友自行配置,我们还是进行多层导航,进行3层导航,第一层,从楼盘列表页导航进行楼盘详细页的主页,第二层,从楼盘详细页的主页进行楼盘详细页(就是获取iframe的地址),第三层导航从楼盘的详细页进行楼盘房屋信息页,第三层导航对于网站而言是不存在的,是我们虚构出来为了处理数据一对多关系的,网
址构建可以通过网络矿工提供的自定义进行处理,在第三层导航进行自动翻页处理,实现房
屋信息页的翻页数据采集,采集数据规则一样,但所属页面就不是多页了,而是导航页,进行跨层采集处理,即可实现我们刚才所说的采集需求,请感兴趣的朋友自行配置。
上面所讲的例子可以到/resource/grule.aspx?id=62下载,使用网络矿工V2012导入采集规则,即可测试。