url='cq.lianjia/ershoufang/#d#' temp_url = url.replace("#d#", f"pg{idx}")
4)声明变量response用于获取requests库的get方法从上一步指定的url和headers中获取的页面响应数据。
response = requests.get(url,headers=headers) 5)使用BeautifulSoup库解析页面,进一步精确获取相应的class值。
前面已经通过爬虫实现链家二手房数据获取,但是这些数据都只是存储在内存之中, 并没有对其规范化和持久化的管理。因此,为了能够让数据结构化,使数据之间具有 联系,从而更好地面向整个系统,同时提高数据的共享性、扩展性和独立性,降低冗 余度,这里将使用DBMS对其统一管理和控制。这里将使用MYSQL数据库管理系统。 请务必提前安装好MYSQL数据库管理系统,本案例使用的是Navicat Premium数据 管理工具。
1)导入爬虫代码需要使用的requests库用于获取URL的页面响应数据,实现数据的精确定位和操作。 import requests
2)构造爬虫代码请求该URL的Headers头部信息。在开发者工具的“Network”选项卡下的“Headers”选 项卡中得到该默认URL的Headers头部信息。其目的是向智通人才网的后台服务器隐藏爬虫代码的真实身份, 让爬虫代码带着这些请求信息伪装成浏览器正常访问该网站服务器的状态,而不被服务器的反爬措施发现。
soup = BeautifulSoup(response.text, "html.parser") lis = soup.find('ul',class_='sellListContent')