python抓取网页数据.txt51自信是永不枯竭的源泉,自信是奔腾不息的波涛,自信是急流奋进的渠道,自信是真正的成功之母。用python抓取页面并进行处理
2009-02-19 15:09:50| 分类: Python | 标签:无 |字号 订阅
主要目的:抓取某个网页的源代码,把里面需要的数据进行处理,并保存到数据库中。已经实现了抓取页面并读取数据。
步骤一、抓取页面,这一步很简单,引入urllib,用urlopen打开网址,并用read()方法读取数据。为了方便测试,用本地文本文件代替抓取网页
步骤二、处理数据,如果页面代码比较规范标准,可以用HTMLParser进行简单处理,只是具体情况需要具体分析,感觉还是用正则比较好一些,顺便练习一下刚学习的正则表达式。
其实正则也是一种比较简单的语言,其中符号比较多,有点晦涩难懂,只能是多加练习,多加实践了。
步骤三、把处理的数据保存到数据库中,用pymssql就可以处理,这里只是简单的保存到文本文件中。
扩展下去,利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务,研究python的socket功能
# -*- coding:gbk -*-
import urllib
import re
#pager=urllib.urlopen(https://www.doczj.com/doc/e32646415.html,/index.html)
#data=pager.read()
#pager.close()
f=open(r"D:\2.txt")
data=f.read()
f.close()
#处理数据
p=https://www.doczj.com/doc/e32646415.html,pile('(?<=class=one.).+?(?=
5. 定义每日行情格式,以XML形式存储。
6. 日后可以Python脚本实现读取存储的行情信息生成报表,K线等图形信息。