当前位置:文档之家› python抓取网页数据

python抓取网页数据

python抓取网页数据.txt51自信是永不枯竭的源泉,自信是奔腾不息的波涛,自信是急流奋进的渠道,自信是真正的成功之母。用python抓取页面并进行处理

2009-02-19 15:09:50| 分类: Python | 标签:无 |字号 订阅
主要目的:抓取某个网页的源代码,把里面需要的数据进行处理,并保存到数据库中。已经实现了抓取页面并读取数据。
步骤一、抓取页面,这一步很简单,引入urllib,用urlopen打开网址,并用read()方法读取数据。为了方便测试,用本地文本文件代替抓取网页
步骤二、处理数据,如果页面代码比较规范标准,可以用HTMLParser进行简单处理,只是具体情况需要具体分析,感觉还是用正则比较好一些,顺便练习一下刚学习的正则表达式。
其实正则也是一种比较简单的语言,其中符号比较多,有点晦涩难懂,只能是多加练习,多加实践了。
步骤三、把处理的数据保存到数据库中,用pymssql就可以处理,这里只是简单的保存到文本文件中。
扩展下去,利用这个功能还可以实现抓取整个网站的图片、自动声称sitemap文件等功能。下一个任务,研究python的socket功能
# -*- coding:gbk -*-
import urllib
import re
#pager=urllib.urlopen(https://www.doczj.com/doc/e32646415.html,/index.html)
#data=pager.read()
#pager.close()
f=open(r"D:\2.txt")
data=f.read()
f.close()
#处理数据
p=https://www.doczj.com/doc/e32646415.html,pile('(?<=class=one.).+?(?=

)',re.I|re.S)
m=p.findall(data)
s=""
for datan in m:
#继续处理数据,取出标题、简介、图片和链接地址
p_title=https://www.doczj.com/doc/e32646415.html,pile('(?<=p_url=https://www.doczj.com/doc/e32646415.html,pile('(?<=href=.).+?(?=\")',re.I|re.S)
p_summar=https://www.doczj.com/doc/e32646415.html,pile('(?<=p_image=https://www.doczj.com/doc/e32646415.html,pile('/eshop/images/.+?(?=\")',re.I|re.S)
s=s+"标题:"+p_title.search(datan).group()+"\r\n"+"简介:"+p_summar.search(datan).group()+"\r\n"+"图片:"+p_image.search(datan).group()+"\r\n"+"链接地址:"+p_url.search(datan).group()+"\r\n"
f=open(r"D:\2.txt",'w')
f.write(s)
f.close()









用Python脚本获取实时股市信息
2006-12-15 13:47
IE查看股市信息太过招摇,决定写个Python脚本抓取相关信息,小巧便捷。
1. 先写段Python脚本抓取股票行情查询页面。这个很简单。发现个股实时行情数据都是写在javascript文件当中。
2. 提取该javascript文件URL,写Python脚本抓取该文件。读取其内容,做字符串处理,提取股价,涨幅等信息。搞定。
3. 针对部分需要设置HTTP代理才可访问网络的需求,通过urllib.open('***', proxies='***')设置代理,非常方便。
4. 通过对javascript文件URL的分析,其文件名形式是"股票代码.js"。建立一个配置文件,提供所关注的股票代码。用Python脚本实现读取配置信息,定时读取所需实时信息。

5. 定义每日行情格式,以XML形式存储。
6. 日后可以Python脚本实现读取存储的行情信息生成报表,K线等图形信息。

相关主题
文本预览
相关文档 最新文档