Python爬虫自动下载Discuz论坛附件。

因工作需要，要定期收集卡饭论坛的病毒样本板块的病毒样本，所以就考虑用 Python做个爬虫，然后自动下载附件。

核心功能有3个：

1· 登录
2· 伪造cookie保持session
3. 下载样本

首先，登录就是先抓取登录页面，找到登录表单会post的数据，当然你也可以用firefox的httpfox插件。

需要注意的是，discuz的登录表单里有个hashform字段，是会随时间变的，所以要登录，必须分两个步骤：

1· 先抓取登录页面，找到hashform值

2· 生成post数据，然后登录登录成功后，服务器端会返回给我们两个cookie字段，我本来是想先解析这些cookie，然后再生成自己的cookie，作为每次post的数据之一。后来发现cookielib可以安装opener，所以你只要用urllib2.urlopen(req)来取代urllib.urlopen(uri)，返回的cookie每次就会被保存，并且自动包在每次发送的请求里。

接下来就是解析网页，获得附件的下载地址了。解析网页无非就是正则。没有什么新的技术含量，就不多说了。

下面上代码，给需要类似功能的朋友做参考。代码写的乱，就不要见怪了。帖子列表，我是从板块的RSS中获得的。

[python]
import urllib,urllib2,cookielib,re,datetime

def getPageHtml(uri):
req = urllib2.Request(uri)
return urllib2.urlopen(req).read()
#return urllib.urlopen(uri).read()

def login():
”’登陆论坛

设置cookie，获得formhash，然后提交post数据 ”’

#获得formhash
pattern = re.compile(““)
content = getPageHtml(‘http://bbs.kafan.cn/logging.php?action=login’)
formhash = pattern.findall(content)
if (len(formhash) > 0):
formhash = formhash[0]
formhash = formhash[-12:-4]

#cookie
cookieJar = cookielib.CookieJar()
cookie_support= urllib2.HTTPCookieProcessor(cookieJar)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)

#login
postdata=urllib.urlencode({
‘loginfield’:’username’,
‘username’:’用户名’,
‘password’:’密码’,
‘referer’:’http://bbs.kafan.cn/’,
‘formhash’:formhash,
‘questionid’:’0′,
‘answer’:”
})

headers = {
‘User-Agent’:’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6′,
‘referer’:’http://bbs.kafan.cn’
}

req = urllib2.Request(
url = ‘http://bbs.kafan.cn/logging.php?action=login&loginsubmit=yes&inajax=1’,
data = postdata,
headers = headers
)
result = urllib2.urlopen(req).read()

def getPages():
page = getPageHtml(‘http://bbs.kafan.cn/rss.php?fid=31&auth=0’)
pattern = re.compile(“.*viewthread.php.*< \/link>”)
linkArray = pattern.findall(page)
return linkArray

def getLinks(urls):
#遍历页面
count = 1
for url in urls:
url = url[6:-7]
print “解析” + url
pageContent = getPageHtml(url)
#print pageContent
pattern = re.compile(‘.*<; \/a>;’)
anchors = pattern.findall(pageContent)
#遍历下载节点
for anchor in anchors:
print anchor
linkPattern = re.compile(‘\”attachment\.php\?aid=[a-zA-Z0-9\%&;=\?-_\B]*\”‘)
link = linkPattern.findall(anchor)
link = “http://bbs.kafan.cn/” + link[0][1:-1]
namePattern = re.compile(‘>;[^<;>;].*[^<;>;]<;\/') name = namePattern.findall(anchor) name = name[0][1:-2] date = GetDateString() time = GetTimeString() name = rootpath + date + "\\" + time + "_" + name print "下载" + link print "至" + name count = count + 1 download(link,name) def download(url,filename): MakeDateFolder(rootpath) urllib.urlretrieve(url, filename) def GetTimeString(): from datetime import datetime todayStr = datetime.today().strftime("%H_%M_%S") return todayStr def GetDateString(): from datetime import date todayStr = date.today().strftime("%Y_%m_%d") return todayStr def MakeDateFolder( inFolderName ): import os if os.path.isdir( inFolderName ): newFolderName = inFolderName + '\\\\' + GetDateString() print(newFolderName) if os.path.isdir( newFolderName ): print(newFolderName," Exists already ") else: os.mkdir( newFolderName ) print(newFolderName," Create OK ") rootpath = 'c:\\kafan\\' login() pagelinks = getPages() attlinks = getLinks(pagelinks) [/python]

阅读量： 63

《Python爬虫自动下载Discuz论坛附件。》上有11条评论

KAFAN说道：

2010-07-15 17:11

我用的你的代码登录不了唉，，，

回复
1. colordancer说道：
  
  2010-07-16 22:34
  
  嗯，卡饭升级论坛了，现在不行了
  
  回复
我是一颗小白菜说道：

2010-08-19 19:57

兄弟,能不能给我MAIL一个你网站的源码,我想搭个类似的网站,,

回复
1. colordancer说道：
  
  2010-08-21 02:21
  
  白菜兄，你啥信息也不留，我怎么给你……另外，这个就是个wordpress而已。。
  
  回复
我是一颗小白菜说道：

2010-08-22 15:32

wordpress…那我自己應該能搞定了,謝謝提醒,我的mail: df1@qq.com
有Python3K做的东西,我想做一个到内网查数据的脚本,可刚接触Python,,不会用,

回复
frogman说道：

2011-03-02 08:44

好贴子，我试图用你的方法下载安卓网的Android App：http://bbs.hiapk.com, 碰到下面的问题请指教

怎样才能验证登陆的确成功，而且cookie也被放到每一个请求中吗？

我把login中 result = urllib2.urlopen(req).read()的结果保存下来，在firefox里面打开，的确能看到我的用户名在页面上显示。但是过几秒钟，页面自动刷新，显示的主页上我还是未登陆状态

后面下载得到的返回页面显示的都是要登陆的信息

回复
1. colordancer说道：
  
  2011-03-02 10:05
  
  我估计是discuz版本不一样的问题。
  但是我想cookie的伪造方法还是行得通的。你刚才说刷新页面后，仍然显示未登录，我想应该是cookie的问题。你多试几次。
  判断是否登录成功，我一般是先把response回来的网页全部打印出来，先把程序调通。
  anyway，不知道你能不能看到我的回复。这个程序很久前写的了，也不知道我有没有回答你的问题。
  
  回复
橄榄小哥说道：

2011-10-09 22:53

好帖子，不过现在这论坛升级了，登陆不成功了

回复
橄榄小哥说道：

2011-10-09 23:02

登陆会跳转到“http://www.kafan.cn/member.php?mod=logging&action=login&mmm=1”，楼主要怎么改才能登陆成功

回复
橄榄小哥说道：

2011-10-09 23:05

白菜说，不知道要怎么改才能登陆成功，登陆会跳转到“http://www.kafan.cn/member.php?mod=logging&action=login&mmm=1”

回复
1. colordancer说道：
  
  2011-10-10 13:07
  
  话说楼主也知道升级了，但是最近也用不到这个程序了，所以也就没改。不过楼主猜想改起来应该不难，抓抓包看看，改动应该不大的说。
  
  回复

《Python爬虫自动下载Discuz论坛附件。》上有11条评论

发表回复 取消回复

发表回复取消回复