python中怎么实现分布式抓取网页,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
'''''
Created on 2010-9-15
@author: chenggong
'''
import urllib2
import re
import socket
DEBUG = 0
'''''
工具类
'''
class Tools():
#log函数
@staticmethod
def writelog(level,info,notify=False):
if DEBUG == 0:
try:
print "["+level+"]"+info.decode('UTF-8').encode('GBK')
except:
print "["+level+"]"+info.encode('GBK')
else:
print "["+level+"]"+info
#if notify:
# print "[notify]报告管理员!!"
#转unicode
@staticmethod
def toUnicode(s,charset):
if( charset == "" ):
return s
else:
try:
u = unicode( s, charset )
except:
u = ""
return u
#正则抓取
#@param single 是否只抓取一个
@staticmethod
def getFromPatten(patten,src,single=False):
rst = "";
p = re.compile(patten,re.S)
all = p.findall(src)
for matcher in all:
rst += matcher + " "
if( single ):
break
return rst.strip()
'''''
网页内容爬虫
'''
class PageGripper():
URL_OPEN_TIMEOUT = 10 #网页超时时间
MAX_RETRY = 3 #最大重试次数
def __init__(self):
socket.setdefaulttimeout(self.URL_OPEN_TIMEOUT)
#获取字符集
def getCharset(self,s):
rst = Tools.getFromPatten(u'charset=(.*?)"',s,True)
if rst != "":
if rst == "utf8":
rst = "utf-8"
return rst
#尝试获取页面
def downloadUrl(self,url):
charset = ""
page = ""
retry = 0
while True:
try:
fp = urllib2.urlopen(url)
break
except urllib2.HTTPError,e: #状态错误
Tools.writelog('error','HTTP状态错误 code='+e.code)
raise urllib2.HTTPError
except urllib2.URLError,e: #网络错误超时
Tools.writelog('warn','页面访问超时,重试..')
retry+=1
if( retry > self.MAX_RETRY ):
Tools.writelog('warn','超过最大重试次数,放弃')
raise urllib2.URLError
while True:
line = fp.readline()
if charset == "":
charset = self.getCharset(line)
if not line:
break
page += Tools.toUnicode(line,charset)
fp.close()
return page
#获取页面
def getPageInfo(self,url):
Tools.writelog( "info","开始抓取网页,url= "+url)
info = ""
try:
info = self.downloadUrl(url)
except:
raise
Tools.writelog("debug","网页抓取成功")
return info
'''''
内容提取类
'''
class InfoGripper():
pageGripper = PageGripper()
def __init__(self):
Tools.writelog('debug',"爬虫启动")
#抓取标题
def griptitle(self,data):
title = Tools.getFromPatten(u'box2t sp">
(.*?)
', data, True) if title == "":
title = Tools.getFromPatten(u'
(.*?)[-<]',data,True) </p></li><li><p> return title.strip() </p></li><li><p></p></li><li><p> #抓取频道</p></li><li><p> def gripchannel(self,data): </p></li><li><p> zone = Tools.getFromPatten(u'频道:(.*?)</span>',data,True) </p></li><li><p> channel = Tools.getFromPatten(u'<a.*?>(.*?)</a>',zone,True) </p></li><li><p> return channel </p></li><li><p></p></li><li><p> #抓取标签</p></li><li><p> def griptag(self,data): </p></li><li><p> zone = Tools.getFromPatten(u'标签:(.*?)</[^a].*>',data,True); </p></li><li><p> rst = Tools.getFromPatten(u'>(.*?)</a>',zone,False); </p></li><li><p> return rst </p></li><li><p></p></li><li><p> #抓取观看次数</p></li><li><p> def gripviews(self,data): </p></li><li><p> rst = Tools.getFromPatten(u'已经有<em class="hot" id="viewcount">(.*?)</em>次观看',data); </p></li><li><p> return rst </p></li><li><p></p></li><li><p> #抓取发布时间</p></li><li><p> def griptime(self,data): </p></li><li><p> rst = Tools.getFromPatten(u'在<em>(.*?)</em>发布',data,True) </p></li><li><p> return rst </p></li><li><p></p></li><li><p> #抓取发布者</p></li><li><p> def gripuser(self,data): </p></li><li><p> rst = Tools.getFromPatten(u'title="点击进入(.*?)的用户空间"',data,True) </p></li><li><p> return rst </p></li><li><p></p></li><li><p> #获取页面字符集</p></li><li><p> def getPageCharset(self,data): </p></li><li><p> charset = Tools.getFromPatten(u'charset=(.*?)"',data,True) </p></li><li><p></p></li><li><p> if( charset == "utf8" ): </p></li><li><p> charset = "utf-8"</p></li><li><p> return charset </p></li><li><p></p></li><li><p> #获取CC相关数据</p></li><li><p> def getCCData(self,data): </p></li><li><p></p></li><li><p> zone = Tools.getFromPatten(u'SWFObject(.*?)</script>',data,True) </p></li><li><p></p></li><li><p> #判断是否使用bokecc播放</p></li><li><p> isFromBokeCC = re.match('.*bokecc.com.*', zone) </p></li><li><p> if( not isFromBokeCC ): </p></li><li><p> return "","" </p></li><li><p></p></li><li><p> ccSiteId = Tools.getFromPatten(u'siteid=(.*?)[&,"]',zone,True) </p></li><li><p> ccVid = Tools.getFromPatten(u'vid=(.*?)[&,"]',zone,True) </p></li><li><p> return ccSiteId,ccVid </p></li><li><p></p></li><li><p> #获取站内vid</p></li><li><p> def gripVideoId(self,data): </p></li><li><p> vid = Tools.getFromPatten(u'var vid = "(.*?)"',data,True) </p></li><li><p> return vid </p></li><li><p></p></li><li><p> #获取点击量</p></li><li><p> def gripViewsAjax(self,vid,url,basedir): </p></li><li><p> host = Tools.getFromPatten(u'http://(.*?)/',url,True) </p></li><li><p> ajaxAddr = "http://" + host + basedir + "/index.php/ajax/video_statistic/" + vid </p></li><li><p> '''''</p></li><li><p> try:</p></li><li><p> content = self.pageGripper.getPageInfo(ajaxAddr)</p></li><li><p> except Exception,e:</p></li><li><p> print e</p></li><li><p> Tools.writelog ("error", ajaxAddr+u"抓取失败")</p></li><li><p> return "error"</p></li><li><p> '''</p></li><li><p> Tools.writelog('debug', u"开始获取点击量,url="+ajaxAddr) </p></li><li><p> while True: </p></li><li><p> try: </p></li><li><p> fp = urllib2.urlopen(ajaxAddr) </p></li><li><p> break</p></li><li><p> except urllib2.HTTPError,e: #状态错误</p></li><li><p> Tools.writelog('error','HTTP状态错误 code='+"%d"%e.code) </p></li><li><p> return "" </p></li><li><p> except urllib2.URLError,e: #网络错误超时</p></li><li><p> Tools.writelog('warn','页面访问超时,重试..') </p></li><li><p> retry+=1</p></li><li><p> if( retry > self.MAX_RETRY ): </p></li><li><p> Tools.writelog('warn','超过最大重试次数,放弃') </p></li><li><p> return "" </p></li><li><p> content = fp.read() </p></li><li><p> fp.close() </p></li><li><p> views = Tools.getFromPatten(u'"viewcount":(.*?),',content,True) </p></li><li><p> views = views.replace('"','') </p></li><li><p> return views </p></li><li><p></p></li><li><p> #从网页内容中爬取点击量 </p></li><li><p> def gripViewsFromData(self,data): </p></li><li><p> views = Tools.getFromPatten(u'已经有<.*?>(.*?)<.*?>次观看',data,True) </p></li><li><p> return views </p></li><li><p></p></li><li><p> def gripBaseDir(self,data): </p></li><li><p> dir = Tools.getFromPatten(u"base_dir = '(.*?)'",data,True) </p></li><li><p> return dir </p></li><li><p></p></li><li><p> #抓取数据</p></li><li><p> def gripinfo(self,url): </p></li><li><p></p></li><li><p> try: </p></li><li><p> data = self.pageGripper.getPageInfo(url) </p></li><li><p> except: </p></li><li><p> Tools.writelog ("error", url+" 抓取失败") </p></li><li><p> raise</p></li><li><p></p></li><li><p> Tools.writelog('info','开始内容匹配') </p></li><li><p> rst = {} </p></li><li><p> rst['title'] = self.griptitle(data) </p></li><li><p> rst['channel'] = self.gripchannel(data) </p></li><li><p> rst['tag'] = self.griptag(data) </p></li><li><p> rst['release'] = self.griptime(data) </p></li><li><p> rst['user'] = self.gripuser(data) </p></li><li><p> ccdata = self.getCCData(data) </p></li><li><p> rst['ccsiteId'] = ccdata[0] </p></li><li><p> rst['ccVid'] = ccdata[1] </p></li><li><p> views = self.gripViewsFromData(data) </p></li><li><p> if views =="" or not views: </p></li><li><p> vid = self.gripVideoId(data) </p></li><li><p> basedir = self.gripBaseDir(data) </p></li><li><p> views = self.gripViewsAjax(vid,url,basedir) </p></li><li><p> if( views == "" ): </p></li><li><p> views = "error"</p></li><li><p> if( views == "error"): </p></li><li><p> Tools.writelog("error","获取观看次数失败") </p></li><li><p> Tools.writelog("debug","点击量:"+views) </p></li><li><p> rst['views'] = views </p></li><li><p> Tools.writelog('debug','title=%s,channel=%s,tag=%s'%(rst['title'],rst['channel'],rst['tag'])) </p></li><li><p> return rst </p></li><li><p></p></li><li><p>'''''</p></li><li><p>单元测试</p></li><li><p>'''</p></li><li><p>if __name__ == '__main__': </p></li><li><p> list = [ </p></li><li><p> 'http://008yx.com/xbsp/index.php/video/index/3138', </p></li><li><p> 'http://vblog.xwhb.com/index.php/video/index/4067', </p></li><li><p> 'http://demo.ccvms.bokecc.com/index.php/video/index/3968', </p></li><li><p> 'http://vlog.cnhubei.com/wuhan/20100912_56145.html', </p></li><li><p> 'http://vlog.cnhubei.com/html/js/30271.html', </p></li><li><p> 'http://www.ddvtv.com/index.php/video/index/15', </p></li><li><p> 'http://boke.2500sz.com/index.php/video/index/60605', </p></li><li><p> 'http://video.zgkqw.com/index.php/video/index/334', </p></li><li><p> 'http://yule.hitmv.com/html/joke/27041.html', </p></li><li><p> 'http://www.ddvtv.com/index.php/video/index/11', </p></li><li><p> 'http://www.zgnyyy.com/index.php/video/index/700', </p></li><li><p> 'http://www.kdianshi.com/index.php/video/index/5330', </p></li><li><p> 'http://www.aoyatv.com/index.php/video/index/127', </p></li><li><p> 'http://v.ourracing.com/html/channel2/64.html', </p></li><li><p> 'http://v.zheye.net/index.php/video/index/93', </p></li><li><p> 'http://vblog.thmz.com/index.php/video/index/7616', </p></li><li><p> 'http://kdianshi.com/index.php/video/index/5330', </p></li><li><p> 'http://tv.seeyoueveryday.com/index.php/video/index/95146', </p></li><li><p> 'http://sp.zgyangzhi.com/html/ji/2.html', </p></li><li><p> 'http://www.xjapan.cc/index.php/video/index/146', </p></li><li><p> 'http://www.jojy.cn/vod/index.php/video/index/399', </p></li><li><p> 'http://v.cyzone.cn/index.php/video/index/99', </p></li><li><p> ] </p></li><li><p></p></li><li><p> list1 = ['http://192.168.25.7:8079/vinfoant/versionasdfdf'] </p></li><li><p></p></li><li><p> infoGripper = InfoGripper() </p></li><li><p> for url in list: </p></li><li><p> infoGripper.gripinfo(url) </p></li><li><p> del infoGripper </p></li></ol><p>WEB服务及任务调度</p><p><strong>[python]</strong><br/>view plaincopy</p><ol><li><p>'''''</p></li><li><p>Created on 2010-9-15</p></li><li><p></p></li><li><p>@author: chenggong</p></li><li><p>'''</p></li><li><p># -*- coding: utf-8 -*-</p></li><li><p>import string,cgi,time </p></li><li><p>from os import curdir,sep </p></li><li><p>from BaseHTTPServer import BaseHTTPRequestHandler,HTTPServer </p></li><li><p>from InfoGripper import * </p></li><li><p>import re </p></li><li><p>import MySQLdb </p></li><li><p>import time </p></li><li><p>import threading </p></li><li><p>import urllib </p></li><li><p>import urllib2 </p></li><li><p></p></li><li><p>PORT = 8079</p></li><li><p>VERSION = 0.1</p></li><li><p>DBCHARSET = "utf8"</p></li><li><p>PARAMS = [ </p></li><li><p> 'callback', </p></li><li><p> 'sessionId', </p></li><li><p> 'retry', </p></li><li><p> 'retryInterval', </p></li><li><p> 'dbhost', </p></li><li><p> 'dbport', </p></li><li><p> 'db', </p></li><li><p> 'dbuser', </p></li><li><p> 'dbpass', </p></li><li><p> 'videoId'</p></li><li><p> ] </p></li><li><p></p></li><li><p>DBMAP = ['video_id', </p></li><li><p> 'ccsiteid', </p></li><li><p> 'ccvid', </p></li><li><p> 'desc_url', </p></li><li><p> 'site_id', </p></li><li><p> 'title', </p></li><li><p> 'post_time', </p></li><li><p> 'author', </p></li><li><p> 'elapse', </p></li><li><p> 'channel', </p></li><li><p> 'tags', </p></li><li><p> 'create_time', </p></li><li><p> 'check_time', </p></li><li><p> 'status'] </p></li><li><p></p></li><li><p>'''''</p></li><li><p>ERROR CODE定义</p></li><li><p>'''</p></li><li><p>ERR_OK = 0</p></li><li><p>ERR_PARAM = 1</p></li><li><p>ERR_HTTP_TIMEOUT = 5</p></li><li><p>ERR_HTTP_STATUS = 6</p></li><li><p>ERR_DB_CONNECT_FAIL = 8</p></li><li><p>ERR_DB_SQL_FAIL = 9</p></li><li><p>ERR_GRIPVIEW = 11</p></li><li><p>ERR_UNKNOW = 12</p></li><li><p></p></li><li><p>'''''</p></li><li><p>数据库适配器</p></li><li><p>'''</p></li><li><p>class DBAdapter(object): </p></li><li><p></p></li><li><p> def __init__(self): </p></li><li><p> self.param = {'ip':'', </p></li><li><p> 'port':0, </p></li><li><p> 'user':'', </p></li><li><p> 'pw':'', </p></li><li><p> 'db':''} </p></li><li><p> self.connect_once = False #是否连接过数据库</p></li><li><p></p></li><li><p> '''''</p></li><li><p> 创建/更新数据库连接池</p></li><li><p> '''</p></li><li><p> def connect(self,ip,port,user,pw,db): </p></li><li><p> if( ip != self.param['ip'] or</p></li><li><p> port != self.param['port'] or</p></li><li><p> user != self.param['user'] or</p></li><li><p> pw != self.param['pw'] or</p></li><li><p> db != self.param['db']): </p></li><li><p> Tools.writelog('info','更换数据库连接池,ip='+ip+',port='+port+',user='+user+',pw='+pw+',db='+db) </p></li><li><p> try: </p></li><li><p> if self.connect_once == True: #释放上次连接</p></li><li><p> self.cur.close() </p></li><li><p> self.conn.close() </p></li><li><p> self.conn=MySQLdb.connect(user=user,passwd=pw,db=db,host=ip,port=int(port)) </p></li><li><p> self.conn.set_character_set(DBCHARSET) </p></li><li><p> self.connect_once = True</p></li><li><p> self.cur=self.conn.cursor(MySQLdb.cursors.Cursor) </p></li><li><p> self.param['ip'] = ip </p></li><li><p> self.param['port'] = port </p></li><li><p> self.param['user'] = user </p></li><li><p> self.param['pw'] = pw </p></li><li><p> self.param['db'] = db </p></li><li><p> except: </p></li><li><p> Tools.writelog('error',u'数据库连接失败',True) </p></li><li><p> raise</p></li><li><p> else: </p></li><li><p> Tools.writelog('info',u'数据库连接成功') </p></li><li><p></p></li><li><p> '''''</p></li><li><p> 执行SQL语句</p></li><li><p> '''</p></li><li><p> def execute(self,sql): </p></li><li><p> Tools.writelog('debug',u'执行SQL: '+sql) </p></li><li><p> try: </p></li><li><p> self.cur.execute(sql) </p></li><li><p> except: </p></li><li><p> Tools.writelog('error',u'SQL执行错误:'+sql) </p></li><li><p> raise</p></li><li><p></p></li><li><p> '''''</p></li><li><p> 查询数据库</p></li><li><p> '''</p></li><li><p> def query(self,sql): </p></li><li><p> row = {} </p></li><li><p> self.execute(sql) </p></li><li><p> row=self.cur.fetchall() </p></li><li><p> return row </p></li><li><p></p></li><li><p> '''''</p></li><li><p> 视频错误</p></li><li><p> '''</p></li><li><p> def updateErr(self,videoId): </p></li><li><p> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </p></li><li><p> sql = "UPDATE videos SET "</p></li><li><p> sql += "check_time='" + nowtime +"',"</p></li><li><p> sql += "status=-1 "</p></li><li><p> sql += "WHERE video_id="+videoId </p></li><li><p> self.execute(sql) </p></li><li><p> self.conn.commit() </p></li><li><p></p></li><li><p> '''''</p></li><li><p> 更新查询结果</p></li><li><p> '''</p></li><li><p> def update(self,obj,videoId,isUpdateTitle=True): </p></li><li><p></p></li><li><p> Tools.writelog('debug','开始更新数据库') </p></li><li><p> try: </p></li><li><p> #更新video表</p></li><li><p> sql = "UPDATE videos SET "</p></li><li><p> if(obj['ccsiteId'] !="" ): </p></li><li><p> sql += "ccsiteid='" + obj['ccsiteId'] + "'," </p></li><li><p> if(obj['ccVid'] != "" ): </p></li><li><p> sql += "ccvid='" + obj['ccVid'] + "'," </p></li><li><p> if isUpdateTitle: </p></li><li><p> sql += "title='" + obj['title'] + "'," </p></li><li><p> sql += "post_time='" + obj['release'] + "'," </p></li><li><p> sql += "author='" + obj['user'] + "'," </p></li><li><p> sql += "channel='" + obj['channel'] + "'," </p></li><li><p> sql += "tags='" + obj['tag'] + "'," </p></li><li><p> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </p></li><li><p> sql += "check_time='" + nowtime +"',"</p></li><li><p> sql += "status=0 "</p></li><li><p> sql += "WHERE video_id="+videoId </p></li><li><p></p></li><li><p> self.execute(sql) </p></li><li><p></p></li><li><p> #更新count表</p></li><li><p> if( obj['views'] != 'error' ): </p></li><li><p> nowdate = time.strftime('%Y-%m-%d',time.localtime(time.time())) </p></li><li><p> sql = "SELECT * FROM counts WHERE "</p></li><li><p> sql += "date = '" + nowdate + "' and video_id=" + videoId </p></li><li><p> rst = self.query(sql) </p></li><li><p> if len(rst) > 0:#如果当天已有记录,则更新</p></li><li><p> sql = "UPDATE counts SET count="+obj['views'] </p></li><li><p> sql +=" WHERE video_id=" + videoId + " AND date='" + nowdate+ "'"</p></li><li><p> else:#否则插入</p></li><li><p> sql = "INSERT INTO counts VALUES"</p></li><li><p> sql += "(null," +videoId+",'"+nowdate+"',"+obj['views'] + ")"</p></li><li><p> self.execute(sql) </p></li><li>
<br>
分享标题:python中怎么实现分布式抓取网页 <br>
转载来于:<a href="http://www.zsjierui.cn/article/ijgchi.html">http://www.zsjierui.cn/article/ijgchi.html</a>
</div>
</div>
<div class="other">
<h3>其他资讯</h3>
<ul>
<li>
<a href="/article/dihpeco.html">jquery里date JQuery动画效果</a>
</li><li>
<a href="/article/dihpegd.html">Linux输完命令 linux输入命令后反应很慢</a>
</li><li>
<a href="/article/dihpegc.html">ios应用开发软件 苹果开发应用软件</a>
</li><li>
<a href="/article/dihpesj.html">jquery列表菜单 jquery下拉列表</a>
</li><li>
<a href="/article/dihpeig.html">html5目录树 html 目录列表</a>
</li> </ul>
</div>
</div>
<footer>
<div class="message">
<div class="mess container">
<p>免费获取网站建设与品牌策划方案报价</p>
<span>*主要业务范围包括:高端网站建设, 集团网站建设(网站建设网站制作)找网站建设公司就上美图齐众。</span>
<form action="">
<input type="text" class="ipt1" placeholder="联系人">
<input type="text" class="ipt2" placeholder="联系电话">
<textarea name="" id="" placeholder="内容描述:描述您的需求,如网站、微信、电商、APP等。"></textarea>
<a href="">提交需求</a>
</form>
</div>
</div>
<div class="footA">
<div class="footAs container">
<ul>
<h3>联系我们</h3>
<b>028-86922220</b>
<li>手机:13518219792</li>
<li>地址:成都市太升南路288号锦天国际A幢1002号</li>
<li class="hr1"></li>
<li>24小时服务热线:028-86922220</li>
</ul>
<ul>
<h3>网站建设服务</h3>
<li>网页设计</li>
<li>网站制作</li>
<li>网站开发</li>
</ul>
<ul>
<h3>网站推广服务</h3>
<li>营销网站建设</li>
<li>百度快速排名</li>
<li>整站网站推广</li>
</ul>
<ul>
<h3>网站运维服务</h3>
<li>基础维护</li>
<li>网站改版</li>
<li>网站维护</li>
</ul>
<ul>
<h3>FOLLOW US</h3>
<li class="hr2"></li>
<li>
<dd class="fl"><img src="/Public/Home/img/ewm.png" alt=""><p>微信二维码</p></dd>
<dd class="fr"><img src="/Public/Home/img/ewm.png" alt=""><p>微信二维码</p></dd>
</li>
</ul>
</div>
<div class="link container">
友情链接:
<a href="http://www.024fuxl.com/" title="成都酒店服定制" target="_blank">成都酒店服定制</a> <a href="http://www.cdxwcx.cn/tuoguan/jianyang.html" title="简阳电信服务器托管" target="_blank">简阳电信服务器托管</a> <a href="http://www.4006tel.net/mobile/" title="app制作" target="_blank">app制作</a> <a href="http://www.idckuai.cn/" title="网站空间" target="_blank">网站空间</a> <a href="http://www.ysfsjgs.com/" title="书籍刊物设计" target="_blank">书籍刊物设计</a> <a href="http://www.cdcxgsdb.com/" title="cdcxgsdb.com" target="_blank">cdcxgsdb.com</a> <a href="http://www.tyjike.cn/" title="图文广告设计" target="_blank">图文广告设计</a> <a href="https://www.scvps.cn/" title="主机租用" target="_blank">主机租用</a> <a href="https://www.cdcxhl.com/wangzhandingzhi.html" title="成都企业网站定制" target="_blank">成都企业网站定制</a> <a href="http://www.cxhljz.cn/app/" title="安卓开发" target="_blank">安卓开发</a> </div>
</div>
<div class="footB">
<div class="container">
<div class="fl">
Copyright © 2025 资阳站青羊区美图齐众设计工作室(个体工商户) 资阳网站建设公司-选网站建设公司美图齐众!专业的网站制作公司!
</div>
<div class="fr">
All Rights Reserved 版权所有 <a href="https://beian.miit.gov.cn/" target="_blank" rel="nofollow">蜀ICP备2025119604号-1</a>
</div>
</div>
</div>
</footer>
</body>
</html>
<script>
$(".con img").each(function(){
var src = $(this).attr("src"); //获取图片地址
var str=new RegExp("http");
var result=str.test(src);
if(result==false){
var url = "https://www.cdcxhl.com"+src; //绝对路径
$(this).attr("src",url);
}
});
window.onload=function(){
document.oncontextmenu=function(){
return false;
}
}
</script>