博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
百度贴吧爬虫1.0
阅读量:7011 次
发布时间:2019-06-28

本文共 712 字,大约阅读时间需要 2 分钟。

hot3.png

from urllib import requestimport re,urllibreq = request.Request('http://tieba.baidu.com/p/4425486638')with request.urlopen(req) as f:    data=f.read().decode('utf-8')      #data即为获得的网页代码imgre = re.compile(r'src=\"(.*?)\"')   #正则表达式筛选出图片链接src=" "results = imgre.findall(data)          #results为一个包含图片链接的listpicnum =0 for y in results:    if '.jpg' not in y:        continue    img = urllib.request.urlopen(y).read()    try:          f = open(str(picnum)+'.jpg','wb')          f.write(img)          picnum+=1          f.close;    except:          print('无法将图片%s写入%s' % (x, str(picnum) +'.jpg' ) )

求大神用pillow剔除掉无用的广告图片(大小在100px *100px以下),准备用beautifulsoup升级一下这个简单的爬虫。

转载于:https://my.oschina.net/Lichen123/blog/656454

你可能感兴趣的文章
linux下的静态库和动态库分析
查看>>
zabbix自动报警邮件正文变成附件问题解决
查看>>
豆瓣阿北:用户价值大于产品体验,通过产品做运营
查看>>
我的友情链接
查看>>
利用clonezilla克隆、还原CentOS整个系统
查看>>
解决127.0.0.1 localhost 劫持问题
查看>>
winscp连接虚拟机Linux被拒绝的问题解决方案
查看>>
教程-Delphi设置功能表
查看>>
Java中的多线程,线程池
查看>>
软件下载站
查看>>
Zend Studio 12 生成 WSDL
查看>>
JAVA学习心得
查看>>
【夯实Mysql基础】记一次mysql语句的优化过程
查看>>
VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback-AAAI2016 -20160422
查看>>
servlet injection analysis
查看>>
(原)centos7安装和使用greenplum4.3.12(详细版)
查看>>
Hive之 hive与hadoop的联系
查看>>
java中的==、equals()、hashCode()源码分析
查看>>
HDU 3613 Best Reward 正反两次扩展KMP
查看>>
zepto.js 源码解析
查看>>