百度贴吧爬虫1.0-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

百度贴吧爬虫1.0

阅读量：7011 次

发布时间：2019-06-28

本文共 712 字，大约阅读时间需要 2 分钟。

from urllib import requestimport re,urllibreq = request.Request('http://tieba.baidu.com/p/4425486638')with request.urlopen(req) as f:    data=f.read().decode('utf-8')      #data即为获得的网页代码imgre = re.compile(r'src=\"(.*?)\"')   #正则表达式筛选出图片链接src=" "results = imgre.findall(data)          #results为一个包含图片链接的listpicnum =0 for y in results:    if '.jpg' not in y:        continue    img = urllib.request.urlopen(y).read()    try:          f = open(str(picnum)+'.jpg','wb')          f.write(img)          picnum+=1          f.close;    except:          print('无法将图片%s写入%s' % (x, str(picnum) +'.jpg' ) )

求大神用pillow剔除掉无用的广告图片（大小在100px *100px以下），准备用beautifulsoup升级一下这个简单的爬虫。

转载于:https://my.oschina.net/Lichen123/blog/656454

你可能感兴趣的文章

linux下的静态库和动态库分析

zabbix自动报警邮件正文变成附件问题解决

豆瓣阿北：用户价值大于产品体验，通过产品做运营

我的友情链接

利用clonezilla克隆、还原CentOS整个系统

解决127.0.0.1 localhost 劫持问题

winscp连接虚拟机Linux被拒绝的问题解决方案

教程-Delphi设置功能表

Java中的多线程，线程池

软件下载站

Zend Studio 12 生成 WSDL

JAVA学习心得

【夯实Mysql基础】记一次mysql语句的优化过程

VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback-AAAI2016 -20160422

servlet injection analysis

(原)centos7安装和使用greenplum4.3.12(详细版)

Hive之 hive与hadoop的联系

java中的==、equals()、hashCode()源码分析

HDU 3613 Best Reward 正反两次扩展KMP

zepto.js 源码解析

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-06 03:10:28 当前IP: 3.17.76.21 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我