Python爬虫
从零教你写一个大规模异步Python爬虫,适合刚学习python爬虫的小猿们,第一篇文章建议从为什么写Python爬虫教程看起。你还可以在我们的订阅号:猿人学,上获得更多有深度的文章。
-
如何抽取上千家新闻网站正文
前一段时间,因公司需求需要爬取大量的新闻网站(2000多个新闻网址),做过爬虫的小伙伴们,当听到这个需求的时候,内心估计早已翻...5年前 (2020-03-31) 阅读(37737) 评论(0) -
写爬虫是不违法的,违法的是你用数据干了非法的事
这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了...6年前 (2019-11-01) 阅读(15892) 评论(0) -
反爬虫的四种常见方式-JS逆向方法论
现在的网页代码搞得越来越复杂,除了使用vue等前端框架让开发变得容易外,主要就是为了防爬虫,所以写爬虫下的功夫就越来越多。攻和...6年前 (2019-08-19) 阅读(22367) 评论(1) -
写爬虫,免不了要研究JavaScript设置cookies的问题
网页端抓数据免不了要跟JavaScript打交道,尤其是JS代码有混淆,对cookie做了手脚。找到cookie生成的地方要费一点时间。那天碰到这...6年前 (2019-07-11) 阅读(13838) 评论(1) -
Python lxml :从网页HTML/XML提取数据
Python 的 lxml 模块是一个非常好用且性能高的HTML、XML解析工具,通过它解析网页,爬虫就可以轻松的从网页中提取想要的数据。lxml...6年前 (2019-07-04) 阅读(13439) 评论(0) -
写爬虫时常见的五种字符串编码特征
今天偷个懒写篇总结性的文章,我们在写爬虫,对网络抓包或逆向一些token参数时常常遇到一长串的字符,看到一长串不知其意义的字符串...6年前 (2019-07-02) 阅读(8853) 评论(0) -
大规模爬虫为什么要管理DNS缓存
10年前学爬虫看的第一个开源爬虫叫Larbin ,一个法国程序员用c++开发的,那时用Larbin简单配置一下,因为它能自动遍历抓取,一天几...6年前 (2019-06-20) 阅读(8090) 评论(0) -
大规模异步新闻爬虫的分布式实现
前面我们讲了《大规模异步新闻爬虫的实现思路》,在文章最后提到了把它升级为分布式的思路。今天,我们就来详细实现一下,把它真正...6年前 (2019-06-10) 阅读(10042) 评论(2) -
大规模异步新闻爬虫的实现思路
我们知道,异步IO(asyncio)非常适合使用在网络请求的场景,也就是说它很适合在爬虫中应用。但是,如果我们只是特定抓取某一个网...6年前 (2019-05-20) 阅读(7123) 评论(0) -
让爬虫无障碍抓取上千万APP数据
爬虫论抓取难度,一是抓取对内容有加密的,难度很大,尤其是在app端的内容加密。有的可能需要逆向app。二是抓取必须要登陆后才能看...6年前 (2019-05-16) 阅读(11969) 评论(0) -
逆向js代码加密,代码混淆不是难事
爬虫解析网页数据时,最棘手的问题莫过于关键数据被加密,被混淆。加大了解析难度,常见的诸如登陆密码,token等被混淆成了一个长长...6年前 (2019-05-12) 阅读(13955) 评论(0) -
如何让Python爬虫一天抓取100万张网页
前一两年抓过某工商信息网站,几三周时间大约抓了过千万多万张页面。那时由于公司没啥经费,报销又拖得很久,不想花钱在很多机器和...6年前 (2019-05-08) 阅读(86096) 评论(14) -
robots.txt里的有趣事
之前在爬虫小偏方系列文章之《robots.txt快速抓取网站的小窍门》 这篇文章里分享了通过robots.txt文件来抓取网站每天新增URL的小偏...6年前 (2019-01-09) 阅读(7618) 评论(0) -
爬虫技术不只是用来抓数据
写爬虫抓数据只是爬虫技术的应用方向之一,一个公司可以靠着爬虫技术引来倍增的流量/用户, 完成关键的冷启动,还能用来打败对手;...6年前 (2019-01-07) 阅读(7944) 评论(2) -
不要相信requests编码后返回的text
Python的requests库是一个非常好用的库,这应该已经是大多写过爬虫的人的共识了。它的简洁易用给我们带来很大方便。然而,它也并不...6年前 (2019-01-05) 阅读(5572) 评论(1) -
网络爬虫小偏方:robots.txt快速抓取网站的小窍门
在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门。写爬虫有很多...6年前 (2019-01-03) 阅读(9724) 评论(4) -
再续:网络爬虫的法律边界和数据风险
上一篇《网络爬虫的法律边界》引起了讨论和争议,不少朋友问我,本篇试着再阐述一下。一些缘由和细节可以看上文,本篇接着上文说。...6年前 (2018-12-24) 阅读(7879) 评论(0) -
写网络爬虫的法律边界
来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年。从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛...6年前 (2018-12-20) 阅读(16079) 评论(4) -
搞定某APP的TCP抓包,并直接调用so文件进行Hook抓取
APP抓包比较繁琐,尤其是对方优先走socket,发TCP包,而不是走应用层发http/https协议。这种抓包更烦躁,绝大部分利用中间人攻击原...6年前 (2018-12-19) 阅读(14681) 评论(0) -
Python爬虫怎么入门-初级篇
经常有同学问老猿Python爬虫该怎么入门,不知道从何学起,网上的文章写了一大堆要掌握的知识,让人更加迷惑。我也浏览了下网上关于...6年前 (2018-12-10) 阅读(5985) 评论(3)