王平

从技术开发到产品运营两手抓，两手都不硬的互联网从业者...

Python爬虫

爬虫技术不只是用来抓数据

写爬虫抓数据只是爬虫技术的应用方向之一，一个公司可以靠着爬虫技术引来倍增的流量/用户，完成关键的冷启动，还能用来打败对手；...

王平 8年前 (2019-01-07) 阅读(8837) 评论(2)
Python Selenium教程

Python Selenium如何定位元素

上一篇文章我们写了一个简单的演示程序，完整演示了如何打开浏览器，访问网页，点击链接，向输入框输入文字。点击链接和输入框我们...

王平 8年前 (2019-01-05) 阅读(12249) 评论(2)
Python爬虫

网络爬虫小偏方：robots.txt快速抓取网站的小窍门

在我抓取网站遇到瓶颈，想剑走偏锋去解决时，常常会先去看下该网站的robots.txt文件，有时会给你打开另一扇抓取之门。写爬虫有很多...

王平 8年前 (2019-01-03) 阅读(10736) 评论(4)
Python技术杂谈

Python做浮点数(float)运算要小心

这个话题可以起几个标题，比如：为什么 8.5 – 8.4 不等于 0.1；怎么来证明计算机是傻X我们先来做个计算题：7.3 – 7....

王平 8年前 (2018-12-27) 阅读(13370) 评论(0)
Python技术杂谈

扯个淡：用Python实现中文编程

既然是扯淡，就不要当真。所谓“中文编程”就是用中文写写代码，不管你看着累不累，我写着就得累死～“中文编程”由来已久，不知道你...

王平 8年前 (2018-12-27) 阅读(4228) 评论(0)
Python Selenium教程

Python Selenium的简单演示程序

前面几篇介绍了下Selenium干什么用的，怎么安装Selenium和WebDriver，这篇就来个简单演示程序让它run起来，看代码领会精神是比较直...

王平 8年前 (2018-12-26) 阅读(12095) 评论(2)
Python Selenium教程

Python Selenium安装下载

本篇讲解Python Selenium如何安装，下载。本篇已假定你已经熟悉Python，并且已安装好Python和pip。本篇及以后篇幅所讲代码都调试...

王平 8年前 (2018-12-25) 阅读(9832) 评论(0)
Python爬虫

再续：网络爬虫的法律边界和数据风险

上一篇《网络爬虫的法律边界》引起了讨论和争议，不少朋友问我，本篇试着再阐述一下。一些缘由和细节可以看上文，本篇接着上文说。...

王平 8年前 (2018-12-24) 阅读(8410) 评论(0)
Python Selenium教程

Python Selenium简介

我们常常用Selenium来抓取数据，因为可以驱动浏览器，这样节省了我们很多的时间，但其实Selnium的主要功能其实不是用来写爬虫的，所...

王平 8年前 (2018-12-21) 阅读(9748) 评论(2)
Python爬虫

写网络爬虫的法律边界

来交代一下，你抓了多少数据，在哪抓的，干什么用了，看够在里面待几年。从去年开始我看到好几起因为抓取数据而遭遇诉讼，有的锒铛...

王平 8年前 (2018-12-20) 阅读(17103) 评论(4)
Python爬虫

搞定某APP的TCP抓包，并直接调用so文件进行Hook抓取

APP抓包比较繁琐，尤其是对方优先走socket，发TCP包，而不是走应用层发http/https协议。这种抓包更烦躁，绝大部分利用中间人攻击原...

王平 8年前 (2018-12-19) 阅读(15778) 评论(0)
Python技术杂谈

Python requests作者Kenneth Reitz是一个什么样的人

Kenneth Reitz 大名鼎鼎Python requests库的作者，pypi统计全球requests库的下载量超过3亿次，据他好友调戏，如果每人为下载reqeust...

王平 8年前 (2018-12-19) 阅读(16410) 评论(0)
Python技术杂谈

Web Scraper如何翻页

前情提要：前面两篇老猿简单给Web Scraper配置了一个可以抓取时光网电影热度排名的sitemap和讲解了Web Scraper的运行原理，算是普及...

王平 8年前 (2018-12-14) 阅读(10352) 评论(2)
Python技术杂谈

Web Scraper工作原理

上一篇老猿配置了一个简单的Sitemap让它运行起来，看官们跟着操作一遍，不知道对Web Scraper有没有一个整体的认知和印象。本篇我们...

王平 8年前 (2018-12-13) 阅读(7563) 评论(0)
Python技术杂谈

Web Scraper简单配置方法

上一节主要介绍了怎样安装Web Scraper和它的优缺点。这篇老猿来说下Web Scraper的工作原理和配置方法。还不太了解Web Scraper是什...

王平 8年前 (2018-12-12) 阅读(7439) 评论(0)
Python技术杂谈

Web Scraper教程

Web Scraper分为chrome插件和云服务两种形态，云服务是收费的，chrome插件是免费的，我们这篇教程说的就是chrome插件这种。Web Scr...

王平 8年前 (2018-12-11) 阅读(17351) 评论(2)
Python爬虫挣钱

他靠讲爬虫微课挣了一笔-但不讲爬虫技术

之前老猿说个一句话，技术不可怕就怕技术懂运营；网上也流传一句话：完事具备，只差一个程序员来帮我实现了。结合这两句话，老猿想...

王平 8年前 (2018-12-10) 阅读(10636) 评论(5)
Python爬虫

Python爬虫怎么入门-初级篇

经常有同学问老猿Python爬虫该怎么入门，不知道从何学起，网上的文章写了一大堆要掌握的知识，让人更加迷惑。我也浏览了下网上关于...

王平 8年前 (2018-12-10) 阅读(6820) 评论(3)
Python爬虫

Python 爬虫网页内容提取工具xpath(二)

前面几节，我们讲述了操作html文档的相关知识，接下来我们就以猿人学首页的内容提取为例，用实例展示lxml和xpath提取网页数据的魅力...

王平 8年前 (2018-12-08) 阅读(6538) 评论(0)
Python爬虫

网络爬虫小偏方：修改referer绕开登录和访问频率限制

小猿看官们在写爬虫程序时应该都会遇到如下问题：你的爬虫程序开发时能正常抓取网页，但是正式大量抓取时，抓取的网站总是返回403...

王平 8年前 (2018-12-07) 阅读(14102) 评论(2)

点击加载更多