上一篇写了个利用爬虫挣钱的框架,这篇写细一点,我曾经做过的一个简单数据整合挣网盟收入的案例。
上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务,他的企业立家根本就是抓取企业工商信息和整合这些数据的能力,这在抓全率和准确性上要求颇高,这需要一个团队来完成才行。
我在研究这类公司流量来源时,观察到从搜索引擎来的流量不错,就在思考做一个简易版的企业工商信息查询用于获取搜索流量。
你要问:为什么已经有几个这类网站了,我还要做这个呢?
因为中国有几千万家公司,每一家公司都是一张网页的话,就有几千万张网页,从SEO(搜索引擎优化)来讲,你的网页越多,薅到的搜索流量概率就大一点,如果只是几千几万个网页,你薅到流量的概率可能是0,但是量级到千万时,你的机会就被放大了。
你还要在问:你都是抓人家的网页,搜索引擎凭什么给你排名,给你流量?
第一,已有的网站 在SEO的标题关键词设置上 还有做得更好的空间。
第二,我肯定不是全复制,会糅杂一些内容在里面。
第三,概率问题,因为有几千万个网页(这些页面内容是有价值的),足够多,有概率做到有排名和有流量的可能性。
(搜索引擎排名虽然有算法控制,我估计还写了大量的规则在控制,规则写多了有个缺陷,就是自己都搞不清楚规则间的关联性了。开玩笑的!)
就这样我就撸起袖子开始写爬虫了,大约写了四周多,因为需要拨号换IP,就买了一个歪的可以拨号的云主机,中间大部分时间都在解决这台云主机的自身限制问题,这台主机只有500M空余内存,1G多空余硬盘空间,我大部分时间都在想怎么把这几千万家工商信息html放进1G多的硬盘里,怎么把爬虫的运行内存控制在500M以内。
由于是个单台爬虫程序,把网页抓取完又用了1个多月。这中间还到国庆放假,白天就在泸沽湖晚,晚上就在房间里调试程序,fxxk,网页又改版了,账号又不能用了,程序咋又停掉了呢,当程序员就是一直陷在这种代码调试,不断口念fxxk的生活中。
这抓取的过程间隙,我找了一个前端同事写了个最简单html网站,只有5,6个页面,真的是简单。我就在想后端程序的问题,就我一个人一杆枪,还是个前途未卜的网站,不可能写个很好的后端程序,关键是数据库里有几千万条数据,要支持各种分类查询,翻页操作,于是就想办法针对这个业务本身的性质做优化,在数据库操作和缓存上做特定的方式,这样我就可以一个人搞定所有,任何查询都在几百毫秒内响应。这个借鉴了大V caoz写数据索引文章的思路。
数据抓完,网站上线,提交了搜索引擎,那个网站基本没人管,过了大半年后有小几万IP,每个月的网盟收入有几千块,现在流量和收入都还在往上涨,虽然对于公司来说算少的,但是只花了两月时间,后续没有维护,产出比还是可以的。
PS:还是强调,抓取的数据和商用数据,要合法合规,现在的尺度越来越收紧了。

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。
***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***
上一篇讲述了企查查/天眼查这类提供企业工商信息查询服务
这一篇在哪里?站长请问有什么比较好的爬虫项目练练手吗?面向就业的
我要粉楼主。公众号也关注了(^-^)V
谢谢楼主分享,已关注公众号,继续学习中
想问问大佬SEO这些商业运营知识
已关注公众号,博主文章可以给低手开一扇门
我也关注了 但是哪里有网盟广告?推荐文章就是吗??
天眼查除了账号还要打码吧,大佬是怎么来维护这个cookies池的。登陆的效率很低啊,而且验证码也要解决。翻页翻多的时候是真的头疼。
学习了,细读每一篇文章。一直不知道怎样把技术变现,学习了,谢谢。
楼主很强,看的很多 关注了公众号