爬虫挣钱系列-(完结篇)结构化人名挣钱第三篇

Python爬虫挣钱 2019-02-18 23:59:37 阅读(79615) 评论(2)

本篇是写利用爬虫技术来结构化人物做网站挣网盟收入的第三篇,也是完结篇,这篇主要写我是怎么思考的,是如何分析到这个领域的, 我会再举一个我思考过的实例。

Python爬虫挣钱思路总结

如果你是第一次看Python爬虫挣钱系列文章,请先阅读文末最下面的拓展阅读,了解背景知识。

结构化人名的搜索流量有这么大吗?

Yes. 非常大,Linkedin大家应该都知道吧,美国一个职业社交网站,简单理解就是个人简历/职业信息网站。我曾经看到Linkedin做增长黑客的一篇报道。

linkedin增长黑客报道

里面提到了Linkedin为了增加搜索流量,把用户的个人档案页面开放给搜索引擎索引,此举让Linkedin搜索流量倍增,让我明白了人名这一块的搜索流量原来如此大, 这么多人搜索。在这之前我的认知是只有明星,大人物才会有人在网上搜索,其实小人物(相对的),公司小领导,乃至平常百姓都会有人在网上搜索。

linkedin流量统计

上图是Linkedin一个月的访问量是10亿,换算成每天是3千万。

linkedin搜索流量统计

上图是Linkedin的流量来源占比,搜索流量占23.7%,可以想象这个流量有多么巨大。

由此我花了很多时间去研究这块流量的挣钱机会,发现还有很多人物是没有百度百科,linkedin的(如果百度百科或linkedin上已经有这些人物了,你做同样的人物有搜索排名的概率很小),他们的信息都零星散落在一些新闻报道,人物采访,会议的嘉宾介绍上,需要利用爬虫手段把这些网页全部抓回来存储好,然后研究使用各种文本结构化技术来提取相关跟人物相关的信息。(这个过程很痛苦,没毅力的就算了)。

这让我结构化了小十万人名,网站流量做到小四万,每年10万左右的网盟收入。

举个结构化人名的例子:

之前疫苗问题的长春生物董事长:高-俊-芳,我之前也不知道这么个人,也不知道什么时候结构化她的信息,事情发生第二天早上我例行查看网站流量,发现流量异常的高,都是在搜索她的名字。那天她的流量超过2万,那天中午才有人在百度百科编辑上她的百科信息。

百度统计里特定流量

再说一个结构化人名的机会

这个我没有实践过,是分析的时候曾经想过。我把视角一直放在国内,一直在结构化国内的人名,在中国有这种搜索行为,在国外也会有这种搜索人名的行为。为何不去做一个英语网站,关于人物介绍的英语网站呢?寻找还没有维基百科的人物。而且英语比中文的文本处理要容易,至少不需要中文分词,英语单词间都是空格隔开的。

还有就是挣google adsense(类似百度网盟),挣的是美金,美金跟人名币是1:6.7的关系,也就是同样情况下,你在国内百度网盟一年挣10万RMB,做google是10万美刀(合67万人民币),有想法的可以深入研究下这块的人名机会。

需要运用到的技术

1.不错的爬虫抓取技术(抓网页,抓微博,抓微信公众号)

2.不错的文本结构化技术

对中文做文本处理,懂点自然语言处理(nlp)是必须的。

3.Web开发技术

无论是自己写网站还是使用开源博客系统,至少要懂得怎么配置nginx(web服务器),linux,mysql,python(或php)

4.搜索引擎优化技巧

各大搜索引擎都提供官方的优化指南,理解并按照官方规则实施即可,其实我没有过度关注搜索优化,因为你提供了搜索引擎缺失的内容,它是喜欢的,你需要有耐心等待有搜索排名的那一刻。

整合数据做网站挣搜索流量的思考

1.结构化人名只是整合数据的一个方向之一,而且是比较累的,相信还有其他领域是有这个机会的,只是我的视野还没有看到。整合数据做网站不是做垃圾网站,不是做拷贝复制网站,是要找到搜索引擎还缺失的内容,去弥补这块内容,你的网站满足了搜索引擎,它自然会给你的网站有搜索排名。

典型的如企业工商信息查询,官方一直是有企业工商信息网站的,但是信息很分散,另一个就是搜索引擎爬虫很难爬取这类官方网站,这给了天眼查/企查查机会,把企业工商信息全部结构化出来很方便用户查阅,每天的搜索流量几十万。

2.结构化的规模一定要大才有机会,因为这些的每一个搜索量都非常小,只有结构化足够规模才能积少成多。

完结

利用爬虫抓取网页,结构化人名做网站挣网盟收入三篇完结,再次祝关注猿人学Python的新老朋友猪年找到挣被动收入的方向。

拓展阅读

1.爬虫挣钱系列:数据整合之–结构化人名的机会

2.爬虫挣钱系列-再续利用爬虫技术结构化人名的机会

3.说点俗的–如何利用Python爬虫技术挣钱

4.利用爬虫挣钱系列2-细说数据整合

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    匿名 5年前 (2019-04-23)

    写的很好,学习了

  2. 2楼
    it猫之家 5年前 (2019-11-14)

    思路挺不错的,程序员之间就应该相互探讨交流一些心得,这样反而更利于自身能力提升