开年第一篇以挣钱话题开篇,祝朋友们19年都能开拓自己的被动收入渠道。本来想写个跟情人节相关的文章,写了又删,又写又删,觉得没啥意义,所以还是写Python技术和Python爬虫挣钱的文章吧。
看过我过往文章的老朋友知道我的一个写作方向是爬虫挣钱系列,今年会持续输出。文章里说的事例有的是我亲身实践过,比如接爬虫外包项目,比如数据整合做网站流量,挣百度网盟,比如爬虫技术去做增长黑客。有的事例是我基于上述经验而思索的方向,没有亲自实践。
今天这篇是我亲自实践过,每年能带来近10万被动收入的数据整合机会—结构化人名。
什么叫结构化人名:
这个世界上有很多名人,红人,企业高管,各行业,各垂直领域,有很多很多。只要有一点名气就会有人在搜索引擎上输入你的名字,检索你的信息。每天这些搜索流量是高得可怕。
但是这些流量大头都被百度百科截获了,比如娱乐,体育,企业高管这些名人。
上图是一些名人每天在百度中的被搜索量,都是几千-几万的搜索量。
这些人都在百度百科里有词条了,那我们还有机会吗?
有,其实还有很多很多小名人,他们是没有百度百科的,用户在百度上搜索这些人名,只能在很多张网页中看到他们的只言片语, 他们的信息都散落在各个网页里,需要使用技术手段把这些人物结构化出来,把他们的发言,简介等个人相关信息结构化出来做成一张张网页。
哪些人物还有这种结构化机会?
大公司的基中层管理者,网络小V(相对于大V来说),小公司的高级管理者,垂直领域的知名者。举几个例子:
吴翰清,你知道是谁吗?
他是阿里云首席科学家,人称道哥,他是没有百度百科的。看看他的百度指数:
每天1000多人搜索。
比如曹政,网络名caoz,知名网络大V,他也是没有百度百科的。他没有百度指数,但是从我的流量统计数据看,每天也有上百人搜索他。
上图是我的百度统计的搜索词流量的部分截图,你可以看到还有好些人名,他们都是各个领域的小有名气者。每天都有人在百度上搜索他们的名字。
PS:曹政的公众号:caoz ,的文章干货满满,很能开拓运营视野和知识边界。
结构化这些人名之后干什么?
做成网站,做成一个页面简单的人物介绍网站,一个人物一张网页,网页里是这个人物的个人介绍相关内容(这些是靠技术结构化出来的)。以便于被百度搜录,让网站有搜索流量进入,每天挣百度网盟费。
这是在做垃圾网站吗?
No. 用户搜索这些人名是想了解他们的信息,而这些信息之前都是散落在不同地方的,用户在搜索引擎里要一张张网页点击寻找,查阅是很繁琐的,你把这些信息聚合在一起一次性展示给用户,是节约用户时间,搜索引擎也是很欢迎这样做的。
涉及到的知识?
爬虫技术,数据结构化,自然语言处理,Web知识,简单网站运营技巧。
这是考验你各方面抓取能力的,你需要写一个不错的爬虫程序去大量抓取网页;
你需要运用各种手段(正则,bs,xpath等)去抽取千奇百怪的网页格式数据;
还需要一点自然语言处理技术来提高结构化的准确度和效率。
无论是自己搭建简易网站还是使用wp等博客系统,都需要对Web知识和网站运营有一点了解。
如何抓取?
抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。
要结构化多大量的人名?
你需要大量结构化至少数十万条人名才能每天有过万的流量,这个没办法靠人工,一个一个去网页上找然后整理编辑,因为这些人名的每天搜索量很小,靠人工每天去编辑几十条,要到猴年马月去了。我结构化了大约10万个人名,每天有4万IP左右,IP对应的百度网盟收入是:100:1的关系。
为什么我要说这些?
1.我写的结合爬虫挣钱系列文章是一种思路,需要同时俱备不错的技术能力和流量运营思维。有这个技术的人可能不懂得如何运营,有这个流量视野的人可能技术上不行。
2.筑巢引凤,我领悟到了这里面的流量机会,如果能把人名结构化规模扩大到百万级,每年的网盟收入就会有数百万。
如果你有大量人物资料这方面的合法资源、渠道、点子,技术实力,私聊我,我们一起挣钱钱。
PS:不要问以下两个问题:
1.你的网站是哪个?
2.能不能把代码贡献出来?
我又出点子,又给代码,有这么好的躺挣机会请给我也来一打。
爬虫挣钱系列拓展阅读:
个人利用Python爬虫技术怎么挣钱
利用爬虫挣钱系列2-细说数据整合
他靠讲爬虫微课挣了一笔-但不讲爬虫技术

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。
***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***
正如作者所言,人物信息都是从各个页面获取的,那是如何用一个程序去处理这么多的页面的,还是说就通过正则去匹配关键字,然后去获取内容
感谢作者的无私分享,果然是从不缺少挣钱的机会,只缺少挣钱的头脑啊。学无止境,受教了!!
程序员一般都想不到怎么把技术变现,你的思路非常棒,感谢分享
谢谢作者一系列的文章,给我打开了一个崭新的世界啊。前面有读者提问关于如何抓取处理网页内容,我还想进一步询问一下。
1.我们假设目标人物名字是小明和小红。小明是一个大学生,相关的信息从网页A, B, C上面可以得到,小红是个中学生,相关信息是从网页B, C, D上面获取。这样的话,把网页抓回来了以后,针对不同网页采用不同的分析办法,那么A, B, C, D岂不是各要写一个分析逻辑?如果量越来越大的话,那么分析逻辑岂不是需要很多种?因为你之前的文章也有说过,如果自动抓取的成本大于人工抓取的成本,这套做法就不合适了。我现在对这个有点没有想明白。多谢指导。(小白问题,实在不好意思)
和我以前的想法类似,只要有了数据,稍微有点影响力,就可以做另外一个块儿的业务,那就是艺术类假大师的挂名。以前要捧伪大师,都是靠报刊杂志,现在互联网上的一条信息,一个专栏页,就可以了。 不过这个,需要将原先书籍上的内容 给抄过来,用图片识别也可以,是个辛苦活。呵呵。
现在建站真的还能赚到钱吗
能不能做到类似维基百科那样,通过众创的方式将这些人名的信息收集起来,当然要通过一定的核实后,毕竟个人力量有限
学会了技术,去哪找活也是关键呀?
公开他人个人信息算不算有问题
亲,话说关键词查询用什么查啊