为什么标题后面我加了一个可能性,因为这个我计划过,还没去真的实施,写用技术挣钱系列文章,还是按照以前的规矩,我实际做过和没做过的要分开说,以免误导。

稍加回顾下,我写的一系列用爬虫技术挣钱的文章,思路都是走的结构化数据这条路,整合结构化的数据后,做成网站或工具,获得流量挣广告费用或增值服务。走这条思路原因一是因为这条思路我想得比较通透,二是很省事(时),做起来后不需要每天花大把时间运营维护,他就能每月固定带来收入(获得收入的内在逻辑在这篇《挣钱系列-写独立技术博客挣被动收入》,不再阐述),这可能是技术人较为理想的一种做被动收入的方法。

之前在《把猿人学商标注册下来了》说过国内总的有效商标总数几千万件,每季度都会新增申请100多万件商标。这表示商标数据量足够多,这是结构化数据的基础。每天查询商标信息的搜索流量也非常大。

如果能把商标数据从商标网站上结构化下来,做成一个商标查询网站,同时把几千万个商标做成一个个长尾网页,并且按各种条件查询维度再新增数十万,乃至百万张tag类网页(这样做的内在逻辑在这篇《挣钱系列-独立博客如何运营流量》以及文章里的相关阅读,这里不再阐述)。每天做出几万跟商标相关的流量,这个可能性还是非常大的。

但是类似商标查询网站市面上其实也挺多的了,又怎么能够从中获得你那一份流量?

市面上类似的商标查询网站我之前分析过,大同小异,都提供一个商标搜索功能(可以按条件筛选商标)。

商标界面

他们都或多或少有缺陷,比如:
有的商标查询网站,当你点击查询时,必须先填写你的手机号码
有的点查询时,必须要先注册
新的商标信息更新不及时(这个很多都存在这个问题)
网站结构不好(没有各条件维度组合的tag页面)
第3和第4项我认为是一个机会点,尤其是第4个,如果要做搜索流量,这是很重要。

什么叫没有各条件维度组合的tag页面
因为搜索流量的大头是长尾搜索构成,我们在搜索时,除了会搜索”商标查询”,”商标注册”这些大词,更多的会搜索”xxx公司的商标”,”xxx人的商标”等等,把这类搜索词都做成一张张网页,那也是数以百万计的页面,而且也是满足用户真实搜索意图的。

如果只是想挣一些被动收入,这个网站其实不需要做很大流量,按照我们之前做泛流量挣百度网盟收入来看,因为商标相关的广告单价很高(普通广告单价的2-3倍),一个2-3W IP流量商标网站的百度网盟月收入在1.2W-2W左右。而且商标相关的商业价值较大,提供增值服务或向商标中介倒流获得的收入可能会更大。

这个技术难度不大,网站页面不需要很花哨,从之前的经验来看,使用网站模板就可以搞定。要花点功夫的是抓取并结构化千万计的商标数据,并且保持更新。

文章省略了这类网站挣流量的内在逻辑,你可以从我之前的文章中获悉。

另外给爬虫再正名一下,不是写爬虫抓数据就是违法,不是的。违法的是你在业务端上做了违法的事情,比如滥用数据,比如把公民信息数据提供给催收公司,提供给各种电话营销公司;比如把有版权保护的数据抓下来,用于自己的商业行为。

另外也跟郭嘉的整治方向有关,我们近期看到的都跟P两P有关,P两P背后的公民信息滥用很严重,大家经常调侃,我们都是在网上”裸奔”,对公民信息的保护是个大环境。为什么最近又看到一个提供信用征信的公司也在被查处呢?有的写文章又想把它归罪为爬虫之祸,认为是爬虫乱抓数据,这是不对的。是因为使用这类公民征信服务的大头都是P两P公司。

爬虫不都是用来抓灰色边沿地带数据的。实际上以通过爬虫技术结构化数据提供服务这种形式做起来好些正规的大型互联网公司。典型的比如“去哪儿网”,抓取结构化各航空公司机票数据,让用户很方便的比较/查询各时间段合适的机票。比如电商比价网站,方便用户知道每个网站相同商品的价格差异。这些都是正规的,很利于用户的事情。

OK,聊完了,对爬虫有兴趣的,或对结构化数据有兴趣的,欢迎加我私人微信,我最近打算建一个交流群(还未建),一起交流。请备注”交流”,谢谢。

爬虫挣钱系列-结构化商标信息挣被动收入的可能性

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...

  1. 1楼
    地下室先生博客 5年前 (2019-12-12)

    你好,看到您这个文章很受启发,不过我不会Python,所以在想是不是也可以用火车头这样的采集软件也可以采集这些信息呢,然后整理数据用帝国CMS实现网站。另外原谅我小白的问一下,写这样的py爬虫难度大吗

    • 回复
      王平 5年前 (2019-12-18)
      回复 @地下室先生博客 :可以呀,无论你用什么方法,内容要能满足用户需求,内容要有辨识度
  2. 2楼
    匿名 5年前 (2019-12-13)

    沙发?

    • 回复
      王平 5年前 (2019-12-18)
      回复 @ :bingo,恭喜
  3. 3楼
    Abe 5年前 (2019-12-14)

    请问,数据整理好上线是一次都发布出来提交给百度,还是说要一点一点的发布出来呢?

    • 回复
      王平 5年前 (2019-12-18)
      回复 @Abe :最好是分批来发布