进了蜜罐被按头-爬虫er100人采访

Python技术杂谈 2025-03-10 16:09:26 阅读(496) 评论(0)

进了蜜罐被按头-爬虫er100人采访

前天写了一篇小伙伴被关了30天的感受文章,当晚就有另外小伙伴主动找我,也想接受采访一下,说说他被按头的经历。

他的心态很好,他说把事情说出来,是想给大家借鉴避坑。谢谢您勒。

还是一问一答的形式,我还是会隐去部分敏感对话,和做一些演绎。

我:咱们还是先说说你这个事情的经过哈?

他:就是去年吧,在某个公众号的交流群里,有一个哥们儿问谁有能爬XX网站的代码,然后我看见了,就加了他。然后他问我你有没有成品,我说我没有,我说应该可以研究出来。

然后他就给了我一篇知乎的帖子,帖子里面的代码不能用,我研究了一下那个帖子里的代码,发现是域名变化了,我就改了下域名就可以用了,就发给他了,然后他就给了我 600 的红包。

然后这个事情就完了,没想到过了几个月就有叔叔来找我,说是非法获取数据,把我带到局里去了,当天晚上就取保出来了,交了几千元钱,。

那篇帖子,我后面又研究了下,是5年前的帖子,到现在居然还能用。我怀疑是故意留下的蜜罐。

我:嗯,这种大公司,5年前的接口,到现在代码不改还能用,确实不寻常。

他:是呀,大写的无语。

我:你知道是怎么出事的吗?

他:开始不知道。我后面才晓得,给我发红包那个人搞了个软件,采集那个网站数据,然后卖会员,他挣了有几万块钱。

我:这个数据是那个网站的最核心价值,他们肯定会想各种办法保护和打击。还有开发软件去卖数据,是非常非常危险的事情。各种证据都是明牌的。

我了解的出事情的,基本都是下游不当使用数据引发的。

我:是他把你供出来的吗?

他:不是。是叔叔看他聊天记录发现的。

我:他也很快取保了吗?

他:是的。他也是当天就取保了,他被按头3个月后,我才被叔叔按头的。

我:你俩被按的时间跨度有点长。那你怪他吗?

他:没有。平哥,我是很随和的人,事情发生了就坦然接受,抱怨也没用。我还是相信采集数据会有合规的那一天。

我:哈哈哈,你的心真宽。你能说说叔叔那天找你的具体情况吗?

他:就是那天我在家里,听到有人敲门,说是人口普查,我出去看就有几个叔叔在门口。问我工作是做什么的,然后就问我去年那件事情,我都回答了。然后就把我电脑还有人带到局子里去了。

去了局子里后,就采集信息,拍马甲照,还抽指尖血,然后录口供。

我:有给你上铐子吗?

他:快到局子门口才戴的,叔叔说你家人在家里,就没铐。这点我还是给叔叔点赞的。

我:嗯,那还挺好的。

我:都问了你什么问题呀?

他:就是让我把事情经过又说了一遍。然后就跟我聊家常,问我这边冷不冷,叔叔是从别的城市过来的。后来我要去叔叔那个城市出差,给叔叔打电话报备,叔叔还说你来都来了,那就再过来录份口供吧。

我:那你当时心情是怎样的呢?

他:心情到没什么变化,该怎么配合就配合,我向来心情都很平和。做笔录的时候,叔叔说你得在这待几天了,我们需要回去调查。我说行,听叔叔的,怎么安排都行。结果当天晚上就给我取保了。

我:你没想到当天晚上能出来?

他:没有,我不知道流程,我以为抓走了就抓走了,哈哈哈。

我:你心真大

他:想那么多干什么,命里有时终须有,命里无时莫强求。

其实录口供的过程中,叔叔也在开导我,说以前他们抓到一个搞某电商网站的收货地址,后面被抓,出来后又找了个月薪很高的公司接着干爬虫。哈哈哈。

我:叔叔挺开明的。你有问过叔叔,用鼠标复制黏贴数据犯法吗?

他:这到没有,不过我能通过交谈隐约感受到叔叔的,小无奈吧。就是叔叔可能也觉得,这个事有些模棱两可,他们办过那么多案子。

这些互联网公司挺无赖的。

我:是的。这些公司一方面自己大量爬取数据,另一方面又利用法律条文又来打击别人。完全是双标。

我:你这事的处理结果是什么样的呢?

他:问了两律师,都是不起诉的可能性大。

有个律师说爬虫这个问题上面已经注意到了,正在提议,非法获取数据/破坏计算机系统,本身立意是打击黑客的,现在适用到爬虫了。

我:那真希望能给爬虫行为界定清楚边界。口袋罪,太宽泛了。大公司垄断数据,又借法律打压别人,自己却到处采集数据。这又赶上大模型时代,太需要数据了,如果不采集数据,这些大模型怎么办呢,我们怎么去跟国外的竞争呀?

到此对话结束。

进了蜜罐被按头-爬虫er100人采访

对于爬虫采集行为,我想说几句:

  1. 大部分出事情,都是由数据使用不当引发的。不要去做卖接口和开发软件卖数据的事情。
  2. 不要去搞外挂,抢购/抢票/抢号获利,伤害到对方利益的行为。
  3. 不要去搞刷流量/刷热榜/刷排名/刷粉丝等操纵,这是明确发文打击的行为。
  4. 不要去搞隐私和版权数据。

当你不确定的时候,我的一个方法是:这件事是否会损害对方的利益;是否会妨碍到对方的经营;是否会让对方难受(难堪)。

另外:

以前建了一个 采集数据风险判断 的交流群,感兴趣的,可以加我微信:dismissmewp1 进,备注:合规

猿人学banner宣传图

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。

***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***

说点什么吧...