我不知道从什么时候开始,有人说 robots.txt 成了行业规则,不遵守robots.txt 抓数据就是违法之类的。
大部分人没研究过 robots.txt ,也不知道 robots.txt 的来历,今天说道说道。
robots.txt 是被谷歌制定出来,运用于想做 SEO 的网站或想被谷歌搜录的网站。后面被百度等搜索引擎采纳,也是运用于做SEO。
全世界网页每天爆炸式膨胀,每天新增网页估计都是数亿张,而搜索引擎蜘蛛程序的抓取力有限,为了节省抓取力,最好是网站在自己的 robots.txt 里写清楚新增了哪些网页(蜘蛛程序优先抓取),robots.txt 里也最好写上不要抓某些URL(这些URL是重复的链接或无效的),这样蜘蛛程序就不去抓,节省抓取力的。
如果你网站把 robots.txt 写得好,告诉搜索引擎哪些优先抓,哪些无效的链接不要去抓,让蜘蛛程序觉得你网站这方面做得好,就会奖励你,你网站排名就会在搜索引擎的结果中排名好。
就是这么一会事,就是搜索引擎公司为了商业上的考量,为了节省蜘蛛程序的抓取力,制定了一个 robots.txt 给想做搜索优化的网站用的。不知道啥时候成了行业公约,不按这个做就违法。

我的公众号:猿人学 Python 上会分享更多心得体会,敬请关注。
***版权申明:若没有特殊说明,文章皆是猿人学 yuanrenxue.con 原创,没有猿人学授权,请勿以任何形式转载。***
说点什么吧...