90%的人都理解错了 robots.txt 跟爬虫的关系

王平 Python技术杂谈 2025-03-10 17:00:04 阅读(2415) 评论(0)

我不知道从什么时候开始，有人说 robots.txt 成了行业规则，不遵守robots.txt 抓数据就是违法之类的。

大部分人没研究过 robots.txt ，也不知道 robots.txt 的来历，今天说道说道。

robots.txt 是被谷歌制定出来，运用于想做 SEO 的网站或想被谷歌搜录的网站。后面被百度等搜索引擎采纳，也是运用于做SEO。

全世界网页每天爆炸式膨胀，每天新增网页估计都是数亿张，而搜索引擎蜘蛛程序的抓取力有限，为了节省抓取力，最好是网站在自己的 robots.txt 里写清楚新增了哪些网页（蜘蛛程序优先抓取），robots.txt 里也最好写上不要抓某些URL（这些URL是重复的链接或无效的），这样蜘蛛程序就不去抓，节省抓取力的。

如果你网站把 robots.txt 写得好，告诉搜索引擎哪些优先抓，哪些无效的链接不要去抓，让蜘蛛程序觉得你网站这方面做得好，就会奖励你，你网站排名就会在搜索引擎的结果中排名好。

就是这么一会事，就是搜索引擎公司为了商业上的考量，为了节省蜘蛛程序的抓取力，制定了一个 robots.txt 给想做搜索优化的网站用的。不知道啥时候成了行业公约，不按这个做就违法。

我的公众号：猿人学 Python 上会分享更多心得体会，敬请关注。

***版权申明:若没有特殊说明，文章皆是猿人学 yuanrenxue.con 原创，没有猿人学授权，请勿以任何形式转载。***

上一篇 >：曾经a8过的小伙伴-爬虫er100采访

下一篇 >：中专生逆袭：从2K打字员到20K的爬虫路

90%的人都理解错了 robots.txt 跟爬虫的关系

相关推荐

猿人学爬虫逆向进阶课

看守所 30 天实录-爬虫er100人

大学留级一年却出道即颠峰 ddddocr作者

从民办到大厂的JS逆向进阶之路-爬虫er100人

做猿人学6年的感悟与思考

从月薪2000到2W+的逆向大佬成长之路

说点什么吧...

热门文章

中专生逆袭：从2K打字员到20K的爬虫路

从月薪2000到2W+的逆向大佬成长之路

做猿人学6年的感悟与思考

从民办到大厂的JS逆向进阶之路-爬虫er100人

大学留级一年却出道即颠峰 ddddocr作者

看守所 30 天实录-爬虫er100人

90%的人都理解错了 robots.txt 跟爬虫的关系

相关推荐

猿人学爬虫逆向进阶课

看守所 30 天实录-爬虫er100人

大学留级一年 却出道即颠峰 ddddocr作者

从民办到大厂的JS逆向进阶之路-爬虫er100人

做猿人学6年的感悟与思考

从月薪2000到2W+的逆向大佬成长之路

说点什么吧...

热门文章

中专生逆袭：从2K打字员到20K的爬虫路

从月薪2000到2W+的逆向大佬成长之路

做猿人学6年的感悟与思考

从民办到大厂的JS逆向进阶之路-爬虫er100人

大学留级一年 却出道即颠峰 ddddocr作者

看守所 30 天实录-爬虫er100人

大学留级一年却出道即颠峰 ddddocr作者

大学留级一年却出道即颠峰 ddddocr作者