当爬虫时遇到IP和访问时间间隔限制,我们该如何处理?

  当爬虫时遇到IP和访问时间间隔限制,我们该如何处理?

当爬虫时遇到IP和访问时间间隔限制,我们该如何处理?

  爬虫和反爬虫本身就是对抗性质的,没有万能的方法,但爬取有一条是不变的,爬取的核心策略是模拟真实用户的访问,因为反爬策略不可能想把真实用户都屏蔽。

  而真实的用户:访问间隔肯定不会一秒钟很多次;用户的浏览器,可能五花八门;用户的IP地址可能遍布五湖四海;访问的时间也是有一定规律的;还有用户的浏览轨迹等等,都有一定的规律。我们要做的,就是模拟这些真实用户的访问。

  具体建议如下:

  首先尝试限制自己的爬取间隔,把自己当成普通用户,模拟普通的访问间隔。

  可以尝试修改自己的UserAgent,找一批常用浏览器的UseAgent列表,按一定策略从中选择。

  最后,也是重点:用ip代理,代理分很多种,有透明代理、匿名代理、高匿代理等,用高匿代理,前两种还是会暴露自己。网上很多免费的代理,但免费代理基本上全军覆没。那就买代理,现在很多代理池都很便宜,大多数都提供试用。试用后,根据稳定性选择购买即可。比如番茄加速就可以免费试用。

  代理很好用,但也不要全部依赖于代理,其他方面处理不好,代理也会很快被封。要从各个角度综合考虑,否则买来的代理,也不能充分发挥它的潜力。