高级深入--day35

来自于Scrapy官方文档描述：Common Practices — Scrapy 2.11.0 documentation

动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）
禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）
- 可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭
设置延迟下载（防止访问过于频繁，设置为 2秒或更高）
Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。
使用IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。
使用 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。
```
  DOWNLOADER_MIDDLEWARES = {
      's
```

相关阅读:
MySQL8.0安装教程，在Linux环境安装MySQL8.0教程，最新教程超详细
Hive基本查询语句
【Postman】无法在脚本中获取本地文件
【Linux驱动开发】设备树详解（三）设备树Kernel解析
啃下大骨头——排序（一）
c++类和对象（二）六个默认成员函数。
月报总结｜Moonbeam 8月份大事一览
国庆day6---学过的汇编指令整合
leetcode题目分析(一)leetcode155最小栈
fast guide filter原理详解

原文地址：https://blog.csdn.net/qq_41813416/article/details/133911602