活动地址:CSDN21天学习挑战赛
以下是关于Python~Urllib内置库的使用
🥧 续Python入门点击跳转到Python入门文章
🥧快,跟我一起爬起来💪
🕷🐍💀🐗🐛
🐜🐶😺🕷🐿
🦄🐆🐯🐅🐘
🐐🐐🐊🐵🐒
提示:以下是本篇文章正文内容
解释1:通过一个程序,根据Url(https://www.baidu.com/)进行爬取网页,获取有用信息
解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息
1、以浏览器的形式访问
2、部署多个应用分别抓取,降低单节点频繁访问
……
功能:
访问网页👉抓取数据👉数据存储👉数据处理👉获取数据
缺点
功能:
根据需求👉实现爬虫程序👉抓取需要的数据
设计思路
User‐Agent:
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
代理IP:
验证码:
1、打码平台
2、云打码平台
JavaScript 参与运算,返回的是js数据 并不是网页的真实数据
职业选手级别(代码混淆、动态加密方案、假数据,混淆数据等方式)
赶紧爬起来👇🕷🕷🕷🕷🕷🕷
Python库的使用方法
📰
如👇图所示爬取成功
这时ctrl+a 👉 ctrl+c 👉 ctrl+v 👉 如下所示😁
使用如下:
📰
如下图(下载保存到本地):
语法:request = urllib.request.Request()
📰演示:
如👇图(遇到了UA反爬):
解决获得UA:
方法一:🔎跳转
方法二:开发工具找如 👇 图
得UA 👉 定制 👉 再次爬取
📰演示:
如下图(爬取成功🆗):
引入 import urllib.parse
语法::urllib.parse.quote()
爬取链接:https://cn.bing.com/search?q=%E5%A4%A7%E5%8F%B8%E9%A9%AC
📰演示:
如👇图所示(我们已经爬取成功了):
url = ‘https://cn.bing.com/search?q=%E5%A4%A7%E5%8F%B8%E9%A9%AC’
但是url后面的%E5%91%A8%E6%9D%B0%E4%BC%A6(Unicode编码)让我们很难受(我们怎么才能直接把url变成 👉 url = 'https://cn.bing.com/search?q=大司马’❓)
这时就要用到编解码
📰编解码演示:
如下图所示(也是爬取成功的):
引入 import urllib.parse
语法:urllib.parse.urlencode(data)
📰演示:
如下图所示(爬取成功):
post VS get
import json
普通爬如👇:
📰演示:
如下图所示(爬取成功):
详细爬如👇:
手动处理
在开发手动捕获cookie,将其封装在headers中
应用场景:cookie没有有效时长且不是动态变化
自动处理
使用session机制
使用场景:动态变化的cookie
session对象:该对象和requests模块用法几乎一致.如果在请求的过程中产生了cookie,如果该请求使用session发起的,则cookie会被自动存储到session中
📰演示:
如下图所示(爬取成功):
本文章到这里就结束了,觉得不错的请给我专栏点点订阅,你的支持是我们更新的动力,感谢大家的支持,希望这篇文章能帮到大家
下篇文章再见ヾ( ̄▽ ̄)ByeBye