学习视频链接:
https://www.bilibili.com/video/BV1gu411X7P6?p=18&vd_source=b425cf6a88c74ab02b3939ca66be1c0d
输入别的搜索词时,url栏query值变为输入内容,可发现通过改变query值查询不同内容
网站检测到发出请求的不是正常的浏览器,所以不给数据
看一下自己手动发送的这个请求中的user-agent是啥
放到代码里
否则默认的用户信息是:
可以发现,此时的参数并没有放在url上面
参数往往是在form data里面
要把post的url全盘复制过来,不管后面都跟着些什么符号
返回获取的json数据
下面对json数据进行解码:
用resp.text是返回的字符串,用resp.json返回的是字典,可以从里面一层一层地拿数据
发现数据是从这个url加载出来的
在headers中找到这个url的名字,?前是这个普通url的名字,?后是参数
参数:
可以与上面的一一对应
因为是get请求,所以参数都会拼到url里面
可以通过代码print(resp.request.url)来查看
提取出所需要的数据
发现要爬取的信息就在源代码中,所以通过requests.get().text拿到的页面源代码里面含有这些数据