网站数据来源:网站对应的网页,手机app
浏览器伪装
登录反爬(必须登录才能看到数据)
代理ip
requests 本来是python获取网络数据的第三方库,基于http或者https协议的网络请求
爬虫使用requests的两个场景:直接请求网站地址、对提供网页的数据接口发送请求
1.1 对目标网页直接发送请求:
requests.get(网页地址)-- 获取指定页面的数据返回一个响应对象
1.2 获取响应的状态码
response.status_code
1.3 获取响应头
requests.headers
1.4 读取内容
方式一 response.content 二进制类型的数据(图片视频音频等)
方式二 response.text 字符串类型的数据(网页)
方式三 response.json() 对请求内容做完JSON解析后的数据()
1.5 示例
import requests
response=requests.get('https://cd.zu.ke.com/zufang')
print(response) # 200--请求成功
if response.status_code==200:
print('请求成功')
print(response.headers)
print(response.text)