python爬虫最基础的一定要一开始要把思路理清楚,即从网页源代码或者网页数据接口,获取需要的数据.大致思路如下
进入网页
检查网页
点击network
All
刷新网页
选择网页的那个点
Headers
寻找user-agent
进入网页
检查网页
点击network
All
选择网页的那个点
Headers
寻找cookie
headers = {
xxx}
proxies = {
'https': '代理ip'}
response = requests.get('网站地址', headers=headers, proxies=proxies)
from selenium.webdriver import Chrome, ChromeOptions
# 1. 给浏览器添加配置
options = ChromeOptions()
#设置代理
options.add_argument('--proxy-server=http://171.83.191.223:4526')
b = Chrome(options=options)
b.get('网站')
在preview中观察比较像数据接口的点,选择最像字典,而且有数据的点
确定哪个是自己想要的数据接口后,点击他的Headers,然后获取Request URL
import requests
response = requests.get('数据接口')
# 接口数据转字典
result = response