• python爬虫(3)


    目录

    十,将cookie对象保存为本地文件并读取

    十一,URLError的使用

    十二,requests库的使用

    1,pip install requests

    2,requests请求方法大全

    3,requests的get方法使用

    4,requests的post方法使用

    5,requests代理proxy的使用方法

    6,requests中请求方法的timeout参数

    7,requests中session自动保存cookie

    8,requests中忽略SSL验证

    9,requests中response对象的一些方法简介


    十,将cookie对象保存为本地文件并读取

    1. from urllib.request import Request, build_opener, HTTPCookieProcessor
    2. from fake_useragent import UserAgent
    3. from http.cookiejar import MozillaCookieJar
    4. url = 'https://www.baidu.com/s?wd=python'
    5. headers = {
    6. 'User-Agent': UserAgent().chrome,
    7. }
    8. def let_cookie_to_file():
    9. cookie = MozillaCookieJar() # 创建一个cookie对象,他会自动记录各种cookie信息
    10. req = Request(url=url, headers=headers, )
    11. opener = build_opener(HTTPCookieProcessor(cookiejar=cookie))
    12. resp = opener.open(req)
    13. cookie.save('cookie.txt', ignore_discard=True, ignore_expires=True) # 保存cookie对象
    14. print(resp.getcode())
    15. def get_cookie_from_file():
    16. cookie = MozillaCookieJar() # 创建一个cookie对象
    17. cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
    18. req = Request(url=url, headers=headers, )
    19. opener = build_opener(HTTPCookieProcessor(cookiejar=cookie))
    20. resp = opener.open(req)
    21. print(resp.getcode())
    22. if __name__ == '__main__':
    23. # let_cookie_to_file()
    24. get_cookie_from_file()

    十一,URLError的使用

            URLError本质上是一个异常类。产生URLError的原因有:主机没有联网,服务器不存在,找不到服务器(实际上服务器存在)等。

    1. from urllib.request import urlopen, Request
    2. from fake_useragent import UserAgent
    3. from urllib.error import URLError
    4. url = 'http://gzsx.cooco.net.cn/tweest/'
    5. url = 'http://jccndk.com'
    6. headers = {
    7. 'User-Agent': UserAgent().chrome,
    8. }
    9. req = Request(url=url, headers=headers)
    10. try:
    11. resp = urlopen(req)
    12. print(resp.read().decode())
    13. except URLError as e:
    14. print(e)
    15. if e.args:
    16. print(e.args[0].errno)
    17. else:
    18. print('错误404')

    十二,requests库的使用

    1,pip install requests

            由于requests库是第三方库,需要pip安装。

    2,requests请求方法大全

    3,requests的get方法使用

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. headers = {
    4. 'User-Agent': UserAgent().chrome,
    5. }
    6. def no_args():
    7. url = 'https://hao.360.com/?h_lnk'
    8. resp = requests.get(url=url)
    9. print(resp.text)
    10. def has_args(args: dict):
    11. url = 'https://www.baidu.com/?'
    12. resp = requests.get(url=url, params=args, headers=headers)
    13. print(resp.text)
    14. if __name__ == '__main__':
    15. # no_args()
    16. has_args({'wd': 'python'})

    4,requests的post方法使用

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. headers = {
    4. 'User-Agent': UserAgent().chrome,
    5. }
    6. args = {
    7. 'searchword': '卫生'
    8. }
    9. def get():
    10. url = 'https://www.21wecan.com/rcwjs/searchlist.jsp'
    11. resp = requests.post(url=url, headers=headers, data=args)
    12. print(resp.text)
    13. if __name__ == '__main__':
    14. get()

    5,requests代理proxy的使用方法

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. url = 'http://httpbin.org/get'
    4. headers = {
    5. 'User-Agent': UserAgent().chrome,
    6. }
    7. proxy = {
    8. # 格式:'type':'type://username:password@ip:port'
    9. 'http': 'http://183.239.38.216:9091'
    10. }
    11. resp = requests.get(url=url, headers=headers, proxies=proxy)
    12. print(resp.text)

    6,requests中请求方法的timeout参数

            超过这个参数,则会报错。

    resp = session.get(url=url, headers=headers, params={'wd': 'python'},timeout=5)

    7,requests中session自动保存cookie

            session的作用是保持一个持续的会话,在内存当中记录一个网址的cookie,以供后续代码使用。

    1. import requests
    2. s = requests.Session()
    3. # 用session对象发出get请求,设置cookies
    4. resp = s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
    5. print(resp.text)

    8,requests中忽略SSL验证

            细节在这里。

    1. import requests
    2. import warnings
    3. from requests.packages import urllib3
    4. # 方式一:关闭警告
    5. urllib3.disable_warnings()
    6. warnings.filterwarnings("ignore")
    7. # 方式二,关闭证书,verify=False
    8. res = requests.get(url="https://www.12306.cn",verify=False) #不验证证书,报警告,返回200
    9. print(res.content.decode("utf-8"))
    10. s = requests.Session()
    11. # 用session对象发出get请求,设置cookies
    12. resp = s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
    13. print(resp.text)

    9,requests中response对象的一些方法简介

            获取并保存cookie信息,需要使用response.cookie属性,他是一个字典。

  • 相关阅读:
    LVS简介【暂未完成(半成品)】
    2021 中国系统java面试笔试题(含面试题解析)
    【QT】信号与槽
    【2020.09.01】 新学期,新气象
    ios 给UIView类控件添加渐变颜色的注意事项
    如何创建和使用需求追溯矩阵
    spring bean的作用域
    241.为运算表达式设计优先级
    【技术实操】银河高级服务器操作系统实例分享,达梦数据库服务器 oom 问题分析
    Windows操作系统下用vmware虚拟ubuntu系统测试USB IC卡读写器的说明
  • 原文地址:https://blog.csdn.net/weixin_44992737/article/details/126022596