码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • python爬虫(3)


    目录

    十,将cookie对象保存为本地文件并读取

    十一,URLError的使用

    十二,requests库的使用

    1,pip install requests

    2,requests请求方法大全

    3,requests的get方法使用

    4,requests的post方法使用

    5,requests代理proxy的使用方法

    6,requests中请求方法的timeout参数

    7,requests中session自动保存cookie

    8,requests中忽略SSL验证

    9,requests中response对象的一些方法简介


    十,将cookie对象保存为本地文件并读取

    1. from urllib.request import Request, build_opener, HTTPCookieProcessor
    2. from fake_useragent import UserAgent
    3. from http.cookiejar import MozillaCookieJar
    4. url = 'https://www.baidu.com/s?wd=python'
    5. headers = {
    6. 'User-Agent': UserAgent().chrome,
    7. }
    8. def let_cookie_to_file():
    9. cookie = MozillaCookieJar() # 创建一个cookie对象,他会自动记录各种cookie信息
    10. req = Request(url=url, headers=headers, )
    11. opener = build_opener(HTTPCookieProcessor(cookiejar=cookie))
    12. resp = opener.open(req)
    13. cookie.save('cookie.txt', ignore_discard=True, ignore_expires=True) # 保存cookie对象
    14. print(resp.getcode())
    15. def get_cookie_from_file():
    16. cookie = MozillaCookieJar() # 创建一个cookie对象
    17. cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
    18. req = Request(url=url, headers=headers, )
    19. opener = build_opener(HTTPCookieProcessor(cookiejar=cookie))
    20. resp = opener.open(req)
    21. print(resp.getcode())
    22. if __name__ == '__main__':
    23. # let_cookie_to_file()
    24. get_cookie_from_file()

    十一,URLError的使用

            URLError本质上是一个异常类。产生URLError的原因有:主机没有联网,服务器不存在,找不到服务器(实际上服务器存在)等。

    1. from urllib.request import urlopen, Request
    2. from fake_useragent import UserAgent
    3. from urllib.error import URLError
    4. url = 'http://gzsx.cooco.net.cn/tweest/'
    5. url = 'http://jccndk.com'
    6. headers = {
    7. 'User-Agent': UserAgent().chrome,
    8. }
    9. req = Request(url=url, headers=headers)
    10. try:
    11. resp = urlopen(req)
    12. print(resp.read().decode())
    13. except URLError as e:
    14. print(e)
    15. if e.args:
    16. print(e.args[0].errno)
    17. else:
    18. print('错误404')

    十二,requests库的使用

    1,pip install requests

            由于requests库是第三方库,需要pip安装。

    2,requests请求方法大全

    3,requests的get方法使用

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. headers = {
    4. 'User-Agent': UserAgent().chrome,
    5. }
    6. def no_args():
    7. url = 'https://hao.360.com/?h_lnk'
    8. resp = requests.get(url=url)
    9. print(resp.text)
    10. def has_args(args: dict):
    11. url = 'https://www.baidu.com/?'
    12. resp = requests.get(url=url, params=args, headers=headers)
    13. print(resp.text)
    14. if __name__ == '__main__':
    15. # no_args()
    16. has_args({'wd': 'python'})

    4,requests的post方法使用

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. headers = {
    4. 'User-Agent': UserAgent().chrome,
    5. }
    6. args = {
    7. 'searchword': '卫生'
    8. }
    9. def get():
    10. url = 'https://www.21wecan.com/rcwjs/searchlist.jsp'
    11. resp = requests.post(url=url, headers=headers, data=args)
    12. print(resp.text)
    13. if __name__ == '__main__':
    14. get()

    5,requests代理proxy的使用方法

    例子1:

    1. import requests
    2. from fake_useragent import UserAgent
    3. url = 'http://httpbin.org/get'
    4. headers = {
    5. 'User-Agent': UserAgent().chrome,
    6. }
    7. proxy = {
    8. # 格式:'type':'type://username:password@ip:port'
    9. 'http': 'http://183.239.38.216:9091'
    10. }
    11. resp = requests.get(url=url, headers=headers, proxies=proxy)
    12. print(resp.text)

    6,requests中请求方法的timeout参数

            超过这个参数,则会报错。

    resp = session.get(url=url, headers=headers, params={'wd': 'python'},timeout=5)

    7,requests中session自动保存cookie

            session的作用是保持一个持续的会话,在内存当中记录一个网址的cookie,以供后续代码使用。

    1. import requests
    2. s = requests.Session()
    3. # 用session对象发出get请求,设置cookies
    4. resp = s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
    5. print(resp.text)

    8,requests中忽略SSL验证

            细节在这里。

    1. import requests
    2. import warnings
    3. from requests.packages import urllib3
    4. # 方式一:关闭警告
    5. urllib3.disable_warnings()
    6. warnings.filterwarnings("ignore")
    7. # 方式二,关闭证书,verify=False
    8. res = requests.get(url="https://www.12306.cn",verify=False) #不验证证书,报警告,返回200
    9. print(res.content.decode("utf-8"))
    10. s = requests.Session()
    11. # 用session对象发出get请求,设置cookies
    12. resp = s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
    13. print(resp.text)

    9,requests中response对象的一些方法简介

            获取并保存cookie信息,需要使用response.cookie属性,他是一个字典。

  • 相关阅读:
    S5PV210裸机(七):Nand和iNand
    macOS 关闭系统更新以及相关提示
    docker-compose多服务器部署kafka集群
    史上最简SLAM零基础解读(7) - g2o(图优化)→简介环境搭建(slam十四讲为例)
    correct-softmax:谷歌youtube召回修正样本采样双塔模型
    JavaScript学习Day002
    人脸检测和人体检测4:C++实现人脸检测和人体检测(含源码,可实时检测)
    设计模式-Decorator模式(装饰者模式)
    首发出炉Yolov5/Yolov7涨点神器:华为诺亚2023极简的神经网络模型 VanillaNet---VanillaBlock助力检测,实现暴力涨点
    前端基础(三十六):你不知道的JavaScript - 原型
  • 原文地址:https://blog.csdn.net/weixin_44992737/article/details/126022596
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号