• Python爬虫基础之Selenium详解


    原文地址:https://program-park.top/2023/10/16/reptile_3/

    本文章中所有内容仅供学习交流使用,不用于其他任何目的,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关。

    1. Selenium简介

      Selenium 是一个用于 Web 应用程序测试的工具。最初是为网站自动化测试而开发的,可以直接运行在浏览器上,支持的浏览器包括 IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 和 Edge 等。
      爬虫中使用它是为了解决 requests 无法直接执行 JavaScript 代码的问题。Selenium 本质上是通过驱动浏览器,彻底模拟浏览器的操作,好比跳转、输入、点击、下拉等,来拿到网页渲染之后的结果。Selenium 是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作。

    2. 为什么使用Selenium?

      Selenium 能模拟浏览器功能自动执行网页中的 JavaScript 代码,实现动态加载。

    3. Selenium的安装

      谷歌浏览器驱动下载地址:https://registry.npmmirror.com/binary.html?path=chromedriver/
      查看自己谷歌浏览器的版本,我这里的版本是正式版本116.0.5845.188,驱动下载地址最新的只有114.0.5735.90,所以只能去官网的测试页面下载118.0.5993.70版本的驱动(https://googlechromelabs.github.io/chrome-for-testing/#stable,版本向下兼容),然后把下载的压缩包解压,将exe文件放入 PyCharm 项目的根目录下。
      之后执行pip install selenium命令,安装 selenium 库。

    4. Selenium的使用

    from selenium import webdriver
    
    # 创建浏览器操作对象
    path = 'chromedriver.exe'
    browser= webdriver.Chrome(path)
    
    # 访问网站
    url = 'https://www.baidu.com'
    
    browser.get(url)
    # content = browser.page_source
    # print(content)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

      需要注意的是,如果你的 selenium 是4.11.2以上的版本,不需要设置driver.exe的路径,selenium 可以自己处理浏览器的驱动程序,因此代码直接改为brower = webdriver.Chrome()即可。
      运行代码,得到下面的效果:

    5. Selenium的元素定位

      自动化工具要做的就是模拟鼠标和键盘来操作点击、输入等等元素,但是操作这些元素的前提是找到它们,WebDriver 提供了很多元素定位的方法:

    • 根据标签 id 获取元素:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser= webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      button = browser.find_element(By.ID, 'su')
      # button = browser.find_elements(By.ID, 'su')
      print(button)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
    • 根据标签 name 属性的值获取元素:
      button = browser.find_element(By.NAME, 'wd')
      print(button)
      
      • 1
      • 2
    • 根据 Xpath 语句获取元素;
      button = browser.find_element(By.XPATH, '//input[@id="su"]')
      print(button)
      
      • 1
      • 2
    • 根据标签名获取元素:
      button = browser.find_elements(By.TAG_NAME, 'input')
      print(button)
      
      • 1
      • 2
    • 根据 bs4 语法获取元素:
      button = browser.find_elements(By.CSS_SELECTOR, '#su')
      print(button)
      
      • 1
      • 2
    • 根据标签的文本获取元素(精确定位):
      button = browser.find_elements(By.LINK_TEXT, '地图')
      print(button)
      
      • 1
      • 2
    • 根据标签的文本获取元素(模糊定位):
      button = browser.find_elements(By.PARTIAL_LINK_TEXT, '地')
      print(button)
      
      • 1
      • 2
    • 根据 class 属性获取元素:
      button = browser.find_element(By.CLASS_NAME, 'wrapper_new')
      print(button)
      
      • 1
      • 2

      当我们定位到元素之后,自然就要考虑如何获取到元素的各种信息,selenium 给我们提供了获取元素不同信息的方法:

    • 获取元素属性:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser= webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      button = browser.find_element(By.ID, 'su')
      print(input.get_attribute('class'))
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
    • 获取元素标签名:
      input = browser.find_element(By.ID, 'su')
      print(input.tag_name)
      
      • 1
      • 2
    • 获取元素文本:
      input = browser.find_element(By.ID, 'su')
      print(input.text)
      
      • 1
      • 2
    • 获取元素位置:
      input = browser.find_element(By.ID, 'su')
      print(input.location)
      
      • 1
      • 2
    • 获取元素大小:
      input = browser.find_element(By.ID, 'su')
      print(input.size)
      
      • 1
      • 2

    6. Selenium的交互

      页面交互指的是我们平时在浏览器上的各种操作,比如输入文本、点击链接、回车、下拉框等,下面就演示 selenium 是如何进行页面交互的。

    • 输入文本:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
    • 点击:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 定位百度一下的按钮
      button = browser.find_element(By.ID, 'su')
      # 点击按钮
      button.click()
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
    • 清除文本:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 清除selenium
      input.clear()
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
    • 回车确认:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 回车查询
      input.submit()
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
    • 运行 JavaScript:
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 回车查询
      input.submit()
      time.sleep(2)
      
      # js代码
      js_bottom = 'document.documentElement.scrollTop=100000'
      # 下拉进度条,页面滑动
      browser.execute_script(js_bottom)
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
      • 27
      • 28
      • 29
      • 30
    • 前进后退
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      import time
      
      # 创建浏览器操作对象
      # path = 'chromedriver.exe'
      browser = webdriver.Chrome()
      
      # 访问网站
      url = 'https://www.baidu.com'
      browser.get(url)
      
      # 定位输入框
      input = browser.find_element(By.ID, 'kw')
      # 输入文本selenium
      input.send_keys('selenium')
      time.sleep(2)
      
      # 回车查询
      input.submit()
      time.sleep(2)
      
      # js代码
      js_bottom = 'document.documentElement.scrollTop=100000'
      # 页面滑动
      browser.execute_script(js_bottom)
      time.sleep(2)
      
      # 定位下一页的按钮
      next = browser.find_element(By.XPATH, '//a[@class="n"]')
      # 点击下一页
      next.click()
      time.sleep(2)
      
      # 返回到上一页面
      browser.back()
      time.sleep(2)
      
      # 前进到下一页
      browser.forward()
      time.sleep(2)
      
      # 关闭浏览器
      browser.close()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
      • 27
      • 28
      • 29
      • 30
      • 31
      • 32
      • 33
      • 34
      • 35
      • 36
      • 37
      • 38
      • 39
      • 40
      • 41
      • 42
      • 43
      • 44

    7. Chrome handless

      在上面的测试过程中可以发现,虽然 selenium 简便好用,但是它的运行速度很慢,这是因为 selenium 是有界面的,需要执行前端 css 和 js 的渲染。那么下面就介绍一个无界面的浏览器,Chrome-handless 模式,运行效率要比真实的浏览器快很多,在 selenium 的基础上,支持页面元素查找、js 执行等,代码和 selenium 一致。
      使用前提:

    • Chrome
      • Unix\Linux chrome >= 59
      • Windows chrome >= 60
    • Python >= 3.6
    • Selenium >= 3.4.*
    from selenium import webdriver
    
    def share_browser():
        # headless自带配置,不需要再做额外的修改
        from selenium.webdriver.chrome.options import Options
        # 初始化
        chrome_options = Options()
        chrome_options.add_argument('‐‐headless')
        chrome_options.add_argument('‐‐disable‐gpu')
        # 谷歌浏览器的安装路径
        path = r'C:\Users\\AppData\Local\Google\Chrome\Application\chrome.exe'
        chrome_options.binary_location = path
        browser = webdriver.Chrome(options=chrome_options)
        return browser
    
    browser = share_browser()
    url = 'https://www.baidu.com'
    browser.get(url)
    
    # 本地保存照片
    browser.save_screenshot('baidu.png')
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    参考文献

      【1】http://www.noobyard.com/article/p-boitcibx-g.html
      【2】https://www.jb51.net/article/149145.htm
      【3】https://zhuanlan.zhihu.com/p/462460461
      【4】https://blog.csdn.net/weixin_67553250/article/details/127555724
      【5】https://www.cnblogs.com/Summer-skr–blog/p/11491078.html
      【6】https://www.bilibili.com/video/BV1Db4y1m7Ho?p=77

  • 相关阅读:
    Python基础入门篇【42】--python中的内置库os与sys模块
    毫秒级精度计划任务管理、系统运维管理、定时执行任务、定时任务执行、任务定时执行软件 —— 定时执行专家
    SAAS-HRM系统概述与搭建环境
    金仓数据库 KingbaseES 插件force_view
    C语言循环队列
    VScode配置文件launch.json 和 tasks.json配置项详细说明
    string类的实现
    C++初阶 Stack和Queue的介绍和使用
    家用小型洗衣机哪款性价比高?婴儿专用洗衣机推荐
    STM32入门100步
  • 原文地址:https://blog.csdn.net/weixin_44758876/article/details/130317803