目录
由于requests模块不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有。
selenium模块:模拟操作浏览器,完成人的行为。
selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。
模块安装:
pip install selenium
下载驱动
驱动浏览器需要下载相应的驱动,谷歌要下谷歌的驱动,火狐要下火狐的驱动,并且版本要与当前浏览器对应。
这里我选择谷歌浏览器,首先查看当前谷歌浏览器的版本:

版本:

下载驱动,地址:CNPM Binaries Mirror (npmmirror.com),一定要下载对应的版本驱动,比如我谷歌浏览器版本为103.0.5060.134,就要下103.0.5060.134的驱动

下载对应操作系统即可。
导入模块:
from selenium import webdriver
初始化(打开浏览器):
browser = webdriver.Chrome(executable_path='驱动路径')
- # 不写路径,要放到项目路径下或环境变量中
- browser = webdriver.Chrome()
在地址栏输入地址:
browser.get('http://www.baidu.com')
关闭标签:
browser.close()
关闭浏览器:
browser.quit()
操作浏览器页面中的标签。
1.搜索标签
新版本:by=根据什么查找,value=查找的值
| by的参数 | 含义 |
|---|---|
| By.ID | 根据标签id属性查找 |
| By.LINK_TEXT | 根据a标签的文字查找 |
| By.PARTIAL_LINK_TEXT | 根据a标签的文字模糊匹配 |
| By.TAG_NAME | 根据标签名查找 |
| By.CLASS_NAME | 根据标签class属性查找 |
| By.NAME | 根据标签name属性查找 |