目录
setCookie(cookie1, cookie2.......)
设置UserAgent
- cookies 应该是包含这些字段的字典:
- name(str):必填
- value(str):必填
- url (STR)
- domain (STR)
- path (STR)
- expires (数字):Unix时间,以秒为单位
- httpOnly (布尔)
- secure (布尔)
- sameSite(str):'Strict'或'Lax'
访问网页
页面加载完毕
页面后退/页面前进
对于某个元素执行js
dict
中key
- path(str):保存图像的文件路径。屏幕截图类型将从文件扩展名中推断出来。 #基本上写个这个就够了
-
- type(str):指定屏幕截图类型,可以是jpeg或 png。默认为png。
-
- quality(int):图像的质量,在0-100之间。不适用于png图像。
-
- fullPage(bool):如果为true,请截取完整的可滚动页面。默认为False。
-
- clip(字典):指定页面剪切区域的对象。此选项应包含以下字段:
-
- x (int):剪辑区域左上角的x坐标。
-
- y (int):剪辑区域左上角的y坐标。
-
- width (int):剪切区域的宽度。
-
- height (int):剪切区域的高度。
-
- omitBackground (bool):隐藏默认的白色背景并允许捕获具有透明度的屏幕截图。
返回: 返回生成的PDF bytes对象。
- path (str):保存PDF的文件路径。
-
- scale(float):网页渲染的比例,默认为1。
-
- displayHeaderFooter(bool):显示页眉和页脚。默认为False。
-
- headerTemplate(str):打印标题的HTML模板。应该是有效的HTML标记与以下类。
-
- date:格式化的打印日期
-
- title:文件名
-
- url:文件位置
-
- pageNumber:当前页码
-
- totalPages:文档中的总页数
-
- footerTemplate(str):打印页脚的HTML模板。应该使用相同的模板headerTemplate。
-
- printBackground(bool):打印背景图形。默认为 False。
-
- landscape(bool):纸张方向。默认为False。
-
- pageRanges(字符串):要打印的纸张范围,例如“1-5,8,11-13”。默认为空字符串,表示所有页面。
-
- format(str):纸张格式。如果设置,优先于 width或height。默认为Letter。
-
- width (str):纸张宽度,接受标有单位的值。
-
- height (str):纸张高度,接受标有单位的值。
-
- margin(字典):纸张边距,默认为None。
-
- top (str):上边距,接受标有单位的值。
-
- right (str):右边距,接受标有单位的值。
-
- bottom (str):底部边距,接受标有单位的值。
-
- left (str):左边距,接受标有单位的值。
页面文本
print(await page.evaluate('document.body.textContent', force_expr=True)) 这样也行
页面cookies
标题
返回都是ElementHandle
或者None
- print(await page.querySelector('div选择器')) #获取第一个
- print(await page.querySelectorAll("CSS选择器")) #获取全部
-
- querySelectorEval('css选择器','js_str','前面js需要的参数') #获取第一个并对其执行js
- querySelectorAllEval('css选择器','js_str','前面js需要的参数') #获取全部并对其执行js
-
- await page.xpath('xpath选取器')
- # await page.waitForXPath('h3', timeout=300)
- # await page.waitForNavigation(waitUntil="networkidle0")
- # await page.waitForFunction('document.getElementByTag("h3")')
- # await page.waitForSelector('.t')
- # await page.waitFor('document.querySelector("#t")')
- # await page.waitForNavigation(waitUntil='networkidle0')
- # await page.waitForFunction('document.querySelector("").innerText.length == 7')
- await (await ElementHandle_obj.getProperty('属性')).jsonValue()
- await (await ElementHandle_obj.getProperty('textContent')).jsonValue() #文本
https://pyppeteer.github.io/pyppeteer/reference.html#jshandle-class