有时候, 看见一篇网页, 不知道怎样离线保存。使用浏览器的保存网页功能, 又会保存下许多无用的信息, 如广告等其他部分。
为解决这个问题, 本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式, 提取网页的正文部分。
使用requests
库的get
方法即可, 注意添加headers
, 否则会爬取不到内容。
requests
库可使用pip安装: pip install requests
。
from requests import get
from lxml.etree import HTML, tostring
import re
headers = {
"User-Agent": """Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"""
}
url = input('输入网址: ')
req = get(url,headers=headers)
text=req.content.decode('utf-8')
在网页的正文内容部分上右击 => 检查, 找到 提取标题, 需要使用正则表达式。注意: re.S表示点" CSS样式是修饰网页的工具, 可控制网页的排版。这里再次使用开发工具, 找到了包含CSS样式的标签, 并将标签加入 本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式。注意要善于使用浏览器的开发工具。或一个
然后右击, 复制XPath即可。这个XPath很重要。不同的网站, 这个XPath不相同。
3.提取标题和正文部分
.
"匹配全部字符, 若不用re.S
参数, 会无法提取内容。
提取正文: 首先创建lxml.etree
的HTML()
对象。
该对象的xpath()
方法会返回一个列表, 包含符合这个XPath的所有标签。
然后, 用上一步找到的XPath提取正文部分。title = re.findall('
4.提取CSS样式
content
中。如果不用CSS, 可能会出现网页排版混乱的情况。
但是, 不是保存所有的网页都需要提取CSS样式这个步骤。css_patt=re.compile(',re.S)
for css in re.findall(css_patt,text):
content+=css+'>'
5.保存网页
content += tostring(div, method='html').decode('utf-8')
content += ''
# 去除文件名不能包含的特殊字符, 用字符串的translate方法
tbl = str.maketrans('','','\\/:*?"<>|')
filename = '%s.html'%title.translate(tbl)
with open(filename,'w',encoding='utf-8') as f:
f.write(content)
6.总结
需要注意的是, 提取少数需手动展开的网页时, 爬取的内容会不完整, 只有网页的前半截。
完整源代码: gitcode.net/qfcy_/python/-/tree/master/WEB