提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
提示:以下是本篇文章正文内容,下面案例可供参考
Python安装
requests库抓取网站数据
Beautiful Soup 解析网页
网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。
HTML常用标签
<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接
CSS 表示样式<style type="text/css">
定义了外观。
JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。
一个基础的HTML
<html>
<head>
<title> title1</title>
</head>
<body>
<div>
<p>title2</p>
</div>
<div>
<ul>
<li><a href="网址">爬虫</a></li>
<li>数据清洗</li>
</ul>
</div>
</body>
每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。
User-Agent:*
Disallow:/
1 获取网页:利用requests等库获取网页的源代码,提取想要的信息。
2. 提取信息: Beautiful Soup pyquery lxml等,使用这些库,可以高效快速地从中提取网页信息,如节点的属性 文本值等, 提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰 ,以便我们后续处理和分析数据。
3. 保存数据:这里保存形式有多种多样,如可以简单保存为 txt 文本或 JSON 文本,也可以保存到数据库,如 MySQL, MongoDB, REDIS,也可保存至远程服务器。
4. 自动化程序:爬虫就是代替我们来成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作 ,确保爬取持续高效地运行。
各种二进制数据,如图片 、视频和音频等对应各自的 URL 是基于 HTTP或HTTPS协议的数据爬虫都可以抓取。
(使用JavaScript 渲染的页面特殊处理)
网页请求的过程分为两个环节:
GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。
POST:相比 GET 方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
在写爬虫前要先确定向谁发送请求,用什么方式发送。