爬虫练习（一）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

爬虫练习（一）

一、环境准备示例
二、网页结构
三.爬虫的合法性
四.基本原理
- 能爬取怎样的数据
- 网页请求

提示：以下是本篇文章正文内容，下面案例可供参考

一、环境准备示例

Python安装
requests库抓取网站数据
Beautiful Soup 解析网页

二、网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。
HTML常用标签

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

CSS 表示样式＜style type=＂text/css＂＞定义了外观。
JScript 表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。
一个基础的HTML

<html>
<head>
    <title> title1</title>
</head>
<body>
    <div>
        <p>title2</p>
    </div>
    <div>
        <ul>
            <li><a href="网址">爬虫</a></li>
            <li>数据清洗</li>
        </ul>
    </div>
</body>

三.爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

User-Agent:*
Disallow:/

四.基本原理

1 获取网页：利用requests等库获取网页的源代码,提取想要的信息。
2. 提取信息： Beautiful Soup pyquery lxml等，使用这些库，可以高效快速地从中提取网页信息，如节点的属性文本值等, 提取信息是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们后续处理和分析数据。
3. 保存数据：这里保存形式有多种多样，如可以简单保存为 txt 文本或 JSON 文本，也可以保存到数据库，如 MySQL, MongoDB, REDIS,也可保存至远程服务器。
4. 自动化程序：爬虫就是代替我们来成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。

能爬取怎样的数据

各种二进制数据，如图片、视频和音频等对应各自的 URL 是基于 HTTP或HTTPS协议的数据爬虫都可以抓取。
（使用JavaScript 渲染的页面特殊处理）

网页请求

网页请求的过程分为两个环节：
GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。
POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。
在写爬虫前要先确定向谁发送请求，用什么方式发送。

相关阅读:
解决方案中word中分节符的使用
Python接口自动化封装导出excel方法和读写excel数据
创建第一个Vue3项目时遇到的报错及处理
活动图高阶讲解-03
pytest(6)-Fixture(固件)
VSCode怎么创建Java项目
小蓝的钥匙（蓝桥杯错排）
链表OJ练习（2）
让iPhone用电脑的网络上网
神经网络的发展

原文地址：https://blog.csdn.net/weixin_62115589/article/details/127042742