16-python之认识爬虫

16-python之认识爬虫
文章目录
- 一、什么是爬虫获取网络上的公开数据
  二、爬虫的流程
  1、获取网络数据(requests,selenium)
  2、解析数据:正则表达式，基于css选择器的解释器（bs4）,基于xpath的解析器（lxml）
  3、保存数据:csv、excel、数据
  
  三、requests的使用
  1、requests的基本用法
一、什么是爬虫获取网络上的公开数据

网站数据来源：网站对应的网页，手机app

二、爬虫的流程

1、获取网络数据(requests,selenium)
1. 浏览器伪装
2. 登录反爬（必须登录才能看到数据）
3. 代理ip
2、解析数据:正则表达式，基于css选择器的解释器（bs4）,基于xpath的解析器（lxml）

3、保存数据:csv、excel、数据

三、requests的使用

requests 本来是python获取网络数据的第三方库，基于http或者https协议的网络请求

爬虫使用requests的两个场景：直接请求网站地址、对提供网页的数据接口发送请求

1、requests的基本用法

1.1 对目标网页直接发送请求：

requests.get(网页地址)-- 获取指定页面的数据返回一个响应对象

1.2 获取响应的状态码

response.status_code

1.3 获取响应头

requests.headers

1.4 读取内容

方式一 response.content 二进制类型的数据(图片视频音频等)
方式二 response.text 字符串类型的数据(网页)
方式三 response.json() 对请求内容做完JSON解析后的数据()

1.5 示例
```
import requests
response=requests.get('https://cd.zu.ke.com/zufang')
print(response)  #   200--请求成功
if response.status_code==200:
    print('请求成功')
print(response.headers)
print(response.text)
1
2
3
4
5
6
7
```
相关阅读:
C++项目实战--线程池代码讲解
 零基础可以报考中级经济师吗？需要准备多久？
C++11智能指针unique_ptr剖析
 车灯修复UV胶的优缺点有哪些?
解决docker Error response from daemon故障
 【深入了解操作系统进程：它们的角色、管理和重要性】
Pop!_OS 21.10升级22.04失败记录
 学习完C++ 并发编程后手写线程池最简单的线程池
 洗地机哪款最好用？口碑最好的家用洗地机推荐
 雷达波形及MATLAB仿真
原文地址：https://blog.csdn.net/qq_44087994/article/details/126292801

文章目录

一、什么是爬虫 获取网络上的公开数据

二、爬虫的流程

1、获取网络数据(requests,selenium)

2、解析数据:正则表达式，基于css选择器的解释器（bs4）,基于xpath的解析器（lxml）

3、保存数据:csv、excel、数据

三、requests的使用

1、requests的基本用法

一、什么是爬虫获取网络上的公开数据