在爬取网页数据之前,我们先来回顾一下爬虫的基本知识。
爬虫一般指抓取众多公开网站网页上数据的相关技术。
网站对应的网页、手机APP等。
step1:获取网络数据,工具:requests、selenium、抓包工具(用于获取手机APP数据)
step2:解析数据,从获取到的网络数据中提取有效数据,工具:正则、基于css选择器的解析器(bs4)、基于xpath的解析器(lxml)
step3:保存数据,工具:csv、excel、数据等
定义:Python获取网络数据的第三方库(基于http或者https协议的网络请求)。
使用场景:1)直接请求网页地址;2)对提供网页数据的数据接口发送请求。
返回的真正有用的数据。
import requests
respone = requests.get(url)
表达式 | 说明 |
---|---|
respone.content | 获取二进制类型的数据(图片、视频、音频等) |
respone.text | 获取字符串类型的数据(网页) |
respone.json() | 获取对请求内容做完json解析后的数据(json数据接口) |
respone.status_code | 获取网页状态码 |
import requests
from re import *
import csv
# 获取网络数据
respone=requests.get('https://cd.zu.ke.com/zufang')
if respone.status_code==200:
content=respone.text
# 解析数据
title = findall(r'(?s)(.+?)', content)
names=[x.strip() for x in title]
pay=findall(r'(\d+)',content)
data=map(lambda i1,i2:(i1,i2),names,pay)
f=open('贝壳1.csv','w',encoding='utf-8',newline='')
writer=csv.writer(f)
writer.writerow(['名称','价格'])
writer.writerows(list(data))
f.close()
print('写入成功!')