import requests
# 发送请求获取相应数据
response = requests.get("http://www.baidu.com")
print(response) # 输出请求结果,
# 获取返回数据
print(response.encoding) # 返回默认编码格式 ISO-8859-1
response.encoding = 'utf8' # 修改编码格式
print(response.text)
print(response.content) # 获取二进制数据
print(response.content.decode()) # 对二进制数据进行解码,默认解码方式为utf8
# print(response.content.decode(encoding='gbk')) # 也可以传入编码方式进行解码
1、根据标签进行查找 name=‘input’
2、根据id进行查找 id = ‘xxx’
3、根据属性进行查找 attrs={‘type’: ‘submit’, ‘name’: ‘smbtn’}
4、根据文本进行查找,返回文本内容 text=‘用户号’,此时返回的是NavigableString格式,其他返回的都是Tag对象
# Beatuiful Soup4 安装命令 -- pip install bs4
# 会同时安装bs4和beautifulsoup4
# 主要用于解析文档树,与lxml配合使用 pip install lxml
import requests
from bs4 import BeautifulSoup
# 创建BeautifulSoup对象,传入字符串数据和要用的解析器lxml,不用解析器会有警告,会自动修正
soup = BeautifulSoup('数据', 'lxml')
print(soup)
# 获取连接返回值
response = requests.get("https://jksb.v.zzu.edu.cn/vls6sss/zzujksb.dll/first0")
# 获取html文本
# print(response.content.decode())
html_text = response.content.decode()
# 创建BeautifulSoup对象解析html文本
soup = BeautifulSoup(html_text, 'lxml')
# 1、根据标签进行查找 name='input'
# 2、根据id进行查找 id = 'xxx'
# 3、根据属性进行查找 attrs={'type': 'submit', 'name': 'smbtn'}
# 4、根据文本进行查找,返回文本内容 text='用户号',此时返回的是NavigableString格式,其他返回的都是Tag对象
# 查询标签名为title的元素
title = soup.find('title')
print(title)
# 查询所有input标签
input_all = soup.find_all(name='input')
print(input_all)
# attrs 方式,查询属性名 例如{'id':'uid','class':'xxx'},找不到返回None
input_uid = soup.find(attrs={'name': 'uid', 'tabindex': '0'})
print(input_uid)
input_uid = soup.find(attrs={'type': 'submit', 'name': 'uid'})
print(input_uid)
# text方式
text = soup.find(text='用户号')
print(text)
print(type(text))
# Tag对象使用
input_uid = soup.find(attrs={'type': 'submit'})
print('标签名:', input_uid.name)
print('属性:', input_uid.attrs)
print('内容:', input_uid.text)