pip3 install beautifulsoup4
find_all( name , attrs , recursive , text , **kwargs )
name:标签名,使用html标签名来索引
atters:可根据标签名、属性、内容查找文档。使用双属性来查找元素
import requests
from bs4 import BeautifulSoup
url=x.replace('\n','')
response=requests.get(url).text
html=BeautifulSoup(response,'lxml')
content = html.find(name='div',attrs = {'class':'showtxt','id':'content'}).text
f.write(content)
ul = html.find_all('ul') #查找ul标签下的内容、嵌套选择
for li in ul:
print(li.find_all('li')) #打印多个ul中的每一个
print(div[0].contents[3].contents[1].contents[0].text) #的文本内容(起点百事通)
print(div[0].contents[3].contents[1].contents[0].get('href')) #对应的链接内容