手写一个简单爬虫--手刃豆瓣top250排行榜


#拿到页面面源代码 request
#通过re来提取想要的有效信息 re
import requests
import re
url="https://movie.douban.com/top250"
 
headers={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"}
 
resp=requests.get(url,headers=headers)
 
page_content=resp.text
 
#解析数据
obj=re.compile(r'
.*?.*?(?P.*?)'

r'.*?.*? .*?(?P.*?) .*?(?P.*?).*?(?P.*?)人',re.S)
result=obj.finditer(page_content)
for it in result:
print(it.group("name"))
print(it.group("year").strip())
print(it.group("score"))
print(it.group("people")+" peple judge")
#上述操作在于爬取文件

相关阅读:
前端list列表自定义图标并设置大小
Dotnet算法与数据结构：Hashset, List对比
数字经济概念辨析
PyQt5中的分割线与spacer
2022年下半年网络规划设计师考试论文真题
【C语言学习笔记---内存函数】
金色年华里的爱之旅-无忧交友
基于Unity引擎的RPG3D项目开发笔录
算法——滑动窗口
ROS1余ROS2共存的一键安装（全）

原文地址：https://blog.csdn.net/Ultravioletrays/article/details/132592321