• 手写一个简单爬虫--手刃豆瓣top250排行榜


     

    1. #拿到页面面源代码 request
    2. #通过re来提取想要的有效信息 re
    3. import requests
    4. import re
    5. url="https://movie.douban.com/top250"
    6. headers={
    7. "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"}
    8. resp=requests.get(url,headers=headers)
    9. page_content=resp.text
    10. #解析数据
    11. obj=re.compile(r'
    12. .*?
      .*?(?P.*?)'
  • r'.*?

    .*?
    .*?(?P.*?) .*?(?P.*?).*?(?P.*?)人',re.S)

  • result=obj.finditer(page_content)
  • for it in result:
  • print(it.group("name"))
  • print(it.group("year").strip())
  • print(it.group("score"))
  • print(it.group("people")+" peple judge")
  • #上述操作在于爬取文件
  • 相关阅读:
    前端list列表自定义图标并设置大小
    Dotnet算法与数据结构:Hashset, List对比
    数字经济概念辨析
    PyQt5中的分割线与spacer
    2022年下半年网络规划设计师考试论文真题
    【C语言学习笔记---内存函数】
    金色年华里的爱之旅-无忧交友
    基于Unity引擎的RPG3D项目开发笔录
    算法——滑动窗口
    ROS1余ROS2共存的一键安装(全)
  • 原文地址:https://blog.csdn.net/Ultravioletrays/article/details/132592321