• python网络爬虫实例


    目录

    1、访问百度

    2、输入单词百度翻译

    3、豆瓣电影排行榜

    4、豆瓣电影top250

    5、下载美女壁纸


    1、访问百度

    1. from urllib.request import urlopen
    2. url="http://www.baidu.com"
    3. resp=urlopen(url)
    4. with open("mybaidu.html",mode="w") as f:
    5. f.write(resp.read().decode("utf-8"))
    6. print("over!")

    2、输入单词百度翻译

    1. import requests
    2. url="https://fanyi.baidu.com/sug"
    3. s=input("请输入你要翻译的英文单词")
    4. dat={"kw":s}
    5. #发送POST请求
    6. resp=requests.post(url,data=dat)
    7. print(resp.json())
    8. resp.close()

    3、豆瓣电影排行榜

    1. import requests
    2. url="https://movie.douban.com/j/chart/top_list"
    3. param={"type": "24",
    4. "interval_id": "100:90",
    5. "action":"",
    6. "start":"0",
    7. "limit": "20"}
    8. header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    9. #发送get请求
    10. resp=requests.get(url,params=param,headers=header)
    11. print(resp.json())
    12. resp.close()

    图片

    4、豆瓣电影top250

    1. import requests
    2. import re
    3. url="https://movie.douban.com/top250"
    4. header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    5. resp=requests.get(url,headers=header)
    6. page_content=resp.text
    7. obj=re.compile(r'
    8. .*?
      .*?(?P.*?).*?

      .*?
      (?P.*?) .*?(?P.*?).*?(?P.*?)人评价',re.S)

  • result=obj.finditer(page_content)
  • for it in result:
  • print(it.group("name"))
  • print(it.group("year").strip())
  • print(it.group("score"))
  • print(it.group("num"))
  • print("over!")
  • 5、下载美女壁纸

    1. import requests
    2. from bs4 import BeautifulSoup
    3. import time
    4. url="https://www.umei.cc/bizhitupian/meinvbizhi/"
    5. #header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    6. resp=requests.get(url)
    7. resp.encoding='utf-8'
    8. main_page=BeautifulSoup(resp.text,"html.parser")
    9. alist=main_page.find("div",class_="item_list infinite_scroll").find_all("a")
    10. for a in alist:
    11. href="http://umei.cc"+a.get("href")
    12. child_page_resp=requests.get(href)
    13. child_page_resp.encoding='utf-8'
    14. child_page=BeautifulSoup(child_page_resp.text,"html.parser")
    15. b=child_page.find("div",class_="big-pic")
    16. img=b.find("img")
    17. src=img.get("src")
    18. img_resp=requests.get(src)
    19. img_name=src.split("/")[-1]
    20. with open(img_name,mode="wb") as f:
    21. f.write(img_resp.content)
    22. print("over!",img_name)
    23. time.sleep(1)
    24. print("all over!")

    图片

  • 相关阅读:
    Java 各种工具类的使用方法
    CSS---flex布局
    [附源码]Python计算机毕业设计大学生兼职系统
    使用Github Action来辅助项目管理
    电脑文件夹备份到百度网盘,可以实现自动备份
    玩转SQLite-11:C语言高效API之sqlite3_prepare系列函数
    [PHP] - 编译参数 --enable-sysvsem
    RabbitMQ的一些问题
    flutter 本地存储数据(shared_preferences)
    “熊猫视图”.Net图形控件功能介绍 [五]:视图平移
  • 原文地址:https://blog.csdn.net/T20151470/article/details/134022874