• python网络爬虫实例


    目录

    1、访问百度

    2、输入单词百度翻译

    3、豆瓣电影排行榜

    4、豆瓣电影top250

    5、下载美女壁纸


    1、访问百度

    1. from urllib.request import urlopen
    2. url="http://www.baidu.com"
    3. resp=urlopen(url)
    4. with open("mybaidu.html",mode="w") as f:
    5. f.write(resp.read().decode("utf-8"))
    6. print("over!")

    2、输入单词百度翻译

    1. import requests
    2. url="https://fanyi.baidu.com/sug"
    3. s=input("请输入你要翻译的英文单词")
    4. dat={"kw":s}
    5. #发送POST请求
    6. resp=requests.post(url,data=dat)
    7. print(resp.json())
    8. resp.close()

    3、豆瓣电影排行榜

    1. import requests
    2. url="https://movie.douban.com/j/chart/top_list"
    3. param={"type": "24",
    4. "interval_id": "100:90",
    5. "action":"",
    6. "start":"0",
    7. "limit": "20"}
    8. header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    9. #发送get请求
    10. resp=requests.get(url,params=param,headers=header)
    11. print(resp.json())
    12. resp.close()

    图片

    4、豆瓣电影top250

    1. import requests
    2. import re
    3. url="https://movie.douban.com/top250"
    4. header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    5. resp=requests.get(url,headers=header)
    6. page_content=resp.text
    7. obj=re.compile(r'
    8. .*?
      .*?(?P.*?).*?

      .*?
      (?P.*?) .*?(?P.*?).*?(?P.*?)人评价',re.S)

  • result=obj.finditer(page_content)
  • for it in result:
  • print(it.group("name"))
  • print(it.group("year").strip())
  • print(it.group("score"))
  • print(it.group("num"))
  • print("over!")
  • 5、下载美女壁纸

    1. import requests
    2. from bs4 import BeautifulSoup
    3. import time
    4. url="https://www.umei.cc/bizhitupian/meinvbizhi/"
    5. #header={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"}
    6. resp=requests.get(url)
    7. resp.encoding='utf-8'
    8. main_page=BeautifulSoup(resp.text,"html.parser")
    9. alist=main_page.find("div",class_="item_list infinite_scroll").find_all("a")
    10. for a in alist:
    11. href="http://umei.cc"+a.get("href")
    12. child_page_resp=requests.get(href)
    13. child_page_resp.encoding='utf-8'
    14. child_page=BeautifulSoup(child_page_resp.text,"html.parser")
    15. b=child_page.find("div",class_="big-pic")
    16. img=b.find("img")
    17. src=img.get("src")
    18. img_resp=requests.get(src)
    19. img_name=src.split("/")[-1]
    20. with open(img_name,mode="wb") as f:
    21. f.write(img_resp.content)
    22. print("over!",img_name)
    23. time.sleep(1)
    24. print("all over!")

    图片

  • 相关阅读:
    【c++】stack和queue模拟实现
    设计模式必知必会系列终章
    腰部外骨骼机器人线性自抗扰控制器参数优化
    GTID概念介绍
    6-5,web3浏览器链接区块链(react+区块链实战)
    都说Redux不支持非序列化数据 简单讲解非序列化数据概念 并举例说明
    Java继承中方法的覆盖重写~注意事项
    PCF8591学习笔记
    【Linux】进程数据结构
    hive-udf
  • 原文地址:https://blog.csdn.net/T20151470/article/details/134022874