• 4k壁纸爬100页 python



    活动地址:CSDN21天学习挑战赛

    学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:
    想系统/深入学习某技术知识点…
    一个人摸索学习很难坚持,想组团高效学习…
    想写博客但无从下手,急需写作干货注入能量…
    热爱写作,愿意让自己成为更好的人…


    欢迎参与CSDN学习挑战赛,成为更好的自己,请参考活动中各位优质专栏博主的免费高质量专栏资源(这部分优质资源是活动限时免费开放喔~),按照自身的学习领域和学习进度学习并记录自己的学习过程。您可以从以下3个方面任选其一着手(不强制),或者按照自己的理解发布专栏学习作品,参考如下:

    **

    这次彼岸网的图库
    仔细分析了一下还是很好爬的,就是可能第一页借不到
    不过问题不大改一下就可以
    在这里插入图片描述
    图片地址: 正则加字符串就可以搞定还不用登陆下载
    在这里插入图片描述
    翻页还是很有规律的每位加1 最重要的是index_1并不存在
    第一页要单独爬

    import requests
    from bs4 import BeautifulSoup
    from lxml import etree
    import os
    import re
    '''
    思路:获取网址
    通过正则获取图片列表
          获取图片地址
          爬取图片并保存
    '''
    def getUrl(url):
        read = requests.get(url)  # 获取url
        read.raise_for_status()  # 状态响应 返回200连接成功
        read.encoding = read.apparent_encoding  # 从内容中分析出响应内容编码方式
        html=read.text# Http响应内容的字符串,即url对应的页面内容
        kl = re.compile(r'src="(.+?jpg)"')
        sl = re.findall(kl, html)
        for img in sl:
            src = 'https://pic.netbian.com' + img  # 获取img标签里的src内容
            img_url = src
            print(img_url)
            root = "D:\hutao/dd/"  # 保存的路径
            path = root + img_url.split('/')[-1]  # 获取img的文件名
            print(path)
            read = requests.get(img_url)
            with open(path, "wb")as f:
                f.write(read.content)
                f.close()
                print("文件保存成功!")
    def number(i):
        while i<100:
            i+=1
            html_url = getUrl("https://pic.netbian.com/4kdongman/index_{}.html".format(i))
        return html_url
    # 主函数
    if __name__ == '__main__':
        i=1
        number(i)
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40

    这是从2到100的爬虫
    然后第一页的是

    def getUrl(url):
        read = requests.get(url)  # 获取url
        read.raise_for_status()  # 状态响应 返回200连接成功
        read.encoding = read.apparent_encoding  # 从内容中分析出响应内容编码方式
        html=read.text# Http响应内容的字符串,即url对应的页面内容
        kl = re.compile(r'src="(.+?jpg)"')
        sl = re.findall(kl, html)
        for img in sl:
            src = 'https://pic.netbian.com' + img  # 获取img标签里的src内容
            img_url = src
            print(img_url)
            root = "D:\hutao/dd/"  # 保存的路径
            path = root + img_url.split('/')[-1]  # 获取img的文件名
            print(path)
            read = requests.get(img_url)
            with open(path, "wb")as f:
                f.write(read.content)
                f.close()
                print("文件保存成功!")
    
    # 主函数
    if __name__ == '__main__':
    getUrl("https://pic.netbian.com/4kdongman.html")
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    这两个代码可以联合在一起,这里就提个思路后续改进。

    提醒:在发布作品前请把不用的内容删掉(活动地址请保留)

  • 相关阅读:
    你知道电子招标最突出的5大好处有哪些吗?
    《Real-Time Rendering 3rd》读书笔记
    基于JavaGUI的简易图书管理系统
    【Java力扣《代码随想录》】第4章链表63-69题(leetcode题号203+707+206+24+19+面试题02.07+142)
    DPD(Digital Pre-Distortion,数字预失真)
    express学习36-多人管理28用户信息展示
    C++设计模式 - 访问器模式(Visitor)
    argparse的用法
    CXL崛起:2024启航,2025年开启新时代
    解读|风控模型的客观认识与深入理解
  • 原文地址:https://blog.csdn.net/FODKING/article/details/126206406