码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【无标题】


    BeautifulSoup下载小说


    链接: link

    import requests
    from bs4 import BeautifulSoup
    
    # 章节目录中寻找每一章的ip地址
    def chapters():
        # 小说的Ip地址,使用前查看网站是否允许爬取,本篇仅供学习交流,不得用于违法,后果自负
        base_url = ""
        resp = requests.get(base_url)
        resp.encoding = "utf-8"
        bf = BeautifulSoup(resp.text, "html.parser")
        # 列表存放(每一章的url,章节名),元组的形式存放
        data = []
        for li in bf.find("ul", id="htmlChapterList").find_all("li"):
            link_a = li.find("a")
            if not link_a:
                continue
            # print(link_a)
            data.append((link_a["href"], link_a.get_text()))
            print(data)
            # break
        return data
    
    # 返回网页的url文本
    def content_novel(url):
        res = requests.get(url)
        res.encoding = "UTF-8"
        bf = BeautifulSoup(res.text, "html.parser")
        if not bf.find("div", id="htmlContent"):
            return None
        return bf.find("div", id="htmlContent").get_text()
    
    novels = chapters()
    numbers = len(novels)
    ids = 0
    # 保存下载的小说,以章节的形式保存
    for novel_title in chapters():
        url, title = novel_title
        ids += 1
        print("download: "+str(ids)+","+"total:"+ str(numbers))
        with open("%s.txt"%title, 'w', encoding="UTF-8") as fwrite:
            if not content_novel(url):
                continue
            fwrite.write(content_novel(url))
            # print(content_novel(url))
            # break
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
  • 相关阅读:
    java-锁
    Percona监控数据库解决方案
    用Arduino测试ADXL335加速度计如何工作?
    vue组件间传参以及方法调用总结
    计算机毕业设计JavaWeb美食网站设计(源码+系统+mysql数据库+lw文档)
    2022牛客多校三_F
    Spring Cloud搭建XXL-JOB任务调度平台
    k8s1.19使用ceph14
    vue3打包时如何通过cdn引入echarts
    Vue Treeselect树形下拉框的使用
  • 原文地址:https://blog.csdn.net/qq_37755459/article/details/134475443
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号