码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 爬虫小案例爬取塔某小说内容


    单章小说下载:

    1. import requests
    2. import parsel
    3. import re
    4. #https://www.tadu.com/getPartContentByCodeTable/1004090/2 第二章链接
    5. def get_response(url):
    6. headers = {
    7. "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    8. }
    9. response = requests.get(url=url,headers=headers)
    10. return response
    11. if __name__ == '__main__':
    12. url = 'https://www.tadu.com/getPartContentByCodeTable/1004090/1'
    13. response = get_response(url).json()
    14. content = response['data']['content']
    15. result = re.findall('(.*?)

      '
      ,content)
    16. string = '\n'.join(result)
    17. print(string)
    18. with open('你那近三十的心酸.txt','w',encoding='utf-8') as f:
    19. f.write(string)

    结果展现:

    整本小说下载,下载第二章只要在url最后改成2即可

    实现搜索界面展现:

    1. def get_search(url,key):
    2. data = {
    3. 'query': key,
    4. }
    5. headers = {
    6. "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    7. }
    8. response = requests.post(url=url,data=data,headers=headers)
    9. return response
    10. def get_booklist(response):
    11. selector = parsel.Selector(text=response)
    12. ul_list = selector.css('.bookList li')
    13. for ul in ul_list:
    14. href = ul.css('div.rtList a::attr(href)').get()
    15. title = ul.css('div.rtList a.bookNm::text').getall()
    16. title = ''.join(title)
    17. info = ul.css('div.rtList a.bookIntro::text').getall()
    18. print(href,title,info)
    19. if __name__ == '__main__':
    20. url = 'https://www.tadu.com/search'
    21. key = '仙魔'
    22. resp = get_search(url,key).text
    23. # print(resp)
    24. get_booklist(resp)

    结果展现:

     

    可以通过搜索姐界面找到小说名称和小说链接,小说简介。 

     

  • 相关阅读:
    JavaScript学习笔记
    如何用度量数据驱动代码评审的改善
    乐财业:打造财税服务的“硬核“竞争力
    嵌入式分享合集63
    Layui之动态生成选项卡与用户CRUD
    「React深入」一文吃透虚拟DOM和diff算法
    Linux shell printf命令小例子
    【MHA】MySQL高可用MHA介绍8-常见错误以及解决
    酷开科技丨酷开系统9.2:引领大屏智能化新纪元
    全网最牛的pytest从0到1全套教程-pytest(2)-pytest-html测试报告
  • 原文地址:https://blog.csdn.net/m0_57265868/article/details/139098790
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号