• 苏生不惑出品:2024 批量下载知乎回答,文章和想法,导出 excel 和 pdf


    苏生不惑第488 篇原创文章,加入我的知识星球

    去年发过文章2023 更新版:苏生不惑开发过的那些原创工具和脚本,今天用web scraper抓取知乎数据,然后批量下载知乎回答,文章和想法,导出excel和pdf 。

    如何安装web scraper浏览器扩展见我之前文章2023 年还有人不会用油猴脚本神器?手把手教你 ,推荐使用谷歌或者edge浏览器,安装扩展后打开知乎网站右键检查切换到web scraper就可以用了。

    批量下载知乎回答和文章以 kvxjr369f  这个号为例,import sitemap导入以下代码,注意如果抓取其他号要修改下知乎链接和page页数。

    {"_id":"zhihu_answer2","startUrl":["https://www.zhihu.com/people/kvxjr369f/answers?page=[1-170]"],"selectors":[{"id":"row2","multiple":true,"parentSelectors":["_root"],"selector":"div.List-item","type":"SelectorElement"},{"id":"知乎问题标题","multiple":false,"parentSelectors":["row2"],"regex":"","selector":"[itemprop='zhihu:question'] a[data-za-detail-view-element_name]","type":"SelectorText"},{"extractAttribute":"href","id":"知乎问题链接","multiple":false,"parentSelectors":["row2"],"selector":"[itemprop='zhihu:question'] a[data-za-detail-view-element_name]","type":"SelectorElementAttribute"},{"id":"知乎赞同数","multiple":false,"parentSelectors":["row2"],"regex":"\\d+","selector":"button.VoteButton--up","type":"SelectorText"},{"id":"知乎评论数","multiple":false,"parentSelectors":["row2"],"regex":"\\d+","selector":"button.ContentItem-action:nth-of-type(1)","type":"SelectorText"}]}
    5bc91ddeb0c803a600fcb09a9d1baaf4.png

    选择导入的脚本直接scrape,之后浏览器会自动新开浏览器抓取。df4caae1a2ead45be9568804f92c0468.png我录制了个简单的视频。

    抓取完成后export data,可以选择excel和csv格式。

    a3903b436d2b70856855af9f1ccb9141.png

    导出的excel数据包含所有知乎回答问题标题,链接,赞同数和评论数。

    50c3e84e1d71b243dd487c230a29ab59.png

    共3000多个回答。

    6b3d1f2768dc2e2f4ce77d52da99a873.png

    按赞同数对所有回答排个序,不过981会排在9801前面,因为这些数字被识别为文本而不是数值,可以新建一列赞同数使用 VALUE 函数将文本转换为数值 =VALUE(E2), 然后下拉拖动填充到单元格,再对新的列进行排序,回答赞数排名前10的回答:4ae2d6f9d55776a094b82a05c3c453ec.png

    1. https://www.zhihu.com/question/518747432/answer/2366512885
    2. https://www.zhihu.com/question/389889237/answer/1340483247
    3. https://www.zhihu.com/question/67266406/answer/1214233663
    4. https://www.zhihu.com/question/264373660/answer/1710187984
    5. https://www.zhihu.com/question/587776721/answer/2924669605
    6. https://www.zhihu.com/question/442077295/answer/1708505224
    7. https://www.zhihu.com/question/28296314/answer/1486320041
    8. https://www.zhihu.com/question/349923819/answer/1357923844
    9. https://www.zhihu.com/question/267170674/answer/448696808
    10. https://www.zhihu.com/question/20887129/answer/2274353390

    之后对excel里的回答链接批量下载(这个自己研究下),效果如图:

    5a07e1bc753a00bd3bfb0557279d4254.png下载生成回答html,文件名为回答日期加标题,再转换pdf。

    aeb62eb2fcb2e4c624d908bd45406ae5.png最后将所有回答pdf合成一个pdf文件,大小近300MB,网盘地址 https://pan.quark.cn/s/8522433ad346 ,点击左侧书签可跳转到对应回答。

    677f492588ca70e914e095265cb71cd3.png

    知乎文章批量下载也是一样的,导入以下代码抓取(以下为付费内容):

  • 相关阅读:
    SpringCloud系列-SpringCloudLoadBalancer是如何通过@BalanceLoad使用nacos中的微服务
    PPT设置为本框的默认格式以及固定文本框
    【正则表达式 】java 正则表达式 校验日期格式
    PyTorch笔记 - Attention Is All You Need (2)
    小半年被裁掉30多人,大厂“开猿节流”太狠了
    Mistral 7B 比Llama 2更好的开源大模型 (二)
    17. 电话号码的字母组合
    多元线性回归方法的应用,人工神经网络回归分析
    string的应用和练习
    多年的心愿
  • 原文地址:https://blog.csdn.net/sushengbuhuo/article/details/136578169