• Java:爬虫htmlunit抓取a标签


    如果对htmlunit还不了解的话可以参考Java:爬虫htmlunit-CSDN博客

    了解了htmlunit之后,我们再来学习如何在页面中抓取我们想要的数据,我们在学习初期可以找一些结构比较清晰的网站来做测试爬取,首先我们随意找个网站如下:

    当我们打开网站F12,进入开发者模式,我们在学习之前我们需要知道我们要爬取什么数据,了解数据和页面的结构。就拿这个网站来说我们如果要爬取它的数据,首先需要获取他们的类别,在获取类别下的数据。那我们在点击类别的时候,需要分析下地址有没有变化,如果变化了,我们需要拿到指定类别的地址,然后和域名拼接成完整地址抓取其类目下的数据。

    为什么要拼接呢?因为在网站类目使用的跳转,会自动加上站点地址;我们在爬取的时候是没有该网站域名的。

    这个列子非常简单,我们直接要获取它的类别跳转的地址,再根据爬取的地址爬取其详情数据;

    分析下来我们只要抓取该页面的a标签即可。这个在 htmlunit 中提供了 HtmlAnchor 直接可以获取所有的a标签,代码如下:

    1. /**
    2. * Function: todo
    3. *
    4. * @program: 根据页面信息获取子页面信息
    5. * @Package: com.kingbal.king.dmp
    6. * @author: dingcho
    7. * @date: 2024/06/13
    8. * @version: 1.0
    9. * @Copyright: 2024 www.kingbal.com Inc. All rights reserved.
    10. */
    11. @Slf4j
    12. public class BaseTest {
    13. public static void main(String[] args) throws Exception {
    14. HtmlPage page = SpiderUtils.crawlPageWithoutAnalyseJs("https://www.yiyiwiy.com/");
    15. //System.err.println(page);
    16. List<HtmlAnchor> htmlAnchorList = page.getAnchors();
    17. log.info("htmlAnchorList.size() >>" + htmlAnchorList.size());
    18. log.info("********************");
    19. htmlAnchorList.forEach(f -> {
    20. if(f.getHrefAttribute().contains("vodtypehtml")){
    21. log.info(f.getHrefAttribute());
    22. }
    23. });
    24. log.info("********************");
    25. }
    26. }

    我们抓取的是所有页面的a标签,所以我们需要过滤掉我们不需要的地址:

    1. if(f.getHrefAttribute().contains("vodtypehtml")){
    2. log.info(f.getHrefAttribute());
    3. }

    然后执行代码,就可以获取到对应数据

  • 相关阅读:
    Embedding 模型部署及效果评测
    编程为什么要使用设计模式?使用设计模式的好处有哪些?
    git常用命令
    【无标题】PCIe收发卡设计资料原理图:611-基于VU9P的2路4Gsps AD 2路5G DA PCIe收发卡
    卷积神经网络
    MyBatis-Plus(二、常用注解)
    M的编程备忘录之C++——map和set
    【Axure高保真原型】日历日期原型模板
    牛客小白月赛55
    相机图像质量研究(35)常见问题总结:图像处理对成像的影响--运动噪声
  • 原文地址:https://blog.csdn.net/yao_guai/article/details/139639809