• 爬虫工程师基本功,什么是静态网页与动态网页


    一、静态网页

    静态网页

    静态网页就是直接固定的数据,数据直接是在Html返回的时候,Html中已经包含了相应的数据,这个数据对爬虫来说最友好的。爬虫只需要请求数据,不用再去单独的分析,将请求直接从页面中去提取出数据。像百度百科,维基百科这种实际上很少变动,偶尔编辑一次这种页面就非常适合用来做静态网页。

    静态网页相对的几个最重要的优点,就是它相对稳定,静态网页的内容相对固定,且不需要连接后台数据库,因此响应速度非常快,更利于SEO,像百度搜索引擎,道理也是一样的。它们查数据也会简单很多。因为像百度谷歌这种搜索引擎,因为它们爬取的网站太多了,它们不可能针对每个网站去分析它们的请求,所以它们一般直接分析HTML返回的内容是什么,它就是什么。如果做的内容尽量直接展示在HTML讲义当中。爬虫它就能够直接爬取这些数据,然后网站的排名就会上升。

    静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态并非静止不动,它也包含一些动画效果,这一点不要误解

    二、动态网页

    动态网页就是有交互的网页,比如数据通过ajax请求动态加载了数据。动态网页体验好,数据部分加载,对服务器友好,扩展性好

    什么是服务器友好呢?

    假如静态网页展示的内容和动态网页展示的内容是一样的,有一部分内容动态网页通过某些请求,服务器就可以尽快的返回简单的Html。
    它能够先展示出来的部分就会先展示出来,所以对服务器来说就比较友好,服务器的压力不会过大。
    如果是静态网页,它也需要同样的内容的,就意味着服务端必须将所有的数据组装好了之后才能够返回。这样服务器可能就会响应比较慢

    什么是扩展性好?

    动态页面上很多数据分成很多接口来完成,这样就可以做成APP,去做小程序等多端服务,就不需要再做额外的开发了

    注意:一般网站通常会使用动静相结合的方式,使其达到一种平衡的状态。

    抓取动态网页的过程较为复杂,需要通过动态抓包来获取客户端与服务器交互的 JSON 数据。抓包时,可以使用谷歌浏览器开发者模式(快捷键:F12)Network选项,然后点击 XHR,找到获取 JSON 数据

    在这里插入图片描述

    Network`选项 : 查看网络请求
    XHR : 抓取与服务器的交互数据
    左侧栏 : 抓取的数据包
    标签栏 :网络请求信息,响应信息等

    也可以使用专业的抓包工具 Fiddler

  • 相关阅读:
    Python(9)面对对象高级编程
    【AUTOSAR-CanIf】-2.3-对接收的L-PDU进行的Validation check
    音视频从入门到精通——FFmpeg结构体:AVCodecContext分析
    java实际项目反射、自定义注解的运用实现itext生成PDF的详细应用教程
    Js将时间戳转成日期格式
    移动端页面秒开优化总结
    JDK8使用Optional避免NullPointerException
    静态web页面网站课程设计
    SpringMVC的上传下载
    16 - 多线程调优(下):如何优化多线程上下文切换?
  • 原文地址:https://blog.csdn.net/weixin_36643308/article/details/132652374