• 爬虫学习笔记 -- 常见名词解释


    0x01 HTTP和HTTPS

    HTTP:超文本传输协议,就是我们常见到的网页

    HTTPS:超文本传输协议plus

    HTTP请求:客户端发送请求到服务器

    客户端====(Request)=》服务器

    HTTP相应:服务器将信息返回到客户端

    客户端《====(Response)=服务器

    0x02 请求体

    编辑切换为居中

    添加图片注释,不超过 140 字(可选)

    0x03 请求方法和请求头

    1、GET:传输数据可见,有长度限制,都在URL里面

    2、POST:传输数据不可见,无长度限制

    3、Accept:浏览器可接受的MIME类型

    4、Accept-Encoding:浏览器能够进行解码的数据编码方式,比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。

    5、Accept-Language:浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到。

    6、Connection:表示是否需要持久连接。如果Servlet看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。要实现这一点,Servlet需要在应答中发送一个Content-Length头,最简单的实现方法是:先把内容写入ByteArrayOutputStream,然后在正式写出内容之前计算它的大小。

    7、Content-Length:表示请求消息正文的长度。

    8、Cookie:这是最重要的请求头信息之一

    9、Host:初始URL中的主机和端口。

    10、Referer:包含一个URL,用户从该URL代表的页面出发访问当前请求的页面。

    11、User-Agent:浏览器类型,如果Servlet返回的内容与浏览器类型有关则该值非常有用。

    0x04 响应头

    1、Cache-Control:缓存相关信息

    2、Content-Type:text/html;charset=UTF-8 告诉客户端,资源文件的类型,还有字符编码,客户端通过utf-8对资源进行解码,然后对资源进行html解析。通常我们会看到有些网站是乱码的,往往就是服务器端没有返回正确的编码。

    3、Content-Encoding:gzip 告诉客户端,服务端发送的资源是采用gzip编码的,客户端看到这个信息后,应该采用gzip对资源进行解码。

    4、Date: Tue, 03 Apr 2020 03:52:28 GMT 这个是服务端发送资源时的服务器时间,GMT是格林尼治所在地的标准时间。http协议中发送的时间都是GMT的,这主要是解决在互联网上,不同时区在相互请求资源的时候,时间混乱问题。

    5、Server:Tengine/1.4.6 这个是服务器和相对应的版本,只是告诉客户端服务器信息。

    6、Transfer-Encoding:chunked 这个响应头告诉客户端,服务器发送的资源的方式是分块发送的。一般分块发送的资源都是服务器动态生成的,在发送时还不知道发送资源的大小,所以采用分块发送,每一块都是独立的,独立的块都能标示自己的长度,最后一块是0长度的,当客户端读到这个0长度的块时,就可以确定资源已经传输完了。

    7、Expires:Sun, 1 Jan 1994 01:00:00 GMT 这个响应头也是跟缓存有关的,告诉客户端在这个时间前,可以直接访问缓存副本,很显然这个值会存在问题,因为客户端和服务器的时间不一定会都是相同的,如果时间不同就会导致问题。所以这个响应头是没有Cache-Control:max-age=*这个响应头准确的,因为max-age=date中的date是个相对时间,不仅更好理解,也更准确。

    8、Last-Modified: Dec, 26 Dec 2019 17:30:00 GMT 所请求的对象的最后修改日期(按照 RFC 7231 中定义的“超文本传输协议日期”格式来表示)

    9、Connection:keep-alive 这个字段作为回应客户端的Connection:keep-alive,告诉客户端服务器的tcp连接也是一个长连接,客户端可以继续使用这个tcp连接发送http请求。

    10、Refresh: 5; url=http://baidu.com 用于重定向,或者当一个新的资源被创建时。默认会在5秒后刷新重定向。

    11、响应状态码

    1xx 消息,一般是告诉客户端,请求已经收到了,正在处理,别急...

    2xx 处理成功,一般表示:请求收悉、我明白你要的、请求已受理、已经处理完成等信息.

    3xx 重定向到其它地方。它让客户端再发起一个请求以完成整个处理。

    4xx 处理发生错误,责任在客户端,如客户端的请求一个不存在的资源,客户端未被授权,禁止访问等。

    5xx 处理发生错误,责任在服务端,如服务端抛出异常,路由出错,HTTP版本不支持等。

    0x05 Session和Cookie

    1、Session:服务器存储的客户端凭证

    2、Cookie:本地存储的客户端凭证

    0x06 代理

    如果网站屏蔽ip,可以通过代理绕过该限制

    0x07 多线程和多进程

    一个进程可以有多条线程,提高爬虫的速度

    0x08 声明

    仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

    欢迎关注编程者吧

    编辑切换为居中

    添加图片注释,不超过 140 字(可选)

  • 相关阅读:
    Vue小技巧
    攻防演练中防守方的防护措施.
    关于vagrant up的一个终结之谜(Markdown版本)
    MySQL——索引与事务
    2024广东省职业技能大赛云计算赛项实战——构建CICD
    集群创建(flannel)时候,没有自动创建出cni0网卡
    linux __ctype_b_loc
    宏工科技领掀锂电匀浆效率风暴
    架构设计流程
    Redis代码实践总结(二)
  • 原文地址:https://blog.csdn.net/weixin_41489908/article/details/126829903