目录
活动地址:CSDN21天学习挑战赛
**
**
关于爬虫,相信大家都不陌生,关于为什么要学爬虫,爬虫为什么要用python,爬虫是不是合法等等相关问题在本文就不赘述了。本文主要是关于爬虫的具体实现。
爬虫的过程:把网页的URL地址加入到URL队列中,根据URL下载网页内容,得到网页内容,重复提取URL和URL去重复操作,最后提取内容并存储数据。
HTML全程是超文本标记语言,与程序设计语言不同,没有逻辑结构,采用标记方式进行网页构建,使用<>讲标记括起来。
如下,是一个html文件内容及在网页中的显示:
- <html>
- <head>
- <title>演示页面title>
- head>
- <body>
- <p>这是一个test网页p>
- body>
- html>

html中的常用标签如下,完整的标签可参考:HTML 标签参考手册 (w3school.com.cn)
| 标签名 | 说明 | 示例 | |||||||||||||||
| 定义注释 | |||||||||||||||||
| 定义锚,超链接 | |||||||||||||||||
| 划分HTML块 |
这是绿色的文本
这是蓝色的文本
| ||||||||||||||||
| h1~h6 | 标题,6种不同风格的标题 |
title1
title2
title3
title4
title5
title6 | |||||||||||||||
| href | 超链接地址,和一起使用 | 小地瓜 | |||||||||||||||
| 图片 |
| ||||||||||||||||
| 列表项 |
| ||||||||||||||||
| 定义段落 | 这是绿色的文本 | ||||||||||||||||
| 行内标签 | 提示:这是绿色的文本 | ||||||||||||||||
| src | 图片存放路径 | ![]() | |||||||||||||||
示例,原始文件在这里(图片路径要根据自己电脑的路径改)
显示:
2> URL网址解释一个URL示例: https://csdnnews.blog.csdn.net/article/details/126313913?spm=1000.2115.3001.5926 URL是Uriform Resource Locator的简写,同一资源定位符。URL由以下几部分组成:
3> HTTP与HTTPS 协议HTTP协议:全称 Hyper Text Transfer Protocal,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口号是80。 HTTPS协议:全称 Hyper Text Transfer Protocol over SecureSocket Layer,是HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号是443。 ① 协议常见的请求方式 http协议规定了浏览器与服务器进行数据交互的过程中必须要选择一种交互方式。在http协议中,定义了8种请求方式,常见的有GET请求与POST请求。 GET请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get请求。 POST请求:向服务器发送数据(登录)、上传文件等,会对服务器资源产生影响的时候会使用POST请求,请求参数在Form Data中。 ② 常见请求头 http协议中,向服务器发送一个请求,数据分为三部分:
常见的请求头参数:
③ 常见请求状态码
4> Chrome浏览器分析网站谷歌浏览器:右键——>检查,界面如下:
5> Session与Cookiesession与cookie用于保持http长时间连接状态的技术。 Session
Cookie Cookie是由服务端生成后发送给客户端(通常是浏览),Cookie总是保存在客户端。 Cookie的基本原理:
6> Ajax请求Ajax在浏览器与Web服务器之间使用异步数据传输。这样就可以使网页从服务器请求少量的信息,而不是整个页面。 Ajax技术独立于浏览器和平台。 Ajax一般返回的是JSON,直接对Ajax地址进行post或get,就返回JSON数据了。 判断是否为Ajax生成数据,看在滚动网页的时候是否发生了刷新,如果页面没有刷新,说明数据自动生成,就是Ajax渲染到界面上的。 全文参考:爬虫入门知识_无 羡ღ的博客-CSDN博客
gltf格式数据获取 翻译软件-好用的翻译软件-免费翻译软件大全 保姆级高通AEC9调试指南(看完可解决80%AE相关问题) 【RocketMQ】消息的存储设计 Delphi绘图功能[2] —— 窗体的绘图属性、圆弧类图形、获取Canvas对象(ClientRect解析) RabbitMQ-06 持久化 算法ppt练习题(给黄成个大逼兜) 04 多表查询 115.(leaflet篇)leaflet空间判断-点与矩形的空间关系 |