网络爬虫相关概念

通用爬虫：

实例

                百度、360、google、sougou等搜索引擎‐‐‐伯乐在线

        功能

                访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务

        robots协议

                一个约定俗成的协议，添加robots.txt文件，来说明本网站哪些内容不可以被抓取，起不到限制作用

                自己写的爬虫无需遵守

        网站排名(SEO)

                        1. 根据pagerank算法值进行排名（参考个网站流量、点击率等指标） 2. 百度竞价排名

        缺点

                        1. 抓取的数据大多是无用的 2.不能根据用户的需求来精准获取数据

因此上面的通用爬虫不是我们学习的目标，我们的学习目标是下面的聚焦爬虫。

聚焦爬虫

        功能

                根据需求，实现爬虫程序，抓取需要的数据

        设计思路

                1.确定要爬取的url

                        如何获取Url

                2.模拟浏览器通过http协议访问url，获取服务器返回的html代码（所有的数据）

                        如何访问

                3.解析html字符串（根据一定规则提取需要的数据）

6、反爬手段

为了保护网站的数据和资源，防止被恶意爬虫滥用或过度访问，网站常常采用一些反爬手段。以下是一些常见的反爬手段：

验证码：网站可能要求用户输入验证码，以确认其为真实用户而不是爬虫。验证码可以是图形验证码、短信验证码等形式。
IP限制：网站可以根据IP地址限制访问频率或连接数，当同一个IP地址请求过于频繁时，可能会被暂时或永久禁止访问。
User-Agent检测：网站可以通过检查请求中的User-Agent字段来判断请求是否来自爬虫。如果User-Agent与正常浏览器的标识不匹配，可能会被拒绝访问。
Cookie验证：网站可能使用Cookie来验证用户身份，如果请求中没有有效的Cookie或Cookie不符合预期，可能会被拒绝访问。
动态页面：网站可以使用动态生成的页面内容， ers实现爬虫难以解析和提取数据。
页面渲染：有些网站使用JavaScript动态生成页面内容，爬虫需要使用浏览器引擎来解析和执行JavaScript代码，以获取完整的页面数据。
请求频率限制：网站可能设置了请求频率限制，当请求频率超过一定阈值时，可能会被判定为爬虫并拒绝访问。

为了规避这些反爬手段，爬虫开发者可以采取一些策略，如设置合理的请求频率、使用代理IP、处理验证码、处理动态页面等。然而，请注意，遵守网站的规则和使用条款是非常重要的，爬虫应该尊重网站的隐私和访问限制，避免对网站造成过度负荷或滥用。

相关阅读:
LeetCode 643. Maximum Average Subarray I
Mac硬件设备系统环境的升级/更新 macOS
劫持TLS绕过canary pwn89
fail-fast 和 fail-safe 快速学习
（MATLAB）第三章-MATLAB基础知识
C#界面里Form.HelpButton 属性的使用
Pikachu-xxe （xml外部实体注入漏洞）过关笔记
Exoplayer异常:4003, MediaCodecAudioRenderer error,format_supported=YES
centos环境搭建nsq单点
面试中的技术趋势：如何展示你跟进最新技术的能力

原文地址：https://blog.csdn.net/m0_63951142/article/details/131996813