码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 网络爬虫基础


    目录

    一、了解 爬虫的概念

    二、了解 爬虫的作用

    三、了解 爬虫的分类

    四、掌握 爬虫的流程


    一、了解 爬虫的概念

    模拟浏览器,发送请求,获取响应

    网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

    • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做

    • 爬虫也只能获取客户端(浏览器)所展示出来的数据

    二、了解 爬虫的作用

    1.数据收集:

    • 抓取微博评论
    • 抓取招聘网站的招聘信息

    2.软件测试:

    • 爬虫之自动化测试

    3.抢票、刷流量

    • 12306网站上抢票
    • 投票网站刷票
    • 秒杀抢购

    三、了解 爬虫的分类

    3.1 根据被爬取网站的数量不同,可以分为:

    • 通用爬虫,如 搜索引擎

    • 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

    3.2 根据是否以获取数据为目的,可以分为:

    • 功能性爬虫,给你喜欢的明星投票、点赞

    • 数据增量爬虫,比如招聘信息

    3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

    • 基于url地址变化、内容也随之变化的数据增量爬虫

    • url地址不变、内容变化的数据增量爬虫

     

    四、掌握 爬虫的流程

    1. 获取一个url

    2. 向url发送请求,并获取响应(需要http协议)

    3. 如果从响应中提取url,则继续发送请求获取响应

    4. 如果从响应中提取数据,则将数据进行保存

     

  • 相关阅读:
    Springboot----实现邮箱验证码登录(代码部分)
    hive语法
    使用 Redis BitMap 实现签到与查询历史签到以及签到统计功能(SpringBoot环境)
    聊聊并发编程——Condition
    速卖通,国际站测评补单用什么环境,买家账号不会被风控,F号
    针不戳,数据库性能优化八大方案。
    python全文检索库:whoosh
    已知平面内三点,求其平面的法向量
    JS Regex
    C# 巧妙计算小R输漏掉的一位同学
  • 原文地址:https://blog.csdn.net/m0_61491995/article/details/126260687
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号