码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 写爬虫?前端er何必用python


    前言

    说起网络爬虫,很多人第一时间想到python,但爬虫并非只能用python实现,虽然网上大部分爬虫文章都在说python爬虫,但对于前端程序员来说,我觉得js才是最屌的(对于简单爬取任务来说,复杂的我暂时没碰到~),下面说说我的经验(是的,仅限本人经验),希望能给各位前端程序员带来一点新视角。

    前置条件

    • 熟悉常用的js bom dom api
    • 会用chrome devtool

    什么是爬虫

    简单点,字面意思,爬虫就是用来爬取数据(文本、图片、视频等等)的代码脚本;

    在第一次听爬虫的时候,感觉这个词碉堡了,学会了一定很酷!这也是我以前入坑python的主要原因。但搜索下科普文章/百科等等,还是有点云里雾里的感觉。其实我觉得了解一个概念从实际的需求出发更加容易理解,毕竟概念是人造的,没有概念前呢?下面根据真实事件改编:

    需求一:获取豆瓣评分电影Top250的详细信息

    需要获取以下表头信息,并存到本地/数据库/…

    image.png 先不说怎么做到,但只要你用代码实现了这个需求,那你就是写了一个爬虫。

    js爬虫思路实践

    从哪里开始呢?首先,你要爬数据,就得先有目标,一般目标是一个网页,网页上有你想要的数据,一般网页数据多的时候都会分页请求数据,那必然就有规律!

    1. 分析页面请求,找到数据来源,分析接口规律

    简单分析下第一页/第二页接口请求,发现数据是以下接口返回的:

    image.png

    image.png

    • 第一页接口路径:movie.douban.com/top250?star…
    • 第二页接口路径:movie.douban.com/top250?star…

    依此类推,第几页只是start参数不一样

    2. 用代码模拟获取接口数据

    代码模拟获取接口数据?那不就是调接口吗,这我熟,于是axios/fetch一顿撸,如下:

    fetch("https://movie.douban.com/top250?start=1")
      .then(function (response) {
       
        return response.text();
      })
      .then((r) => {
       
        console.log(333, r);
      });
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    放到console下跑下,数据不就拿到了!

    image.png

    3. 过滤处理提取数据

    返回json数据还好处理,但这返回的是一个html文档啊,怎么过滤获取我们想要的数据呢?我们换个思路,对于处理html文档,dom api再合适不过了,但怎么用document对象方法呢,用iframe!

    const iframe = document.createElement("iframe");
    iframe.onload = () => {
       
    • 1
    • 2
  • 相关阅读:
    PrintWrter中的write()和print()方法
    2024HVV行动-进军蓝中研判(log4j2、fastjson、Struts2、Shiro)
    【软考软件评测师】第十八章 计算机组成与体系结构(寻址方式)
    IO流之File类
    JAVA计算机毕业设计宠物销售管理系统Mybatis+系统+数据库+调试部署
    2022-08-27 Android系统里面自带的文件操作工具类(FileUtils)android.os.FileUtils
    基于PHP下的大学生校园交流论坛的设计与实现毕业设计源码101634
    使用libmodbus库开发modbusTcp从站(支持多个主站连接)
    深耕“有效私域”,雀巢集团携手腾讯重塑零售数字化体验
    CSP-J 2023 第二轮认证入门级(含答案)
  • 原文地址:https://blog.csdn.net/weixin_45506717/article/details/133745430
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号