• 如何使用Puppeteer进行新闻网站数据抓取和聚合


    亿牛云代理

    导语

    Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

    概述

    数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
    使用Puppeteer进行数据抓取和聚合的基本步骤如下:

    1. 安装Puppeteer库和相关依赖
    2. 创建一个Puppeteer实例,并启动一个浏览器
    3. 打开一个新的页面,并设置代理IP和请求头
    4. 访问目标网站,并等待页面加载完成
    5. 使用选择器或XPath定位元素,并获取元素的属性或文本
    6. 将获取的数据存储到本地文件或数据库中
    7. 关闭页面和浏览器

    正文

    安装Puppeteer库和相关依赖

    要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

    // 在命令行中执行以下命令,安装Puppeteer库
    npm install puppeteer
    
    // 安装http-proxy-agent模块,用于设置代理IP
    npm install http-proxy-agent
    
    // 安装cheerio模块,用于解析HTML文档
    npm install cheerio
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    创建一个Puppeteer实例,并启动一个浏览器

    接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

    // 引入puppeteer模块
    const puppeteer = require('puppeteer');
    
    // 创建一个异步函数,用于执行爬虫任务
    (async () => {
      // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
      const browser = await puppeteer.launch({ headless: false });
    })();
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    打开一个新的页面,并设置代理IP和请求头

    然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

    // 引入http-proxy-agent模块,用于创建代理对象
    const HttpProxyAgent = require('http-proxy-agent');
    
    // 创建一个异步函数,用于执行爬虫任务
    (async () => {
      // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
      const browser = await puppeteer.launch({ headless: false });
    
      // 打开一个新的页面
      const page = await browser.newPage();
    
      // 设置请求头,模拟正常的浏览器行为
      await page.setExtraHTTPHeaders({
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        'User-Agent':
          'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
      });
    
      // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
      await page.authenticate({
        username: '16YUN',
        password: '16IP',
        agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
      });
    })();
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25

    访问目标网站,并等待页面加载完成

    接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

    // 创建一个异步函数,用于执行爬虫任务
    (async () => {
      // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
      const browser = await puppeteer.launch({ headless: false });
    
      // 打开一个新的页面
      const page = await browser.newPage();
    
      // 设置请求头,模拟正常的浏览器行为
      await page.setExtraHTTPHeaders({
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        'User-Agent':
          'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
      });
    
      // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码
      await page.authenticate({
        username: '16YUN',
        password: '16IP',
        agent: new HttpProxyAgent('http://www.16yun.cn:9020'),
      });
    
      // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发
      await page.goto('https://news.163.com/', {
        waitUntil: 'networkidle2',
      });
    })();
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    使用选择器或XPath定位元素,并获取元素的属性或文本

    然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

    // 创建一个异步函数,用于执行爬虫任务
    (async () => {
      // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面
      const browser = await puppeteer.launch({ headless: false });
    
      // 打开一个新的页面
      const page = await browser.newPage();
    
      // 设置请求头,模拟正常的浏览器行为
      await page.setExtraHTTPHeaders({
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        'User-Agent':
          'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
      });
    
      // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码 
      await page.authenticate({ username: ‘yiniu’, password: ‘yiniu123’, agent: new HttpProxyAgent(‘http://http-dyn.abuyun.com:9020), });
    
      // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发 
      await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });
    
      // 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组 
      const newsList = await page.$$(.news_title h3 a’);
    
      // 创建一个空数组,用于存储新闻数据 
      const newsData = [];
    
      // 遍历新闻列表,获取每个新闻的标题、链接、时间和来源 
      for (let news of newsList) { 
         // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果 
         const title = await page.evaluate((el) => el.innerText, news);
        
         // 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果    
         const link = await page.evaluate((el) => el.href, news);
    
         // 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果
         const timeAndSource = await page.evaluate(
         (el) => el.parentElement.nextElementSibling.innerText,news);
    
         // 将新闻数据添加到数组中
         newsData.push({
           title,
           link,
           timeAndSource,
         });
        }
    
     // 打印新闻数据 
     console.log(newsData); })();                                                                                        
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49

    案例

    运行上述代码,我们可以得到如下输出:

    [
      {
        title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
        link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
        timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
      },
      {
        title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
        link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
        timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
      },
      {
        title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
        link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
        timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
      },
      {
        title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
        link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
        timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
      },
      {
        title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',
        link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',
        timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'
      }
    ]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

    结语

    本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

  • 相关阅读:
    nodejs 安装配置
    2024最新ChatGPT网站源码, AI绘画系统
    acwing第77场周赛 前两题
    VS和QT联合开发
    Django基础三之路由、视图、模板
    以业务为核心,泛微协助生产制造企业推动销售到生产一体化管理
    Excel 数据透视表教程大全之 03 刷新数据、添加多个字段作为值字段、值显示为总数的百分
    第二证券:港交所上市24周年 市值增长38倍
    printf可变参数原理说明
    JVM参数设置
  • 原文地址:https://blog.csdn.net/ip16yun/article/details/132585911