ScrapeKit 和 Swift 编写程序

以下是一个使用 ScrapeKit 和 Swift 编写的爬虫程序，用于爬取图片。同时，我们使用了proxy 这段代码来获取代理。

import ScrapeKit

class PeopleImageCrawler: NSObject, ScrapeKit.Crawler {
    let url: URL
    let proxyUrl: URL

    init(url: URL, proxyUrl: URL) {
        self.url = url
        self.proxyUrl = proxyUrl
    }

    func crawl() -> [String: Any] {
        var images = [String]()
        
        let html = try? String(contentsOf: url, encoding: .utf8)
        let doc = try? HTML(html: html, encoding: .utf8)
        
        if let imgElems = doc?.css("img") {
            for imgElem in imgElems {
                if let imgUrl = imgElem.attr("data-src") {
                    images.append(imgUrl)
                }
            }
        }
        
        return ["images": images]
    }
}

let targetUrl = URL(string: "https://www.people.com.cn")!
let proxyUrl = URL(string: "https://www.duoip.cn/get_proxy")!

let crawler = PeopleImageCrawler(url: targetUrl, proxyUrl: proxyUrl)
let result = crawler.crawl()

print(result)

这个程序首先导入 ScrapeKit 库，然后定义一个名为 PeopleImageCrawler 的类，继承自 ScrapeKit.Crawler。我们为其提供一个初始化方法，用于传入目标 URL 和代理 URL。在 crawl 方法中，我们使用 ScrapeKit 库解析 HTML 文档，并查找所有的标签。如果找到，我们会将图片的 data-src 属性值添加到 images 数组中。最后，我们将 images 数组作为字典的一个键值对返回。

在主函数中，我们创建了一个 targetUrl 和一个 proxyUrl，然后实例化了一个 PeopleImageCrawler 类的对象。接着，我们调用 crawler.crawl() 方法来开始爬取，并将结果打印出来。

相关阅读:
mp4视频太大怎么压缩？几种常见压缩方法
被裁后一个offer都没有，测试人的问题出在哪里？
【DL with Pytorch】第 1 章：深度学习与PyTorch简介
潮玩宇宙：大逃杀模式的利与弊
基于verdaccio工具搭建npm私服vue组件库
Windows ssh免密访问Linux服务器
010 springboot整合mybatis-plus 登录页面和首页不拦截
技术干货：spring boot面试题及答案
一道名题-（csp 儒略日）的心得与技巧
Vue入门

原文地址：https://blog.csdn.net/weixin_73725158/article/details/133981306