码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ScrapeKit 和 Swift 编写程序


    以下是一个使用 ScrapeKit 和 Swift 编写的爬虫程序,用于爬取 图片。同时,我们使用了proxy 这段代码来获取代理。

    import ScrapeKit
    ​
    class PeopleImageCrawler: NSObject, ScrapeKit.Crawler {
        let url: URL
        let proxyUrl: URL
    ​
        init(url: URL, proxyUrl: URL) {
            self.url = url
            self.proxyUrl = proxyUrl
        }
    ​
        func crawl() -> [String: Any] {
            var images = [String]()
            
            let html = try? String(contentsOf: url, encoding: .utf8)
            let doc = try? HTML(html: html, encoding: .utf8)
            
            if let imgElems = doc?.css("img") {
                for imgElem in imgElems {
                    if let imgUrl = imgElem.attr("data-src") {
                        images.append(imgUrl)
                    }
                }
            }
            
            return ["images": images]
        }
    }
    ​
    let targetUrl = URL(string: "https://www.people.com.cn")!
    let proxyUrl = URL(string: "https://www.duoip.cn/get_proxy")!
    ​
    let crawler = PeopleImageCrawler(url: targetUrl, proxyUrl: proxyUrl)
    let result = crawler.crawl()
    ​
    print(result)

    这个程序首先导入 ScrapeKit 库,然后定义一个名为 PeopleImageCrawler 的类,继承自 ScrapeKit.Crawler。我们为其提供一个初始化方法,用于传入目标 URL 和代理 URL。在 crawl 方法中,我们使用 ScrapeKit 库解析 HTML 文档,并查找所有的 标签。如果找到,我们会将图片的 data-src 属性值添加到 images 数组中。最后,我们将 images 数组作为字典的一个键值对返回。

    在主函数中,我们创建了一个 targetUrl 和一个 proxyUrl,然后实例化了一个 PeopleImageCrawler 类的对象。接着,我们调用 crawler.crawl() 方法来开始爬取,并将结果打印出来。

  • 相关阅读:
    mp4视频太大怎么压缩?几种常见压缩方法
    被裁后一个offer都没有,测试人的问题出在哪里?
    【DL with Pytorch】第 1 章 :深度学习与PyTorch简介
    潮玩宇宙:大逃杀模式的利与弊
    基于verdaccio工具搭建npm私服vue组件库
    Windows ssh免密访问Linux服务器
    010 springboot整合mybatis-plus 登录页面和首页不拦截
    技术干货:spring boot面试题及答案
    一道名题-(csp 儒略日)的心得与技巧
    Vue入门
  • 原文地址:https://blog.csdn.net/weixin_73725158/article/details/133981306
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号