码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • php解析html类库simple_html_dom(3)


    • 一、说明
    • 二、php代码
    • 三、浏览器输出

    一、说明

    • 这一篇是正则匹配数据:PHP下载汉服图片
    • 本篇我们用 simple_html_dom.php查找标签元素匹配数据 工具类下载地址:https://github.com/samacs/simple_html_dom

    二、php代码

    
    
    class Test
    {
        public function __construct()
        {
            require_once 'simple_html_dom.php';
        }
    
        //入口函数
        public function start()
        {
            $htmlObj = new simple_html_dom();
    
            //加载方式有一下三种
            /* $htmlObj->load_file('http://www.***.com');	// 从url加载
            $htmlObj->load('HTML字符串');					// 从字符串加载
            $htmlObj->load_file('/file/test.html');			//从文件加载 */
    
            //为了演示我使用第二种
            $html = $this->getPageHtml();	//模拟HTML数据
            $htmlObj->load($html);
    
            //定位到这一行
    ;find方法返回的是一个二维对象数组, //在已知结果只有1条的情况下,我们可以把第二个参数设为0,即二维数组里的第一条数据。 $contentObj = $htmlObj->find('div#content', 0); //获取到内容 $hrefs = $contentObj->find('a'); //查找content下的所有a标签 $hrefsCount = count($hrefs); // $h3s = $contentObj->find('h3'); //查找content下的所有h3标签 $data = []; //每一页的数据 /** * 这四个属性的区别 * tag标签获取 * outertext 外文本:节点的HTML + 节点内的所有内容(包含HTML标签) * innertext 内文本:节点内的所有内容(包含HTML标签) * plaintext 纯文本:节点内的所有内容(不包含HTML标签) */ //循环处理,获取每一页的数据 for ($index = 0; $index < $hrefsCount; $index++) { $href = $contentObj->find('a', $index)->href; //定位到第(index+1)个a标签,并获取a标签的href属性 $h3Text = $contentObj->find('h3', $index)->plaintext; //定位到第(index+1)个h3标签,并获取节点内的所有内容(不包含HTML标签) $data[] = [ 'href' => $href, 'h3_text'=> $h3Text ]; } # 获取每一页的图片url $imgUrls = $this->getImgHtml(); $htmlObj->load($imgUrls); //重新加载内容 $imgObjs = $htmlObj->find('div.content img');//直接匹配所有images标签 $imgCount = count($imgObjs); //获取图片标签的数量 $imgData = []; //定义每页的图片数据 for ($index = 0; $index < $imgCount; $index++) { $src = $htmlObj->find('div.content img', $index)->src;//直接定位到第(index+1)张图片,获取图片的src属性 $imgData[] = $src; } # 浏览器输出结果数据 echo "
    【文章数据】
    "; var_export($data); echo "
    【图片数据】
    "
    ; var_export($imgData); } //模拟一页的html public function getPageHtml() { $html = <<<EOF

    同是过路同做过梦 本应是一对

    人在少年梦中不觉 醒后要归去

    三餐一宿也共一双 到底会是谁

    但凡未得到 但凡是过去

    总是最登对

    台下你望台上我做 你想做的戏

    前事故人忘忧的你 可曾记得起

    EOF;
    return $html; } //模拟一页里所有图片的html public function getImgHtml() { $html = <<<EOF
    EOF;
    return $html; } }
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77
    • 78
    • 79
    • 80
    • 81
    • 82
    • 83
    • 84
    • 85
    • 86
    • 87
    • 88
    • 89
    • 90
    • 91
    • 92
    • 93
    • 94
    • 95
    • 96
    • 97
    • 98
    • 99
    • 100
    • 101
    • 102
    • 103
    • 104
    • 105

    三、浏览器输出

    【文章数据】
    array (
      0 => 
      array (
        'href' => 'http://www.***.com/0',
        'h3_text' => '同是过路同做过梦 本应是一对',
      ),
      1 => 
      array (
        'href' => 'http://www.***.com/1',
        'h3_text' => '人在少年梦中不觉 醒后要归去',
      ),
      2 => 
      array (
        'href' => 'http://www.***.com/2',
        'h3_text' => '三餐一宿也共一双 到底会是谁',
      ),
      3 => 
      array (
        'href' => 'http://www.***.com/3',
        'h3_text' => '但凡未得到 但凡是过去',
      ),
      4 => 
      array (
        'href' => 'http://www.***.com/4',
        'h3_text' => '总是最登对',
      ),
      5 => 
      array (
        'href' => 'http://www.***.com/5',
        'h3_text' => '台下你望台上我做 你想做的戏',
      ),
      6 => 
      array (
        'href' => 'http://www.***.com/6',
        'h3_text' => '前事故人忘忧的你 可曾记得起',
      ),
    )
    【图片数据】
    array (
      0 => 'http://*******.net/images/2022/01.png',
      1 => 'http://*******.net/images/2022/02.png',
      2 => 'http://*******.net/images/2022/03.png',
      3 => 'http://*******.net/images/2022/04.png',
      4 => 'http://*******.net/images/2022/05.png',
      5 => 'http://*******.net/images/2022/06.png',
    )
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
  • 相关阅读:
    二肽二氨基丁酰苄基酰胺二乙酸盐/Dipeptide Diaminobutyroyl Benzylamide Diacetate/SYN-AKE
    MySQL 迁移完不能快速导数据了?
    linux部署运维3——centos7.9离线安装部署配置涛思taos2.6时序数据库TDengine以及java项目链接问题处理(二)
    集合按照某个属性去分组,适用于获取树形菜单等场景
    【图像压缩】基于余弦变换及霍夫曼编码实现jpeg压缩和解压附matlab代码
    JDY-16 蓝牙4.2模块串口测试方法
    R语言caret机器学习(三):数据预处理下集
    ERC-721隐私问题防护方案
    变电站机器人的控制部分
    串流直播流媒体视频发布平台功能模块和产品技术参数
  • 原文地址:https://blog.csdn.net/qq_36025814/article/details/126919076
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号