码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 利用Python和Selenium编程,实现定时自动检索特定网页,发现特定网页内容发生变化后,向管理员发送提醒邮件(一)


    一、项目需求

            要求爬取某单位网站,登录后台查看是否有新增“网友提问”,如果有新的提问,向特定邮箱发出提醒邮件。

    二、项目分析

    (一)判断是否可用爬虫爬取相关内容

    首先查看该网站的robots.txt文件,发现不存在该文件,由于未禁止,可用爬取取相关信息。

    (二)操作流程分析

    查看是否有网友提问的操作流程如下。

    1、登录网站后台管理页面

    ​

    2、登录成功后,点击“互动平台” 。

     3、点击互动平台后,浏览器会打开新页面(互动平台)

     4、互动平台页面上端有一个选项卡,在选项卡中可以选择“依申请公开”或是“网上问答”,但已选项显示内容是“依申请公开”还是“网上问答”,无法预见,这其由最后一次对选项卡的操作决定。互动平台页面右侧显示的是待办办件,这里显示的就是需要提醒的内容。

         在这里,我们需要查看“网上问答”部分有无新的问题,有新问题的话需要通过邮件提醒管理员。

        

     三、解决方案和所需知识

    由于访问特定信息需要进行一系列操作互动,由于Selenium可以操作浏览器,不用理会涉及页面渲染一类的复杂问题,所以这里我们选择Selenium作为爬虫解决方案。

    第一步需要通过Python和Selenium实现对浏览器的相关操作,获取特定网页中的内容。

    第二步是通过电子邮件将提醒内容发至管理员。

    需要学习Python、HTML、Selenium,以及如何通过Python利用SMTP服务器发送信息有关的知识。

    下面我们分几步进行学习,首先学习如何利用Python和Selenium操作浏览器和获取页面中的信息。

  • 相关阅读:
    如何设置代理ip服务器地址
    腾讯云国际出现网站无法访问的排查方法
    智慧水利整体解决方案
    vue 3.0使用 iframe 标签引入本地HTML页面,并实现数据交互
    【腾讯云 TDSQL-C Serverless 产品体验】基于腾讯云轻量服务器以及 TDSQL-C 搭建 LNMP WordPress 博客系统
    我做了几年的Android应用层开发,为什么还要去学习安卓系统知识?
    公钥密码学中的公钥和私钥
    自动化测试 | 测试老鸟总结,你们项目自动化测试实施成功与否的因素
    案例分享:某汽车企业通过龙智拓展Jira功能,实现高效项目管理
    Gitee——详细教程如何将远程仓库与本地仓库建立链接
  • 原文地址:https://blog.csdn.net/weixin_60535956/article/details/131789384
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号