• 浏览器批量采集网站标题 保存Excel表格


         有一批网址,不知道是什么网站,怎样才能快速获得网站标题呢?方法很简单,就是使用浏览器一个个地打开,记录下网站标题就可以了,关键是找一个具有自动完成功能的浏览器。具体步骤如下:
    1、先把网址整理一下,保存在一个记事本文件中,一行一个网址就可以了,保存文件名为“网址.txt”。 

     2、从木头浏览器工具菜单中,打开项目管理器窗口,新建一个定时控制步骤,设置运行周期为3秒,意思是每3秒查询一个网站。这里不用考虑网速问题,因为页面一般首先加载标题。

    3、创建一个自定义变量的步骤,添加名为网址的变量,来自文本文件,选择刚才创建的“网址.txt”文件。这一步的作用是,每次从文件中读取一行,然后保存到一个名为“网址”的变量中。

    4、再新建一个打开网址的步骤,添加网址时不直接输入真实网址,而是在网址输入框中点击鼠标右键,在弹出的菜单中选择“网址”变量。项目执行时自动把变量替换为值,也就是实际网址。

    5、打开页面后需要抓取标题内容,新建抓取内容步骤,变量名称就命名为“标题”,设置抓取第一个title元素,获取它的text文本值。成功抓取后,内容保存在“标题”变量中。

    6、最后是保存网址和标题,新建保存内容步骤,勾选保存变量内容,设置保存为Excel格式以及文件路径,在设置内容窗口中选择“网址”和“标题”两个变量,即把这两个变量的值保存到“网页标题查询结果.xlsx”表格文件中。

    7、选择本项目步骤树的根节点,点击开始按钮即开始执行。软件间隔3秒自动打开一个网址,抓取标题后保存在设定的excel表格中。注意保存项目文件为“D:\网页标题批量查询.mot”,下次使用时直接打开这个项目文件直接运行。

    8、最后打开excel文档看看保存结果,共有网址和标题两列,对应上面设置的两个变量。

     

     

     

     

     

     

     

  • 相关阅读:
    k8s-权限管理
    ArcGIS中如何为跨带数据投影?
    22、接口与抽象类、匿名类的介绍
    安装pika配置系统服务过程中遇到的错误
    全链路压测(11):聊聊稳定性预案
    【业务功能篇112】Springboot + Spring Security 权限管理-登录模块开发实战
    pycharm中做web应用(13)基于Django和mysql 做用户登录验证3
    web课程设计使用html+css+javascript+jquery技术制作个人介绍6页
    编程为什么要使用设计模式?使用设计模式的好处有哪些?
    安卓手机应用开发需要学什么专业知识呢?
  • 原文地址:https://blog.csdn.net/microyou/article/details/126353844