码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python爬取公交线路信息及站点shp数据 文末附数据下载地址


    本篇主要记录爬取公交网整个过程,由于这次所用方法虽比较常规,但由于该网站页面内容转码原因以及遍历链接较多,所以小坑还是比较多的,特在此进行记录。

    以前爬过百度地图,当时用的是API平台,加上网站比较规范,所以标签节点什么的都比较清晰,但这次由于特殊原因所选择的网站为公交网,废话不多说直接开始吧。

    网站主页:www.xbus.cn

    操作环境为

    • window 8

    • python 3.6

    • Jupyter Notebook

    • re requests lxml pandas time os urllib

    调用的库(这次不用截图了,用代码块更清楚一些):

    1. 1import requests
    2. 2import csv
    3. 3import time 
    4. 4import pandas as pd
    5. 5import re
    6. 6from lxml import etree
    7. 7import urllib
    8. 8import os
    9. 9from IPython.core.interactiveshell import InteractiveShell
    10. 10InteractiveShell.ast_node_interactivity = 'all'

    一、首先打开主页,进入公交线路信息页面,爬取第一页内容

    打开F12,

  • 相关阅读:
    Spring Boot 集成MyBatis-Plus
    【ARM 安全系列介绍 3.7 -- SM4 对称加密算】
    【基于OpenHarmony的智能学习桌面项目中遇到的问题及解决办法】
    23种设计模式(十一)外观模式(阁瑞钛伦特软件-九耶实训)
    The rise of language models
    《动手学深度学习 Pytorch版》 4.7 前向传播、反向传播和计算图
    天眼护航 安全无界:天通哨兵PS02—电力巡检保护的智能利器
    Spring框架中bean的生命周期
    【数据集】1985-2022年CLCD逐年土地利用分类数据
    【SQL数据库】数据库的创建、查询、插入等操作使用方法(结合黑皮书教材网站(db-book中的例子)在MySQL Workbench和shell中实现查询操作
  • 原文地址:https://blog.csdn.net/qq_41127811/article/details/127923866
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号