Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习...

爬取后,结合暗黑搜索引擎等等进行进一步搜索.

edu_src.py


import requests, time
from bs4 import BeautifulSoup
for i in range(1, 20):
    url = f'https://src.sjtu.edu.cn/rank/firm/0/?page={i}'
    print(f"正在获取第{i}页数据")
    s = requests.get(url).text
    # print(s)
    soup = BeautifulSoup(s, 'html.parser')
    edu1 = soup.find_all('tr')
    # print(edu1)
    for edu in edu1:
        try:
            edu_name = edu.a.text
            # print(edu_name)
            with open('edu_name.txt', 'a+',encoding='utf-8') as f:
                f.write(edu_name + '\n')
        except:
            pass
    print(f"{i}页已经写入!!!")

相关阅读:
架构的未来：微前端与微服务的融合
七大基于比较的排序算法（JAVA）
未来展望：Starday供应链火力全开，为跨境电商再添动力！
创建文件~~~
数组19—unshift() ：将一个或多个元素添加到数组的开头
图像格式导致halcon读取失败
抽象类和接口
P3743 kotori的设备
LeetCode 234. 回文链表
CAS:385437-57-0 DSPE-PEG-Biotin 磷脂-聚乙二醇-生物素常用生物活性分子

原文地址：https://blog.csdn.net/2303_80857229/article/details/139724052