• 职业PDF标准 Python 下载器-CSDN


    目的

    下载技能人才评价网 - 职业技能标准查询系统 - PDF 打包下载

    使用文件

    a.json

    代码解析

    import base64
    import requests
    import json
    import os
    import time
    
    # 读取JSON文件
    with open('a.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    # 从名为 'a.json' 的文件中读取 JSON 数据,并将其存储在 'data' 变量中
    
    # 创建存储文件的文件夹
    output_folder = 'pdf_files'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    # 如果不存在名为 'pdf_files' 的文件夹,则创建该文件夹
    
    # 遍历JSON文件中的每一行
    for row in data['rows']:
        code = row['code']
        file_name = row['fileName']
        attachment_path = row['attachment']
        # 从当前 'row' 中提取 'code'、'fileName' 和 'attachment' 的值
    
        # 发送请求获取PDF文件内容
        headers = {
            "Content-Type": "application/x-www-form-urlencoded",
        }
        resp = requests.post(
            "http://biaozhun.osta.org.cn/api/v1/profession/detail",
            headers=headers,
            data=f"code={code}",
        )
        # 使用 POST 方法向指定的 URL 发送请求,携带 'code' 作为数据参数,以获取对应的 PDF 文件内容
        pdf_data = json.loads(resp.content)
        # 将响应内容解析为 JSON 格式并存储在 'pdf_data' 变量中
    
        # 检查是否存在 'data' 键
        if 'data' in pdf_data:
            pdf_content = pdf_data['data']
            # 如果 'pdf_data' 包含 'data' 键,则提取其对应的值作为 PDF 文件内容
    
            # 处理文件名中的特殊字符
            safe_file_name = file_name.encode('utf-8').decode('utf-8')
            file_path = os.path.join(output_folder, safe_file_name)
            # 处理文件名以确保其安全,并构建文件的完整路径
    
            # 将PDF文件内容保存到指定文件夹中
            with open(file_path, "wb") as f:
                f.write(base64.b64decode(pdf_content))
            # 将 PDF 文件内容解码后写入文件
    
            print(f"Saved {file_name} to {file_path}")
        else:
            print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
        # 如果 'data' 键不存在,则打印错误信息
    
        # 每个请求间隔5秒
        time.sleep(5)
        # 在每个请求之间暂停 5 秒
    
    1. 读取JSON文件
    with open('a.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    • 作用: 从 a.json 文件中读取 JSON 数据并存储在 data 变量中。
    • API: json.load() 将文件对象读取为 JSON 格式。
    1. 创建存储文件的文件夹
    output_folder = 'pdf_files'
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    • 作用: 检查是否存在名为 ‘pdf_files’ 文件夹,如果不存在则创建。
    • API:
      • os.path.exists() 检查文件路径是否存在。
      • os.makedirs() 创建目录。
    1. 遍历JSON文件中的每一行
    for row in data['rows']:
        code = row['code']
        file_name = row['fileName']
        attachment_path = row['attachment']
    
    • 作用: 遍历 JSON 数据中的每一行,并提取 codefileNameattachment_path
    1. 发送请求获取PDF文件内容
    headers = {
        "Content-Type": "application/x-www-form-urlencoded",
    }
    resp = requests.post(
        "http://biaozhun.osta.org.cn/api/v1/profession/detail",
        headers=headers,
        data=f"code={code}",
    )
    pdf_data = json.loads(resp.content)
    
    • 作用: 发送 POST 请求到指定 URL 以获取 PDF 文件内容。
    • API:
      • requests.post() 发送 HTTP POST 请求。
      • json.loads() 将响应内容解析为 JSON。
    1. 检查是否存在 ‘data’ 键
    if 'data' in pdf_data:
        pdf_content = pdf_data['data']
    
    • 作用: 检查响应 JSON 中是否存在 ‘data’ 键,如果存在则提取其内容。
    1. 处理文件名中的特殊字符和构建文件路径
    safe_file_name = file_name.encode('utf-8').decode('utf-8')
    file_path = os.path.join(output_folder, safe_file_name)
    
    • 作用: 处理文件名以确保其安全,并构建完整文件路径。
    • API:
      • str.encode() 编码字符串。
      • str.decode() 解码字符串。
      • os.path.join() 拼接路径。
    1. 将PDF文件内容保存到指定文件夹中
    with open(file_path, "wb") as f:
        f.write(base64.b64decode(pdf_content))
    
    • 作用: 将解码后的 PDF 内容写入文件。
    • API:
      • base64.b64decode() 进行 Base64 解码。
      • open() 打开文件。
      • file.write() 写入文件。
    1. 打印成功或错误信息
    print(f"Saved {file_name} to {file_path}")
    else:
        print(f"Error: 'data' key not found in response for code {code}. Response: {pdf_data}")
    
    1. 每个请求间隔5秒
    time.sleep(5)
    
    • 作用: 在每个请求之间暂停 5 秒。
    • API: time.sleep() 暂停执行。

    文件存储

    在这里插入图片描述

  • 相关阅读:
    【长难句分析精讲】状语从句
    vue + video.js 加载多种视频流(HLS、FLV、RTMP、RTSP)
    Linux命令输出结果作为输入参数的方法
    games101透视投影矩阵推导
    Unity简单操作:Unity接sdk写的java代码放在Plugins/Android/libs目录中即可被打进apk中,无需提前编译成jar
    2019银川icpc K 思维,悬线法dp
    pytorch基础
    java单例模式--懒汉式、饿汉式(第二次学习)
    Python 学习 Day 36
    Java面试记录
  • 原文地址:https://blog.csdn.net/qq_43638033/article/details/140433286