• 一文教会你如何用 Python 分割合并大文件


    有时候,我们需要把一个大文件发送给别人,但是限于传输通道的限制,比如邮箱附件大小的限制,或者网络状况不太好,需要将大文件分割成小文件,分多次发送,接收端再对这些小文件进行合并。今天就来分享一下用 Python 分割合并大文件的方法。

    思路及实现

    如果是文本文件,可以按行数分割。无论是文本文件还是二进制文件,都可以按指定大小进行分割。

    使用 Python 的文件读写功能就可以实现文件的分割与合并,设置每个文件的大小,然后读取指定大小的字节就写入一个新文件,接收端依次读取小文件,把读取到的字节按序写入一个文件,就可以完成合并。

    分割

    size = 1024 * 1000 * 10  # 10MB
    with open("bigfile", "rb") as reader:
        part = 1
        while True:
            part_content = reader.read(size)
            if not part_content:
                print("split done.")
                break
            with open(f"bigfile_part{part}","wb") as writer:
                writer.write(part_content)

    合并

    total_parts = 5
    with open("bigfile","wb") as writer:
        for i in range(5):
            with open(f"bigfile_part{i}", "rb") as reader:
                writer.write(reader.read())

    使用第三方库

    虽然可以自己写,但是别人写好了,为什么不节省点时间直接用呢?直接 pip 安装就可以了:

    pip install filesplit

    分割

    from filesplit.split import Split
    split = Split("./data.rar", "./output")
    split.bysize(size = 1024*1000*10) # 每个文件最多 10MB

    执行之后,我们就可以在 output 文件夹里看到分割好的文件:

    你也可以按照文件行数进行分割:

    split.bylinecount(linecount = 10000) # 每个文件最多 10000 行

    合并

    合并需要对文件夹里的小文件进行合并,该工具要求文件夹内必须有 manifest 文件,其格式如下:

    filename,filesize,header
    data_1.rar,10000000,False
    data_2.rar,10000000,False
    data_3.rar,10000000,False
    data_4.rar,10000000,False
    data_5.rar,1304145,False

    合并文件的代码只需要指定要合并的目录,目标目录,合并后的文件名,代码如下:

    from filesplit.merge import Merge
    merge = Merge(inputdir = "./output", outputdir="./merge", outputfilename = "merged.rar")
    merge.merge()

    执行之后就可以在 merge 目录内看到合并后的文件:

     后续更多精彩内容~

  • 相关阅读:
    计算机毕业设计Java供电公司安全生产考试系统(源码+系统+mysql数据库+Lw文档)
    从零开始学习软件测试-第40天笔记
    使用MLC-LLM将RWKV 3B模型跑在Android手机上
    如何在VC++ 6.0中实现拖动指令改变执行路径 (指令飞越)?
    用 docker 创建 jmeter 容器, 实现性能测试,该如何下手?
    第十一章 配置数据库(三)
    高压放大器在mems传感器中的应用有哪些
    java使用bouncycastle加解密
    文心一言 VS 讯飞星火 VS chatgpt (67)-- 算法导论6.5 6题
    神经网络的问题总结
  • 原文地址:https://blog.csdn.net/m0_72557783/article/details/126559051