• Python学习基础笔记六十九——文本2


    二进制(字节)模式:

    文本文件,纯文本文件就是保存文本字符串的文件,跟word还不一样,word是富文本文件。

    其实就文件存储的底层来说,不管什么类型的文件(文本、视频、图片、word、Excel等),存储的都是字节,不存在文本和二进制的区别,可以说是二进制。

    二进制模式 这个名词容易引起误解,字节模式更好。

    读写文件底层操作都是字节。纯文本底层就是一个个字节。图片底层也是一个个字节。

    以文本模式打开文件后,后面的读写文件的方法(比如read、write等),底层实现都会自动的进行字符串对应的python的字符串和字节串(bytes对象)的转换。

    我们可以指定open的mode参数,直接读取原始的二进制字符串到一个bytes字节串对象中。

    1. # mode参数指定为rb 就是用二进制读的方式打开文件
    2. f = open('tmp.txt', 'rb')
    3. content = f.read()
    4. f.close()
    5. # 由于是 二进制方式打开,所以得到的content是 字节串对象 bytes
    6. # 内容为 b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
    7. print(content)
    8. # 该对象的长度是字节串里面的字节个数,就是12,每3个字节对应一个汉字的utf8编码
    9. print(len(content))

    代码说明:

    f.read()读取文件的时候,由于是rb模式,读取的就是文件的原始的字节码,不再需要进行编解码操作了。

    即使这个文件是一个文本文件,f.read()读取到的是字节码bytes文本。因为写进来的时候就是经过编码encode操作,保存到文件中的。 

    1. # mode参数指定为rb 就是用二进制读的方式打开文件
    2. f = open('tmp.txt', 'rb')
    3. content = f.read()
    4. f.close()
    5. # 由于是 二进制方式打开,所以得到的content是 字节串对象 bytes
    6. # 内容为 b'\xe7\x99\xbd\xe6\x9c\x88\xe9\xbb\x91\xe7\xbe\xbd'
    7. print(content.decode('utf8'))
    8. # 该对象的长度是字节串里面的字节个数,就是12,每3个字节对应一个汉字的utf8编码
    9. print(len(content))

    我们也可以使用decode函数对content的字节码进行解码操作。运行程序得到字符串文本内容。

    另外,len函数,如果参数是字节串,就是字节串的长度,如果是字符串,就是字符的长度。每个字节对应一个汉字的utf8编码。

    以二进制写数据到文件中,传给write方法的参数不能是字符串,只能是bytes对象。

    1. # mode参数指定为 wb 就是用二进制写的方式打开文件
    2. f = open('tmp.txt', 'wb')
    3. content = '上海市漕河泾'
    4. # 二进制打开的文件, 写入的参数必须是bytes类型,
    5. # 字符串对象需要调用encode进行相应的编码为bytes类型
    6. f.write(content.encode('utf8'))
    7. f.close()

    如果我们更改编码方式,例如改成gbk的编码格式。

    文件默认的打开方式是UTF-8。所以IDE提示我们要Road in ‘GBK’解码方式。

    那这样,就得到了正确的解码字符串。

    用字节实现一个简单的文件拷贝功能。

    1. def fileCopy(srcPath,destPath):
    2. srcF = open(srcPath,'rb')
    3. content = srcF.read()
    4. srcF.close()
    5. destF = open(destPath,'wb')
    6. destF.write(content)
    7. destF.close()
    8. fileCopy('1.png','1copy.png')

    比如大文件、10个G的文件,直接来读的话,就容易出问题。所以有算法支持,每次10K。算法优化。

    这个字节文件,可以对图片文件进行拷贝。

    如果不用字节方式:使用文本方式来读取写入信息。

    如果里面有一个字节会按默认方式gbk的方式进行解码,会碰到有些字节无法解码,显示乱码。所以必须用二进制方式进行读写。那这个时候就需要进行编解码。

    跳过编解码直接通过字节进行拷贝。效率就提高了。

    另外,gbk的效率比uncode的效率高一点。

  • 相关阅读:
    微服务低代码Serverless平台(星链)的应用实践
    增强分析在百度统计的实践
    程序员的快乐如此简单
    如何使用Abaqus进行跌落仿真
    Java可重复注解接口(Repeatable Annotation Interfaces)
    Spring Security(安全框架)
    蓝牙 - 注册SIG账号
    还在直接用localStorage么?全网最细:本地存储二次封装(含加密、解密、过期处理)
    练习 4 Web [MRCTF2020]Ez_bypass
    [附源码]java毕业设计球队管理系统论文
  • 原文地址:https://blog.csdn.net/chang_chunhua/article/details/133838050