os.path模块主要用于获取文件的属性,包含以下几种常用方法:
路径操作:
| 方法 | 说明 |
|---|---|
| abspath(path) | 返回绝对路径 |
| relpath(path[, start]) | 从start开始计算相对路径 |
| isabs(path) | 判断是否为绝对路径 |
| basename(path) | 返回文件名 |
| dirname(path) | 返回文件路径 |
| join(path1[, path2[, …]]) | 组合文件路径 |
| split(path) | 路径分割,返回(dirname,basename)元组 |
| splitext(path) | 分割扩展名,返回(root, ext)元组 |
| splitdrive(path) | 返回驱动器名和路径组成的元组 |
| exists(path) | 判断路径是否存在 |
| lexists | 与exists类似,但当(软连接等)路径损害时返回True(exists会返回False) |
| commonprefix(list) | 返回list(多个路径)中,所有path共有的最长的路径 |
| expanduser(path) | 把path中包含的""和"user"转换成用户目录 |
| expandvars(path) | 根据环境变量的值替换path中包含的" n a m e " 和 " name"和" name"和"{name}" |
| normpath(path) | 规范path,统一分隔符等(A//B, A/B/, A/./B and A/foo/../B)都会被规范为A/B |
print(os.path.splitext('.info')) # ('.info', '')
print(os.path.splitext('test.txt')) # ('test', '.txt')
print(os.path.splitext(r'c:\tmp\test.txt')) # ('c:\\tmp\\test', '.txt')
属性操作:
| 方法 | 说明 |
|---|---|
| getatime(path) | 返回最近访问时间(浮点型秒数) |
| getmtime(path) | 返回最近文件修改时间 |
| getctime(path) | 返回文件创建时间 |
| getsize(path) | 返回文件大小,如果文件不存在就返回错误 |
文件类型判断:
| 方法 | 说明 |
|---|---|
| isfile(path) | 判断路径是否为文件 |
| isdir(path) | 判断路径是否为目录 |
| islink(path) | 判断路径是否为链接 |
| ismount(path) | 判断路径是否为挂载点 |
Python中读写文件非常简单,只需通过open函数以合适的方式打开,然后即可操作。
with open('data.txt', 'r', encoding='utf-8') as f:
data = f.read()
print('contents: {}'.format(data))
open()用于打开一个文件,并返回文件对象(打开失败会抛出 OSError异常);文件对象不再使用时,一定要关闭(可用with语句保证自动关闭)。
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
strict:默认,编解码出错时,抛出ValueError异常;ignore:忽略编解码错误(可能会丢失数据);replace:使用替换标识(如’?')替代无效数据;surrogateescape:使用私有区编码(U+DC80 to U+DCFF)来替换错误字节;在处理未知编码文件时有效;xmlcharrefreplace:写文件有效;错误字节被替换为XML字符(nnn;);backslashreplace:使用Python’s backslashed escape sequences替换错误字节;namereplace: 写文件有效;错误字节被替换为\N{...};打开模式Mode(t:文本;b:二进制):
| 模式 | 描述 |
|---|---|
| t | 文本模式 (默认) |
| b | 二进制模式 |
| r | 以只读方式打开(文本)文件 |
| w | 以只写方式打开(文本)文件;文件不存在,则创建新文件 |
| a | 以追加方式打开一个文件(文件指针在文件尾);文件不存在,则新建 |
| x | 新建一个文件(若文件已存在则报错) |
| + | 打开一个文件进行读写 |
| rb | 以只读方式打开(二进制)文件 |
| r+ | 打开一个文件用于读写(文件内容不清空,且文件指针在文件头) |
| wb | 以只写方式打开(二进制)文件 |
| w+ | 打开一个文件用于读写(文件存在,则先清空内容;否则,新建文件) |
| a+ | 打开一个文件用于读写(若文件已存在,文件指针在文件尾;若文件不存在,则新建文件) |
文件对象的操作函数:
| 方法 | 描述 |
|---|---|
| file.read([size]) | 从文件读取指定的字节数,如果未给定或为负则读取所有 |
| file.readline() | 读取一行(包括"\n"),若返回空表示读取的文件尾 |
| file.readlines() | 读取所有行(list(f)也能返回所有行) |
| file.readable() | 能否读取文件流 |
| file.write(str) | 将字符串写入文件,返回的是写入的字符长度 |
| file.writelines(sequence) | 向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符 |
| file.writeable() | 能否写文件 |
| file.close() | 关闭文件 |
| file.flush() | 刷新文件内部缓冲,把缓冲区的数据立刻写入文件 |
| file.fileno() | 返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上 |
| file.isatty() | 如果文件连接到一个终端设备返回 True,否则返回 False |
| file.next() | 返回文件下一行 |
| file.seek(offset[, whence]) | 设置文件当前位置 |
| file.tell() | 返回文件当前位置 |
| file.truncate([size]) | 截取文件,截取的字节通过size指定,默认为当前文件位置 |
删除文件可以:
os.remove()/os.unlink()pathlib.Path.unlink()复制文件:
shutil.copy(src, dst):把文件src复制到dst中指定的位置(若dst是文件,则该文件的内容将替换为src的内容;若dst是目录,则src将被复制到该目录中);shutil.copy2():会保留文件的详细信息;移动文件:
os.rename(src, dst):重命名文件;shutil.move(src,dst):将文件移动到指定的位置。有多种创建目录的方法:
| 方法 | 描述 |
|---|---|
| os.mkdir() | 创建单个子目录 |
| os.makedirs() | 创建多次目录,包括中间目录 |
| Pathlib.Path.mkdir() | 创建单个或多个目录 |
os.makedirs(name, mode=0o777, exist_ok=False)
若目录已存在,则抛出FileExistsError异常;
传递exist_ok=True,则目录存在时,不报错。
有以下删除目录的函数:
| 函数 | 描述 |
|---|---|
| os.rmdir() | 删除一个空目录 |
| pathlib.Path.rmdir() | 删除一个空目录 |
| shutil.rmtree() | 删除完整的目录树,可用于删除非空目录 |
rmdir在目录不为空,则引发OSError异常。
shutil.copytree()复制整个目录及其子文件、目录。shutil.move(src,dst):将文件或目录移动到指定的位置。os.rename(src, dst):重命名文件或目录;
枚举目录列表,可通过:
os.scandir():推荐方法;返回一个包含DirEntry迭代器;pathlib.Path()对象的iterdir()方法:返回包含目录对象的迭代器;os.listdir():遗留方法;返回一个包含子文件(夹)名的列表;with os.scandir('/tmp') as entries:
for en in entries:
if en.is_file():
print(en.name)
DirEntry属性与方法:
stat_result;os.walk()用于通过在目录树中游走输出目录中的文件名:
os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])
参数说明:
for root, dirs, files in os.walk(r"D:\temp"):
print(root, files)
# D:\temp ['add.log', 'out.yml']
# D:\temp\picture ['1.jpeg']
# D:\temp\result\log ['1.log', '2.log']
获取目录列表后,要搜索和特定的模式匹配的文件:
| 函数 | 描述 |
|---|---|
| startswith() | 测试是否以一个特定的模式开始 |
| endswith() | 测试是否以一个特定的模式结束 |
| fnmatch.fnmatch(filename, pattern) | 测试是否匹配(支持*和?等通配符) |
| glob.glob() | 返回一个匹配该模式的文件名列表 |
| pathlib.Path.glob() | 返回一个匹配该模式的生成器对象 |
nmatch模块主要用于文件名称的匹配,比简单的字符串匹配更强大,但比正则表达式稍弱。
| 函数名 | 功能 |
|---|---|
| filter(names, pattern) | 对names列表进行过滤,返回匹配的文件子集合 |
| fnmatch(filename, pattern) | 判断文件名是否和指定pattern匹配 |
| fnmatchcase(filename, pattern) | 和fnmatch()类似,但区分大小写 |
| translate(pattern) | 将UNIX shell风格的pattern字符串,转换为正则表达式 |
fnmatch支持使用如下几个通配符:
*:可匹配0或多个任意字符。?:可匹配一个任意字符。[字符序列]:可匹配字符序列中的任意字符;支持中画线表示法,如 [a-c]表示a、b和c字符中任意一个。[!字符序列]:可匹配不在字符序列中的任意字符。for name in os.listdir('/tmp'):
if fnmatch.fnmatch(name, 'log-*.txt'):
print(name)
glob模块中的glob()返回所有匹配的文件路径列表;iglob()与glob基本相同,只是返回的是迭代器(非列表)。
glob.glob(pathname, *, recursive=False)
参数说明:
* ? [];**会匹配零或多层目录及子目录。如获取当前目录及其子目录下的所有py文件:
# files = glob.iglob(r"D:\temp\**\*.log", recursive=True)
files = glob.iglob(r"**\*.py", recursive=True)
for f in files:
print(f)
## 返回文件中包含匹配的路径;
# log的返回为:
# D:\temp\add.log
# D:\temp\result\result.log
# D:\temp\result\log\test2022.log
# py的返回为
# main.py
# files\file_handle.py
tempfile模块用于创建临时文件和目录(程序停止运行后会自动删除这些临时文件),创建位置依次为:
C:\TEMP,C:\TMP,当前目录;/tmp,/var/tmp,/usr/tmp,当前目录;with tempfile.TemporaryFile('w+t') as fp:
fp.write('Hello world!')
fp.seek(0)
fp.read()
# 此处,文件已被删除
tmp = ''
with tempfile.TemporaryDirectory() as tmpdir:
print('Created temporary directory ', tmpdir)
tmp = tmpdir
print(os.path.exists(tmpdir))
# 此处,目录已被删除