到目前为止,我们已经很好地了解了如何处理数据,然后打印出处理结果。但是,我们不止满足于使用input接收用户输入,使用print输出处理结果。我们想要关注到系统的方方面面,需要自己的代码可以自动分析系统的日志,需要分析的结果可以保存为一个新的日志,甚至需要跟外面的世界进行接触。
相信大家都曾经有过这样的经历:在编写代码的时候,电脑突然down机或者系统突然蓝屏崩溃了,重启之后发现刚才写入的代码都不见了,这时候就会非常崩溃。这是因为,在编写代码的时候,操作系统为了更快地做出响应,把所有当前的数据存放在内存中,因为内存和CPU数据传输的速度要比在硬盘和CPU之间传输的速度快很多倍。但内存有一个天生的不足,就是一旦断电就没戏,所以大家要养成良好习惯,随时使用Ctrl+S保存你的数据。
Windows是以扩展名来指出文件是什么类型,例如.exe是可执行文件格式,.txt是文本文件,.ppt是PowerPoint的专用格式等,所有这些都称为文件。
在Python中,使用**open()**函数来打开文件并返回文件对象。
o
p
e
n
(
f
i
l
e
,
m
o
d
e
=
′
r
′
,
b
u
f
f
e
r
i
n
g
=
−
1
,
e
n
c
o
d
i
n
g
=
N
o
n
e
,
e
r
r
o
r
s
=
N
o
n
e
,
n
e
w
l
i
n
e
=
N
o
n
e
,
c
l
o
s
e
f
d
=
T
r
u
e
,
o
p
e
n
e
r
=
N
o
n
e
)
open(file, mode='r', buffering=-1, encoding=None, errors=None, \\newline=None, closefd=True, opener=None)
open(file,mode=′r′,buffering=−1,encoding=None,errors=None,newline=None,closefd=True,opener=None)
open()这个函数有很多参数,但对于初学者,只需要先关注第一个和第二个参数即可。
第一个参数:是传入的文件名。
如果只有文件名,不带路径的话,那么Python会在当前文件夹中去找到该文件并打开。
第二个参数:指定文件打开模式。
文件的打开模式如下表所示:
打开模式 | 执行操作 |
---|---|
‘r’ | 以只读方式打开文件(默认) |
‘w’ | 以写入的方式打开文件,会覆盖已存在的文件 |
‘x’ | 如果文件已经存在,使用此模式打开将引发异常 |
‘a’ | 以写入模式打开,如果文件存在,则在文件末尾追加写入 |
‘b’ | 以二进制模式打开文件 |
‘t’ | 以文本模式打开(默认) |
‘+’ | 可读写模式(可添加到其他模式中使用) |
‘U’ | 通用换行符支持 |
使用open()成功打开一个文件之后,它会返回一个文件对象,拿到这个文件对象,就可以读取或修改这个文件:
这里使用utf-8编码方式打开文件,不报错说明文件打开成功。
打开文件并取得文件对象之后,可以利用文件对象的一些方法对文件进行读取或修改等操作。常用的文件对象方法如下,在接下来会重点介绍部分方法。
文件对象的方法 | 执行操作 |
---|---|
close() | 关闭文件 |
read(size = -1) | 从文件读取size个字符,当未给定size或给定负值的时候,读取剩余的所有字符,然后作为字符串返回 |
readline() | 从文件中读取一整行字符串 |
write(str) | 将字符串str写入文件 |
writelines(seq) | 向文件写入字符串序列seq,seq应该是一个返回字符串的可迭代对象 |
seek(offset, from) | 在文件中移动文件指针,从from(0代表文件起始位置,1表示当前位置,2代表文件末尾)偏移offset个字节 |
tell() | 返回当前在文件中的位置 |
close()方法用于关闭文件。一般会特别强调文件的关闭非常重要,但是Python拥有垃圾回收机制,会在文件对象的引用计数将至零的时候自动关闭文件,所以在Python中如果忘记关闭文件并不会造成内存泄露那么危险的结果。
但并不是说可以不要关闭文件,如果你对文件进行了写入操作,那么应该在完成写入之后关闭文件。因为Python可能会缓存你写入的数据,如果中途发生了断电等事故,那么这些缓存的数据根本就不会写入到文件中。故为了安全起见,在使用完文件后要养成关闭文件的习惯。
文件的读取方法有很多,可以使用文件对象read()和readline()方法,也可以直接list(f)或者直接使用迭代来读取。
read()是按字节为单位读取,如果不设置参数,那么会全部读取出来,文件指针指向文件末尾。tell()方法可以告诉你当前文件指针的位置:
可以看到,文件指针可以认为是一个“书签”,起到定位的作用。
使用seek()方法可以调整文件指针的位置。seek(offset, from)方法有两个参数,表示在文件中移动文件指针,从from(0代表文件起始位置,1表示当前位置,2代表文件末尾)偏移offset个字节。因此**将文件指针设置到文件起始位置,使用seek(0,0)**即可。
由于使用utf-8的编码方式,一个汉字占3个字节,\n占2个字节,所以最后文件指针停在位置14。
readline()方法用于在文件中读取一整行,就是从文件指针的位置向后读取,直到遇到换行符(\n)结束:
list(f)的方法可以将整个文件的内容放在列表中:
由于上面执行过readline()方法,所以是从当前指针开始读取的,并不是从开头开始读取的。
通过迭代读取文件内容,注意,文件对象自身是支持迭代的:
在写入之前,请确保之前的打开模式有’w’或者’a’,否则会出错:
但是,需要注意的是,使用’w’模式写入文件,此前文件的内容会被全部删除。也就是说,'w’模式是覆盖已存在的文件的,所以,如果是要在原来的内容上追加,一定要使用’a’模式打开文件。