尚学堂 Python 400 集
如果本文有侵犯您的知识产权和版权问题,请通知本人,本人会立即做出处理并删除文章
电子邮件:louhergetup@163.com >
代码测试所用版本: Python 3.8.2
字符串的本质是:字符序列。Python的字符串是不可变的,我们无法对原字符串做任何修改。但,可以将字符串的一部分复制到新创建的字符串,达到“看起来修改”的效果。
Python不支持单字符类型,单字符也是作为一个字符串使用的。
Python3直接支持Unicode,可以表示世界上任何书面语言的字符。Python3的字符默认就是16位Unicode编码,ASCII码是Unicode编码的子集。
使用内置函数ord()可以把字符转换成对应的Unicode码;
使用内置函数chr()可以把十进制数字转换成对应的字符。
我们可以通过单引号或双引号创建字符串。例如:a=’abc’;b=”efg”
使用两种引号的好处是可以创建本身就包含引号的字符串,而不用使用转义字符。例如:
>>> a = "I'm a teacher!"
>>> print(a)
I'm a teacher!
>>> b = 'my_name is "TOM"'
>>> print(b)
my_name is "TOM"
连续三个单引号或三个双引号,可以帮助我们创建多行字符串。例如:
>>> resume = ''' name="lhgu"
company="abc" age=18
lover="Tom"'''
>>> resume
' name="lhgu"\ncompany="abc" age=18\nlover="Tom"'
Python允许空字符串的存在,不包含任何字符且长度为0。例如:
>>> c = ''
>>> len(c)
0
len()用于计算字符串含有多少字符。例如:
>>> d = 'abc哈哈哈'
>>> len(d)
6
我们可以使用“+特殊字符”,实现某些难以用字符表示的效果。比如:换行等。常见的转义字符有这些:
| 转义字符 | 描述 |
|---|---|
| (在行尾时) | 续行符 |
| \ | 反斜杠符号 |
| ’ | 单引号 |
| " | 双引号 |
| \b | 退格(Backspace) |
| \n | 换行 |
| \t | 横向制表符 |
| \r | 回车 |
>>> a = 'I\nlove\nU'
>>> a
'I\nlove\nU'
>>> print(a)
I
love
U
>>> b = 'i\'m a teacher'
>>> b
"i'm a teacher"
>>> print(b)
i'm a teacher
>>> print('aaabb\
cccddd')
aaabbcccddd
>>> 'aa'+'bb'
'aabb'
(1) 如果+两边都是字符串,则拼接。
(2) 如果+两边都是数字,则加法运算。
(3) 如果+两边类型不同,则抛出异常。
2. 可以将多个字面字符串直接放到一起实现拼接。例如:
>>> 'aa' 'bb'
'aabb'
以上两种方法都会产生一个新的对象。
使用*可以实现字符串复制。
【操作】字符串复制操作
>>> a = 'Abc'*3
>>> a
'AbcAbcAbc'
我们前面调用print时,会自动打印一个换行符。有时,我们不想换行,不想自动添加换行符。我们可以自己通过参数end = “任意字符串”。实现末尾添加任何内容:
【操作】文件中测试
print("aa",end="")
print("bb",end="")
print("cc")
运行结果
aabbcc
我们可以使用input()从控制台读取键盘输入的内容。
>>> myname = input("请输入名字:")
请输入名字:lhgu
>>> myname
'lhgu'
str()可以帮助我们将其他数据类型转换为字符串。
>>> int("234")
234
>>> float("3.14")
3.14
>>> str(5.20)
'5.2'
>>> str(314)
'314'
>>> str(3.14e2)
'314.0'
>>> str(True)
'True'
当我们调用print()函数时,解释器自动调用了str()将非字符串的对象转成了字符串。
字符串的本质就是字符序列。我们可以通过在字符串后面添加[],在[]里面指定偏移量,可以提取该位置的单个字符。
正向搜索:
最左侧第一个字符,偏移量是0,第二个偏移量是1,以此类推。直到len(str)-1为止。
反向搜索:
最右侧第一个字符,偏移量是-1,倒数第二个偏移量是-2,以此类推,直到-len(str)为止。
【操作】使用[]提取字符串中的字符
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a[0]
'a'
>>> a[3]
'd'
>>> a[26]
Traceback (most recent call last):
File "" , line 1, in <module>
a[26]
IndexError: string index out of range
>>> a[-1]
'z'
>>> a[26-1]
'z'
>>> a[-26]
'a'
>>> a[-27]
Traceback (most recent call last):
File "" , line 1, in <module>
a[-27]
IndexError: string index out of range
字符串是“不可改变”的,我们通过[]可以获取字符串指定位置的字符,但是我们不能改变字符串。我们尝试改变字符串中某个字符,发现报错了:
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a[0]=1
Traceback (most recent call last):
File "" , line 1, in <module>
a[0]=1
TypeError: 'str' object does not support item assignment
字符串不可改变。但是,我们确实有时候需要替换某些字符。这时,只能通过创建新的字符串来实现。
>>> a = 'abcdefghijklmnopqrstuvwxyz'
>>> a
'abcdefghijklmnopqrstuvwxyz'
>>> a = a.replace('c','3')
>>> a
'ab3defghijklmnopqrstuvwxyz'
整个过程中,实际上我们是创建了新的字符串对象,并指向了变量a,而不是修改了以前的字符串。 内存图如下:

切片slice操作可以让我们快速的提取子字符串。标准格式为:
[起始偏移量start:终止偏移量end:步长step] # 包头不包尾
典型操作(三个量为正数的情况)如下:
| 操作和说明 | 示例 | 结果 |
|---|---|---|
| [:] 提取整个字符串 | “abcdef”[:] | “abcdef” |
| [start:]从start索引开始到结尾 | “abcdef”[2:] | “cdef” |
| [:end]从头开始知道end-1 | “abcdef”[:2] | “ab” |
| [start:end]从start到end-1 | “abcdef”[2:4] | “cd” |
| [start : end : step]从start提取到end-1,步长是step | “abcdef”[1:5:2] | “bd” |
| 其他操作(三个量为负数)(倒着数)的情况: | ||
| 操作和说明 | 示例 | 结果 |
| – | – | – |
| “abcdefghijklmnopqrstuvwxyz”[-3:] | 倒数三个 | “xyz” |
| “abcdefghijklmnopqrstuvwxyz”[-8:-3] | 倒数第八个到倒数第三个(包头不包尾) | ‘stuvw’ |
| “abcdefghijklmnopqrstuvwxyz”[::-1] | 步长为负,从右到左反向提取 | ‘zyxwvutsrqponmlkjihgfedcba’ |
| [start:end]从start到end-1 | “abcdef”[2:4] | “cd” |
| [start : end : step]从start提取到end-1,步长是step | “abcdef”[1:5:2] | “bd” |
切片操作时,起始偏移量和终止偏移量不在[0,字符串长度-1]这个范围,也不会报错。起始偏移量小于0则会当做0,终止偏移量大于“长度-1”会被当成-1。例如:
>>> "abcdefg"[3:50]
'defg'
我们发现正常输出了结果,没有报错。
split()可以基于指定分隔符将字符串分隔成多个子字符串(存储到列表中)。如果不指定分隔符,则默认使用空白字符(换行符/空格/制表符)。示例代码如下:
>>> a = "to be or not to be"
>>> a.split()
['to', 'be', 'or', 'not', 'to', 'be']
>>> a.split('be') # 用 be 分割
['to ', ' or not to ', '']
join()的作用和split()作用刚好相反,用于将一系列子字符串连接起来。示例代码如下:
>>> a = ['abc','abc100','abc200']
>>> '*'.join(a) # 用 * 连接
'abc*abc100*abc200'
拼接字符串要点:
使用字符串拼接符+,会生成新的字符串对象,因此不推荐使用+来拼接字符串(+一次就生成一个对象)。推荐使用join函数,因为join函数在拼接字符串之前会计算所有字符串的长度,然后逐一拷贝,仅新建一次对象。
【操作】测试+拼接符和join(),不同的效率
import time
time01 = time.time() #起始时刻
a = ""
for i in range(1000000):
a += "abc"
time02 = time.time() #终止时刻
print("运算时间:"+str(time02-time01))
time03 = time.time() #起始时刻
li = []
for i in range(1000000):
li.append("abc")
a="".join(li)
time04 = time.time() #终止时刻
print("运算时间:"+str(time04-time03))
运行结果
运算时间:0.4788682460784912
运算时间:0.0992431640625
字符串驻留:仅保存一份相同且不可变字符串的方法,不同的值被存放在字符串驻留池中。
Python支持字符串驻留机制,对于符合标识符规则的字符串(仅包含下划线(_)、字母和数字)会启用字符串驻留机制驻留机制。
>>> a = "abd_33"
>>> b = "abd_33"
>>> a is b # a b 引用同一个对象
True
>>> c = "dd#"
>>> d = "dd#"
>>> c is d # c d 引用不同对象
False
我们以一段文本作为测试:
a=‘’‘我是高淇,今年18岁了,我在北京尚学堂科技上班。我的儿子叫高洛希,他6岁了。我是一个编程教育的普及者,希望影响6000万学习编程的中国人。我儿子现在也开始学习编程,希望他18岁的时候可以超过我’‘’
| 方法和使用示例 | 说明 | 结果 |
|---|---|---|
| len(a) | 字符串长度 | 96 |
| a.startswith(‘我是高淇’) | 以指定字符串开头 | True |
| a.endswith(‘过我’) | 以指定字符串结尾 | True |
| a.find(‘高’) | 第一次出现指定字符串的位置 | 2 |
| a.rfind(‘高’) | 最后一次出现指定字符串的位置 | 29 |
| a.count(“编程”) 指定字符串出现了几次 | 3 | |
| a.isalnum() | 所有字符全是字母或数字 | False |
我们可以通过strip()去除字符串首尾指定信息。通过lstrip()去除字符串左边指定信息,rstrip()去除字符串右边指定信息。
【操作】去除字符串首尾信息
>>> " abc ".strip()
'abc'
>>> "*a*b*c*".strip("*")
'a*b*c'
>>> "*a*b*c*".lstrip("*")
'a*b*c*'
>>> "*a*b*c*".rstrip("*")
'*a*b*c'
编程中关于字符串大小写转换的情况,经常遇到。我们将相关方法汇总到这里。为了方便学习,先设定一个测试变量:
a = “gaoqi love programming, love SXT”
| 示例 | 说明 | 结果 |
|---|---|---|
| a.capitalize() | 产生新的字符串,首字母大写 | ‘Gaoqi love programming, love sxt’ |
| a.title() | 产生新的字符串,每个单词都首字母大写 | ‘Gaoqi Love Programming, Love Sxt’ |
| a.upper() | 产生新的字符串,所有字符全转成大写 | ‘GAOQI LOVE PROGRAMMING, LOVE SXT’ |
| a.lower() | 产生新的字符串,所有字符全转成小写 | ‘gaoqi love programming, love sxt’ |
| a.swapcase() | 产生新的,所有字母大小写转换 | 'GAOQI LOVE PROGRAMMING, LOVE |
center()、ljust()、rjust()这三个函数用于对字符串实现排版。示例如下:
>>> a = "ABC"
>>> a.center(10,"#")
'###ABC####'
>>> a.ljust(20,"#")
'ABC#################'
>>> a.rjust(20,"#")
'#################ABC'
| 方法 | 说明 |
|---|---|
| isalnum() | 是否为字母或数字 |
| isalpha() | 检测字符串是否只由字母组成(含汉字)。 |
| isdigit() | 检测字符串是否只由数字组成。 |
| isspace() | 检测是否为空白符 |
| isupper() | 是否为大写字母 |
| islower() | 是否为小写字母 |
>>> "abc100".isalnum()
True
>>> "abc哈哈哈".isalpha()
True
>>> "234.3".isdigit()
False
>>> "23423".isdigit()
True
>>> "aB".isupper()
False
>>> "A".isupper()
True
>>> "\t\n".isspace()
True
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。
基本语法是通过 {} 和 : 来代替以前的 % 。
format 函数可以接受不限个参数,位置可以不按顺序。
>>> a = "名字是:{0},年龄是:{1}"
>>> b = a.format("高淇",18)
>>> b
'名字是:高淇,年龄是:18'
>>> c = a.format("高希希",6)
>>> c
'名字是:高希希,年龄是:6'
>>> a = "名字是{name},年龄是{age}" # 定义参数名,必须传参数名,用参数名匹配,不必按顺序匹配
>>> b = a.format(name="刘德华",age=48)
>>> b
'名字是刘德华,年龄是48'
填充常跟对齐一起使用
^、<、>分别是居中、左对齐、右对齐,后面带宽度
:号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充
>>> "{:*>8}".format("245")
'*****245'
>>> "我是{0},我喜欢数字{1:*^8}".format("高淇","666")
'我是高淇,我喜欢数字**666***'
浮点数通过f,整数通过d进行需要的格式化。案例如下:
>>> a = "我是{0},我的存款有{1:.2f}"
>>> a.format("高淇",3888.234342)
'我是高淇,我的存款有3888.23'
>>> "{:0>10d}".format(3)
'0000000003'
>>> "{:*>10d}".format(3)
'*********3'
>>> "{:>2d}".format(3)
' 3'
>>> "{:0>2d}".format(3)
'03'
>>> "{:,}".format(10000000)
'10,000,000'
>>> "{:10d}".format(13)
' 13'
其他格式:
| 数字 | 格式 | 输出 | 描述 |
|---|---|---|---|
| 3.1415926 | {:.2f} | 3.14 | 保留小数点后两位 |
| 3.1415926 | {:+.2f} | 3.14 | 带符号保留小数点后两位 |
| 2.71828 | {:.0f} | 3 | 不带小数 |
| 5 | {:0>2d} | 05 | 数字补零 (填充左边, 宽度为2) |
| 5 | {:x<4d} | 5xxx | 数字补x (填充右边, 宽度为4) |
| 10 | {:x<4d} | 10xx | 数字补x (填充右边, 宽度为4) |
| 1000000 | {:,} | 1,000,000 | 以逗号分隔的数字格式 |
| 0.25 | {:.2%} | 25.00% | 百分比格式 |
| 1000000000 | {:.2e} | 1.00E+09 | 指数记法 |
| 13 | {:10d} | 13 | 右对齐 (默认, 宽度为10) |
| 13 | {:<10d} | 13 | 左对齐 (宽度为10) |
| 13 | {:^10d} | 13 | 中间对齐 (宽度为10) |
在Python中,字符串属于不可变对象,不支持原地修改,如果需要修改其中的值,智能创建新的字符串对象。但是,经常我们确实需要频繁地修改字符串,可以使用io.StringIO对象或array模块。
>>> import io
>>> s = "hello, sxt"
>>> sio = io.StringIO(s)
>>> sio
<_io.StringIO object at 0x00000168CFF0A5E0>
>>> sio.getvalue()
'hello, sxt'
>>> sio.seek(7)
7
>>> sio.write("g")
1
>>> sio.getvalue()
'hello, gxt'