字符串处理,不用re模块,直接用for“手撕”字符串,提取单引号内字符串。
Python 官网:https://www.python.org/
Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……
自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
—— 华罗庚
本文质量分:
CSDN质量分查询入口:http://www.csdn.net/qc
[array([‘暨大!!!!!!’],dtype=object),array([‘我觉得小姐姐人很好哎’],dtype=object), array([‘工科走了’], dtype=object),array([‘点错了’],dtype=object),array([‘机械计制造及其自动化’], dtype=object), array([‘你已经很棒了呀’], dtype=object),array([‘二本想考研985的瑟瑟发抖’], dtype=object), array([‘我导师就这样,我都气死了’], dtype=object), array([‘在读大三的一名博士研究生 关系复杂’], dtype=object), array([‘音乐生在这!’], dtype=object), array([‘哈哈哈’], dtype=object), array([‘广美硕士路过’],dtype=object),array([‘内心热爱,就坚持。不热爱,完全没必要。’],dtype=object),array([’【过期的麦片】’],dtype=object), array([‘一猜就是,哈哈哈’],dtype=object),array([‘好的,医学生现在退出直播间’], dtype=object),array([‘重新定义《普通》’], dtype=object),array([‘感觉up主不太会问问题’],dtype=object), array(['顶部红字你有意思吗? '], dtype=object), array([‘重点是能毕业’],dtype=object),array([‘如果这样的话那我真心建议你退学’], dtype=object), array([‘社会是很险恶的’],dtype=object),array([‘期待第二期!’], dtype=object), array([‘加油,曾经都努力了为什么要放弃呢’],dtype=object),array([‘摆就完了’], dtype=object), array([‘哈哈哈哈’], dtype=object),array([‘说的就是我’], dtype=object), array
用re.findall方法一条语句搞定的事儿,
print('\n'.join(re.findall(r"'(.+?)'",example)))
今天突发奇想,“非”要用循环轮询来实现。
轮询字符串,第一次见到单引号,设置记录开关flag为True,收集字符串开关k为1;再次遇到单引号,flag = False,k=0,拼接记录的字符,追加到收集列表。我收集到的字符包含了先见到的单引号,收集时用了切片[1:]舍去首字符,实现了re.findall一样的效果。
# 不用re
out, k = [], ''
tem, flag = [], False
n = 0
for i in example:
if i == "\'" and flag is False:
flag, k = True, 1
elif i == "\'" and flag is True:
flag, k = False, 0
if flag is True and k:
tem.append(i)
elif k == 0:
out.append(''.join(tem[1:]))
tem, k = [], 1
n += 1
out = '\n'.join(out)
print(f"\n\nfor循环提取单引号内字符:\n\n{out}\n")
print('循环执行', n, '次。')
代码运行效果截屏图片

经过思考,感觉我的代码“算法”还可优化。在记录收集开关状态变化后,可以用continue关键字进入下一次轮询,豆不会收集先见到的单引号,拼接收集字符串时豆不用切片了。跳过了几十次轮询。
感觉还可以跳过没有开始收集字符(第二次遇到成对单引号前的轮询)前,可以不执行收集字符代码。但我怎么设置“开关”组合,都达不成“效果”。无法可想,用print()、input()在准备“跳过”优化的代码块前后打印我的“开关”,让她们的状态呈现出来。


从“开关”状态轻易发现,当字符收录开关flag关闭&字符串收集开关k打开时,是可以不用执行“收录收集”代码块的。
if k == 1 and flag == False:
continue # 当不用收录字符时,不执行收录收集代码块。
优化代码运行效果截图

从950次全程循环,降到了274次!优化效果还是比较明显的。🤗不用后半段代码的时候,直接用continue“跳过”。
# 不用re
out, k = [], ''
tem, flag = [], False
n = 0
for i in example:
if i == "\'" and flag is False:
flag, k = True, 1
continue
elif i == "\'" and flag is True:
flag, k = False, 0
continue
if k == 1 and flag == False:
continue # 当不用收录字符时,不执行收录收集代码块。
#print(flag, k) # 断点开关显形语句。
if flag is True and k:
tem.append(i)
elif k == 0:
out.append(''.join(tem))
tem, k = [], 1
#input(f"flag = {flag},k = {k}") # 断点开关显形语句。
n += 1
out = '\n'.join(out)
print(f"\n\nfor循环提取单引号内字符:\n\n{out}\n")
print('循环执行', n, '次。')
(源码较长,点此跳过源码)
#!/usr/bin/nve python
# coding: utf-8
import re
example = "[array(['暨大!!!!!!'],dtype=object),array(['我觉得小姐姐人很好哎'],dtype=object), array(['工科走了'], dtype=object),array(['点错了'],dtype=object),array(['机械计制造及其自动化'], dtype=object), array(['你已经很棒了呀'], dtype=object),array(['二本想考研985的瑟瑟发抖'], dtype=object), array(['我导师就这样,我都气死了'], dtype=object), array(['在读大三的一名博士研究生 关系复杂'], dtype=object), array(['音乐生在这!'], dtype=object), array(['哈哈哈'], dtype=object), array(['广美硕士路过'],dtype=object),array(['内心热爱,就坚持。不热爱,完全没必要。'],dtype=object),array(['【过期的麦片】'],dtype=object), array(['一猜就是,哈哈哈'],dtype=object),array(['好的,医学生现在退出直播间'], dtype=object),array(['重新定义《普通》'], dtype=object),array(['感觉up主不太会问问题'],dtype=object), array(['顶部红字你有意思吗? '], dtype=object), array(['重点是能毕业'],dtype=object),array(['如果这样的话那我真心建议你退学'], dtype=object), array(['社会是很险恶的'],dtype=object),array(['期待第二期!'], dtype=object), array(['加油,曾经都努力了为什么要放弃呢'],dtype=object),array(['摆就完了'], dtype=object), array(['哈哈哈哈'], dtype=object),array(['说的就是我'], dtype=object), array"
# re.findall
print('\n'.join(re.findall(r"'(.+?)'",example)))
# 不用re
out, k = [], ''
tem, flag = [], False
n = 0
for i in example:
if i == "\'" and flag is False:
flag, k = True, 1
continue
elif i == "\'" and flag is True:
flag, k = False, 0
continue
if k == 1 and flag == False:
continue # 当不用收录字符时,不执行收录收集代码块。
#print(flag, k) # 断点开关显形语句。
if flag is True and k:
tem.append(i)
elif k == 0:
out.append(''.join(tem))
tem, k = [], 1
#input(f"flag = {flag},k = {k}") # 断点开关显形语句。
n += 1
out = '\n'.join(out)
print(f"\n\nfor循环提取单引号内字符:\n\n{out}\n")
print('循环执行', n, '次。')
我的HOT博:
精品文章:
来源:老齐教室
◆ Python 入门指南【Python 3.6.3】
好文力荐:
全栈领域优质创作者——寒佬(还是国内某高校学生)博文“非技术文—关于英语和如何正确的提问”,“英语”和“会提问”是学习的两大利器。
CSDN实用技巧博文: