查找替换第2谈：排除```与```之间，文本插入＜small＞与＜small＞

提问：

读取 这个new_text
查看有多少个```
排除 '# 正文\n'的行
计算```个数

1
2
3
4
5

 '# 正文\n')
1

 '# 正文\n')

1
2





在偶数与基数的正文中，
例如2-3，4-5中间的正文中，意思是说
排除```与```之间的代码块



分词，计算词性，随机在词语或者短句中间穿插与，以使段落可爱
1
2
3
4
5
6
7
8
9
10
11

运行时，输入文本直到输入"233.3"为止，然后会输出经过处理的文本，这个代码经过调整不出现索引超出范围的错误。

正经版：

当然，这里是经过注释的代码，以便更好地理解每行的作用。

import random  # 导入random库，用于生成随机数
import jieba  # 导入jieba库，用于中文分词

def process_text(text):
    # 先按照多个空行分割文本
    paragraphs = text.split('\n\n\n\n')  # 按照四个连续换行符分割文本成段落
    new_text = ''
    
    for para in paragraphs:
        # 去除段落开头结尾的空白符
        para = para.strip()  # 去除段落的首尾空白符（如空格、制表符等）
        if not para:
            continue
        # 替换掉指定字符
        para = para.replace('>2个空行\n', '')  # 将特定字符串替换为空
        para = para.replace('>1个空行\n', '# 正文\n')  # 将特定字符串替换为"# 正文"
        # 将每个段落按照标点符号分割成句子
        sentences = para.split('。')  # 将段落按照句号分割成句子
        new_para = ''
        
        for sent in sentences:
            # 如果句子为空或者只包含空白符则跳过
            if not sent.strip():  # 如果句子为空或者只包含空白符（如空格、制表符等），则跳过
                continue
            # 找到第一个标点符号的位置
            punc_index = len(sent)  # 初始化标点符号的索引为句子长度
            for punc in ['，', '。', ',', '.', '!', '?']:
                index = sent.find(punc)  # 查找句子中是否包含特定标点符号
                if index != -1 and index < punc_index:  # 如果找到了该标点符号，并且其索引小于当前标点符号索引
                    punc_index = index  # 更新标点符号索引为最小的那个
            # 我们只考虑第一个标点符号之前的内容
            first_part = sent[:punc_index]  # 取第一个标点符号之前的部分
            
            # 随机删除前3个或者后3个
            keywords = ['首先', '其次', '此外', '总的来说']  # 定义需要删除的关键词列表
            for i in range(3):  # 循环三次
                if keywords:  # 如果关键词列表不为空
                    idx = random.randint(0, len(keywords) - 1)  # 生成一个随机索引
                    keyword = keywords.pop(idx)  # 从关键词列表中取出对应索引的关键词，并从列表中删除该关键词
                    if keyword in first_part:  # 如果关键词在句子的前半部分中
                        first_part = first_part.replace(keyword, '')  # 将关键词替换为空

            # 判断标点符号是否是句子的最后一个字符
            new_sent = first_part + sent[punc_index] if punc_index < len(sent) else first_part  
            # 如果标点符号索引小于句子长度，则拼接前半部分和标点符号；否则，只使用前半部分
            
            new_para += new_sent  # 将处理后的句子拼接到段落的新文本中

        # 将处理后的段落拼接到最终的文本中
        new_text += new_para + '\n\n'

    return new_text

def process_text_with_cuteness(new_text):
    cuteness_text = ''
    paragraphs = new_text.strip().split('\n\n')  # 将处理后的文本按照两个连续换行符分割成段落
    for para in paragraphs:
        sentences = para.split('。')  # 按照句号分割段落为句子
        new_para = ''
        for sent in sentences:
            words = jieba.lcut(sent)  # 使用jieba库对句子进行分词
            if not words:  # 如果分词结果为空
                continue
            random_index = random.randint(0, len(words) - 1)
            # 随机选择一个词语
            # 在词语或短句中插入和
            cute_sent = ''.join([f'{word}{" " if idx != random_index else "与"}' for idx, word in enumerate(words)])
            # 构建可爱的句子，其中指定随机选择的词语被插入和标签
            new_para += cute_sent + '。'  # 将处理后的句子拼接到段落的新文本中
            
        cuteness_text += new_para + '\n\n'  # 将处理后的段落拼接到最终的文本中

    return cuteness_text

# 读取多行输入，直到输入为"233.3"
text = ''
while True:
    line = input()  # 读取一行输入
    if line == '233.3':  # 如果输入为"233.3"，则退出循环
        break
    text += line + '\n'  # 将输入的行添加到文本中

new_text = process_text(text)  # 处理文本
cuteness_text = process_text_with_cuteness(new_text)  # 处理可爱性文本
print(cuteness_text)  # 输出可爱性文本
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85

希望这些注释能帮助理解代码的逻辑和每行的作用。

可爱版：

当然！这里是一段可爱的代码，让我们一起来看看吧～

亲亲_(*^▽^*)这是一段超级可爱的代码呦！让我帮你把它描述一下哦~

import random  # 导入random库哟~可以生成超级随机的数字哦~
import jieba  # 导入jieba库哒~可以帮助我们对中文进行超级萌萌的分词喔~

def process_text(text):
    # 先按照多个空行分割文本，把每一段都变得整整齐齐~
    paragraphs = text.split('\n\n\n\n')  # 将文本通过四个连续换行符分割成好多好多段落哟~
    new_text = ''  # 新文本初始化为空哦~
    
    for para in paragraphs:
        # 去除段落开头结尾的空白符，让每一段都变得干干净净~
        para = para.strip()  # 把段落的首尾空白符（比如空格、制表符）都给清理掉哟~
        if not para:
            continue
        # 替换掉指定字符，让段落看起来更加漂漂亮亮~
        para = para.replace('>2个空行\n', '')  # 把特定字符串给替换成空哟~
        para = para.replace('>1个空行\n', '# 正文\n')  # 把特定字符串给替换成"# 正文"哟~
        # 将每个段落按照标点符号分割成句子，让每个句子都好好分开~
        sentences = para.split('。')  # 把段落通过句号给分成好多好多句子哟~
        new_para = ''  # 新段落初始化为空哦~
        
        for sent in sentences:
            # 如果句子为空或者只包含空白符，我们就跳过它~
            if not sent.strip():  # 如果句子是空的或者只是由空白符（比如空格、制表符）组成，我们就跳过哟~
                continue
            # 找到第一个标点符号的位置，让我们知道该从哪里切割句子~
            punc_index = len(sent)  # 先把标点符号的索引初始化为句子的长度哟~
            for punc in ['，', '。', ',', '.', '!', '?']:  # 想要找的标点符号们~
                index = sent.find(punc)  # 看看句子里面有没有这个特定的标点符号哟~
                if index != -1 and index < punc_index:  # 如果找到了并且它的索引比当前最小的索引还小~
                    punc_index = index  # 那就把它更新成当前最小的索引哟~
            # 我们只考虑第一个标点符号之前的内容，不要犯懒，多写点吧~
            first_part = sent[:punc_index]  # 把第一个标点符号之前的部分给取出来吧~
            
            # 随机删除前3个或者后3个关键词，让文本更加有趣~
            keywords = ['首先', '其次', '此外', '总的来说']  # 这是我们想要删除的关键词列表哟~
            for i in range(3):  # 我们来循环三次来删除关键词哟~
                if keywords:  # 如果关键词列表还不是空的~
                    idx = random.randint(0, len(keywords) - 1)  # 那我们就随机生成一个索引哟~
                    keyword = keywords.pop(idx)  # 把对应索引的关键词取出来并从列表中删除掉哟~
                    if keyword in first_part:  # 如果这个关键词在句子的前半部分呢~
                        first_part = first_part.replace(keyword, '')  # 那我们就把它替换成空哟~

            # 判断标点符号是否是句子的最后一个字符，我们要做到全面哦~
            new_sent = first_part + sent[punc_index] if punc_index < len(sent) else first_part  
            # 如果标点符号的索引小于句子的长度，那我们就拼接前半部分和标点符号呢~
            # 否则，我们就只用前半部分啦~
            
            new_para += new_sent  # 把处理好的句子和段落的新文本给拼接起来哟~

        # 将处理好的段落给拼接到最终的文本中哟~
        new_text += new_para + '\n\n'

    return new_text

def process_text_with_cuteness(new_text):
    cuteness_text = ''  # 可爱性文本初始化为空哟~
    paragraphs = new_text.strip().split('\n\n')  # 把处理好的文本给通过两个连续换行符分割成段落哟~
    for para in paragraphs:
        sentences = para.split('。')  # 把段落通过句号给分割成句子哟~
        new_para = ''  # 新段落初始化为空哟~
        for sent in sentences:
            words = jieba.lcut(sent)  # 把句子通过jieba库帮我们超级可爱地进行分词哟~
            if not words:  # 如果分词结果是空的~
                continue
            random_index = random.randint(0, len(words) - 1)  # 随机选择一个索引哟~
            # 在词语或短句中插入和，让文本都变得超级萌萌哒~
            cute_sent = ''.join([f'{word}{" " if idx != random_index else "与"}' for idx, word in enumerate(words)])
            # 构建一个超级可爱的句子哟~指定的随机选择的词语会被插入和标签~
            new_para += cute_sent + '。'  # 把处理好的句子和段落的新文本给拼接起来哟~
            
        cuteness_text += new_para + '\n\n'  # 把处理好的段落和可爱性文本给拼接起来哟~

    return cuteness_text

# 输入多行文本，直到输入为"233.3"为止，一起来记录下我们的宝贵时光吧~
text = ''
while True:
    line = input()  # 读取一行输入哟~
    if line == '233.3':  # 如果输入为"233.3"，那我们就退出循环啦~
        break
    text += line + '\n'  # 把输入的行闪亮登场到我们的文本中哟~

new_text = process_text(text)  # 处理文本哦~
cuteness_text = process_text_with_cuteness(new_text)  # 处理超级可爱文本哦~
print(cuteness_text)  # 输出超级可爱文本哟~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85

希望这样的描述让你感到开心呀~(^ω)

描述：

.
下面是一个可爱的表格，解释了该代码中的可爱函数及其功能：

函数名称	功能
process_text	将输入的文本进行处理，去除空白符、替换特定字符、分割段落和句子
process_text_with_cuteness	在处理过的文本中插入一些超级可爱的元素，让文本变得更加可爱

根据代码清单的大致描述，可以推测以下的功能：

process_text 函数：该函数负责处理输入的文本。它首先去除段落开头和结尾的空白符，然后替换特定字符，如“>2个空行”和“>1个空行”。接下来，它将每个段落按照标点符号分割成句子，并随机删除句子中的前3个或后3个关键词。最后，它将处理好的段落拼接成新的文本。
process_text_with_cuteness 函数：该函数在处理过的文本中添加一些超级可爱的元素，以增加文本的可爱程度。具体来说，它使用jieba库进行中文分词，然后随机选择一个词语或短句，在该词语或短句中插入和标签，以突出显示该部分内容。最后，它将处理好的句子和段落拼接成新的可爱文本。

虽然我无法提供更加具体的细节描述，但希望以上解释对您有所帮助。希望这个可爱的表格能够让您对代码的可爱函数有更好的理解哦_(*^▽^*)

相关阅读:
30岁HR转行软件测试，3个月学习斩获12.8K车联网公司offer
2024懒人精灵七天从入门到精通实战课程（付源码）
内核中断体系概括
tomcat学习：tomcat 目录及配置文件学习，部署多个项目的两种方式
Salesforce撤离中国后，谁来缓解在华跨国企业的焦虑？
数据库DQL语句归纳及练习
【一周安全资讯1014】交通运输部发布《公路工程设施支持自动驾驶技术指南》；多地网信办对违反数据安全法规企业作出行政处罚
【LeetCode每日一题】——230.二叉搜索树中第K小的元素
松哥手把手教你在 Vue3 中自定义插件
轻量封装WebGPU渲染系统示例＜2＞-彩色立方体(源码)

原文地址：https://blog.csdn.net/weixin_73675558/article/details/133606098