• 替换文章中的关键词


    最近写豆瓣,写一写个人感想,现在的网络环境,就是很多不能说,有些词,不能通过审核,我自己手动把一些关键词替换掉。想到用Python直接写了一个简单脚本。

    1. import numpy as np
    2. import pandas as pd
    3. import matplotlib.pyplot as plt
    4. import re
    5. import os
    6. from collections import Counter
    7. import time
    8. # import requests
    9. # from scrapy import Selector
    10. # import seaborn as sns
    11. # import jieba
    12. # import jieba.posseg as psg
    13. plt.rcParams['font.family'] = ['SimHei']
    14. plt.rcParams['axes.unicode_minus'] = False
    15. #
    16. wk_dir = "2022——社会科学研究方法/test_替换敏感词"
    17. data_dir = "2022——社会科学研究方法/test_替换敏感词/data_dir_politic_senti_replace"
    18. #---------------------------------------------------------#
    19. #---- * * ----#
    20. #---------------------------------------------------------#
    21. f_replace = open(os.path.join(data_dir, "dct_politic_senti.txt"),'r', encoding="UTF-8").readlines()
    22. f = open("2022——社会科学研究方法/test_替换敏感词/data_dir_politic_senti_replace/dct_politic_senti.txt", encoding="UTF-8")
    23. with open("2022——社会科学研究方法/test_替换敏感词/data_dir_politic_senti_replace/dct_politic_senti.txt", encoding="UTF-8") as f:
    24. f.read()
    25. f = open("2022——社会科学研究方法/test_替换敏感词/data_dir_politic_senti_replace/dct_politic_senti.txt", encoding="UTF-8")
    26. dct_code = f.readlines()
    27. dct_code
    28. dct_code = [x.strip() for x in dct_code]
    29. dct_code
    30. dct_code = [x.split(" ") for x in dct_code]
    31. hanzi = [ x[0] for x in dct_code]
    32. hanzi
    33. yingwen = [ x[1] for x in dct_code]
    34. yingwen
    35. dct_repl = dict(zip(hanzi,yingwen))
    36. dct_repl
    37. txt = open(os.path.join(data_dir, "artical1.txt"), encoding="utf-8").read()
    38. txt
    39. for key, value in dct_repl.items():
    40. if key in txt:
    41. txt = txt.replace(key, value)
    42. txt

    需要一个字典。比如,把这些次替换掉。

     结果就是这样的,不知道能不能通过审核发布,

     关键代码是这一段,

    1. for key, value in dct_repl.items():
    2. if key in txt:
    3. txt = txt.replace(key, value)

    这一段,是一遍一遍筛选词,一遍一遍替换,效率有点低,但是还没想到更好更高效的解决办法。

    希望有高手帮忙指点。

  • 相关阅读:
    100+数据科学面试问题和答案总结 - 基础知识和数据分析
    乐优商城_第1章_springboot
    【HMS core】【FAQ】典型问题合集8
    Cadence学习篇(12) Cadence中使用Pspice进行电路仿真
    [附源码]SSM计算机毕业设计线上图书销售管理系统JAVA
    Elasticsearch的增删查改详细操作
    jquery插件--浮动广告
    设计模式之代理模式
    SMP多核启动(一):spin-table
    【SpringBoot】6.SpringBoot整合MybatisPlus
  • 原文地址:https://blog.csdn.net/weixin_40340586/article/details/126574329