• Python去除中文文本中的特殊字符


    最近需要去除文本中的特殊字符,例如下面从pdf读取的文本,需要进行解析:

    山东师范大学硕士学位论文\n13第三章基于粗-细粒度双层注意力的视频-文本跨模态检索\n3.1粗-细粒度并行注意力网络结构\n图3-1展示了粗-细粒度并行注意力(CFGPA)模型的总体架构。该架构包含视频特征处\n理网络、文本特征处理网络和多层次相似度度量模块。在视频特征处理网络中,不同的视\n频特征提取器提取视频中所包含的不同模态特征,然后,将时序特征嵌入到不同模态的特\n征中,生成视频的初始特征()vI。视频的初始特征()vI输入到粗-细粒度并行注意模块,生\n成视频的中间特征\ud835(\ud835),再经过视频特征融合模块生成视频的最终特征\ud835(\ud835);在文本特征\n处理网络,使用预训练的BERT模型和门嵌入模块,生成文本特征\ud835(\ud835)。最后,\ud835(\ud835)和\ud835(\ud835)\n通过相似度度量模块来度量视频与文本特征的相似性。\n图3-1粗-细粒度并行注意力(CFGPA)模型的总体架构\n3.1.1视频特征处理网络\n采用粗-细粒度并行注意机制和特征融合模块对视频的初始特征进行处理。粗-细粒度\n并行注意模块包含两部分,一部分是基于模块内加权部分聚合网络的粗粒度注意力机制,\n另一部分是基于图注意网络的细粒度注意力机制。这两部分并行连接组成粗-细粒度并行注\n意网络。模型的输入的是视频的初始特征\ud835(\ud835),输出的是视频的中间特征\ud835(\ud835)。使用特征\n融合模块来融合视频中间特征\ud835(\ud835),最终,产生视频中的不同模态特征\ud835(\ud835)。\n视频特征提取器和时序信息嵌入:视频中包含不同模态的特征,使用预训练的视频特\n征提取器从原始视频中提取视频的不同模态初始特征\ud835\ud835(\ud835)=[\ud8351\ud835,\ud8352\ud835,...,\ud835\ud835−1\ud835,\ud835\ud835\ud835]
    
    • 1

    解决方法

    使用正则匹配的方法,其他的方法都不够work:

    import re  
    text = "生成视频的中间特征\ud835"  
    cleaned_text = re.sub(r'[^\w\s]', '', text)  
    print(cleaned_text)
    
    • 1
    • 2
    • 3
    • 4
  • 相关阅读:
    【Java 进阶篇】JDBC查询操作详解
    销售小白如何写客户拜访记录?
    阿里3年被裁,赔偿n+3,到手30多万!感谢阿里让我人生开挂!
    RabbitMQ发布确认高级
    验证流程--验证层次
    yuv图像格式存储方式
    【二】2D测量 Metrology——add_metrology_object_rectangle2_measure()算子
    具有 Levy 变异和精英自适应竞争机制的蚁狮优化算法-附代码
    C语言实现利用条件运算符的嵌套来完成此题:学习成绩>=90分的同学用A表示,60-89分之间的用B表示,60分以下的用C表示
    数据库范式
  • 原文地址:https://blog.csdn.net/w5688414/article/details/134451523