小技巧 - 中文detokenize（基于规则） - 码农知识堂

小技巧 - 中文detokenize（基于规则）
对于已经分词的中文句子，如何把他们粘合起来，成为一个正常的句子呢？

第一个反应，当然是去掉空格。
但是，中文句子里也经常有英文，或者其他语言的内容。一位去掉空格当然不可取。

那么，只去掉中文文字附近的空格呢？
这是本人想到的处理方法，如果您有其他方式，欢迎留言反馈给我。

下面就是根据这个想法实现的代码：
```
import re 

pat_zh = '[\u4e00-\u9fa5]+'
pat_en = '[a-zA-Z]+' 

# 去掉指定索引的字符
def remove_char(str, idx):
    front = 1
2
3
4
5
6
7
```
相关阅读:
SpringBoot微服务的发布与部署（3种方式）
docker.4.2-Docker容器镜像
 记一次尝试用脚本模拟手柄打游戏（一）
基本的五大排序算法
 软考高级系统架构设计师系列之：信息系统基础知识
 构造函数和析构函数(个人学习笔记黑马学习)
【Java】字节流、字符流、IO异常、属性集
 基于FPGA的ALU计算器verilog实现
 大数据培训CombineTextInputFormat案例实操
 jmeter-常用的一些java代码
原文地址：https://blog.csdn.net/lovechris00/article/details/127436252