对于已经分词的中文句子,如何把他们粘合起来,成为一个正常的句子呢?
第一个反应,当然是去掉空格。
但是,中文句子里也经常有英文,或者其他语言的内容。一位去掉空格当然不可取。
那么,只去掉中文文字附近的空格呢?
这是本人想到的处理方法,如果您有其他方式,欢迎留言反馈给我。
下面就是根据这个想法实现的代码:
import re
pat_zh = '[\u4e00-\u9fa5]+'
pat_en = '[a-zA-Z]+'
# 去掉指定索引的字符
def remove_char(str, idx):
front =