最近遇到使用transformers的AutoTokenizer的时候,修改vocab.txt中的[unused1]依然无法识别相应的new token。
实例:
我将[unused1]修改为了[TRI],句子中的[TRI]并没有被整体识别,而是识别为了[,T,RI,]。这明显是有问题的。
若去掉[TRI]的方括号,问题就消失了。
所以可以认定,Bert对带有方括号的token统一按special token处理,所以要使用
tokenizer.add_special_tokens({})
来添加此类token。