码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 使用transformers增加token


    诸神缄默不语-个人CSDN博文目录

    我是在使用transformers的过程中需要添加一个新的分隔符来区分问题和4个选项,但是我看了一下Tokenizer对象好像每个元素要么是一句话,要么是两句话,就不能有5个文本的这种情况,所以我就自己加了个分隔符。

    我的环境:
    Linux系统
    Python 3.8(使用anaconda管理的虚拟环境)
    PyTorch 1.11+cudatoolkit 10.2(通过anaconda下载)
    transformers 4.21.1

    我一开始想尝试使用add_special_tokens()方法(文档:https://huggingface.co/docs/transformers/v4.21.1/en/internal/tokenization_utils#transformers.SpecialTokensMixin.add_special_tokens),使用方式是:

    special_tokens_dict = {"cls_token": ""}
    num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
    
    • 1
    • 2

    但是需要注意的是这里special_tokens_dict的键必须是一个special token,否则就会报AssertionError: Key 键 is not a special token。所以意思是这一步是将special token替换成指定值。

    因为我想自定义一个,所以我直接改用了add_tokens()方法(文档:https://huggingface.co/docs/transformers/v4.21.1/en/internal/tokenization_utils#transformers.SpecialTokensMixin.add_tokens),使用方式是:

    tokens=['']
    tokenizer.add_tokens(tokens)
    
    • 1
    • 2

    (后来查了一下发现用add_special_tokens()的话只要把键设置成additional_special_tokens就行了)

    以上两种做法运行后都需要resize模型中的embedding层:model.resize_token_embeddings(len(tokenizer))

    本文撰写过程中所使用的参考资料:

    1. transformer不同版本BertTokenizer添加特殊占位符号 - 知乎
    2. 深度学习实战(4)如何向BERT词汇表中添加token,新增特殊占位符_icebird_craft的博客-CSDN博客_bert token
  • 相关阅读:
    通过CMD快速安装VNC服务器,无ico
    Sqoop数据导入 第2关:Mysql导入数据至HDFS上
    2. MongoDB 应用与开发-安装
    docker安装以及运行nacos、rabbitmq、MySQL容器小记
    gulp 错误集锦
    java计算机毕业设计网站内容管理系统(附源码、数据库)
    亿万级别Kafka演进之路:可靠性+事务+消息中间件+源码+日志
    TypeScript 中 type 和 interface 有什么区别?
    1.1 基础热图绘制
    《MLB棒球创造营》:走近棒球运动·华盛顿国民队
  • 原文地址:https://blog.csdn.net/PolarisRisingWar/article/details/126462963
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号