码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Py之tiktoken:tiktoken的简介、安装、使用方法之详细攻略


    Py之tiktoken:tiktoken的简介、安装、使用方法之详细攻略

    目录

    tiktoken的简介

    1、性能:tiktoken比一个类似的开源分词器快3到6倍

    tiktoken的安装

    tiktoken的使用方法

    1、基础用法

    (1)、用于OpenAI模型的快速BPE标记器

    (2)、帮助可视化BPE过程的代码


    tiktoken的简介

    tiktoken是一个用于OpenAI模型的快速BPE标记器。

    1、性能:tiktoken比一个类似的开源分词器快3到6倍

    tiktoken的安装

    1. pip install tiktoken
    2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken

    1. C:\Windows\system32>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
    2. Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
    3. Collecting tiktoken
    4. Downloading https://pypi.tuna.tsinghua.edu.cn/packages/91/cf/7f3b821152f7abb240950133c60c394f7421a5791b020cedb190ff7a61b4/tiktoken-0.5.1-cp39-cp39-win_amd64.whl (760 kB)
    5. |████████████████████████████████| 760 kB 726 kB/s
    6. Requirement already satisfied: regex>=2022.1.18 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2022.3.15)
    7. Requirement already satisfied: requests>=2.26.0 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2.31.0)
    8. Requirement already satisfied: charset-normalizer<4,>=2 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2.0.12)
    9. Requirement already satisfied: urllib3<3,>=1.21.1 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (1.26.9)
    10. Requirement already satisfied: idna<4,>=2.5 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (3.3)
    11. Requirement already satisfied: certifi>=2017.4.17 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2021.10.8)
    12. Installing collected packages: tiktoken
    13. Successfully installed tiktoken-0.5.1

    tiktoken的使用方法

    1、基础用法

    (1)、用于OpenAI模型的快速BPE标记器

    1. import tiktoken
    2. enc = tiktoken.get_encoding("cl100k_base")
    3. assert enc.decode(enc.encode("hello world")) == "hello world"
    4. # To get the tokeniser corresponding to a specific model in the OpenAI API:
    5. enc = tiktoken.encoding_for_model("gpt-4")

    (2)、帮助可视化BPE过程的代码

    1. from tiktoken._educational import *
    2. # Train a BPE tokeniser on a small amount of text
    3. enc = train_simple_encoding()
    4. # Visualise how the GPT-4 encoder encodes text
    5. enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
    6. enc.encode("hello world aaaaaaaaaaaa")

  • 相关阅读:
    尝试阅读理解一份linux shell脚本
    一体式馆员工作站专为图书管理员设计
    设计模式:建造者模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)
    【手写数据库toadb】SQL字符串如何被数据库认识? 词法语法分析基础原理,常用工具
    【教程】PyTorch Timer计时器
    第五篇文章:String,StringBuffer,StringBuilder
    写给Python社群的第8课:Python异常,你必须掌握的技术点
    参加了生活中的每天都买菜 做饭
    06_ElasticSearch:索引和文档的CURD
    Qt和PyQt和PySide之间的关系
  • 原文地址:https://blog.csdn.net/qq_41185868/article/details/133931843
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号