码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ChatGLM2 大模型微调过程中遇到的一些坑及解决方法(更新中)


    1. 模型下载问题

    1. OSError: We couldn't connect to 'https://huggingface.co' to load this file, couldn't find it in the cached files and it looks like bert-base-uncased is not the path to a directory containing a file named config.json.
    2. Checkout your internet connection or see how to run the library in offline mode at 'https://huggingface.co/docs/transformers/installation#offline-mode'.

           模型默认是从huggingface上下载的,需要科学上网。挂上梯子后即可下载,注意模型都帮你较大,会消耗很多流量。

    2. 模型保存地址

           下载后,会占用C盘大量空间,对于重复下载的模型文件,可以进行删除。以下是其存储路径。

    Windows系统
    C:\Users\你的用户名\.cache\huggingface
    Linux系统
           ~/.cache/huggingface/
    3. 模型无法量化     

            默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下:

    1. model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda()
    2. peft_config = LoraConfig(
    3. task_type=TaskType.CAUSAL_LM, inference_mode=False,
    4. r=8,
    5. lora_alpha=32, lora_dropout=0.1,
    6. )
    7. model = get_peft_model(model, peft_config)

            出现以下错误:

    ValueError: Target module QuantizedLinear() is not supported. Currently, only `torch.nn.Linear` and `Conv1D` are supported.

           原因:以int4量化加载的模型是不支持进行微调的。

    4. 分词器

           以chatglm为例,有“chatglm2-6b” "chatglm2-6b-int8" "chatglm2-6b-int4" 三个版本,但是分词器tokenizer是共用的,不受模型量化加载方式改变。所以我们在加载tokenizer的时候,只需设置就可以了:

    tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
    5. int-8量化的模型无法下载

           在chatglm第一版里面,是提供int4 int8和fp16,三个版本的文件的,但是在chatglm2里,可以看到只给了fp16和int4两个版本的文件。

  • 相关阅读:
    创建型模式-建造者模式
    mnist手写数字识别,dnn实现代码解读
    java计算机毕业设计网上书店进销存管理系统源程序+mysql+系统+lw文档+远程调试
    机器学习分类问题指标——Accuracy,Precision、Recall、F1,P-R,ROC,AUC(以鸢尾花为例)
    Scrapy框架介绍
    计算机毕业论文选题推荐|软件工程|系列十一
    CLIP(Contrastive Language-Image Pre-Training)简介
    【Python笔记-设计模式】迭代器模式
    戏说领域驱动设计(廿七)——Saga设计模型
    Reids实战——优惠券秒杀(全局唯一ID生成策略)
  • 原文地址:https://blog.csdn.net/tortorish/article/details/134064424
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号