码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 使用Git下载大语言模型


    在下载Huggingface和ModelScope上面的大语言预训练模型的时候,经常会因为网页无法访问或者文件太大无法下载的情况,是大家常常比较苦恼的事情,下面给出用Git下载模型到本地的方法,可以轻松解决上述问题。

    目录

    一、下载和安装Git

    二、Git的使用

    2.1 初始化git 本地仓库

    2.2 安装git-lfs

    三、下载models文件

    3.1 下载HuggingFace文件

    3.2 下载魔塔社区模型文件


    一、下载和安装Git

    下载链接:Git - Downloads (git-scm.com)

     

    我本地是win64系统,所以直接选择Windows——64bit

     

    下载到本地直接默认下一步一直安装完成。

    二、Git的使用

    在本地建一个文件夹(我在E盘建了一个新文件夹,命名为Git_data),然后该文件夹右键选择Open Git Bash here

    2.1 初始化git 本地仓库

    在本地文件自己指定位置,通过执行 git init 命令在本地初始化一个本地仓库,执行该命令后会在本地初始化一个 没有任何文件的空仓库。

    输入:

    git init

     

    注:.git文件(本地仓库)是隐藏需要手动设置才能看到.git文件夹 

    2.2 安装git-lfs

    git lfs install

    如下所示: 

    三、下载models文件

    3.1 下载HuggingFace文件
     

    Huggingface的仓库里除了我想要的pytoch_model_xxxxx.bin,放了一些别的格式的checkpoints,全部下载的话太大了,而且很慢很慢 

    (1)首先通过git下载小文件

    1. git lfs install
    2. GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/bigscience/bloom-7b1

    需要注意,GIT_LFS_SKIP_SMUDGE=1和后面的git clone必须在同一行才能生效,表示不下载大文件(小文件、大文件的区分依据是有没有使用git lfs)。

    此时git会下载所有的小文件,比如tokenizer.json ,但是对于git lfs存储的大文件,只会存储一个文本的pointer file.

    (2)手动pull需要的大文件

    由于我只需要仓库里的pytorch_model-00001-of-00002.bin和pytorch_model-00002-of-00002.bin ,所以可以这样写:

    注意:此处需要进入到下载的文件夹中:

    1. cd bloom-7b1
    2. git lfs pull --include="*.bin"


    此时*.bin会匹配这两个文件,然后等着他下载完毕就可以了。 

    如果你只想要单个文件,写文件名就可以。

    (3)另外一种方式:下载HuggingFace全部文件(包括大小文件)
     

    1. git lfs install
    2. git clone https://huggingface.co/bigscience/bloom-7b1


    好像使用这个方式下载大文件没有什么进度(但是确实正在下载,只不过要等全部下载下来后,文件才能看到)

    另外一种方式命令(大小文件的进度以及下载速度都能看到):

    1. git lfs install
    2. git lfs clone https://huggingface.co/bigscience/bloom-7b1

    3.2 下载魔塔社区模型文件

    网址链接:模型库首页 · 魔搭社区 (modelscope.cn) 

     

    如下载 “通义千问-14B-Chat-Int4”

     在Git中输入以下内容:

    注意:要去掉网址链接中的models和尾部的files 

    git clone https://www.modelscope.cn/qwen/Qwen-14B-Chat-Int4.git

    或者输入:

    git lfs clone https://www.modelscope.cn/qwen/Qwen-14B-Chat-Int4.git

    出现上述结果则完成下载模型到本地。

     

  • 相关阅读:
    TCP协议
    MIT6.s081/6.828 lectrue07:Page faults 以及 Lab5 心得
    从虚拟机上安装linux以及linux的一些简单教程(一)
    【Java集合类面试二十六】、介绍一下ArrayList的数据结构?
    文心一言 VS 讯飞星火 VS chatgpt (232)-- 算法导论17.1 3题
    LeetCode50天刷题计划(Day 11—— 最接近的三数之和(8.40-10.00)
    Jenkins部署spring boot项目
    vue实战——路由访问权限【详解】
    MATLAB - 用命令行设计 MPC 控制器
    TCP的可靠传输
  • 原文地址:https://blog.csdn.net/weixin_43734080/article/details/133348287
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号