码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • LegalAI领域大规模预训练语言模型的整理、总结及介绍(持续更新ing…)


    诸神缄默不语-个人CSDN博文目录

    文章目录

    • 1. 通用大规模预训练语言模型
      • 评测
    • 2. 对话模型
      • 应用
    • 3. 分句
    • 4. 文本分类
    • 5. 信息抽取
    • 6. 案例检索
    • 7. 文本摘要

    1. 通用大规模预训练语言模型

    英语:

    1. LegalBERT
      1. 原始论文:(2020 EMNLP) LEGAL-BERT: The Muppets straight out of Law School - ACL Anthology
      2. 下载地址:huggingface在这里插入图片描述
    2. CaseLaw-BERT / Custom Legal-BERT
      1. 原始论文:(2021 ICAIL) When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings
      2. 下载地址:https://huggingface.co/casehold/custom-legalbert
    3. BERTLaw
      1. 原始论文:(2021) Sublanguage: A Serious Issue Affects Pretrained Models in Legal Domain
      2. 下载地址:https://huggingface.co/nguyenthanhasia/BERTLaw
    4. PolBERT
      1. 原始论文:(2022 NeurIPS) Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
    5. legal-longformer
      1. 下载地址:https://huggingface.co/saibo/legal-longformer-base-4096
    6. (印度) InLegalBERT
      1. 原始论文:(2023 ICAIL) Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law
      2. 下载地址:https://huggingface.co/law-ai/InLegalBERT
    7. (跨国)LexLM(backbone是RoBERTa)
      1. 原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
      2. checkpoint已放到transformers上:
        from transformers import AutoModel, AutoTokenizer
        
        model = AutoModel.from_pretrained("lexlms/legal-roberta-base")
        tokenizer = AutoTokenizer.from_pretrained("lexlms/legal-roberta-base")
        
        • 1
        • 2
        • 3
        • 4

    中文:

    1. Lawformer
      1. 原始论文:(2021) Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents
      2. 下载方式:thunlp/LegalPLMs: Source code and checkpoints for legal pre-trained language models.
    2. 民事BERT & 刑事BERT
      https://github.com/thunlp/OpenCLaP

    意大利语:

    1. ITALIAN-LEGAL-BERT
      1. 原始论文:(2022) ITALIAN-LEGAL-BERT: A Pre-trained Transformer Language Model for Italian Law
      2. 下载地址:https://huggingface.co/dlicari/Italian-Legal-BERT

    罗马尼亚语:

    1. jurBERT
      1. 原始论文:(2021 NLLP) jurBERT: A Romanian BERT Model for Legal Judgement Prediction

    西班牙语:

    1. RoBERTalex
      1. 原始论文:(2021) Spanish Legalese Language Model and Corpora
      2. 下载地址:PlanTL-GOB-ES/RoBERTalex · Hugging Face

    多语言:

    1. ParaLaw Nets(看论文应该是日语和英语)
      1. 原始论文:(2021 COLIEE) ParaLaw Nets – Cross-lingual Sentence-level Pretraining for Legal Text Processing
      2. 下载地址:我猜是这个:nguyenthanhasia/XLM-Paralaw · Hugging Face
    2. LegalXLMs
      1. 原始论文:(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
      2. 下载地址:太多了,待补

    越南语:

    1. nguyenthanhasia/VNBertLaw · Hugging Face
    2. PhoBERT
      1. 原始论文:(2020 EMNLP) PhoBERT: Pre-trained language models for Vietnamese
      2. 官方GitHub项目(介绍了各个预训练模型checkpoint的地址和下载方式):VinAIResearch/PhoBERT: PhoBERT: Pre-trained language models for Vietnamese (EMNLP-2020 Findings)

    法语

    1. JuriBERT
      1. 原始论文:(2022) JuriBERT: A Masked-Language Model Adaptation for French Legal Text
      2. 下载地址:http://master2-bigdata.polytechnique.fr/resources#juribert(用transformers包的)

    葡萄牙语

    1. JurisBERT(巴西)
      1. 原始论文:(2023 ICCSA) JurisBERT: A New Approach that Converts a Classification Corpus into an STS One
      2. 下载地址:https://huggingface.co/alfaneo

    评测

    1. open-compass/LawBench: Benchmarking Legal Knowledge of Large Language Models

    2. 对话模型

    中文:

    1. Lawyer LLaMA
      AndrewZhe/lawyer-llama: 中文法律LLaMA
      1. 原始论文:(2023) Lawyer LLaMA Technical Report
      2. 官方GitHub项目:AndrewZhe/lawyer-llama: 中文法律LLaMA
        本地部署版:lawyer-llama-13b-beta1.0已公开(lawyer-llama/run_inference.md at main · AndrewZhe/lawyer-llama · GitHub),但是必须要LLaMA的权重,而我还在排LLaMA的队,所以等着吧
    2. 智海-录问
      zhihaiLLM/wisdomInterrogatory
    3. LawGPT
      pengxiao-song/LaWGPT: 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型
    4. LexiLaw
      CSHaitao/LexiLaw: LexiLaw - 中文法律大模型
    5. JurisLMs
      seudl/JurisLMs: JurisLMs: Jurisprudential Language Models
    6. ChatLaw
      Chatlaw ——面向未来的法律人工智能:在排队了
      官方GitHub项目:PKU-YuanGroup/ChatLaw: 中文法律大模型:我看issue有很多人都吐槽跑不起来,我就不试了
    7. BaoLuo-LawAssistant-sftglm-6b 宝锣法律大模型1.0
      https://huggingface.co/xuanxuanzl/BaoLuo-LawAssistant-sftglm-6b
      作者官方的知乎博文:宝锣法律大模型及法律AI助理开源 - 知乎
    8. davidpig/lychee_law: 律知, 法律咨询大模型

    英文:

    1. Insolvency bot legal n l p | Fast Data Science:这个是专门做公司破产场景的
    2. LawGPT 1.0
      没给代码,无图言屌。
      1. 原始论文:A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3

    应用

    1. Harvey
    2. CoCounsel:文件审查、法律研究备忘录、证词准备和合同分析
    3. DoNotPay
    4. DemandsAI:准备律师函
    5. 幂律智能

    3. 分句

    多语言:

    1. https://huggingface.co/models?search=rcds/distilbert-sbd(英语、西班牙语、德语、意大利语、葡萄牙语、法语)
      1. 原始论文:(2023 ICAIL) MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset

    4. 文本分类

    多语言:

    1. PyEuroVoc(欧盟成员国和候选成员国的语言)按照EuroVoc的indicator来进行分类。基于BERT
      1. 原始论文:(2021 RANLP) PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors
      2. 下载地址:https://pypi.org/project/pyeurovoc/

    5. 信息抽取

    1. FPDM
      这个原模型是从open-domain迁移到specific domain的工作,法律领域主要做的是contract review(抽取重要信息)
      1. 原始论文:(2023) FPDM: Domain-Specific Fast Pre-training Technique using Document-Level Metadata
      2. 给了代码和数据集:https://drive.google.com/drive/folders/1RT7g_cTR_twz75xmFjDgQmCPWC8sZSFK

    6. 案例检索

    1. SAILER
      1. 原始论文:(2023 SIGIR) SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval
        原名caseformer,talk截屏见我之前写的博文:Caseformer talk PPT截屏
      2. CSHaitao/SAILER: The official repo for our SIGIR’23 Full paper: Structure-aware Pre-trained Language Model for Legal Case Retrieval

    7. 文本摘要

    多语言:

    1. PRIMERA及其他架构
      原始论文:(2022) Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
      下载地址也在数据集的官方GitHub项目里面:https://github.com/multilexsum/dataset
  • 相关阅读:
    KMP算法next数组
    python中的装饰器
    Es修改索引别名
    王道链表综合题(中)
    延迟队列实现订单超时自动取消
    android 开机动画制作
    Java 命令行参数
    Xshell+screen解决ssh连接 服务器掉线的问题
    华为OD机试真题-勾股数元组-2023年OD统一考试(B卷)
    go-08-基本数据类型-字符串和布尔值
  • 原文地址:https://blog.csdn.net/PolarisRisingWar/article/details/130746106
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号