• 开源数据标注工具


    一、开源数据标注工具

    1. BRAT

    • 安装环境:osx或者linux系统,windows(linux虚拟环境)

    • 标注任务支持:实体识别、实体关系抽取、事件抽取标注

    • 标注语言支持:可适配到中文标注

    • 标注任务扩展:可适配到Aspect-Based Sentiment Analysis方向数据标注

    • 相关🔗:

      • 官方介绍[1]

      • BRAT项目github地址[2]

      • brat使用[3]

    2. prodigy

    • 标注任务支持:实体识别、分类、情感分析

    • 标注语言支持:只针对英文

    • 特点:基于主动学习的标注工具

    3. Chinese-Annotator

    • 标注任务支持:中文命名实体识别、中文关系识别、中文文本分类

    • 安装环境:面向OSX

    • 特点:灵感来源Prodigy,基于主动学习的标注系统,同时支持用户标注

    • 相关🔗:

      • Chinese-Annotator项目github地址[4]

    4. YEDDA

    • 标注任务支持:实体识别、实体关系抽取、事件抽取

    • 标注语言支持:支持大部分语言,包括英语、中文

    • 特点:基于python2、可标记种类数只有7种

    • 相关🔗:

      • YEDDA项目github地址[5]

    5. IEPY

    • 标注任务支持:主要是关系抽取

    • 相关🔗:

      • IEPY项目github地址[6]

      • 官方说明文档[7]

    6. Doccano

    • 标注任务支持:实体识别、情感分类、机器翻译

    • 标注语言:多语言

      • Doccano项目github地址[8]

      • Doccano实体标注演示demo[9]

    7. Deepdive

    • 相关🔗:

      • DeepDive[10]

    8. snorkel

    • 相关🔗:

      • snorkel项目github地址[11]

    二、总结

    目前来看要做中文领域事件抽取样本标注,可选用的是YEDDABRAT。笔者已经使用过BRAT来进行事件抽取标注了,后续针对BRAT的使用方法会专门出一期文章。

    三、其他参考资料:

    • 2019常用NLP标注工具简单介绍[12]

    • 中文文本标注工具调研以及BRAT安装使用[13]

    • 语料标注工具1[14]

    • 语料标注工具2[15]

    • 语料标注工具3[16]

    • 情感分析系列之《利用BRAT进行中文情感分析语料标注》[17]

    参考资料

    [1] 官方介绍: http://brat.nlplab.org/introduction.html

    [2] BRAT项目github地址: https://github.com/nlplab/brat

    [3] brat使用: https://blog.csdn.net/guofei_fly/article/details/104113217

    [4] Chinese-Annotator项目github: https://github.com/deepwel/Chinese-Annotator

    [5] YEDDA项目github地址: https://github.com/jiesutd/YEDDA

    [6] IEPY项目github地址: https://github.com/machinalis/iepy

    [7] 官方说明文档: https://iepy.readthedocs.io/en/latest/

    [8] Doccano项目github地址: https://github.com/doccano/doccano

    [9] Doccano实体标注演示demo: http://doccano.herokuapp.com/demo/named-entity-recognition/

    [10] DeepDive: http://deepdive.stanford.edu/labeling

    [11] snorkel项目github地址: https://github.com/snorkel-team/snorkel

    [12] 2019常用NLP标注工具简单介绍: 

    https://blog.csdn.net/weixin_44912159/article/details/103654550

    [13] 中文文本标注工具调研以及BRAT安装使用: https://www.jianshu.com/p/3a70ee9ad632

    [14] 语料标注工具1: https://zhuanlan.zhihu.com/p/64513343

    [15] 语料标注工具2: https://zhuanlan.zhihu.com/p/64574125

    [16] 语料标注工具3: https://zhuanlan.zhihu.com/p/64745990

    [17] 情感分析系列之《利用BRAT进行中文情感分析语料标注》

    https://blog.csdn.net/owengbs/article/details/49780225

  • 相关阅读:
    Bert学习笔记(简单入门版)
    ML+LLMs:利用LLMs大语言模型赋能或者结合ML机器学习算法进行具体应用的简介、具体案例之详细攻略
    SpringCloud——什么是微服务
    python常用函数总结大全
    MIT 6.S081学习笔记(第二章)
    项目实战— pytorch搭建CNN处理MNIST数据集
    Windows 10/11如何恢复永久删除的文件?
    【Python】入门(二):Anaconda常用命令
    Python 函数转命令行界面库 -- Argsense CLI
    【AI Agent系列】【MetaGPT多智能体学习】4. 基于MetaGPT的Team组件开发你的第一个智能体团队
  • 原文地址:https://blog.csdn.net/yaohaishen/article/details/126035557