码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据标注工具 doccano | 文本分类(Text Classification)


    目录
    • 安装
    • 运行 doccano
    • 打开 doccanno
    • 创建项目
      • 创建分类式任务
    • 上传数据
    • 定义标签
    • 添加成员
    • 开始标注
    • 导出数据
    • 查看数据
    • 统计

    数据标注工具 Label-Studio

    安装

    打开命令行(cmd、terminal)执行安装命令

    # Python 3.8+
    pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simplelabel
    

    image

    运行 doccano

    #在电脑第一次运行的时候初始化doccano
    #只需设置一次,之后不用再运行该命令
    doccano init
    
    #创建用户名及密码;例如现在有一个主管admin,1个标注员vipsoft
    doccano createuser --username admin --password 123456
    doccano createuser --username vipsoft --password 123456
    
    #开启doccano服务
    doccano webserver
    

    完成上述操作后,另打开一个新的命令行,执行下列命令

    # In another terminal, run the command:
    doccano task
    

    image
    image

    打开 doccanno

    在浏览器里输入:http://localhost:8000/ 支持中文,挺好
    image
    输入用户名密码:
    image

    创建项目

    • 抽取式任务项目创建

      适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务

    • 分类式任务项目创建

      适配文本分类、句子级情感倾向分类等任务。

    创建分类式任务

    如图点击Create按钮。根据需要选择合适的项目类别,这里选择 文本分类 Text Classification,
    image
    image
    image

    上传数据

    实验数据下载:https://hidadeng.github.io/blog/doccano_text_anotation/data.csv
    image

    上传数据
    image
    下面的 review 对应 csv 里的列
    image
    image

    定义标签

    击左侧菜单中的“Labels”按钮来定义我们的标签。我们看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。
    image
    同理,可以定义负面neg标签。现在有了pos和neg两个标签。
    image

    添加成员

    点击左侧目录中的 Members 按钮,然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。如果没有可供选择的成员,记得创建成员。doccano createuser --username tom --password 123456
    image

    开始标注

    点击导航栏中的Start annotation按钮,开始对文档进行批注了
    image

    导出数据

    到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。
    image

    查看数据

    import pandas as pd
    
    df = pd.read_csv('all.csv')
    df
    

    image

    统计

    image

    本文来自博客园,作者:VipSoft 转载请注明原文链接:https://www.cnblogs.com/vipsoft/p/18258050

  • 相关阅读:
    devc++跑酷小游戏3.5.0
    ECC_CURVE
    在mmdet 3.0系列中使用visualizer进行目标检测真实框和检测框的可视化和绘制 并保存为图像
    代码随想录算法训练营19期总结
    乌班图22.04 kubeadm简单搭建k8s集群
    lua执行出错attempt to index global ‘ngx‘ (a nil value)[已解决]
    Are Transformers Effective for Time Series Forecasting?|填坑
    Codeforces Round 895 (Div. 3) A-F
    LuatOS-SOC接口文档(air780E)-- fonts - 字体库
    用HTML+CSS做一个漂亮简单的个人网页——动漫网页【火影忍者】1个页面
  • 原文地址:https://www.cnblogs.com/vipsoft/p/18258050
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号