• 使用百度飞桨EasyDL实现AI文章自动分类


    前言

    为了降低人工成本,提升效率,选择用AI来帮助做工作,会有非常好的效果。但是通过自己组建AI算法团队来满足这个需求的话,不免有点成本飙升。为了拥有一套自己的AI工具,那么我们今天介绍一款低成本AI工具“百度飞桨EasyDL”,来实现自动分类。

    开始

    需求说明

    开发一个汽车资讯网站,需要对资讯快速分发,快速分类,快速推送到不同的专栏下。如果用人力来做的话,人力成本高、效率低。那么随着我来一起搞一个便宜的AI助手吧。

    步骤一:

    点击进入:EasyDL网址
    进入EasyDL主页,点击立即使用
    在这里插入图片描述

    步骤二:

    选择单标签(说明:因为每篇文章需推送到一个专栏而非多个,因此,文章标题与专栏是一一对应关系,即每篇文章仅打上一个专栏的标签即可)
    在这里插入图片描述

    步骤三:

    数据准备

    1. 明确需要发布的专栏名称。在该汽车资讯网站中,专栏包括汽车改装、新车测评、自驾游记、买车中心。
    2. 针对各个专栏名称,收集该专栏下的常见推文标题,一个专栏下收集30-50个标题名称。例如,自驾游记专栏对应的标题:二月最后一个周末带我的Q7京西游,汽车改装专栏对应的标题:自己动手改房车大功告成。
    3. 形成可上传到EasyDL进行训练的数据,您可以导入原始数据后使用EasyDL的标注工具完成标注,这里的原始数据要求为:Excel/txt的单列数据(如下图):

    image.png

    点击【导入】选择【未标注】数据完成后,点击【标注】通过平台内置的文本分类标注完成快速标注,标签即为专栏名称,一个标题打上一个标签即可,如下图:

    image.png

    也可以先将训练数据处理好后再上传到EasyDL。如果您是将训的训练数据,上传后即可发起训练,如下图:

    image.png

    提示:如果您上传原始数据,也可通过平台内置的标注工具进行快速标注,如下图:

    image.png

    在标注量较大的情况下,您可以开启上图右上角的智能标注功能,您只需要标注30%的文本,剩余的70%文本平台为自动打上标签,提高您的标注效率。

    步骤四

    模型训练
    当您的数据准备完成后,您可以点击先点击【创建模型】完成模型创建后,点击【训练模型】启动训练。 考虑到资讯场景下的常见应用情况,最常见的集成方式是在企业的APP或者网站上集成在线API,该种方式对企业来说,仅需要将在线接口http接口结合授权的ak、sk输入到自己的业务程序中即可运行,同时,可以借助公有云灵活的弹性扩缩容机机制,根据实际调用量调整接口调用份额,减少模型调用费用,如下图:
    在这里插入图片描述

    选择算法时,在对时延没有特殊要求的情况下,建议您可以使用高精度算法进行训练,优势是可以使用较少的数据集也能获得高精度效果。 在选择筛选指标时,如没有特殊要求,也可以默认选择精度和召回平衡的策略,使用平台默认值即可。 为测试平台模型效果,您可以选择开启自定义测试集,即测试集为不同于训练集的数据,您可以在该数据集下看模型效果,如不开启,则平台会自动将训练数据中抽出部分数据作为测试集展示模型效果。

    步骤五

    模型部署
    模型训练完毕后,如您对模型效果满意,可以选择公有云部署,在接口地址中输入自定义名称,如下图:

    image.png

    完成申请提交后,点击在线服务,即通过审核的该条服务会展示在您的在线服务列表中,您可以点击服务详情,获取http地址,为保证您接口调用时的安全性、保密性,请您按照操作指引,前往控制台完成应用创建,即可获取对应的接口AK、SK,保证调用授权,如下图:

    image.png

    image.png

    步骤六

    效果优化
    当模型训练完毕后,可通过模型评估报告查看效果,从报告中四个标签的训练精度表现看,新车评测、买车中心的准确率较低,如下图:

    image.png

    追溯原因,在前期数据准备时,该两个标签的数据量过少。例如,下图中买车中心仅有15条数据,所以,需要对该标签下的数据进行补充,同时,在买车中心下,发现标题有两种不同的风格,每个风格的数据仅有10条也会影响训练精度,因此,扣充的粒度是买车中心标签下每个风格标题的数据量进行扩充,至少保证30-50条。

    总结

    如上几步就可以让你快速拥有一个自己的AI助手,还不快来动动你的小手么。

  • 相关阅读:
    184基于matlab的相关向量机(RVM)回归和分类算法
    杭电多校七 1003-Counting Stickmen(组合数学)
    NaiveUI中看起来没啥用的组件(文字渐变)实现原来这么简单
    咕泡P5人工智能深度学习高薪就业班
    第十六章 协程
    【项目管理】--敏捷开发管理之Scrum
    [SWPUCTF 2021 新生赛]crypto2
    记一次Spark报错:Failed to allocate a page (67108864 bytes), try again.
    小程序的 web-view 组件:实现点击跳转外部链接的高级技巧
    spring boot 自定义 starter
  • 原文地址:https://blog.csdn.net/s297165331/article/details/126248620