• 基于阿里云GPU云服务器的AIACC助力UC搜索业务性能提效380%,每年节省数千万成本


    导语:作为国产行列里占有率排名第一的移动浏览器,UC浏览器自身承载着数以亿计的用户量,当前UC浏览器每天的服务请求对服务器的算力及带宽要求极高,因此也带来了巨额的运营成本。因为业务是动态变化的,UC对计算资源也有动态扩缩容的需求。阿里云GPU云服务器是提供GPU算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景,能为客户提供软件与硬件结合的完整服务体系,助力客户在实际业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。而基于阿里云GPU云服务器的神龙AI加速引擎(AIACC)是为了极致性能而生,旨在打造世界级无与伦比的AI性能体验,同时为了客户降本增效,实现共赢。据悉,刚公布的最新世界MLPerfTM推理榜单中,基于阿里云GPU云服务器的AIACC首次突破封闭式场景世界第一

    本篇文章将带大家了解阿里云AIACC如何基于阿里云GPU云服务器助力UC浏览器的搜索业务平衡计算性能与运营成本之间的矛盾,使其大幅实现降本增效,成功在阿里云的GPU云服务器落地。

    背 景

    1. 业务背景

    UC搜索承载着UC主要业务入口,场景包括:大搜、各种垂搜业务、夸克app等。搜索流程一般经过几个阶段:召回 –> 粗排 -> 精排(L2->L4) -> 混排等。架构如下:

    在业务中,L3/L4排序部分都使用了QTC核心模型。随着业务流量的增长,目前精排打分阶段面临巨大挑战,延迟和吞吐都要兼得。

    2. QTC模型

    下图是用TF-summary对QTC模型做可视化,

    QTC模型属于排序核心模型,模型结构分为3个BERT+ 多层Conv + 多层MLP等,其中Bert输入seq length最大长度是512。模型总共有大约4500个算子,计算量巨大。

    3. 原始性能

    最初采用了NV提供的Faster-Transformer这一套软件来优化QTC模型的推理,但由于Faste

  • 相关阅读:
    yolov5的onnx推断示例和思路记录(包含detect.py的最新源码解读)
    序列最大收益(冬季每日一题 3)
    C++智能指针之weak_ptr
    自底向上语法分析(bottom-up parsing)
    Arduino驱动DS18B20数字温度传感器(温湿度传感器)
    保险保险保险保险保险QAQ
    Maven打包时报错Could not resolve dependencies for project
    对“方法”的解读
    电子笔记真的好用吗?手机上适合记录学习笔记的工具
    【附源码】计算机毕业设计JAVA旅行指南网站
  • 原文地址:https://blog.csdn.net/weixin_43970890/article/details/126964163