导语:作为国产行列里占有率排名第一的移动浏览器,UC浏览器自身承载着数以亿计的用户量,当前UC浏览器每天的服务请求对服务器的算力及带宽要求极高,因此也带来了巨额的运营成本。因为业务是动态变化的,UC对计算资源也有动态扩缩容的需求。阿里云GPU云服务器是提供GPU算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景,能为客户提供软件与硬件结合的完整服务体系,助力客户在实际业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。而基于阿里云GPU云服务器的神龙AI加速引擎(AIACC)是为了极致性能而生,旨在打造世界级无与伦比的AI性能体验,同时为了客户降本增效,实现共赢。据悉,刚公布的最新世界MLPerfTM推理榜单中,基于阿里云GPU云服务器的AIACC首次突破封闭式场景世界第一。
本篇文章将带大家了解阿里云AIACC如何基于阿里云GPU云服务器助力UC浏览器的搜索业务平衡计算性能与运营成本之间的矛盾,使其大幅实现降本增效,成功在阿里云的GPU云服务器落地。
UC搜索承载着UC主要业务入口,场景包括:大搜、各种垂搜业务、夸克app等。搜索流程一般经过几个阶段:召回 –> 粗排 -> 精排(L2->L4) -> 混排等。架构如下:
在业务中,L3/L4排序部分都使用了QTC核心模型。随着业务流量的增长,目前精排打分阶段面临巨大挑战,延迟和吞吐都要兼得。
下图是用TF-summary对QTC模型做可视化,
QTC模型属于排序核心模型,模型结构分为3个BERT+ 多层Conv + 多层MLP等,其中Bert输入seq length最大长度是512。模型总共有大约4500个算子,计算量巨大。
最初采用了NV提供的Faster-Transformer这一套软件来优化QTC模型的推理,但由于Faste