• 【腾讯云原生降本增效大讲堂】Caelus全场景在离线混部


    嘉宾 | 陈东东

    出品 | CSDN云原生

    2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,腾讯高级工程师陈东东分享了Caelus全场景在离线混部的实践案例。本文整理自陈东东的分享。

    在离线混部背景及意义

    各大权威机构的调研数据显示,在线资源利用率普遍很低,平均在15%左右。

    上图是某一在线CPU的使用曲线,在这里可以看出,在线资源使用的潮汐现象十分明显。业务方在申请资源时只能按照波峰时段的资源使用量进行申请,这就导致在波谷时段会有大量资源被浪费。

    在线资源利用率低的原因可以概括为以下几点:

    • 非容器化部署,未能利用整机资源;

    • 业务容灾Buffer资源;

    • 资源使用潮汐现象;

    • 粗放的资源评估,占而不用;

    • 业务之间相互隔离。

    从上图可以看出,近年来我们对大数据的需求在逐步增高,这意味着我们需要投入更多成本来获取更多算力来对数据进行分析。离线作业运行时具有延迟不敏感、实时性不高、执行周期短等特点,利用该特点我们可以在在线任务的波谷时段混部离线任务,这为解决在线任务波谷时段有大量资源浪费提供了一种新的思路。

    通过在离线混部,可以实现提升机器资源利用率、优化成本等目标,同时能够充分释放资源价值,降低能源消耗,助力双碳。

    在离线混部现状痛点

    在离线混部在落地过程中存在诸多痛点。

    • 定制化

      • 技术栈定制化,不宜推广;

      • 平台升级需适配,维护成本高;

      • 混部场景单一,大部分混部系统只关注容器化场景,忽略了非容器化场景,部分混部方案依赖大数据任务云原生化改造,难以支持Hadoop场景。

    • 资源价值挖掘不充分

      • 资源复用策略不够精细,利用率提升有限;

      • 离线失败率高,浪费算力资源。

    • 技术深水区

      • 缺乏干扰检测与处理机制;

      • 缺乏完善的资源隔离机制;

      • 调度性能不满足离线高并发需求;

      • 缺乏容器热迁移机制,离线作业在资源受压制时只能被驱逐。

  • 相关阅读:
    web前端-javascript-运算符的优先级(如果遇到的优先级不清楚的,可以使用()来改变优先级)
    数据结构(二)——线性表(顺序表)
    银行业生产系统存储数据迁移方法及实践
    配置nginx常用命令
    【软件质量与软件测试 软件可靠性度量和测试】
    小白备战大厂算法笔试(三)——栈、队列、双向队列
    Tableau:商业智能(BI)工具
    嵌入式C语言自我修养《内存堆栈管理》学习笔记
    01 计算机图形学概述
    1022 D进制的A+B
  • 原文地址:https://blog.csdn.net/m0_46700908/article/details/126484538