• 【腾讯云原生降本增效大讲堂】Caelus全场景在离线混部


    嘉宾 | 陈东东

    出品 | CSDN云原生

    2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,腾讯高级工程师陈东东分享了Caelus全场景在离线混部的实践案例。本文整理自陈东东的分享。

    在离线混部背景及意义

    各大权威机构的调研数据显示,在线资源利用率普遍很低,平均在15%左右。

    上图是某一在线CPU的使用曲线,在这里可以看出,在线资源使用的潮汐现象十分明显。业务方在申请资源时只能按照波峰时段的资源使用量进行申请,这就导致在波谷时段会有大量资源被浪费。

    在线资源利用率低的原因可以概括为以下几点:

    • 非容器化部署,未能利用整机资源;

    • 业务容灾Buffer资源;

    • 资源使用潮汐现象;

    • 粗放的资源评估,占而不用;

    • 业务之间相互隔离。

    从上图可以看出,近年来我们对大数据的需求在逐步增高,这意味着我们需要投入更多成本来获取更多算力来对数据进行分析。离线作业运行时具有延迟不敏感、实时性不高、执行周期短等特点,利用该特点我们可以在在线任务的波谷时段混部离线任务,这为解决在线任务波谷时段有大量资源浪费提供了一种新的思路。

    通过在离线混部,可以实现提升机器资源利用率、优化成本等目标,同时能够充分释放资源价值,降低能源消耗,助力双碳。

    在离线混部现状痛点

    在离线混部在落地过程中存在诸多痛点。

    • 定制化

      • 技术栈定制化,不宜推广;

      • 平台升级需适配,维护成本高;

      • 混部场景单一,大部分混部系统只关注容器化场景,忽略了非容器化场景,部分混部方案依赖大数据任务云原生化改造,难以支持Hadoop场景。

    • 资源价值挖掘不充分

      • 资源复用策略不够精细,利用率提升有限;

      • 离线失败率高,浪费算力资源。

    • 技术深水区

      • 缺乏干扰检测与处理机制;

      • 缺乏完善的资源隔离机制;

      • 调度性能不满足离线高并发需求;

      • 缺乏容器热迁移机制,离线作业在资源受压制时只能被驱逐。

  • 相关阅读:
    通过内网穿透,在Windows 10系统下搭建个人《我的世界》服务器公网联机
    原来栈和队列之间其实也是可以互相转换的啊
    axios是如何实现的(源码解析)
    基于复旦微的FMQL45T900全国产化ARM核心模块(100%国产化)
    K线形态识别_镊子线
    .NET周刊【2月第3期 2024-02-25】
    http1和http2的主要区别
    C语言-数据结构-单向链表
    Libcurl Windows 下的编译及使用-支持HTTPS
    双千兆网口路由器方案开发板香橙派R1 Plus LTS连接USB无线网卡测试说明(OpenWRT 系统)
  • 原文地址:https://blog.csdn.net/m0_46700908/article/details/126484538