MLOps 技术栈架构
MLOps stack architecture
MLOps
机器学习模型在生产中表现不佳的5个原因
为什么您的机器学习模型可能表现不佳 (现实的变化-概念漂移(真实世界)、工程与数据科学迷失在转化中(应用接口)、应用程序更新(应用接口)、特征处理 Bug(内部数据流水线)、数据 Schema 变化(内部数据流水线))、使用指示器来检测模型的
常见问题 (字段删除、类型不匹配、默认值更改、值超出范围、分布漂移、性能指标下降)
Arize AI 对顶级 ML 团队调查得出的 3 个结论
解决模型问题仍然太痛苦和缓慢 (建议:评估并实现一个 ML 可观测性平台,帮助暴露和消除AI盲点。)、
ML 团队需要与业务主管更好地沟通 (建议:提高内部可见性、提高 ML 读写能力并将模型指标与业务结果联系起来)、
可解释性很重要,但它不是一切 (建议:不要仅仅依靠可解释性;采取积极主动的方法进行模型性能管理。)
无代码与以数据为中心的 AI 平台
数据版本管理
捕获数据版本以重现、跟踪和记录您的 ML 模型血缘。
DVC
特征存储
AutoML
NNI
模型实验跟踪
跟踪有关实验的重要信息,如参数、指标和模型。
MLflow
机器学习流水线(Pipeline)
自动化ML实验的步骤。调度流水线 运行,以根据新数据重新训练模型。
模型可视化
模型服务
创建API端点并使用模型进行预测。
BentoML
Seldon
使用 Seldon Core 服务模型
什么是模型服务 (通过 API 与您的模型交互、将模型部署到云端或边缘设备、轻松扩展模型以满足用户需求)、Seldon Core简介、Seldon Core 安装、Seldon 如何为模型服务、使用自定义 Docker 镜像服务、Seldon 适合你吗
可解释机器学习
模型监控
模型监控概述
什么是模型监控?(Valohai)
为什么要监控模型、
机器学习模型监控清单 (数据分布变化、性能改变、健康指标/运营指标、数据完整性、分段性能、偏见/公平)、在 Valohai 中如何监控模型(存储指标、在 UI 中可视化指标)
机器学习模型监控清单
服务健康、数据质量和完整性、数据和目标漂移、模型性能、分段性能表现、偏见/公平、异常值
机器学习模型监控(Aporia)
机器学习模型监控(什么是模型监控、
如何监控机器学习 (数据漂移检测、数据完整性检测、概念漂移检测、数据偏差、异常))、
模型中的漂移检测 (模型漂移、数据漂移(KS检验、PSI、Z-score)、概念漂移)、
机器学习性能监控 (如何监控机器学习性能、如何提高模型性能)、机器学习模型管理、模型可解释性、机器学习实验跟踪、机器学习模型注册表
MLOps:模型监控
模型监控背景、模型监控动机、
模型监控指标 (稳定性指标、性能表现指标、运营指标)
监控生产中的ML系统,您应该跟踪哪些指标?
为什么需要ML监控、ML监控动机、模型监控金字塔(软件后端、数据、ML模型、业务或产品KPI)、
模型监控指标 (ML系统健康监测、ML数据质量监控、ML模型质量监控、业务指标和KPI)、模型监控利益相关者、
模型监控难点
模型漂移
机器学习中的概念漂移(Aporia)
机器学习中的
漂移类型 (概念漂移、预测漂移、标签漂移、特征漂移)、
概念漂移可以以不同的方式出现 (突然漂移、逐渐漂移、递增的漂移、重复出现的概念)、
概念漂移的两种类型 (虚拟的漂移、真正的漂移)、现实生活中的概念漂移、概念漂移的难点
机器学习概念漂移检测方法(Aporia)
统计方法 (JS散度、KL散度、KS检验)、
统计过程控制方法 (DDM/EDDM、CUMSUM及其变体PH)、
时间窗口分布方法 (ADWIN、Paired Learners)、
上下文方法 (树特征)、漂移检测实现工具
模型监控数据类型
模型监控工具
ML 模型监控最佳工具
如何比较 ML 模型监控工具 (易于集成、灵活性和表现力、开销、监控功能、警报)、
ML 模型监控工具 (Neptune、Arize、WhyLabs、Grafana+Prometheus、
Evidently(开源) 、Qualdo、Fiddler、Amazon SageMaker Model Monitor、
Seldon Alibi Detect(开源) 、Censius)
一个精选的模型监控工具列表
Aporia、
Deepchecks(开源) 、MLRun、
Evidently(开源) 、WhyLabs
Evidently
Seldon Alibi Detect
人工智能系统(AI System)
向量数据库