• MLOps:掌握机器学习部署:Docker、Kubernetes、Helm 现代 Web 框架


    介绍:

    在机器学习的动态世界中,从开发模型到将其投入生产的过程通常被认为是复杂且多方面的。 然而,随着 Docker、Kubernetes 等工具以及 FastAPI、Streamlit 和 Gradio 等用户友好的 Web 框架的出现,这一过程变得比以往更加简化。 再加上 GitHub Actions 持续集成和部署的强大功能,我们现在拥有一个支持快速、高效和可扩展的机器学习应用程序的生态系统。 本文提供了有关这些工具的基本命令的简明指南,旨在弥合模型开发和无缝部署之间的差距。 无论您是一位想要涉足部署领域的经验丰富的数据科学家,还是一位渴望将机器学习集成到 Web 应用程序中的新手开发人员,本指南都提供了基础知识来推动您的努力。

    Docker:

    什么是 Docker?

    定义:Docker是一个允许开发人员将应用程序及其依赖项打包到容器中的平台。

    容器化:与传统虚拟化不同,Docker容器共享主机系统的操作系统内核,而不是包含自己的操作系统。 这使得它们轻便且快速。

    可移植性:容器确保应用程序在多个环境中一致运行,从开发人员的本地计算机到各种生产设置。

    为什么 Docker 对于 ML 部署至关重要?

    环境一致性:确保模型在开发、测试和生产中使用相同的依赖项和库运行。

    减少“它可以在我的机器上运行”问题。

    可扩展性:Docker 容器可以根据应用程序的需求轻松扩展或缩小。

    隔离:ML 模型,尤其是微服务架构中的模型,可能具有不同的依赖关系。 Docker 隔离了这些依赖关系以避免冲突。

    环境的版本控制:就像代码一样,Docker 允许对环境进行版本控制。 如果较新的库版本破坏了模型,人们可以轻松恢复到旧的工作容器版本。

    高效的资源利用:Docker 容器是轻量级的,可以高效地使用资源,这对于在同一基础设施上部署多个 ML 模型至关重要。

    与现代部署管道集成:Docker 与 CI/CD 工具和编排系统(如 Kubernetes)无缝集成,促进自动化测试和部署。

    协作:数据科学家、机器学习工程师和开发人员可以共享 Docker 容器,确保每个人都在一致的环境中工作。

    Docker 版本:

    $ docker --version

    为 Python 和机器学习创建 Dockerfile

    Dockerfile 定义了容器中的内容。 以下是 Python 机器学习环境的 Dockerfile 示例:

    1. # Use an official Python runtime as base image
    2. FROM python:3.8-slim
    3. # Set the working directory inside the container
    4. WORKDIR /usr/src/app
    5. # Install essential libraries and tools
    6. RUN apt-get update && \
    7. apt-get install -y build-essential
    8. # Copy the requirements.txt into the container
    9. COPY requirements.txt .
    10. # Install Python dependencies
    11. RUN pip install --no-cache-dir -r requirements.txt
    12. # Command to run when the container starts
    13. CMD ["python", "your_script.py"]

    Dockerfile Breakdown:

    • 基础 Image:
    FROM python:3.8-slim
    • 这指示 Docker 使用“slim”变体中的官方 Python 3.8 映像作为该容器的起点。 slim 版本是镜像的轻量版本,预装工具较少,尺寸较小。

    设置工作目录:

    WORKDIR /usr/src/app
    • 这会将容器内的工作目录设置为 /usr/src/app。 所有后续命令都将从该目录运行。

    安装必要的库:

    1. RUN apt-get update && \
    2. apt-get install -y build-essential
    • 这将更新升级和新软件包安装的软件包列表。 更新后,它会安装“build-essential”包,其中包含构建软件所必需的编译器和库。

    复印要求:

    COPY requirements.txt .
    • 此命令从当前目录(在主机上)获取requirements.txt 文件并将其复制到容器内的工作目录(/usr/src/app)。

    安装 Python 依赖项:

    RUN pip install --no-cache-dir -r requirements.txt
    • 使用 pip,此命令会安装requirements.txt 文件中列出的Python 库。 --no-cache-dir 选项确保 pip 不会存储任何缓存,从而保持容器的轻量级。

    启动命令:

    CMD ["python", "your_script.py"]
    • 指定容器启动时应运行的命令。 在本例中,它运行 Python 脚本 your_script.py。

    需求文件:

    对于机器学习项目,您的 requests.txt 可能如下所示:

    1. numpy==1.19.5
    2. pandas==1.1.5
    3. tensorflow==2.4.1
    4. scikit-learn==0.24.1

    构建 Docker 镜像

    要从 Dockerfile 创建 Docker 映像:

    $ docker build -t ml-python-image .

    -t 标志为图像分配标签或名称,而 . 指定包含 Dockerfile 的目录。

    运行 Docker 容器

    要从您的映像启动容器:

    $ docker run --name ml-python-container ml-python-image

    查看正在运行的容器

    要查看所有正在运行的容器的列表:

    $ docker ps

    对于所有容器,包括那些未运行的容器:

    $ docker ps -a

    停止和移除容器

    要停止正在运行的容器:

    $ docker stop ml-python-container

    要删除已停止的容器:

    $ docker rm ml-python-container

    分享您的 Docker 镜像

    您可以使用 Docker Hub(一种用于共享容器映像的云服务)来共享 Docker 映像。 首先,登录:

    $ docker login

    然后,标记您的图像:

    $ docker tag ml-python-image:latest username/ml-python-image:latest

    最后推送Image:

    $ docker push username/ml-python-image:latest

    拉取并运行共享Image

    然后您或其他人可以拉取该image:

    $ docker pull username/ml-python-image:latest

    运行它:

    $ docker run --name new-ml-python-container username/ml-python-image:latest

    All in one

    1. # General
    2. docker --version # Version Information
    3. docker info # Docker Configuration Info
    4. # Images
    5. docker images # List Images
    6. docker build -t [image-name]:[tag] . # Build an Image
    7. docker rmi [image-name]:[tag] # Remove an Image
    8. docker pull [image-name] # Pull an Image
    9. # Containers
    10. docker ps # List Running Containers
    11. docker ps -a # List All Containers
    12. docker run -d -p [host-port]:[container-port] [image-name] # Start a Container
    13. docker stop [container-id] # Stop a Container
    14. docker rm [container-id] # Remove a Container
    15. docker logs [container-id] # View Container Logs
    16. # Docker Compose (if you're using it)
    17. docker-compose up # Start Services
    18. docker-compose down # Stop Services
    19. # Maintenance
    20. docker system prune # Remove All Unused Containers, Networks, and Images
    21. docker volume prune # Remove All Unused Volumes
    22. docker system df # Check Docker Disk Usage
    23. # Dockerfile Basics (For reference, not executable as commands)
    24. # FROM [base-image] # Base Image
    25. # WORKDIR /path/to/directory # Set Working Directory
    26. # RUN command # Run Commands
    27. # COPY source destination # Copy Files
    28. # EXPOSE port # Expose Port
    29. # CMD ["executable", "param1", "param2"] # Default Command

    Kubernetes:

    Kubernetes 基础知识

    1. 节点和集群:节点是机器、虚拟机或云实例,集群是 Kubernetes 管理的一组节点。 主节点管理集群,而工作节点运行应用程序。

    2. Pod:Kubernetes 中最小的可部署单元是 Pod。 一个 Pod 可以托管多个容器,这些容器形成一个部署单元。

    3. 服务:Kubernetes 服务是公开在一组 Pod 上运行的应用程序的抽象方式。

    4. 部署:这是一个更高级别的概念,用于管理 Pod 和副本集的所需状态。

    设置 Kubernetes:

    Kubernetes 可以使用 Minikube 在本地计算机上设置,也可以在云平台上设置。 AWS、GCP 和 Azure 等云提供商分别提供 EKS、GKE 和 AKS 等托管 Kubernetes 服务。

    在 Kubernetes 上部署机器学习模型:

    1. 容器化您的模型:在 Kubernetes 上部署之前,您的模型需要容器化。 Docker 通常用于此目的:

    FROM python:3.8-slim
    WORKDIR /appCOPY requirements.txt .RUN pip install --no-cache-dir -r requirements.txtCOPY . /appCMD ["python", "app.py"]

    此 Dockerfile 假设您有一个为您的模型提供服务的 app.py,可能使用 Flask 或 FastAPI 等框架

    构建并推送您的 Docker 镜像:

    1. $ docker build -t username/ml-model:v1 .
    2. $ docker push username/ml-model:v1

    2.创建部署配置:为Kubernetes定义一个deployment.yaml:

    1. apiVersion: apps/v1
    2. kind: Deployment
    3. metadata:
    4. name: ml-model-deployment
    5. spec:
    6. replicas: 3
    7. selector:
    8. matchLabels:
    9. app: ml-model
    10. template:
    11. metadata:
    12. labels:
    13. app: ml-model
    14. spec:
    15. containers:
    16. - name: ml-model
    17. image: username/ml-model:v1
    18. ports:
    19. - containerPort: 5000

    3. 在 Kubernetes 上部署:

    应用部署:

    $ kubectl apply -f deployment.yaml

    4. 公开你的模型:

    要访问您的模型,请使用服务公开它:

    $ kubectl expose deployment ml-model-deployment --type=LoadBalancer --port=80 --target-port=5000

    expose:

    这告诉 kubectl 您想要将资源(在本例中为部署)公开为网络服务。

    deployment ml-model-deployment:

    指定要公开的资源(部署)的类型和该资源的名称(ml-model-deployment)。

    --type=LoadBalancer:

    这指定了您要创建的服务的类型。 在这种情况下,正在请求 LoadBalancer 服务。 当在云环境(如 AWS、GCP 或 Azure)中使用时,通常会配置一个云负载均衡器来将网络流量分发到与该服务关联的所有 Pod。

    --port=80:

    定义服务将侦听的端口。 这意味着外部流量将进入该端口的服务。

    --target-port=5000:

    指定 pod 上服务应将流量转发到的端口。 在早期部署的上下文中,容器内的应用程序侦听端口 5000。因此,端口 80(由 --port 指定)传入的外部流量将转发到 Pod 上的端口 5000。

    检索服务 URL:

    $ kubectl get services

    然后,您可以通过提供的 URL 访问您的机器学习模型。

    5. 扩展您的部署:

    Kubernetes 让您可以轻松扩展部署:

    $ kubectl scale deployment ml-model-deployment --replicas=5

    scale:

    这告诉 kubectl 您打算更改特定资源(在本例中为部署)的副本数量(即调整规模)。

    deployment ml-model-deployment:

    指定要扩展的资源(部署)的类型和该资源的名称(ml-model-deployment)。

    --replicas=5:

    指定您希望部署所需的副本数量。 这意味着 Kubernetes 将确保有 5 个相同的 pod(副本)为 ml-model-deployment 运行。

    Kubernetes 为部署机器学习模型提供了一个强大的环境,确保它们具有高可用性和可扩展性。

    All in one:

    1. # Cluster Info
    2. kubectl cluster-info
    3. # Get resources
    4. kubectl get nodes
    5. kubectl get pods
    6. kubectl get services
    7. kubectl get deployments
    8. # Describe resources
    9. kubectl describe node <node-name>
    10. kubectl describe pod <pod-name>
    11. kubectl describe service <service-name>
    12. kubectl describe deployment <deployment-name>
    13. # Create resources
    14. kubectl create -f <filename.yaml>
    15. kubectl apply -f <filename.yaml> # idempotent version of 'create'
    16. # Delete resources
    17. kubectl delete -f <filename.yaml>
    18. kubectl delete pod <pod-name>
    19. kubectl delete service <service-name>
    20. kubectl delete deployment <deployment-name>
    21. # Logs & Debugging
    22. kubectl logs <pod-name>
    23. kubectl exec -it <pod-name> -- /bin/bash
    24. # Scale deployments
    25. kubectl scale deployment <deployment-name> --replicas=<number>
    26. # Rolling updates and rollbacks
    27. kubectl set image deployment/<deployment-name> <container-name>=<new-image>
    28. kubectl rollout history deployment/<deployment-name>
    29. kubectl rollout undo deployment/<deployment-name>
    30. # Configuration
    31. kubectl config view
    32. kubectl config use-context <context-name>
    33. # Namespace operations
    34. kubectl get namespaces
    35. kubectl create namespace <namespace-name>
    36. kubectl delete namespace <namespace-name>
    37. kubectl get pods --namespace=<namespace-name>
    38. # Port forward
    39. kubectl port-forward <pod-name> <local-port>:<pod-port>

    Helm:

    头盔Helm:

    Helm 通常被称为 Kubernetes 的包管理器。 随着机器学习模型变得越来越复杂,周围的基础设施也越来越大,Helm 简化了部署过程。

    图表:Helm 使用“图表”,它是预先配置的 Kubernetes 资源的包。 将它们想象成一个打包的应用程序。

    发布:当图表部署在 Kubernetes 上时,称为发布。

    简单性:您无需处理多个不同的 Kubernetes 清单文件,只需管理单个 Helm 图表。

    设置Helm:

    在开始使用 Helm 部署 ML 模型之前,您需要对其进行设置。

    安装Helm:从官方网站下载并安装Helm或使用brew等包管理器。

    初始化 Helm:安装后,运行 helm init 以设置 Helm 环境。

    添加存储库:Helm 图表存储在存储库中。 使用 helm repo add 添加所需的存储库。

    用于 ML 部署的基本 Helm 命令

    搜索图表:helm search repo 可让您在添加的存储库中查找图表。

    安装图表:helm install [chart-name] 会将图表部署到您的 Kubernetes 集群上。

    升级和回滚:更改了您的 ML 模型中的某些内容? helm Upgrade 允许您使用较新的图表升级您的版本。 犯了一个错误? helm 回滚将恢复到以前的版本。

    删除版本:helm delete [release-name] 将从 Kubernetes 中删除该版本。

    使用 Helm 部署 ML 模型

    让我们假设一个场景,您有一个用于图像识别的 ML 模型:

    准备模型:训练模型并将其公开为 API(使用 Flask、FastAPI、Streamlit 等)。

    Docker 化模型:创建 ML 应用程序的 Docker 映像。

    创建 Helm 图表:为您的 ML 模型构建 Helm 图表,确保定义必要的资源,例如部署、服务以及任何 ConfigMap 或 Secret(如果需要)。

    部署:使用 helm install [chart-name] 部署您的 ML 模型。 Kubernetes 将创建图表中定义的资源。

    使用 Helm 进行 ML 部署的好处

    版本控制:Helm 图表具有版本控制,确保您可以无缝管理 ML 应用程序的不同版本。

    原子部署:Helm 确保发布是原子的。 这意味着要么所有资源都已成功部署,要么没有,从而确保状态一致。

    可重用性和共享:您可以轻松打包和共享 Helm 图表。 如果您在不同的 ML 模型或团队中具有类似的部署结构,这将非常有用。

    简化复杂部署:机器学习工作流程可能很复杂,尤其是与数据管道结合使用时。 Helm 允许以可维护的方式定义复杂的工作流程。

    以下是一些基本 Helm 命令的指南:

    设置和安装:

    安装Helm:

    curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 chmod 700 get_helm.sh ./get_helm.sh

    配置:

    添加 Helm 存储库:

    helm repo add [repo_name] [repo_url]

    更新存储库信息:

    helm repo update

    部署:

    搜索 Helm 图表:

    helm search repo [search_term]
    • 安装 Helm Chart:
    helm install [release_name] [repo_name]/[chart_name]
    • 列出所有已安装的 Helm 版本:
    helm list
    • 获取有关版本的信息:
    helm status [release_name]

    更新和回滚

    升级已安装的版本:

    helm upgrade [release_name] [repo_name]/[chart_name]
    • 将版本回滚到以前的修订版:
    helm rollback [release_name] [revision_number]

    清理和删除:

    卸载版本:

    helm uninstall [release_name]
    • 删除 Helm 存储库:
    helm repo remove [repo_name]

    本地图表开发

    创建新的 Helm 图表:

    helm create [chart_name]
    • 检查 Helm 图表:
    helm lint [chart_directory]
    • 打包 Helm Chart:
    helm package [chart_directory]

    存储库和插件:

    列出添加的 Helm 存储库:

    helm repo list
    • 安装 Helm 插件:
    helm plugin install [plugin_url]

    一次性完成所有基本命令:

    1. # Initialize Helm and install Tiller (for Helm 2)
    2. helm init
    3. # Helm version
    4. helm version
    5. # Add a new Helm chart repository
    6. helm repo add <repo_name> <repo_url>
    7. # Update Helm chart repository list
    8. helm repo update
    9. # Search for Helm charts
    10. helm search repo <chart_name>
    11. # Install a Helm chart
    12. helm install <release_name> <chart_name>
    13. # For Helm v3 and above, use:
    14. helm install <release_name> <chart_name> --generate-name
    15. # List all releases
    16. helm list
    17. # For Helm v3 and above, you might need:
    18. helm list --all-namespaces
    19. # Get information about a release
    20. helm status <release_name>
    21. # Upgrade a release
    22. helm upgrade <release_name> <chart_name>
    23. # Rollback a release to a previous revision
    24. helm rollback <release_name> <revision_number>
    25. # Uninstall a release
    26. helm uninstall <release_name>
    27. # View the values of a release
    28. helm get values <release_name>
    29. # Lint a Helm chart
    30. helm lint <path_to_chart>
    31. # Package a Helm chart into a versioned chart archive
    32. helm package <path_to_chart>
    33. # View Helm history
    34. helm history <release_name>
    35. # Create a new Helm chart
    36. helm create <chart_name>
    37. # Render Helm chart templates locally (dry-run)
    38. helm template <chart_name>
    39. # Pull a chart from a repository and download it to your machine
    40. helm pull <chart_name>

    Github Actions:

    GitHub Actions 提供强大的集成 CI/CD 解决方案,允许开发人员直接在其 GitHub 存储库中自动化、自定义和执行软件开发工作流程。 对于使用 Python 的机器学习开发人员来说,它提供了一个无缝环境来自动执行测试、构建和部署模型等任务。

    了解 GitHub 操作:

    1. 工作流程:这些是您可以在存储库中设置的自动化过程,用于在 GitHub 上构建、测试、打包、发布或部署任何代码项目。

    2. 事件:工作流程由事件触发。 常见事件包括push和pull_request,但还有许多其他事件,例如计划事件或手动触发器。

    3. 作业:作业是在同一运行器上执行的一组步骤。 作业可以并行运行,也可以依赖于另一个作业的成功。

    4. 步骤:这些是可以运行命令或操作的单独任务。

    5. 操作:这些是独立命令,组合成步骤来创建作业。 操作可以由 GitHub、社区驱动或自定义到您的存储库提供。

    使用 GitHub Actions 设置机器学习 CI/CD 管道:

    1. 创建工作流:在您的存储库中,创建一个名为 .github/workflows 的目录。 添加新文件(例如 ml_cicd.yml)来定义您的工作流程。

    2. 定义工作流触发器:您可以指定何时触发工作流。 对于 CI/CD,通常使用推送:

    on: [push]

    3. 定义测试和部署作业:设置一个作业以在每次出现推送事件时测试机器学习代码:

    1. jobs:
    2. build_and_test:
    3. runs-on: ubuntu-latest
    4. steps:
    5. - name: Checkout code
    6. uses: actions/checkout@v2
    7. - name: Set up Python
    8. uses: actions/setup-python@v2
    9. with:
    10. python-version: 3.8
    11. - name: Install dependencies
    12. run: |
    13. pip install -r requirements.txt
    14. - name: Run tests
    15. run: pytest

    4. 部署模型:测试后,您可以添加步骤来部署模型:

    1. - name: Deploy model
    2. run: |
    3. # Your deployment script here, for example:
    4. python deploy_model.py

    5. 缓存和矩阵构建:要加快构建速度,请使用缓存:

    1. - name: Cache dependencies
    2. uses: actions/cache@v2
    3. with:
    4. path: ~/.cache/pip
    5. key: ${{ runner.os }}-pip-${{ hashFiles('**/requirements.txt') }}
    6. restore-keys: |
    7. ${{ runner.os }}-pip-

    要跨多个 Python 版本进行测试,请使用矩阵构建:

    1. strategy:
    2. matrix:
    3. python-version: [3.7, 3.8, 3.9]

    6. 持续部署:如果您正在使用云平台或容器编排系统(例如 Kubernetes),则可以在测试通过后整合步骤来部署 ML 模型。

    1. - name: Deploy to Kubernetes
    2. run: |
    3. kubectl apply -f k8s-deployment.yaml

    一些基本动作:

    1. # Name of the workflow
    2. name: CI/CD Workflow
    3. # Event that triggers the workflow
    4. on:
    5. push:
    6. branches:
    7. - main
    8. pull_request:
    9. branches:
    10. - main
    11. jobs:
    12. build:
    13. name: Build Job
    14. runs-on: ubuntu-latest
    15. steps:
    16. - name: Checkout code
    17. uses: actions/checkout@v2
    18. - name: Set up Python
    19. uses: actions/setup-python@v2
    20. with:
    21. python-version: 3.8
    22. - name: Install dependencies
    23. run: |
    24. python -m pip install --upgrade pip
    25. pip install -r requirements.txt
    26. - name: Run tests
    27. run: pytest
    28. deploy:
    29. name: Deploy Job
    30. needs: build
    31. runs-on: ubuntu-latest
    32. steps:
    33. - name: Checkout code
    34. uses: actions/checkout@v2
    35. - name: Deploy to server
    36. run: ./deploy_script.sh
    37. #sample file

    以下是其他流行的 CI/CD 工具的列表:

    • Jenkins:Jenkins 是最流行的开源自动化服务器之一,用于构建、部署和自动化任何项目。 它拥有庞大的插件生态系统。
    • Travis CI:Travis CI 与 GitHub 集成,为开源和私有项目提供基于云的 CI/CD 服务。
    • CircleCI:提供基于云的和自托管的 CI/CD 解决方案。 与 GitHub 和 Bitbucket 集成。
    • GitLab CI/CD:作为 GitLab 平台的一部分,这个内置工具在单个服务中提供存储库和 CI/CD。
    • Bamboo:Atlassian 的 CI/CD 服务器解决方案,Bamboo 与 JIRA、Bitbucket 和其他 Atlassian 产品紧密集成。
    • Azure Pipelines:Microsoft Azure DevOps 服务的一部分,它提供 CI/CD 功能并与 GitHub 和外部存储库集成。

    Streamlit简介

    Streamlit 是专为机器学习和数据科学项目打造的开源应用程序框架。 只需几行 Python 代码,您就可以快速将数据脚本转换为交互式 Web 应用程序,而无需任何 HTML、CSS 或 JavaScript 知识。 Streamlit 简单的语法和快速的开发周期使其成为希望展示其项目的数据科学家的诱人选择。

    Streamlit 安装和基本配置

    安装 Streamlit 非常简单:

    pip install streamlit

    要检查它是否已正确安装:

    streamlit hello

    此命令在 Web 浏览器中启动示例 Streamlit 应用程序。

    构建简单的 Streamlit ML 应用程序

    让我们创建一个机器学习模型,使用 TextBlob 库预测输入文本是正数还是负数。 然后我们将使用 Streamlit 进行交互。

    首先,确保您拥有必要的库:

    pip install streamlit textblob

    接下来,创建一个 Python 脚本 (app.py):

    1. import streamlit as st
    2. from textblob import TextBlob
    3. st.title('Sentiment Analysis Using Streamlit')
    4. user_input = st.text_area("Enter Text:", "Type Here...")
    5. if st.button("Analyze"):
    6. blob = TextBlob(user_input)
    7. result = blob.sentiment.polarity
    8. if result > 0:
    9. st.write("Positive Sentiment")
    10. elif result < 0:
    11. st.write("Negative Sentiment")
    12. else:
    13. st.write("Neutral Sentiment")

    运行您的 Streamlit 应用程序:

    streamlit run app.py

    这将在您的浏览器中启动该应用程序,您可以在其中输入文本并获取其情绪。

    使用 Docker 进行容器化

    为了实现跨平台的生产部署和一致性,您可能希望对 Streamlit 应用程序进行容器化。

    Streamlit 的 Dockerfile:

    1. FROM python:3.8-slim
    2. WORKDIR /app
    3. COPY requirements.txt ./requirements.txt
    4. RUN pip install -r requirements.txt
    5. COPY . .
    6. EXPOSE 8501
    7. CMD ["streamlit", "run", "app.py"]

    在这里,requirements.txt 将包含:

    1. streamlit
    2. textblob

    构建并运行 Docker 容器:

    1. docker build -t ml-streamlit-app:latest .
    2. docker run -p 8501:8501 ml-streamlit-app:latest

    一气呵成:

    1. ##########################
    2. ### Streamlit Commands ###
    3. ##########################
    4. # 1. Install Streamlit
    5. pip install streamlit
    6. # 2. Create a new Streamlit script
    7. echo 'import streamlit as st\n\nst.write("Hello, world!")' > app.py
    8. # 3. Run a Streamlit app
    9. streamlit run app.py
    10. # 4. Secure your Streamlit app (you can set tokens, passwords, etc.)
    11. # Use third-party tools or services for this.
    12. streamlit run app.py --secure-mode
    13. # 5. Set the Streamlit server port (e.g., to 9999)
    14. streamlit run app.py --server.port 9999
    15. # 6. Disable the Streamlit welcome page
    16. streamlit run app.py --server.headless true
    17. # 7. Cache data to speed up your Streamlit app
    18. # In your app.py script, you can use the @st.cache decorator for functions you want to cache.
    19. # Example:
    20. # @st.cache
    21. # def fetch_data():
    22. # return download_your_data_here()
    23. # 8. Deploying Streamlit app with Streamlit sharing
    24. # - First, push your app to a public GitHub repository.
    25. # - Then use Streamlit sharing (a service by Streamlit) to deploy directly from the repository.
    26. # Check the Streamlit documentation for more on this.
    27. ############################
    28. ### Streamlit Components ###
    29. ############################
    30. # Streamlit offers various components like buttons, sliders, file uploaders, etc.
    31. # Here are examples of a few:
    32. # In your app.py:
    33. # st.button('Click me!')
    34. # st.slider('Select a range', 0.0, 100.0)
    35. # st.file_uploader('Upload a file here')
    36. # st.selectbox('Choose an option', ['Option 1', 'Option 2', 'Option 3'])

    用于机器学习部署的 Flask:初学者指南

    Flask 是 Python 中的一个轻量级 Web 服务器框架。 其微框架性质使其非常适合快速创建中小型 Web 应用程序。 它特别适合部署机器学习模型,因为它具有灵活性并提供从 Python 代码到 Web 服务的直接路径。

    Flask安装及基本配置

    首先使用 pip 安装 Flask:

    pip install Flask

    要检查它是否已正确安装,您可以创建一个基本的 Flask 应用程序:

    1. from flask import Flask
    2. app = Flask(__name__)
    3. @app.route('/')
    4. def hello_world():
    5. return 'Hello, World!'

    将其保存为 app.py 并运行:

    1. export FLASK_APP=app.py
    2. flask run

    此命令启动您的 Flask 应用程序,您应该看到 Hello, World! 当您在浏览器中导航到 http://127.0.0.1:5000/ 时。

    构建一个简单的 Flask ML 应用程序

    想象一下,我们有一个机器学习模型,可以使用 TextBlob 库预测输入文本是正面还是负面。 我们将使用 Flask 为该模型创建一个简单的 API。

    首先,确保您拥有必要的库:

    pip install Flask textblob

    接下来,更新app.py:

    1. from flask import Flask, request, jsonify
    2. from textblob import TextBlob
    3. app = Flask(__name__)
    4. @app.route('/analyze', methods=['POST'])
    5. def analyze_sentiment():
    6. data = request.get_json()
    7. text = data['text']
    8. blob = TextBlob(text)
    9. result = blob.sentiment.polarity
    10. sentiment = ""
    11. if result > 0:
    12. sentiment = "Positive"
    13. elif result < 0:
    14. sentiment = "Negative"
    15. else:
    16. sentiment = "Neutral"
    17. return jsonify(sentiment=sentiment)
    18. if __name__ == "__main__":
    19. app.run(debug=True)

    这个 Flask 应用程序公开了一个 POST 端点 /analyze,它需要一个带有关键文本的 JSON 对象,并返回所提供文本的情绪。

    使用 Docker 进行容器化

    为了便于部署并确保不同环境之间的一致性,对 Flask 应用程序进行容器化非常有用。

    Flask 的 Dockerfile:

    1. FROM python:3.8-slim
    2. WORKDIR /app
    3. COPY requirements.txt ./requirements.txt
    4. RUN pip install -r requirements.txt
    5. COPY . .
    6. EXPOSE 5000
    7. CMD ["python", "app.py"]

    您的requirements.txt 应包含:

    1. Flask
    2. textblob

    构建并运行 Docker 容器:

    1. docker build -t ml-flask-app:latest .
    2. docker run -p 5000:5000 ml-flask-app:latest

    一气呵成:

    1. # ---- SETTING UP A VIRTUAL ENVIRONMENT AND INSTALLING FLASK ----
    2. # Create a virtual environment
    3. python -m venv myenv
    4. # Activate the virtual environment
    5. # On Windows:
    6. myenv\Scripts\activate
    7. # On macOS and Linux:
    8. source myenv/bin/activate
    9. # Install Flask
    10. pip install Flask
    11. # ---- BASIC FLASK APP STRUCTURE ----
    12. # Use this structure in your Python script (e.g., app.py)
    13. """
    14. from flask import Flask
    15. app = Flask(__name__)
    16. @app.route('/')
    17. def hello_world():
    18. return 'Hello, World!'
    19. """
    20. # ---- RUNNING A FLASK APPLICATION ----
    21. # Set the FLASK_APP environment variable
    22. # On Windows:
    23. set FLASK_APP=your_flask_app_filename.py
    24. # On macOS and Linux:
    25. export FLASK_APP=your_flask_app_filename.py
    26. # Run the app
    27. flask run
    28. # ---- DEVELOPMENT MODE ----
    29. # Activate the development environment
    30. # On Windows:
    31. set FLASK_ENV=development
    32. # On macOS and Linux:
    33. export FLASK_ENV=development
    34. # Now run the app
    35. flask run
    36. # ---- SPECIFY HOST AND PORT ----
    37. flask run --host=0.0.0.0 --port=8080
    38. # ---- USING FLASK EXTENSIONS (example: Flask-SQLAlchemy) ----
    39. # Install Flask-SQLAlchemy
    40. pip install Flask-SQLAlchemy
    41. # Use in your Flask app:
    42. """
    43. from flask import Flask
    44. from flask_sqlalchemy import SQLAlchemy
    45. app = Flask(__name__)
    46. app.config['SQLALCHEMY_DATABASE_URI'] = 'sqlite:///your_database_name.db'
    47. db = SQLAlchemy(app)
    48. """
    49. # ---- DEACTIVATE VIRTUAL ENVIRONMENT ----
    50. deactivate

    Gradio简介

    Gradio 是一个开源 Python 库,它提供了一种简单的方法来为机器学习模型创建用户友好的基于 Web 的界面。 它的设计简单明了,允许机器学习从业者快速部署并与非技术用户共享他们的模型。

    Gradio安装和基本配置

    使用 pip 安装 Gradio 很简单:

    pip install gradio

    安装 Gradio 后,您可以快速为模型创建界面,而无需广泛的 Web 开发专业知识。

    构建一个简单的 Gradio ML 应用程序

    假设我们有一个机器学习模型,可以对 MNIST 数据集中的手写数字进行分类。 我们将使用 Gradio 为该模型创建一个简单的 UI。

    首先,确保您拥有必要的库:

    pip install gradio tensorflow

    接下来,使用 TensorFlow 构建一个简单的模型并将其与 Gradio 集成:

    1. import gradio as gr
    2. import numpy as np
    3. import tensorflow as tf
    4. # Load MNIST dataset
    5. mnist = tf.keras.datasets.mnist
    6. (x_train, y_train), (x_test, y_test) = mnist.load_data()
    7. x_train, x_test = x_train / 255.0, x_test / 255.0 # Normalize data
    8. # Build a simple model
    9. model = tf.keras.models.Sequential([
    10. tf.keras.layers.Flatten(input_shape=(28, 28)),
    11. tf.keras.layers.Dense(512, activation='relu'),
    12. tf.keras.layers.Dropout(0.2),
    13. tf.keras.layers.Dense(10)
    14. ])
    15. model.compile(optimizer='adam',
    16. loss=tf.losses.SparseCategoricalCrossentropy(from_logits=True),
    17. metrics=['accuracy'])
    18. model.fit(x_train, y_train, epochs=5)
    19. def classify_digit(img):
    20. img = img.reshape(1, 28, 28)
    21. prediction = model.predict(img).tolist()[0]
    22. return {str(i): prediction[i] for i in range(10)}
    23. # Gradio UI
    24. interface = gr.Interface(fn=classify_digit,
    25. inputs="sketchpad",
    26. outputs="label")
    27. interface.launch()

    运行此脚本将在 MNIST 数据集上训练模型,然后启动 Gradio 界面,您可以在其中绘制数字,模型将对它们进行分类。

    使用 Docker 进行容器化

    为了确保我们的应用程序在各种环境中保持一致并简化部署,将 Gradio 应用程序容器化很有帮助。

    广播电台的 Dockerfile:

    1. FROM python:3.8-slim
    2. WORKDIR /app
    3. COPY requirements.txt ./requirements.txt
    4. RUN pip install --no-cache-dir -r requirements.txt
    5. COPY . .
    6. CMD ["python", "app.py"]

    您的requirements.txt 应包含:

    1. gradio
    2. tensorflow

    构建并运行 Docker 容器:

    1. docker build -t ml-gradio-app:latest .
    2. docker run -p 7860:7860 ml-gradio-app:latest

    此命令将在 Docker 容器中启动 Gradio 应用程序并使其在端口 7860 上可用。

    FastAPI简介:

    FastAPI 是一个现代、快速的 Web 框架,用于基于标准 Python 类型提示,使用 Python 构建 API。 它提供自动交互式 API 文档,构建在用于 Web 部分的 Starlette 和用于数据部分的 Pydantic 之上,并因其性能而受到认可,甚至可以与 NodeJS 和 Go 相媲美。

    Docker 及其重要性:

    Docker 允许您将应用程序及其所有依赖项打包到一个标准化单元中以进行软件开发。 这可以确保无论 Docker 容器在何处运行,您的应用程序都会以相同的方式运行。 对于机器学习来说,这一点至关重要,因为您经常有大量的依赖项可能会导致冲突或版本控制问题。

    用于 ML 部署的 FastAPI 和 Docker:

    FastAPI 可以像任何其他 Web 应用程序一样进行 Docker 化。 鉴于 FastAPI 的快速性能,它非常适合作为机器学习模型的服务器,特别是与 Docker 的一致性和隔离性结合使用时。

    实践示例:

    创建 FastAPI 应用程序:让我们创建一个简单的 FastAPI 应用程序来为机器学习模型提供服务。 在本指南中,为了简单起见,我们将使用预先训练的模型。

    1. # main.py
    2. from fastapi import FastAPI
    3. from sklearn.datasets import load_iris
    4. from sklearn.linear_model import LogisticRegression
    5. app = FastAPI()
    6. # Load dataset and train a simple model
    7. X, y = load_iris(return_X_y=True)
    8. clf = LogisticRegression().fit(X, y)
    9. @app.get("/predict/")
    10. def predict(sepal_length: float, sepal_width: float, petal_length: float, petal_width: float):
    11. prediction = clf.predict([[sepal_length, sepal_width, petal_length, petal_width]])
    12. return {"prediction": int(prediction[0])}

    创建 Dockerfile:现在,让我们对 FastAPI 应用程序进行 Docker 化。

    1. # Use an official Python runtime as a base image
    2. FROM python:3.8-slim
    3. # Set the working directory
    4. WORKDIR /app
    5. # Install dependencies
    6. COPY requirements.txt ./
    7. RUN pip install --no-cache-dir -r requirements.txt
    8. # Copy the current directory contents into the container at /app
    9. COPY . .
    10. # Expose port 8000 for FastAPI
    11. EXPOSE 8000
    12. # Run main.py when the container launches
    13. CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]
    • FROM python:3.8-slim: 使用官方 Python 3.8 映像的精简版本作为此 Docker 容器的基础映像。
    • WORKDIR /app: 将容器中的工作目录设置为/app。 所有后续命令都将从该目录运行。
    • COPY requirements.txt ./: 将 requests.txt 文件从主机复制到容器中的当前位置 (/app)。
    • RUN pip install --no-cache-dir -r requirements.txt:安装requirements.txt中指定的Python依赖项,而不存储缓存,从而使图像尺寸更小。
    • COPY . .: 将主机当前目录下的所有文件复制到容器当前目录(/app)中。
    • EXPOSE 8000: 通知 Docker 容器将在运行时侦听指定的网络端口,在本例中为 8000。
    • CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]: 指定容器启动时将执行的命令。 在这里,它使用 Uvicorn 在主机 0.0.0.0 和端口 8000 上启动 FastAPI 应用程序。

    每条指令都会在 Docker 镜像中创建一个新层,并按顺序执行它们以构建最终镜像。 此 Dockerfile 设置为在容器化环境中运行 FastAPI 应用程序。

    你的requirements.txt应该有:

    1. fastapi
    2. uvicorn
    3. scikit-learn

    c. 使用 Docker 构建并运行:安装 Docker 后,导航到项目的根目录并运行:

    1. $ docker build -t fastapi_ml_app .
    2. $ docker run -p 8000:8000 fastapi_ml_app

    在浏览器中访问
    http://localhost:8000/predict/?sepal_length=5.1&sepal_width=3.5&petal_length=1.4&petal_width=0.2。 您应该看到预测输出。

    使用上述工具的端到端示例项目:

    项目流程如下:

    机器学习模型部署流程:

    开发机器学习模型:

    数据采集

    数据预处理

    模型训练

    模型评估

    模型导出(例如 TensorFlow SavedModel 或 PyTorch state_dict)

    Streamlit 应用程序开发:

    使用 Streamlit 编写应用程序脚本,使用 ML 模型进行推理

    在本地测试应用程序

    将 Streamlit 应用程序 Docker 化:

    创建包含所有必要说明的 Dockerfile

    构建 Docker 镜像

    本地测试 Docker 容器

    推送到 Docker 注册表:

    将构建的 Docker 镜像推送到容器注册中心(例如 Docker Hub、Google 容器注册中心等)

    使用 Terraform 进行基础设施设置:

    使用声明性配置文件编写 Terraform 配置来定义和提供数据中心基础设施

    初始化 Terraform,应用配置来配置 Google Kubernetes Engine (GKE) 集群以及 GCP 中的其他所需资源

    带 Helm 的打包应用:

    为您的 Streamlit 应用程序创建 Helm 图表,其中包括 Kubernetes 清单模板和值

    打包 Helm 图表

    使用 Helm 进行 Kubernetes 部署:

    使用 Helm 将应用程序部署到 Kubernetes 集群(例如 GKE)

    Helm将使用打包好的chart来部署和管理Kubernetes资源

    持续集成和持续部署(CI/CD):

    使用 GitHub Actions 自动化模型训练、测试、Docker 构建、Terraform 应用程序和 Helm 部署

    配置 GitHub Actions 工作流程和触发器

    监控和规模:

    使用监控解决方案(如 Prometheus、Grafana)监控应用程序和模型性能

    使用 Kubernetes 自动缩放或手动命令根据流量向上/向下扩展

    1. 机器学习模型:

    1. import tensorflow as tf
    2. import tensorflow_hub as hub
    3. model_url = "https://tfhub.dev/google/imagenet/mobilenet_v2_100_224/classification/4"
    4. model = tf.keras.Sequential([
    5. hub.KerasLayer(model_url)
    6. ])
    7. def classify_image(image_path):
    8. img = tf.keras.preprocessing.image.load_img(image_path, target_size=(224, 224))
    9. img_array = tf.keras.preprocessing.image.img_to_array(img)
    10. img_array = tf.expand_dims(img_array, 0)
    11. predictions = model.predict(img_array)
    12. top_prediction = tf.keras.applications.mobilenet_v2.decode_predictions(predictions.numpy())[0][0]
    13. return top_prediction[1], top_prediction[2]

    2.Streamlit应用程序:

    Python代码(app.py):

    1. import streamlit as st
    2. from model import classify_image
    3. st.title("Image Classifier")
    4. uploaded_file = st.file_uploader("Choose an image...", type=["jpg", "png", "jpeg"])
    5. if uploaded_file:
    6. st.image(uploaded_file, caption='Uploaded Image.', use_column_width=True)
    7. st.write("")
    8. st.write("Classifying...")
    9. label, probability = classify_image(uploaded_file)
    10. st.write(f"Class: {label}, Confidence: {probability:.2f}%")

    3. Docker:

    Dockerfile:

    1. FROM python:3.8-slim
    2. WORKDIR /app
    3. COPY requirements.txt requirements.txt
    4. RUN pip install -r requirements.txt
    5. COPY . .
    6. CMD ["streamlit", "run", "app.py"]

    requirements.txt:

    1. streamlit
    2. tensorflow
    3. tensorflow_hub

    构建并推送到 Docker Hub:

    1. docker build -t username/image-classifier .
    2. docker push username/image-classifier

    4. Kubernetes 和 Helm:

    为我们的部署创建 Helm 图表。

    图表结构(简化):

    1. image-classifier-chart/
    2. |-- templates/
    3. | |-- deployment.yaml
    4. | |-- service.yaml
    5. |-- values.yaml
    6. |-- Chart.yaml

    在deployment.yaml和service.yaml中,定义Kubernetes部署和服务结构,相应地引用Docker镜像和端口。

    deployment.yaml:

    该文件定义了 Kubernetes 部署,它确保在任何给定时间都有一定数量的 pod 副本正在运行。

    1. apiVersion: apps/v1
    2. kind: Deployment
    3. metadata:
    4. name: image-classifier-deployment
    5. spec:
    6. replicas: 2
    7. selector:
    8. matchLabels:
    9. app: image-classifier
    10. template:
    11. metadata:
    12. labels:
    13. app: image-classifier
    14. spec:
    15. containers:
    16. - name: image-classifier-container
    17. image: username/image-classifier:latest
    18. ports:
    19. - containerPort: 8501 # Streamlit's default port

    service.yaml:

    1. apiVersion: v1
    2. kind: Service
    3. metadata:
    4. name: image-classifier-service
    5. spec:
    6. selector:
    7. app: image-classifier
    8. ports:
    9. - protocol: TCP
    10. port: 80
    11. targetPort: 8501
    12. type: LoadBalancer

    values.yaml:

    1. replicaCount: 2
    2. image:
    3. repository: username/image-classifier
    4. tag: latest
    5. pullPolicy: IfNotPresent
    6. service:
    7. type: LoadBalancer
    8. port: 80

    这是 Helm 图表的默认配置文件。 部署 Helm 图表时,您可以覆盖这些默认值。

    Chart.yaml:

    1. apiVersion: v2
    2. name: image-classifier-chart
    3. description: A Helm chart to deploy the image classifier app on Kubernetes
    4. version: 0.1.0
    5. appVersion: 1.0.0

    5.GitHub 操作:

    设置 CI/CD 管道来构建 Docker 映像,并在提交代码时将其推送到 Docker Hub。

    .github/workflows/main.yml:

    1. name: Build and Push Docker Image
    2. on:
    3. push:
    4. branches:
    5. - master
    6. jobs:
    7. build:
    8. runs-on: ubuntu-latest
    9. steps:
    10. - name: Checkout code
    11. uses: actions/checkout@v2
    12. - name: Login to Docker Hub
    13. run: echo "${{ secrets.DOCKER_PASSWORD }}" | docker login -u "${{ secrets.DOCKER_USERNAME }}" --password-stdin
    14. - name: Build and Push Docker Image
    15. run: |
    16. docker build -t username/image-classifier .
    17. docker push username/image-classifier

    一旦 GitHub Action 成功构建并推送 Docker 镜像,您就可以使用 Helm 将图表部署到 Kubernetes 集群。

    使用 Helm 进行部署:

    要使用 Helm 部署 Streamlit 应用程序:

    打包 Helm 图表:

    helm package image-classifier-chart

    将图表安装到您的 Kubernetes 集群上:

    helm install image-classifier-release image-classifier-chart-0.1.0.tgz

    部署完成后,您将从 LoadBalancer 获得外部 IP 地址。 在浏览器上访问此 IP 将带您进入 Streamlit 应用程序。

    附加工具:Terraform(IAC):

    简介:

    Terraform 是由 HashiCorp 开发的开源基础设施即代码 (IAC) 软件工具。 它允许用户使用声明性配置语言定义和配置数据中心基础设施。 借助 Terraform,您可以跨多个云提供商管理和自动化基础设施,使其成为现代基于云的应用程序(包括机器学习部署)的重要工具。

    为什么选择 Terraform 进行机器学习部署?

    不可变的基础设施:定义一次 ML 基础设施并跨阶段一致部署。

    与提供商无关:无论您使用 AWS、Google Cloud、Azure 还是组合,Terraform 都能满足您的需求。

    可扩展性:根据需求轻松扩展或缩小 ML 资源。

    版本控制:基础设施作为代码存储,使版本控制和回滚无缝。

    为 ML 环境设置 Terraform

    安装 Terraform:遵循为您的操作系统量身定制的官方安装指南。

    初始化新的 Terraform 配置:使用 terraform init 开始新项目。

    配置云提供商:为您选择的云提供商设置身份验证。

    使用 Terraform 部署 ML 基础设施

    定义基础设施:在 .tf 文件中描述 ML 模型所需的资源,例如虚拟机、存储和网络。

    规划部署:使用 terraform plan,在应用更改之前检查更改。

    应用更改:terraform apply 将提供定义的资源。

    集成 ML 组件:基础设施准备就绪后,部署 ML 模型、必要的服务和其他组件。

    使用 Terraform 进行持续集成和持续部署 (CI/CD)

    自动化工作流程:将 Terraform 与 Jenkins、GitHub Actions 或 GitLab CI 等 CI/CD 工具集成。

    自动化测试:通过自动化基础设施测试确保机器学习部署的完整性。

    回滚功能:借助版本控制的基础设施,回滚更加顺畅且更易于管理。

    协作:使用 Terraform Cloud 或 Terraform Enterprise 实现协作功能和远程状态管理。

    最佳实践和技巧

    模块化配置:将配置分解为模块,以实现更好的组织和可重用性。

    保护敏感数据:使用机密管理工具并避免对凭据进行硬编码。

    定期更新:确保您始终使用最新版本的 Terraform 和提供程序插件。

    文档:就像代码一样,注释和记录 Terraform 配置至关重要。

    初始化:

    初始化一个新的 Terraform 工作目录:

    terraform init
    • 此命令用于初始化包含 Terraform 配置文件的工作目录。 这是编写新的 Terraform 配置后应运行的第一个命令。

    管理基础设施

    规划和预览基础设施变更:

    terraform plan
    • 此命令可让您在实际执行任何操作之前查看 Terraform 将应用于您的基础设施的哪些更改。

    应用基础设施变更:

    terraform apply
    • 此命令应用达到配置中定义的所需状态所需的更改。

    摧毁基础设施

    terraform destroy
    • 删除 Terraform 配置创建的所有资源。 请谨慎使用此命令; 它实际上会拆除 Terraform 配置中描述的所有内容。

    检验状态

    显示当前状态:

    terraform show
    • 提供当前基础设施状态的可读版本。

    管理模块:

    获取模块:

    terraform get
    • 下载并安装当前配置所需的模块。

    工作空间管理

    工作区允许您为同一配置维护多个不同的状态。

    列出工作空间:

    terraform workspace list
    • 选择工作空间:
    terraform workspace select [workspace_name]
    • 创建新工作区:
    terraform workspace new [workspace_name]

    格式化和验证:

    格式配置:

    terraform fmt
    • 此命令用于以规范的格式和样式重写 Terraform 配置文件。

    验证配置:

    terraform validate
    • 验证目录中的配置文件,仅引用配置而不访问任何远程服务(例如提供程序)。

    导入现有基础设施

    导入资源:

    terraform import [address] [resource_id]
    • 将现有基础设施导入您的 Terraform 状态。 对于在 Terraform 下管理预先存在的基础设施很有用。

    输出值:

    显示输出:

    terraform output
    • 显示上次应用的输出值。

    请记住,Terraform 配置写入扩展名为 .tf 的文件中。 当运行 plan 和 apply 等命令时,Terraform 使用当前目录中的配置文件。

    Spinnaker 是一个开源、多云持续交付平台,可帮助开发人员自动化、管理和监控应用程序的部署。 它由 Netflix 创建,现在得到了 Google 的支持,使其成为现代软件交付的可靠选择。

    为什么选择 Spinnaker 进行机器学习?

    可扩展性:随着机器学习模型变得越来越复杂且对资源的需求越来越大,Spinnaker 的云原生方法可确保无缝扩展。

    版本控制:ML 模型通常需要频繁更新。 Spinnaker 允许对已部署模型进行平滑版本控制。

    回滚:如果 ML 模型未按预期执行,Spinnaker 提供简单的回滚选项。

    多云:如果您的机器学习部署需要利用多个云提供商的资源,Spinnaker 可以满足您的需求。

    使用 Spinnaker 部署 ML 模型

    以下是帮助您入门的简化流程:

    打包您的 ML 模型:您的模型、预训练权重和推理代码应使用 Docker 等工具进行容器化。

    与 CI 工具集成:确保使用 Jenkins 或 Travis CI 等 CI 工具自动构建模型容器。

    创建 Spinnaker 应用程序:这是部署管道的逻辑分组。

    定义部署管道:定义“获取最新模型”、“部署到暂存”、“运行测试”和“部署到生产”等阶段。

    自动化:每次 ML 模型更新时自动触发部署管道。

    使用 Spinnaker 进行机器学习持续交付

    自动化模型测试:将模型验证测试集成到部署管道中。

    蓝/绿部署:将新版本与旧版本一起部署,将一部分流量引导至新版本。 对于模型的 A/B 测试很有用。

    监控和日志记录:与 Prometheus 和 Grafana 等监控工具集成,以密切关注模型性能和资源利用率。

    反馈循环:根据现实世界的反馈和性能指标快速迭代模型更新。

    一些基本命令:

    1. ##########################
    2. ### Spinnaker Commands ###
    3. ##########################
    4. # 1. Install `hal` (Halyard), the command-line tool for configuring and managing Spinnaker
    5. curl -O https://raw.githubusercontent.com/spinnaker/halyard/master/install/debian/InstallHalyard.sh
    6. sudo bash InstallHalyard.sh
    7. sudo update-hal
    8. # 2. Choose cloud providers (e.g., AWS, GCP, Kubernetes)
    9. hal config provider [provider name] enable
    10. # 3. For Kubernetes (as an example cloud provider)
    11. # Assuming you have a kubeconfig file already set up
    12. hal config provider kubernetes account add my-k8s-account --provider-version v2 \
    13. --kubeconfig-file ~/.kube/config
    14. # 4. Set the deployment environment
    15. hal config deploy edit --type distributed --account-name my-k8s-account
    16. # 5. Choose storage for Spinnaker's persistent data
    17. # Example with GCS (Google Cloud Storage)
    18. hal config storage gcs edit --project [YOUR_PROJECT_ID] --bucket-location [BUCKET_LOCATION] --json-path [PATH_TO_SERVICE_ACCOUNT_JSON]
    19. hal config storage edit --type gcs
    20. # 6. Choose the version of Spinnaker you want to run
    21. hal version list
    22. hal config version edit --version [desired version]
    23. # 7. Deploy Spinnaker using Halyard
    24. hal deploy apply
    25. # 8. Connect to the Spinnaker UI
    26. # Assuming you are using Kubernetes, set up port forwarding:
    27. kubectl port-forward -n spinnaker svc/spin-deck 9000:9000 & kubectl port-forward -n spinnaker svc/spin-gate 8084:8084
    28. # Now, you can access Spinnaker at http://localhost:9000
    29. # 9. Update Spinnaker (after choosing a new version with `hal version edit`)
    30. hal deploy apply
    31. # 10. Backup Halyard's configuration
    32. tar -czf hal-backup.tgz ~/.hal/

    Crossplane 是一个开源基础设施即代码 (IAC) 平台,可扩展 Kubernetes 以包含云基础设施编排。 它直接与 Kubernetes 集成,允许您使用熟悉的 K8s 工具和实践来声明、自动化和管理外部基础设施。

    Crossplane 在 ML 部署中的作用:

    统一工作流程:借助 Crossplane,使用 kubectl 管理 Kubernetes 原生和云原生资源。

    提供商多样性:对多个云提供商的支持确保机器学习部署可以与提供商无关。

    动态扩展:ML 资源可以根据需求进行扩展,完全自动化。

    安全配置:无缝管理敏感配置和机密。

    • 配置管理工具:Puppet 是一种配置管理工具,可自动配置和管理服务器。

    声明性语言:用户使用 Puppet 的声明性语言定义基础设施的所需状态(您希望系统是什么样子、应具有哪些软件包等),Puppet 将强制执行此所需状态。

    基础设施即代码:使用 Puppet,基础设施作为代码进行管理。 这允许版本控制、同行评审和自动化测试,就像任何其他软件代码库一样。

    幂等性:Puppet 的关键特征之一是其幂等性,这意味着无论初始条件如何,它都能确保每次运行的最终状态保持一致。 如果已经满足所需的状态,Puppet 将不会进行任何更改。

    代理/服务器模型:通常,Puppet 遵循主代理设置。 主节点包含由 Puppet 代码定义的配置,代理会定期与主节点进行检查以获取配置指令。

    模块和 Forge:模块是可重用、可共享的代码块,用于在 Puppet 中执行特定任务。 Puppet Forge 是一个社区成员可以共享这些模块的市场。

    灵活性:Puppet 可以管理各种基础设施,从裸机到容器,以及跨不同平台和云环境。

    报告:Puppet 提供详细的报告,显示已进行哪些更改以及谁进行了更改。

    集成:Puppet 与其他 DevOps 工具集成良好,使用户能够构建完整的持续集成/持续部署 (CI/CD) 管道。

    开源版和企业版:Puppet 提供开源版和企业版。 企业版提供了附加功能,包括图形界面、分析和专业支持。

    结论:

    无缝高效地部署机器学习模型需要采用整体方法,结合针对不同任务定制的各种工具的强大功能。 从使用 Streamlit、Gradio、Flask 或 FastAPI 制作交互式前端应用程序,到使用 Docker 进行容器化、使用 Kubernetes 和 Helm 进行编排,以及使用 Terraform 实现基础设施自动化,当代的 ML 部署环境是丰富多样的。 利用这些工具不仅可以确保稳健且可扩展的部署,还可以加速从模型开发到现实世界影响的过程。 随着技术生态系统的发展,这些集成工具为简化机器学习部署的时代铺平了道路。

  • 相关阅读:
    从0到1的解释器
    软件测试适合女孩子吗?从以下几点告诉你答案
    Dubbo Data length too large与流式调用
    Tomcat WebSokcet 拒绝服务(CVE-2020-13935)
    Python Flask框架 入门详解与进阶
    数据集成面试题
    MySQL之InnoDB浅析
    对于升级go1.18的goland问题
    在线等!!!新版考纲在国内通过率有多少?
    3分钟学会ubuntu中安装docker
  • 原文地址:https://blog.csdn.net/qq_21305943/article/details/132661604