• 1.1 Mediapipe随手简记(一)


    为了后续项目展开,需要Python、C++、Linux、OpenCV、Mediapipe、ROS知识。

    最后面有手势识别(数字)精准案例,项目会用到。

    Mediapipe学习篇1

    Mediapipe 是一个开源的跨平台框架,它提供了大量的解决方案,用于构建高性能、跨平台的计算机视觉应用。Mediapipe 使用计算图(Calculation Graph)来表示算法的执行流程,可以轻松地组合和扩展不同的算法模块。

    1. Mediapipe 简介

    1.1 Mediapipe 的起源和发展

    Mediapipe 由 Google Research 于 2020 年推出,旨在为计算机视觉研究人员和开发者提供一个易于使用、高性能的框架。Mediapipe 提供了多种预训练模型和算法,涵盖了人脸检测、手势识别、姿态估计等领域。

    1.2 Mediapipe 的特点和优势

    • 易于使用:Mediapipe 的 API 设计简洁易懂,易于学习和使用。
    • 高性能:Mediapipe 使用计算图优化算法的执行流程,可以实现高性能的实时处理。
    • 跨平台:Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。
    • 模块化:Mediapipe 的算法模块是可插拔的,可以轻松地组合和扩展不同的算法。

    2. Mediapipe 安装和配置

    2.1 Mediapipe 安装

    Mediapipe 可以通过 pip 包管理工具进行安装:

    pip install mediapipe

    2.2 Mediapipe 配置

    安装 Mediapipe 后,你需要在代码中导入 mediapipe 模块才能使用其功能。

    3. Mediapipe 基础

    3.1 计算图 (Calculation Graph)

    计算图是 Mediapipe 的核心概念,它用于表示算法的执行流程。计算图由节点 (Node) 和边 (Edge) 组成,节点表示算法模块,边表示数据流。 示例(非完全)

    1. # 创建计算图
    2. mp_drawing = mp.solutions.drawing_utils
    3. mp_hands = mp.solutions.hands
    4. # 创建 Hand 类实例
    5. hands = mp_hands.Hands()
    6. # 读取图像
    7. img = cv2.imread('image.jpg')
    8. # 将图像转换为 RGB 格式
    9. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    10. # 处理图像
    11. results = hands.process(img_rgb)
    12. # 绘制手势关键点
    13. if results.multi_hand_landmarks:
    14. for hand_landmarks in results.multi_hand_landmarks:
    15. mp_drawing.draw_landmarks(
    16. img,
    17. hand_landmarks,
    18. mp_hands.HAND_CONNECTIONS,
    19. )
    20. # 显示图像
    21. cv2.imshow('Image', img)
    22. cv2.waitKey(0)
    23. cv2.destroyAllWindows()

    3.2 节点 (Node)

    节点是计算图中的基本单元,它表示一个算法模块。每个节点都可以接收输入数据,并生成输出数据。 示例

    1. # 创建 Hand 类实例
    2. hands = mp_hands.Hands()

    3.3 边 (Edge)

    边是连接节点的数据流,它表示节点之间的数据传递关系。 示例

    1. # 读取图像
    2. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    3. # 处理图像
    4. results = hands.process(img_rgb)

    3.4 数据流

    数据流是节点之间传递的数据,它可以是图像、关键点、检测框等。在 Mediapipe 中,数据流通常使用 NormalizedLandmarkListDetectionLandmarks 等数据结构来表示。 示例(非完全)

    1. # 创建 Hand 类实例
    2. hands = mp_hands.Hands()
    3. # 读取图像
    4. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    5. # 处理图像
    6. results = hands.process(img_rgb)
    7. # 获取手势关键点
    8. if results.multi_hand_landmarks:
    9. for hand_landmarks in results.multi_hand_landmarks:
    10. # hand_landmarks 是一个 NormalizedLandmarkList 对象
    11. # 它包含手部的 21 个关键点的位置信息
    12. for landmark in hand_landmarks.landmark:
    13. # landmark 是一个 Landmark 对象
    14. # 它包含关键点的 x, y, z 坐标
    15. x = landmark.x
    16. y = landmark.y
    17. z = landmark.z

    数据结构说明

    • NormalizedLandmarkList:表示一组归一化的关键点,其中每个关键点的坐标值都在 0 到 1 之间。
    • Detection:表示一个检测框,包含检测框的位置、置信度等信息。
    • Landmarks:表示一组关键点,包含关键点的坐标信息。

    4. Mediapipe 常用算法模块

    4.1 人脸检测

    Mediapipe 提供了人脸检测模块,可以用于检测图像或视频中的 faces。 示例(非完全)

    1. mp_face_detection = mp.solutions.face_detection
    2. # 创建 FaceDetection 类实例
    3. face_detection = mp_face_detection.FaceDetection()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 检测图像中的人脸
    7. results = face_detection.process(img_rgb)
    8. # 绘制人脸矩形框
    9. if results.detections:
    10. for detection in results.detections:
    11. mp_drawing.draw_detection(img, detection)

    4.2 手势识别

    Mediapipe 提供了手势识别模块,可以用于识别图像或视频中的手势。 示例(非完全)

    1. mp_hands = mp.solutions.hands
    2. # 创建 Hand 类实例
    3. hands = mp_hands.Hands()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = hands.process(img_rgb)
    8. # 绘制手势关键点
    9. if results.multi_hand_landmarks:
    10. for hand_landmarks in results.multi_hand_landmarks:
    11. mp_drawing.draw_landmarks(
    12. img,
    13. hand_landmarks,
    14. mp_hands.HAND_CONNECTIONS,
    15. )

    4.3 姿态估计

    Mediapipe 提供了姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

    1. mp_pose = mp.solutions.pose
    2. # 创建 Pose 类实例
    3. pose = mp_pose.Pose()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = pose.process(img_rgb)
    8. # 绘制姿态关键点
    9. if results.pose_landmarks:
    10. mp_drawing.draw_landmarks(
    11. img,
    12. results.pose_landmarks,
    13. mp_pose.POSE_CONNECTIONS,
    14. )

    4.4 目标跟踪

    Mediapipe 提供了目标跟踪模块,可以用于跟踪图像或视频中的目标。 示例(非完全)

    1. mp_objectron = mp.solutions.objectron
    2. # 创建 Objectron 类实例
    3. objectron = mp_objectron.Objectron()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = objectron.process(img_rgb)
    8. # 获取目标信息
    9. if results.multi_object_detections:
    10. for detection in results.multi_object_detections:
    11. # detection 是一个 Detection 对象
    12. # 它包含目标的检测框、置信度等信息
    13. bounding_box = detection.bounding_box
    14. score = detection.score

    示例(非完全)

    1. mp_objectron = mp.solutions.objectron
    2. # 创建 Objectron 类实例
    3. objectron = mp_objectron.Objectron()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = objectron.process(img_rgb)
    8. # 获取目标信息
    9. if results.multi_object_detections:
    10. for detection in results.multi_object_detections:
    11. # detection 是一个 Detection 对象
    12. # 它包含目标的检测框、置信度等信息
    13. bounding_box = detection.bounding_box
    14. score = detection.score

    4.5 人体姿态估计

    Mediapipe 提供了人体姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

    1. mp_pose = mp.solutions.pose
    2. # 创建 Pose 类实例
    3. pose = mp_pose.Pose()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = pose.process(img_rgb)
    8. # 获取姿态关键点
    9. if results.pose_landmarks:
    10. # results.pose_landmarks 是一个 Landmarks 对象
    11. # 它包含人体姿态的 33 个关键点的位置信息
    12. for landmark in results.pose_landmarks.landmark:
    13. # landmark 是一个 Landmark 对象
    14. # 它包含关键点的 x, y, z 坐标
    15. x = landmark.x
    16. y = landmark.y
    17. z = landmark.z

    4.6 表情识别

    Mediapipe 提供了表情识别模块,可以用于识别图像或视频中的表情。 示例(非完全)

    1. mp_face_mesh = mp.solutions.face_mesh
    2. # 创建 FaceMesh 类实例
    3. face_mesh = mp_face_mesh.FaceMesh()
    4. # 读取图像
    5. img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    6. # 处理图像
    7. results = face_mesh.process(img_rgb)
    8. # 获取面部关键点
    9. if results.multi_face_landmarks:
    10. for face_landmarks in results.multi_face_landmarks:
    11. # face_landmarks 是一个 Landmarks 对象
    12. # 它包含面部 478 个关键点的位置信息
    13. for landmark in face_landmarks.landmark:
    14. # landmark 是一个 Landmark 对象
    15. # 它包含关键点的 x, y, z 坐标
    16. x = landmark.x
    17. y = landmark.y
    18. z = landmark.z

    5. Mediapipe 高级功能

    5.1 自定义模型

    Mediapipe 支持自定义模型,允许开发者使用自己的模型进行图像处理、计算机视觉和机器学习等任务。这可以通过以下步骤实现:

    1. 训练模型:使用如 TensorFlow、PyTorch 等深度学习框架训练你的模型。
    2. 导出模型:将训练好的模型导出为 ONNX 或 TF Lite 等格式。
    3. 加载模型:在 Mediapipe 中加载导出的模型。
    4. 使用模型:在处理图像时,使用加载的模型进行预测。

    示例

    1. # 加载自定义模型
    2. model = load_model('path_to_custom_model')
    3. # 使用自定义模型处理图像
    4. predictions = model.predict(img)

    5.2 性能优化

    Mediapipe 提供了多种性能优化工具,可以帮助开发者提高算法的执行效率。以下是一些性能优化的方法:

    1. CPU/GPU 加速:Mediapipe 可以使用 CPU 或 GPU 进行加速,提高算法的执行效率。在构建计算图时,可以通过指定 .with_cpu() 或 .with_gpu() 方法来选择使用 CPU 或 GPU。
      1. # 使用 CPU 进行加速
      2. hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5)
      3. # 使用 GPU 进行加速
      4. hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
    2. 量化模型:Mediapipe 支持量化模型,可以减小模型的体积,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现量化。
      1. # 选择模型复杂度为 1,进行量化
      2. hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
    3. 模型剪枝:Mediapipe 支持模型剪枝,可以去除模型中不必要的参数,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现模型剪枝。
      1. # 选择模型复杂度为 1,进行模型剪枝
      2. hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)

    5.3 跨平台支持

    Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。这使得开发者可以轻松地将 Mediapipe 应用到不同的平台上。

    6. Mediapipe 数据结构

    Mediapipe 中的数据结构用于存储和传递计算图中的数据。以下是 Mediapipe 中一些常用的数据结构:

    6.1 NormalizedLandmarkList

    NormalizedLandmarkList 是一个数据结构,用于存储归一化的关键点坐标。每个关键点坐标都是相对于输入图像的尺寸归一化的。

    1. class NormalizedLandmarkList:
    2. num_landmarks: int
    3. landmark: List[NormalizedLandmark]

    其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 NormalizedLandmark 对象。

    6.2 Detection

    Detection 是一个数据结构,用于存储检测框的位置、置信度等信息。

    1. class Detection:
    2. bounding_box: BoundingBox
    3. score: float
    4. classification: Classification

    其中,bounding_box 是检测框的位置,score 是置信度,classification 是分类信息。

    6.3 Landmarks

    Landmarks 是一个数据结构,用于存储关键点的坐标信息。

    1. class Landmarks:
    2. num_landmarks: int
    3. landmark: List[Landmark]

    其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 Landmark 对象。

    6.4 BoundingBox

    BoundingBox 是一个数据结构,用于存储检测框的位置。

    1. class BoundingBox:
    2. origin: Origin
    3. size: Size

    其中,origin 是检测框的左上角坐标,size 是检测框的尺寸。

    6.5 Classification

    Classification 是一个数据结构,用于存储分类信息。

    1. class Classification:
    2. label: str
    3. score: float

    其中,label 是分类标签,score 是置信度。

    6.6 Origin

    Origin 是一个数据结构,用于存储位置信息。

    1. class Origin:
    2. x: float
    3. y: float

    其中,x 和 y 是位置坐标。

    6.7 Size

    Size 是一个数据结构,用于存储尺寸信息。

    1. class Size:
    2. width: float
    3. height: float

    其中,width 和 height 是尺寸大小。 通过这些数据结构,Mediapipe 可以有效地存储和传递计算图中的数据,使得开发者可以轻松地构建和运行复杂的计算机视觉应用。

    698507039f0047cd9a847a37a7118ac0.png

    手势识别代码案例(精准)

    b15fb8d407cc4b44b3f252252b94d30f.png

    f9171e562a7e4b628a7e65c1d29c7a39.png

    f57bdc823e274f3bb082b95192c8982a.png

    9229edc1825b4c53a474b5215170abe6.png

    232fa9e7264d4c6c9173fd3a270f892d.png

    代码地址:Mediapipe_hand_detect: 这份代码是使用Mediapipe进行手势识别,超精准

     

  • 相关阅读:
    全排列:让我看到未来所有的可能 -> 跨越CV小白的回溯算法
    IDEA插件开发(25)--Color Scheme Management
    JavaScript系列之构造函数与原型
    《RISC-V体系结构编程与实践》的benos_payload程序——mysbi跳转到benos分析
    Parallels Desktop 19.1.0 pd Mac 虚拟机解决方案
    Spring MVC 源码分析
    Tomcat运行常见问题
    android FM DAB相关的知识
    Fiddler的配置和使用
    常见的应用层协议都有哪些?【面试官可能会问系列】
  • 原文地址:https://blog.csdn.net/SSS465/article/details/139373859