为了后续项目展开,需要Python、C++、Linux、OpenCV、Mediapipe、ROS知识。
最后面有手势识别(数字)精准案例,项目会用到。
Mediapipe 是一个开源的跨平台框架,它提供了大量的解决方案,用于构建高性能、跨平台的计算机视觉应用。Mediapipe 使用计算图(Calculation Graph)来表示算法的执行流程,可以轻松地组合和扩展不同的算法模块。
Mediapipe 由 Google Research 于 2020 年推出,旨在为计算机视觉研究人员和开发者提供一个易于使用、高性能的框架。Mediapipe 提供了多种预训练模型和算法,涵盖了人脸检测、手势识别、姿态估计等领域。
Mediapipe 可以通过 pip 包管理工具进行安装:
pip install mediapipe
安装 Mediapipe 后,你需要在代码中导入 mediapipe
模块才能使用其功能。
计算图是 Mediapipe 的核心概念,它用于表示算法的执行流程。计算图由节点 (Node) 和边 (Edge) 组成,节点表示算法模块,边表示数据流。 示例(非完全):
- # 创建计算图
- mp_drawing = mp.solutions.drawing_utils
- mp_hands = mp.solutions.hands
- # 创建 Hand 类实例
- hands = mp_hands.Hands()
- # 读取图像
- img = cv2.imread('image.jpg')
- # 将图像转换为 RGB 格式
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = hands.process(img_rgb)
- # 绘制手势关键点
- if results.multi_hand_landmarks:
- for hand_landmarks in results.multi_hand_landmarks:
- mp_drawing.draw_landmarks(
- img,
- hand_landmarks,
- mp_hands.HAND_CONNECTIONS,
- )
- # 显示图像
- cv2.imshow('Image', img)
- cv2.waitKey(0)
- cv2.destroyAllWindows()
节点是计算图中的基本单元,它表示一个算法模块。每个节点都可以接收输入数据,并生成输出数据。 示例:
- # 创建 Hand 类实例
- hands = mp_hands.Hands()
边是连接节点的数据流,它表示节点之间的数据传递关系。 示例:
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = hands.process(img_rgb)
数据流是节点之间传递的数据,它可以是图像、关键点、检测框等。在 Mediapipe 中,数据流通常使用 NormalizedLandmarkList
、Detection
、Landmarks
等数据结构来表示。 示例(非完全):
- # 创建 Hand 类实例
- hands = mp_hands.Hands()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = hands.process(img_rgb)
- # 获取手势关键点
- if results.multi_hand_landmarks:
- for hand_landmarks in results.multi_hand_landmarks:
- # hand_landmarks 是一个 NormalizedLandmarkList 对象
- # 它包含手部的 21 个关键点的位置信息
- for landmark in hand_landmarks.landmark:
- # landmark 是一个 Landmark 对象
- # 它包含关键点的 x, y, z 坐标
- x = landmark.x
- y = landmark.y
- z = landmark.z
数据结构说明:
Mediapipe 提供了人脸检测模块,可以用于检测图像或视频中的 faces。 示例(非完全):
- mp_face_detection = mp.solutions.face_detection
- # 创建 FaceDetection 类实例
- face_detection = mp_face_detection.FaceDetection()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 检测图像中的人脸
- results = face_detection.process(img_rgb)
- # 绘制人脸矩形框
- if results.detections:
- for detection in results.detections:
- mp_drawing.draw_detection(img, detection)
Mediapipe 提供了手势识别模块,可以用于识别图像或视频中的手势。 示例(非完全):
- mp_hands = mp.solutions.hands
- # 创建 Hand 类实例
- hands = mp_hands.Hands()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = hands.process(img_rgb)
- # 绘制手势关键点
- if results.multi_hand_landmarks:
- for hand_landmarks in results.multi_hand_landmarks:
- mp_drawing.draw_landmarks(
- img,
- hand_landmarks,
- mp_hands.HAND_CONNECTIONS,
- )
Mediapipe 提供了姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全):
- mp_pose = mp.solutions.pose
- # 创建 Pose 类实例
- pose = mp_pose.Pose()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = pose.process(img_rgb)
- # 绘制姿态关键点
- if results.pose_landmarks:
- mp_drawing.draw_landmarks(
- img,
- results.pose_landmarks,
- mp_pose.POSE_CONNECTIONS,
- )
Mediapipe 提供了目标跟踪模块,可以用于跟踪图像或视频中的目标。 示例(非完全):
- mp_objectron = mp.solutions.objectron
- # 创建 Objectron 类实例
- objectron = mp_objectron.Objectron()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = objectron.process(img_rgb)
- # 获取目标信息
- if results.multi_object_detections:
- for detection in results.multi_object_detections:
- # detection 是一个 Detection 对象
- # 它包含目标的检测框、置信度等信息
- bounding_box = detection.bounding_box
- score = detection.score
示例(非完全):
- mp_objectron = mp.solutions.objectron
- # 创建 Objectron 类实例
- objectron = mp_objectron.Objectron()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = objectron.process(img_rgb)
- # 获取目标信息
- if results.multi_object_detections:
- for detection in results.multi_object_detections:
- # detection 是一个 Detection 对象
- # 它包含目标的检测框、置信度等信息
- bounding_box = detection.bounding_box
- score = detection.score
Mediapipe 提供了人体姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全):
- mp_pose = mp.solutions.pose
- # 创建 Pose 类实例
- pose = mp_pose.Pose()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = pose.process(img_rgb)
- # 获取姿态关键点
- if results.pose_landmarks:
- # results.pose_landmarks 是一个 Landmarks 对象
- # 它包含人体姿态的 33 个关键点的位置信息
- for landmark in results.pose_landmarks.landmark:
- # landmark 是一个 Landmark 对象
- # 它包含关键点的 x, y, z 坐标
- x = landmark.x
- y = landmark.y
- z = landmark.z
Mediapipe 提供了表情识别模块,可以用于识别图像或视频中的表情。 示例(非完全):
- mp_face_mesh = mp.solutions.face_mesh
- # 创建 FaceMesh 类实例
- face_mesh = mp_face_mesh.FaceMesh()
- # 读取图像
- img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
- # 处理图像
- results = face_mesh.process(img_rgb)
- # 获取面部关键点
- if results.multi_face_landmarks:
- for face_landmarks in results.multi_face_landmarks:
- # face_landmarks 是一个 Landmarks 对象
- # 它包含面部 478 个关键点的位置信息
- for landmark in face_landmarks.landmark:
- # landmark 是一个 Landmark 对象
- # 它包含关键点的 x, y, z 坐标
- x = landmark.x
- y = landmark.y
- z = landmark.z
Mediapipe 支持自定义模型,允许开发者使用自己的模型进行图像处理、计算机视觉和机器学习等任务。这可以通过以下步骤实现:
示例:
- # 加载自定义模型
- model = load_model('path_to_custom_model')
- # 使用自定义模型处理图像
- predictions = model.predict(img)
Mediapipe 提供了多种性能优化工具,可以帮助开发者提高算法的执行效率。以下是一些性能优化的方法:
.with_cpu()
或 .with_gpu()
方法来选择使用 CPU 或 GPU。 - # 使用 CPU 进行加速
- hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5)
- # 使用 GPU 进行加速
- hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
.with_default_model_complexity()
方法来选择模型复杂度,从而实现量化。 - # 选择模型复杂度为 1,进行量化
- hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
.with_default_model_complexity()
方法来选择模型复杂度,从而实现模型剪枝。 - # 选择模型复杂度为 1,进行模型剪枝
- hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。这使得开发者可以轻松地将 Mediapipe 应用到不同的平台上。
Mediapipe 中的数据结构用于存储和传递计算图中的数据。以下是 Mediapipe 中一些常用的数据结构:
NormalizedLandmarkList
是一个数据结构,用于存储归一化的关键点坐标。每个关键点坐标都是相对于输入图像的尺寸归一化的。
- class NormalizedLandmarkList:
- num_landmarks: int
- landmark: List[NormalizedLandmark]
其中,num_landmarks
是关键点的数量,landmark
是一个包含所有关键点的列表,每个关键点是一个 NormalizedLandmark
对象。
Detection
是一个数据结构,用于存储检测框的位置、置信度等信息。
- class Detection:
- bounding_box: BoundingBox
- score: float
- classification: Classification
其中,bounding_box
是检测框的位置,score
是置信度,classification
是分类信息。
Landmarks
是一个数据结构,用于存储关键点的坐标信息。
- class Landmarks:
- num_landmarks: int
- landmark: List[Landmark]
其中,num_landmarks
是关键点的数量,landmark
是一个包含所有关键点的列表,每个关键点是一个 Landmark
对象。
BoundingBox
是一个数据结构,用于存储检测框的位置。
- class BoundingBox:
- origin: Origin
- size: Size
其中,origin
是检测框的左上角坐标,size
是检测框的尺寸。
Classification
是一个数据结构,用于存储分类信息。
- class Classification:
- label: str
- score: float
其中,label
是分类标签,score
是置信度。
Origin
是一个数据结构,用于存储位置信息。
- class Origin:
- x: float
- y: float
其中,x
和 y
是位置坐标。
Size
是一个数据结构,用于存储尺寸信息。
- class Size:
- width: float
- height: float
其中,width
和 height
是尺寸大小。 通过这些数据结构,Mediapipe 可以有效地存储和传递计算图中的数据,使得开发者可以轻松地构建和运行复杂的计算机视觉应用。
手势识别代码案例(精准)
代码地址:Mediapipe_hand_detect: 这份代码是使用Mediapipe进行手势识别,超精准