YOLOv6-4.0部分代码阅读笔记-voc2yolo.py

voc2yolo.py

yolov6\data\voc2yolo.py

voc2yolo.py

1.所需的库和模块

2.def convert_label(path, lb_path, year, image_id):

3.def gen_voc07_12(voc_path):

4.def main(args):

5.if __name__ == '__main__':

1.所需的库和模块


import xml.etree.ElementTree as ET
from tqdm import tqdm
import os
import shutil
import argparse
 
# VOC dataset (refer https://github.com/ultralytics/yolov5/blob/master/data/VOC.yaml)
# VOC2007 trainval: 446MB, 5012 images
# VOC2007 test:     438MB, 4953 images
# VOC2012 trainval: 1.95GB, 17126 images
 
# VOC_NAMES 是一个包含 Pascal VOC 数据集类别名称的列表。
VOC_NAMES = ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog',
             'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor']

2.def convert_label(path, lb_path, year, image_id):


# 它用于将 Pascal VOC 数据集中的 XML 格式的标签文件转换为 YOLO 格式的文本标签文件。Pascal VOC 数据集的标签文件通常以 XML 格式存储，而 YOLO 格式的标签文件则是一个文本文件，其中每一行代表一个边界框，包含类别 ID 和边界框的坐标。
# 1.path ：包含 XML 标签文件的目录的路径。
# 2.lb_path ：输出的 YOLO 格式标签文件的路径。
# 3.year ：Pascal VOC 数据集的年份，例如 2007 或 2012 。
# 4.image_id ：图像的 ID，它对应于 XML 标签文件的名称（不包括 .xml 扩展名）。
def convert_label(path, lb_path, year, image_id):
    # 函数的目的是将边界框（bounding box）的坐标从绝对像素值转换为相对于图像宽度和高度的比例值。这种转换在目标检测任务中很常见，因为它使得模型对不同尺寸的图像具有更好的泛化能力。
    # 1.size ：一个包含两个元素的元组或列表，分别代表图像的宽度和高度。
    # 2.box ：一个包含四个元素的列表或元组，代表边界框的坐标，通常是 [xmin, xmax, ymin, ymax] 。
    def convert_box(size, box):
        # dw 和 dh 分别计算为图像宽度和高度的倒数。这些值将用于将边界框的宽度和高度转换为相对于图像大小的比例值。
        dw, dh = 1. / size[0], 1. / size[1]
        # x 和 y 计算边界框的中心点坐标。这是通过取边界框左右（ xmin 和 xmax ）或上下（ ymin 和 ymax ）坐标的平均值，然后减去 1 来实现的。减去 1 的操作是为了将坐标从 0 到宽度/高度的范围转换为 0 到 1 的范围。
        # w 和 h 分别计算边界框的宽度和高度。这是通过从 xmax 减去 xmin 和从 ymax 减去 ymin 来实现的。
        x, y, w, h = (box[0] + box[1]) / 2.0 - 1, (box[2] + box[3]) / 2.0 - 1, box[1] - box[0], box[3] - box[2]
        # 最后，函数返回边界框的中心点坐标（ x 和 y ）以及宽度和高度（ w 和 h ），它们都已经被转换为相对于图像大小的比例值。
        return x * dw, y * dh, w * dw, h * dh
    # 使用 os.path.join 构建 XML 文件的完整路径。这个路径由用户提供的 path （标签文件所在的根目录）、数据集的年份 year （如 2007 或 2012 ），以及图像的 ID image_id 组成。
    # open 函数用于打开这个 XML 文件，返回一个文件对象 in_file 。
    in_file = open(os.path.join(path, f'VOC{year}/Annotations/{image_id}.xml'))
    # 使用 open 函数以写入模式（ 'w' ）打开输出文件，返回一个文件对象 out_file 。如果文件已存在，则覆盖；如果不存在，则创建。
    out_file = open(lb_path, 'w')
    # 使用 xml.etree.ElementTree （通常缩写为 ET ）模块的 parse 方法解析打开的 XML 文件对象 in_file ，返回一个包含 XML 文件内容的树形结构对象 tree 。
    tree = ET.parse(in_file)
    # 从 tree 对象中获取 XML 文件的根元素，并将其存储在 root 变量中。
    root = tree.getroot()
    # 在 root 元素中查找  子元素，并将其存储在 size 变量中。  元素包含了图像的尺寸信息。
    size = root.find('size')
    # 在 size 元素中查找  子元素，获取其文本内容（即图像的宽度），并将其转换为整数类型，存储在变量 w 中。
    w = int(size.find('width').text)
    # 类似地，在 size 元素中查找  子元素，获取其文本内容（即图像的高度），并将其转换为整数类型，存储在变量 h 中。
    h = int(size.find('height').text)
    # 使用 iter 方法遍历 XML 根元素 root 下所有的