• pytorch 数据载入


    PyTorch中,数据载入是训练深度学习模型的重要一环。
    本文将介绍三种常用的数据载入方式:Dataset、DataLoader、以及自定义的数据加载器

    1. 使用 Dataset 载入数据
      方法:
    from torch.utils.data import Dataset
    
    class CustomDataset(Dataset):
        def __init__(self, ...):
            # 初始化数据集
            # ...
    
        def __len__(self):
            # 返回数据集的大小
            return len(self.data)
    
        def __getitem__(self, idx):
            # 根据索引返回样本和标签
            return self.data[idx], self.labels[idx]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    使用示例:

    custom_dataset = CustomDataset(...)
    
    • 1
    1. 使用 DataLoader 加载数据集
      方法:
    from torch.utils.data import DataLoader
    
    data_loader = DataLoader(
        dataset,
        batch_size=32,
        shuffle=True,
        num_workers=4,
        drop_last=True,
    )
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    参数说明:
    dataset: 要加载的数据集对象。
    batch_size: 每个批次的样本数量。
    shuffle: 是否在每个 epoch 开始时打乱数据。
    num_workers: 用于数据加载的进程数。
    drop_last: 是否丢弃最后一个不完整的批次。
    使用示例:

    for data, labels in data_loader:
        # 训练模型的逻辑
    
    • 1
    • 2
    1. 使用自定义的 Data Loader
      方法:
    from torch.utils.data import DataLoader, IterableDataset
    
    class CustomDataLoader(IterableDataset):
        def __init__(self, ...):
            # 初始化数据加载器
            # ...
    
        def __iter__(self):
            # 返回一个迭代器
            return iter(self.data)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    使用示例:

    custom_loader = CustomDataLoader(...)
    for data in custom_loader:
        # 自定义数据处理逻辑
    
    • 1
    • 2
    • 3

    注意事项:
    Dataset 和 DataLoader 是 PyTorch 提供的数据载入工具,通常能满足大多数情况。
    自定义数据加载器 (IterableDataset) 可以用于特殊情况下的数据加载需求。
    总结:
    使用 Dataset 创建数据集对象,实现 lengetitem 方法。
    使用 DataLoader 加载数据集,设置参数如 batch_size、shuffle 等。
    可选地,使用自定义的数据加载器 (IterableDataset) 处理特殊情况下的数据载入需求。

  • 相关阅读:
    [数据结构]~栈和队列(0-1)
    2021中国科学院文献情报中心期刊分区表 计算机(2)
    列表自动向上滚动
    基于SpringBoot的车辆充电桩管理系统
    MySQL的`count(expr)`函数选择指南
    btree,hash,fulltext,Rtree索引类型区别及使用场景
    基于 golang 从零到一实现时间轮算法 (三)
    博客维护记录之图片预览嵌入位置问题
    java 业务幂等解决方案
    反序列化__wakeup
  • 原文地址:https://blog.csdn.net/YJG7D314/article/details/133625318