如何用python按照一定的比例划分图像数据集

### 使用Python按比例划分图像数据集为了按照指定的比例将图像数据集划分为训练集和测试集，可以采用多种方法。一种常见的方式是遍历目标文件夹内的所有图片文件，并随机分配到不同的子集中。对于具体的实现方式，在给定的参考资料中有提及一种较为通用的做法[^5]： ```python import os import random import shutil def get_image_list(path): """获取路径下所有的图片文件""" return [ os.path.join(path, f) for f in os.listdir(path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.tiff', '.bmp')) ] def split_dataset(src_path, train_ratio=0.8, test_folder='./test'): """ 将源文件夹中的图片依据设定好的比率拆分成两个部分参数: src_path (str): 源文件夹位置. train_ratio (float): 训练集所占百分比，默认为0.8即80%作为训练集. test_folder (str): 测试集保存的目标文件夹名称. 返回值: None """ image_paths = get_image_list(src_path) # 打乱顺序以便于后续操作 random.shuffle(image_paths) boundary_index = int(len(image_paths) * train_ratio) training_set = image_paths[:boundary_index] testing_set = image_paths[boundary_index:] prepare_directory(test_folder) move_files_to(training_set, 'train') move_files_to(testing_set, test_folder) def prepare_directory(directory_name): """准备用于存储新集合的新目录.""" try: os.makedirs(directory_name) except FileExistsError: pass # 如果已经存在则忽略错误 def move_files_to(file_list, destination): """移动文件至目的地并保持原有结构.""" base_dest = os.path.abspath(destination) for file_path in file_list: relative_subpath = os.path.dirname(os.path.relpath(file_path)) final_destination = os.path.join(base_dest, relative_subpath) try: os.makedirs(final_destination) except FileExistsError: pass shutil.move(file_path, final_destination) ``` 上述代码定义了一系列函数来完成整个流程：`get_image_list()`负责收集符合条件的所有图片；`split_dataset()`实现了核心逻辑，它接收待处理的数据集所在的位置以及期望保留作训练用途的部分大小（默认情况下设置为总数量的80%，其余20%留做验证）。最后通过辅助性的`prepare_directory()`, `move_files_to()`确保了新的子集能够被妥善安置而不破坏原有的层次关系。值得注意的是，这里假设输入的数据集具有清晰明了的组织形式——每种类别都有自己独立的一级子文件夹存放对应的实例样本。如果实际情况并非如此，则可能需要额外编写预处理器来进行必要的整理工作。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Micropython PS2摇杆

目录

如何用python按照一定的比例划分图像数据集

Python内容推荐

Python数据集划分[项目代码]

基于python-CNN深度学习的鲜花识别.zip

人工智能深度学习Yolov7训练自己的数据集（超详细教程）对应python源码，将数据集随机按比例分为训练集、验证集和测试集 Yolov7训练自己的数

python实现将labelme数据标注格式转换为Yolo语义分割数据集（自动划分训练集合验证集）.zip

Python-获取Human36M3D人体姿态数据集

python voc数据集.docx

Python代码批处理图片，按照宽度等比例缩放

yolo数据集等比例转化

YOLO格式SSDD数据集，按照训练集、验证集、测试集7:2:1随机划分(附划分代码)

YOLO分割模型数据集处理[代码]

YOLO准备数据集脚本

YOLO数据集标注与格式[源码]

YOLOv8实例分割数据集制作[项目源码]

制作VOC2007数据集用到的一些代码

flowers数据集.rar

Mnist数据集预处理：分割数据集图片，无损转换为jpg文件，调整图片格式为2040.zip

模仿mnist数据集制作自己的数据集

FS2K数据集转换为torchvision.dataset格式

共1311张图像，共2类别，2类别分别是 好 坏 map50 99%以上 数据集划分:【训练集、验证集、测试集】【941:267:133】

船舶图片数据集.rar

闲鱼自动发货系统[可运行源码]

智能闲鱼客服机器人系统：专为闲鱼平台打造的AI值守解决方案，实现闲鱼平台7×24小时自动化值守，支持多专家协同决策、智能议价和上.zip

校园二手平台开发与市场分析.zip

闲鱼自动回复系统：闲鱼智能客服与商品自动发货工具

闲鱼自动发货系统部署教程[项目源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

共1311张图像，共2类别，2类别分别是好坏 map50 99%以上数据集划分:【训练集、验证集、测试集】【941:267:133】