ImageNet验证集分类实战：Python脚本自动整理val数据到对应文件夹

# ImageNet验证集高效整理：Python自动化分类脚本全解析如果你曾经尝试直接使用ImageNet的原始验证集，大概率会被那50000张图片全部堆在一个文件夹里的景象搞得头疼不已。没有按类别分门别类，意味着每次测试模型性能时，都需要额外处理标签文件，效率低下且容易出错。这种混乱的数据组织方式，已经成为许多计算机视觉研究者入门时的第一个“拦路虎”。实际上，ImageNet官方提供的验证集（val）确实是以这种“一锅端”的形式分发的，所有图像文件（如ILSVRC2012_val_00000001.JPEG）都存放在同一个目录下，而对应的标签信息则单独存储在一个文本文件中。这种设计虽然减少了分发时的复杂性，却给实际使用带来了不小的麻烦。想象一下，当你需要快速验证某个模型在“贵宾犬”和“吉娃娃”这两个类别上的表现差异时，却要从五万张图片中手动筛选，这无疑是时间和精力的巨大浪费。本文面向的正是那些需要处理ImageNet数据集的研究人员、算法工程师以及深度学习爱好者。无论你是正在搭建自己的训练 pipeline，还是需要为模型评估准备标准化的测试环境，一个结构清晰的验证集都是不可或缺的基础设施。接下来，我将分享一套经过实战检验的Python脚本解决方案，它不仅能自动读取标签文件、创建对应的类别文件夹，还能精准地将数万张图像“各归其位”。这套方法的核心优势在于**全自动化**和**高可靠性**，一次性解决数据整理的痛点，让你能把宝贵的时间专注于模型本身，而非繁琐的数据预处理。 ## 1. 理解ImageNet验证集的结构与挑战在动手编写脚本之前，我们有必要彻底搞清楚ImageNet验证集（ILSVRC2012_img_val）的原始样貌以及它为何如此令人困扰。ImageNet大规模视觉识别挑战赛（ILSVRC）所使用的数据集，通常被称为ImageNet-1K，它包含1000个物体类别，训练集（train）约有130万张图像，验证集（val）则有5万张图像。 **原始验证集的典型目录结构如下：** ``` ILSVRC2012_img_val/ ├── ILSVRC2012_val_00000001.JPEG ├── ILSVRC2012_val_00000002.JPEG ├── ILSVRC2012_val_00000003.JPEG ... └── ILSVRC2012_val_00050000.JPEG ``` 是的，你没有看错，5万张图片毫无组织地排列在一起。与之配套的，是一个关键的文本文件（通常命名为`val.txt`或`ILSVRC2012_validation_ground_truth.txt`）。这个文件定义了每张图片对应的类别标签。其格式通常有两种常见变体： 1. **“图片路径标签ID”格式**：每一行包含图片文件名（不含路径）和一个空格分隔的整数标签。 ``` ILSVRC2012_val_00000001.JPEG 65 ILSVRC2012_val_00000002.JPEG 97 ILSVRC2012_val_00000003.JPEG 98 ... ``` 2. **纯标签ID格式**：文件只包含5万个按顺序排列的标签ID，每一行一个数字，行号与验证集图片按文件名排序后的顺序一一对应。第一种格式更为友好，因为它明确建立了文件名与标签的映射关系。我们即将构建的自动化流程，正是基于这种格式设计的。如果你拿到的是第二种格式的标签文件，则需要额外一步，将验证集图片按文件名（通常是数字部分）排序后，再与标签列表进行配对。 > **注意**：ImageNet的标签ID（0-999）与具体的类别名称（如“n01440764”对应“tench, Tinca tinca”）的映射关系，通常由另一个文件（如`synset_words.txt`或`LOC_synset_mapping.txt`）提供。在单纯的分类任务中，我们通常只关心数字ID。但如果你需要人类可读的类别名，就需要加载这个映射文件。这种原始结构带来的主要挑战有三点： * **评估效率低**：无法直接按类别计算准确率、召回率等指标，需要每次遍历标签文件。 * **可视化困难**：难以快速查看某个类别下所有的正确或错误分类样本。 * **易出错**：手动处理数万条数据，极易在排序、索引对应上出现偏差。理解了问题和数据的本质，我们就能有的放矢地设计解决方案。 ## 2. 构建自动化分类脚本的核心模块我们的目标是将杂乱的`ILSVRC2012_img_val`文件夹，转换成一个结构清晰、便于使用的数据集。理想的输出结构应该与训练集（train）保持一致： ``` ILSVRC2012_img_val_sorted/ ├── n01440764/ │ ├── ILSVRC2012_val_00000001.JPEG │ ├── ILSVRC2012_val_00012345.JPEG │ └── ... ├── n01443537/ │ ├── ILSVRC2012_val_00000002.JPEG │ └── ... ├── n01484850/ │ └── ... └── ... (共1000个文件夹) ``` 其中，`n01440764`等是ImageNet使用的唯一类别标识符（Synset ID）。下面，我们将分步构建实现这一转换的Python脚本。 ### 2.1 环境准备与依赖安装首先，确保你的工作环境已就绪。本项目对Python版本要求宽松，Python 3.6及以上均可。除了标准库，我们主要依赖`PIL`（Pillow）库来处理图像文件。虽然原始数据是JPEG，用`PIL`打开并保存可以确保兼容性，并能在必要时进行格式转换。使用pip安装所需库： ```bash pip install Pillow ``` 如果你的系统中图像处理任务繁重，也可以考虑安装`opencv-python`，但本例中Pillow已足够轻量高效。接下来，规划你的目录结构。建议如下组织： ``` your_project/ ├── sort_imagenet_val.py # 主脚本 ├── val.txt # 图片名与标签的映射文件 ├── ILSVRC2012_img_val/ # 原始验证集图片文件夹 (5万张JPEG) └── sorted_val/ # 脚本运行后生成的结构化验证集 (目标文件夹) ``` `val.txt`文件需要你提前准备好。如果你从官方渠道下载验证集，这个文件可能包含在开发工具包（DevKit）中。如果找不到，也可以从一些开源项目或社区资源中获取。 ### 2.2 脚本设计与代码实现我们将脚本逻辑分为两个清晰的阶段：**创建类别文件夹**和**移动/复制图片**。下面是一个完整、健壮且带有详细错误处理的实现。 ```python #!/usr/bin/env python3 """ ImageNet验证集自动分类脚本功能：根据val.txt将ILSVRC2012_img_val中的图片分类到以标签命名的子文件夹中。 """ import os import shutil from pathlib import Path from PIL import Image import argparse def create_category_folders(label_to_synset_map, target_root): """ 根据标签映射关系，在目标根目录下创建所有类别文件夹。参数: label_to_synset_map (dict): 标签ID到Synset ID的映射字典。 target_root (str or Path): 目标根目录路径。 """ target_path = Path(target_root) # 确保目标根目录存在 target_path.mkdir(parents=True, exist_ok=True) print(f"正在目标目录下创建类别文件夹: {target_path}") created_count = 0 existing_count = 0 # 遍历所有可能的标签ID（0-999），根据映射创建文件夹 # 如果映射文件中只包含部分标签，则只创建这些文件夹 for label_id, synset_id in label_to_synset_map.items(): folder_path = target_path / synset_id try: folder_path.mkdir(exist_ok=True) if folder_path.exists(): if not any(folder_path.iterdir()): # 如果是新创建的 created_count += 1 else: existing_count += 1 except Exception as e: print(f"创建文件夹失败: {folder_path}, 错误: {e}") print(f"文件夹创建完成。新建: {created_count} 个，已存在: {existing_count} 个。") def load_mapping_file(mapping_file_path, label_file_format='synset'): """ 加载标签映射文件。这里处理两种常见格式： 1. 'synset'格式: 每行是 'synset_id label_id' (如 'n01440764 0') 2. 'words'格式: 每行是 'synset_id words...' (如 'n01440764 tench, Tinca tinca') 参数: mapping_file_path (str): 映射文件路径。 label_file_format (str): 文件格式，'synset' 或 'words'。返回: dict: 标签ID (int) -> Synset ID (str) 的映射字典。 """ label_map = {} try: with open(mapping_file_path, 'r') as f: for line_num, line in enumerate(f, 1): line = line.strip() if not line: continue parts = line.split() if label_file_format == 'synset' and len(parts) >= 2: synset_id = parts[0] try: label_id = int(parts[1]) label_map[label_id] = synset_id except ValueError: print(f"警告: 第{line_num}行标签ID不是整数: {parts[1]}") elif label_file_format == 'words' and len(parts) >= 1: synset_id = parts[0] # 在这种格式中，标签ID通常是行号-1（如果从0开始） label_id = line_num - 1 label_map[label_id] = synset_id except FileNotFoundError: print(f"错误: 映射文件未找到: {mapping_file_path}") return None return label_map def classify_images(source_dir, target_root, val_txt_path, label_map): """ 核心分类函数：读取val.txt，将图片复制到对应的类别文件夹。参数: source_dir (str or Path): 原始验证集图片目录。 target_root (str or Path): 目标根目录。 val_txt_path (str or Path): val.txt文件路径。 label_map (dict): 标签ID到Synset ID的映射。 """ source_path = Path(source_dir) target_path = Path(target_root) if not source_path.exists(): print(f"错误: 源目录不存在: {source_path}") return # 统计信息 total_processed = 0 success_count = 0 error_list = [] print("开始分类图片...") try: with open(val_txt_path, 'r') as f: for line in f: line = line.strip() if not line: continue # 解析每一行：假设格式为 "filename.jpg label_id" parts = line.split() if len(parts) != 2: print(f"警告: 跳过格式异常的行: {line}") continue filename, label_str = parts try: label_id = int(label_str) except ValueError: print(f"警告: 标签非整数，跳过: {line}") continue # 获取对应的Synset ID（类别文件夹名） synset_id = label_map.get(label_id) if synset_id is None: print(f"警告: 标签ID {label_id} 在映射表中未找到，跳过文件: {filename}") error_list.append(f"{filename}: 未知标签 {label_id}") continue # 构建源文件路径和目标文件路径 src_file = source_path / filename dst_dir = target_path / synset_id dst_file = dst_dir / filename # 检查源文件是否存在 if not src_file.is_file(): print(f"警告: 源文件不存在，跳过: {src_file}") error_list.append(f"{filename}: 源文件缺失") continue # 确保目标文件夹存在（理论上已创建，双重检查） dst_dir.mkdir(exist_ok=True) # 复制文件（使用PIL打开再保存，确保图像数据完好） try: with Image.open(src_file) as img: # 可选：转换为RGB模式，避免Alpha通道等问题 if img.mode in ('RGBA', 'LA', 'P'): img = img.convert('RGB') img.save(dst_file, quality=95) # 保持高质量保存 success_count += 1 except Exception as e: print(f"错误: 处理图片失败 {src_file}: {e}") error_list.append(f"{filename}: 图片处理错误 - {e}") total_processed += 1 if total_processed % 1000 == 0: print(f"已处理 {total_processed} 张图片...") except FileNotFoundError: print(f"错误: val.txt文件未找到: {val_txt_path}") return print("\n分类完成！") print(f"总计处理行数: {total_processed}") print(f"成功分类图片: {success_count}") print(f"失败数量: {len(error_list)}") if error_list: print("失败详情（前10项）:") for err in error_list[:10]: print(f" - {err}") if len(error_list) > 10: print(f" ... 以及另外 {len(error_list)-10} 个错误") def main(): parser = argparse.ArgumentParser(description='ImageNet验证集自动分类工具') parser.add_argument('--source', type=str, default='ILSVRC2012_img_val', help='原始验证集图片目录路径 (默认: ILSVRC2012_img_val)') parser.add_argument('--target', type=str, default='sorted_val', help='分类后输出的目标根目录 (默认: sorted_val)') parser.add_argument('--val_txt', type=str, default='val.txt', help='包含"图片名标签"的映射文件 (默认: val.txt)') parser.add_argument('--map_file', type=str, default='synset_words.txt', help='标签ID到Synset ID的映射文件 (默认: synset_words.txt)') parser.add_argument('--map_format', choices=['synset', 'words'], default='words', help='映射文件格式: "synset"(n01440764 0) 或 "words"(n01440764 tench...) (默认: words)') args = parser.parse_args() print("="*50) print("ImageNet验证集分类脚本启动") print("="*50) # 1. 加载标签映射 print(f"[步骤1] 加载标签映射文件: {args.map_file}") label_map = load_mapping_file(args.map_file, args.map_format) if label_map is None: return print(f" 加载成功，共 {len(label_map)} 个标签映射。") # 2. 创建类别文件夹 print(f"\n[步骤2] 在 '{args.target}' 中创建类别文件夹") create_category_folders(label_map, args.target) # 3. 分类图片 print(f"\n[步骤3] 从 '{args.source}' 分类图片到 '{args.target}'") classify_images(args.source, args.target, args.val_txt, label_map) print("\n" + "="*50) print("所有操作执行完毕！") print("="*50) if __name__ == '__main__': main() ``` 这个脚本的设计考虑了实用性和健壮性： * **参数化**：使用`argparse`模块，允许用户通过命令行参数指定输入输出路径，无需修改代码。 * **错误处理**：对文件不存在、格式错误、图片损坏等情况进行了捕获和提示，避免整个脚本因单个错误而崩溃。 * **进度反馈**：每处理1000张图片输出一次进度，对于处理5万张图片的任务，能让你安心地知道程序正在运行。 * **使用Pathlib**：采用现代、面向对象的`pathlib`模块处理路径，比传统的`os.path`更清晰、更安全。 * **图像保真**：使用Pillow打开并保存图片，可以确保图像数据被正确读取和写入，避免直接的二进制复制可能遇到的元数据问题。 ## 3. 实战运行与结果验证有了脚本，让我们看看如何实际运行它，并验证结果是否正确。 ### 3.1 命令行执行与参数详解假设你的文件目录结构如前文所述，并且你已经准备好了`val.txt`和`synset_words.txt`（或同类映射文件）。打开终端（Linux/macOS）或命令提示符/PowerShell（Windows），进入`your_project`目录。 **基本运行命令：** ```bash python sort_imagenet_val.py ``` 这将使用所有默认参数：从`ILSVRC2012_img_val`读取图片，依据`val.txt`和`synset_words.txt`的映射，将分类结果输出到`sorted_val`文件夹。 **自定义路径运行：** 如果你的文件不在默认位置，可以使用参数指定： ```bash python sort_imagenet_val.py --source /path/to/your/ILSVRC2012_img_val \ --target /path/to/output/sorted_val \ --val_txt /path/to/your/val.txt \ --map_file /path/to/your/synset_words.txt ``` **处理不同格式的映射文件：** 如果你拥有的映射文件是每行“synset_id label_id”的格式（例如 `n01440764 0`），则需要指定`--map_format synset`： ```bash python sort_imagenet_val.py --map_format synset ``` 脚本运行后，你将在终端看到类似如下的输出，清晰地展示了每个步骤的进展： ``` ================================================== ImageNet验证集分类脚本启动 ================================================== [步骤1] 加载标签映射文件: synset_words.txt 加载成功，共 1000 个标签映射。 [步骤2] 在 'sorted_val' 中创建类别文件夹正在目标目录下创建类别文件夹: sorted_val 文件夹创建完成。新建: 1000 个，已存在: 0 个。 [步骤3] 从 'ILSVRC2012_img_val' 分类图片到 'sorted_val' 开始分类图片... 已处理 1000 张图片... 已处理 2000 张图片... ... 已处理 50000 张图片... 分类完成！总计处理行数: 50000 成功分类图片: 50000 失败数量: 0 ================================================== 所有操作执行完毕！ ================================================== ``` ### 3.2 验证分类结果脚本运行完成后，强烈建议对结果进行抽样验证，以确保万无一失。以下是一些验证方法： **1. 检查文件夹结构与数量：** ```bash # 进入目标目录 cd sorted_val # 统计文件夹数量（应为1000） ls -d */ | wc -l # 在Windows PowerShell中，可以使用 # (Get-ChildItem -Directory).Count ``` **2. 抽样检查特定类别：** 随机挑选几个类别文件夹，检查其中的图片数量。由于ImageNet验证集每个类别有50张图片，你可以快速验证： ```bash # 检查某个类别（例如n01440764）的图片数量 ls sorted_val/n01440764/ | wc -l ``` 输出应该是50。 **3. 编写简单的验证脚本：** 为了更彻底地验证，可以写一个快速的Python检查脚本： ```python import os from pathlib import Path target_root = Path('sorted_val') # 检查是否有1000个子文件夹 subdirs = [d for d in target_root.iterdir() if d.is_dir()] print(f"类别文件夹数量: {len(subdirs)}") # 检查每个文件夹是否有50个文件，且都是JPEG图像 all_correct = True for subdir in subdirs[:5]: # 抽样检查前5个类别 jpg_files = list(subdir.glob('*.JPEG')) + list(subdir.glob('*.jpg')) if len(jpg_files) != 50: print(f"警告: {subdir.name} 包含 {len(jpg_files)} 个文件，而非50个。") all_correct = False # 可以进一步检查文件名是否都在val.txt的预期列表中 if all_correct and len(subdirs) == 1000: print("初步验证通过！") else: print("验证发现异常，请仔细检查。") ``` **4. 与训练集结构对比：** 如果你的ImageNet训练集已经是以类别文件夹形式组织的，可以将`sorted_val`的结构与`train`的结构进行对比，确保文件夹名称（Synset ID）完全一致。这是最终极的验证，能保证你的验证集和训练集在类别定义上无缝对齐。 ## 4. 高级技巧与常见问题排查掌握了基础流程后，我们再来探讨一些能提升效率、应对特殊情况的进阶技巧，并梳理可能遇到的“坑”及其解决方法。 ### 4.1 性能优化与大规模处理当处理5万张图片时，I/O操作是主要的性能瓶颈。虽然上述脚本已经可以工作，但通过一些小优化可以跑得更快。 * **使用多进程/多线程**：对于I/O密集型任务，多线程可能带来提升。Python的`concurrent.futures`模块很方便。 ```python from concurrent.futures import ThreadPoolExecutor, as_completed def copy_one_image(args): """包装单张图片复制任务的函数""" src_file, dst_file = args try: with Image.open(src_file) as img: if img.mode in ('RGBA', 'LA', 'P'): img = img.convert('RGB') img.save(dst_file, quality=95) return (src_file.name, True, None) except Exception as e: return (src_file.name, False, str(e)) # 在主函数classify_images中，构建任务列表 tasks = [] for line in lines_from_val_txt: # ... 解析文件名和标签 ... tasks.append((src_file, dst_file)) # 使用线程池执行 with ThreadPoolExecutor(max_workers=8) as executor: # 根据你的CPU和磁盘调整worker数量 future_to_file = {executor.submit(copy_one_image, task): task for task in tasks} for future in as_completed(future_to_file): filename, success, error = future.result() # ... 更新统计信息 ... ``` > **注意**：多线程对于大量小文件的复制可能有帮助，但受限于Python的GIL和磁盘I/O的极限，提升可能不是线性的。建议先在小批量数据上测试效果。 * **直接文件复制**：如果完全信任源图片格式且不需要任何图像处理，可以使用`shutil.copy2`替代Pillow的打开/保存，速度会快很多，因为它直接复制文件字节。 ```python import shutil shutil.copy2(src_file, dst_file) ``` * **使用更快的图像库**：如果确实需要图像处理（如调整大小、格式转换），可以考虑使用`opencv-python`或`jpeg4py`（专门针对JPEG）以获得更快的解码/编码速度。 ### 4.2 常见问题与解决方案在运行脚本时，你可能会遇到以下问题： | 问题现象 | 可能原因 | 解决方案 | | :--- | :--- | :--- | | **`FileNotFoundError: [Errno 2] No such file or directory: 'val.txt'`** | 映射文件不在当前目录或路径错误。 | 使用`--val_txt`参数指定文件的绝对路径或正确相对路径。 | | **`KeyError` 或 “标签ID在映射表中未找到”** | `val.txt`中的标签ID超出了映射文件（如`synset_words.txt`）的范围。ImageNet标签ID是0-999。 | 检查`val.txt`和映射文件的格式和内容是否匹配。确保映射文件包含0-999所有ID。 | | **处理到一半脚本崩溃或卡住** | 可能某张图片损坏，导致Pillow无法打开；或磁盘空间不足。 | 查看错误信息。在脚本中加入更详细的异常捕获，跳过损坏文件。检查磁盘剩余空间。 | | **分类后某些类别图片数量不是50张** | `val.txt`文件可能不完整或格式有误；或者源图片缺失。 | 核对`val.txt`的总行数是否为50000。用验证脚本检查具体是哪些文件出了问题。 | | **运行速度非常慢** | 可能是单线程处理，且磁盘速度较慢（如机械硬盘）。 | 尝试上述多线程优化，或考虑将数据放在SSD上处理。 | | **生成的文件夹名不是n0xxx，而是数字** | 使用的映射文件格式不对。`--map_format`参数设置错误。 | 确认你的映射文件格式。如果是“n01440764 tench...”格式，用`--map_format words`；如果是“n01440764 0”格式，用`--map_format synset`。 | ### 4.3 集成到机器学习工作流整理好的结构化验证集，可以无缝集成到你的深度学习训练框架中。例如，在PyTorch中，可以直接使用`torchvision.datasets.ImageFolder`加载： ```python from torchvision import datasets, transforms # 定义数据变换 val_transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) # 加载结构化验证集 val_dataset = datasets.ImageFolder(root='path/to/your/sorted_val', transform=val_transform) # 创建数据加载器 val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=64, shuffle=False, num_workers=4) ``` 在TensorFlow/Keras中，可以使用`image_dataset_from_directory`： ```python import tensorflow as tf val_ds = tf.keras.utils.image_dataset_from_directory( 'path/to/your/sorted_val', labels='inferred', label_mode='int', # ImageNet是1000类整数标签 image_size=(224, 224), batch_size=32, shuffle=False, validation_split=None, ) ``` 这种结构化的数据，使得计算每个类别的准确率、生成混淆矩阵、可视化错误样本等任务变得异常简单。你可以轻松地写出如下代码来分析模型在“狗”和“猫”类别上的表现差异，而这在原始的杂乱文件夹中是不可想象的。经过这样一番自动化整理，你的ImageNet验证集从一堆难以管理的文件，变成了一个规整、高效的数据资产。无论是进行严谨的学术实验，还是快速的模型原型验证，它都能为你节省大量时间，减少人为错误。更重要的是，这套脚本所体现的**数据预处理管道化**思想，可以迁移到其他许多类似的数据集整理任务中。当你下次面对一个混乱的数据集时，第一反应不再是手动操作，而是思考如何用一段简洁的脚本让它自动变得井然有序。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python实战：5分钟搞定M-K突变检验（附完整代码与数据）

目录

ImageNet验证集分类实战：Python脚本自动整理val数据到对应文件夹

Python内容推荐

Python-LabelRefinery通过LabelProgression改进ImageNet分类

深度学习、mini-imagenet-val.pkl文件，pytorch、python

deep learning for computer vision with python-imagenet bundle

Deep Learning for Computer Vision with Python 3 ImageNetBundle.pdf

Python-用PyTorch微调预训练卷积神经网络

Python-MXNet版本的DenseNet实现

Python-ImplementationonEfficientNetmodelKeras

使用python+tensorflow 2实现了CNN经典模型AlexNet

caffe imagenet_mean.binaryproto

将数据集分成train和val数据集

YOLOV8训练分类模型[项目源码]

用自己的数据进行CaffeNet训练模型

windows10下编译训练alexnet模型

AlexNet图像分类

EfficientNetB0图像分类实战[项目源码]

Kaggle入门——猫狗大战

caffe_imagenet_mean均值文件，代码文件binaryproto转npy/npy转binaryproto

基于VGG16的花卉图像分类

ILSVRC2012下载与训练指南[项目源码]

百度飞桨蝴蝶图像分类实现[源码]

Python使用pydub库对mp3与wav格式进行互转的方法

mp4视频提取音频mp3 python脚本，以及mp3转wav python脚本

使用Python实现文字转语音并生成wav文件的例子

wav转mp3源码

Python3.7 读取 mp3 音频文件生成波形图效果

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构