FUNSD数据集实战：手把手教你用Python处理表单理解任务（附完整代码）

# FUNSD数据集实战：从嘈杂表单中精准抽取信息的Python全流程指南表单理解，这个听起来有些学术的词汇，其实正悄然改变着我们处理纸质文档的方式。想象一下，你手头有一叠来自不同机构、格式各异、扫描质量参差不齐的申请表、发票或调查问卷。传统的人工录入不仅耗时费力，还容易出错。而现代的自然语言处理技术，结合计算机视觉，已经能够自动化地“读懂”这些表单，将散落的文字信息转化为结构化的数据。这正是FUNSD数据集所要解决的核心问题——一个专为**真实世界、高噪声扫描文档**设计的表单理解基准。对于已经熟悉Python基础和中阶NLP概念（比如命名实体识别）的开发者来说，直接上手一个像FUNSD这样的工业级数据集，是提升实战能力的绝佳跳板。它不像那些清洗得过于干净的学术数据集，FUNSD里的表单充满了现实世界的“瑕疵”：模糊的文本、倾斜的排版、复杂的背景噪声以及五花八门的视觉布局。处理它，意味着你的模型必须学会在混乱中寻找秩序。本文将带你走完一个完整的实战流程：从获取数据、解析复杂的JSON标注，到进行关键的数据预处理、实体识别任务设计，最后用代码串联起整个分析过程。我们关注的不只是“跑通”代码，更是理解每一步背后的“为什么”，以及如何应对实际项目中必然会遇到的坑。 ## 1. 环境准备与数据获取在开始任何数据科学项目之前，搭建一个稳定、可复现的工作环境是第一步。对于FUNSD项目，我们主要依赖Python的数据处理和深度学习生态。首先，创建一个独立的虚拟环境是个好习惯，这能避免包版本冲突。你可以使用`conda`或`venv`。这里以`venv`为例： ```bash python -m venv funsd_env source funsd_env/bin/activate # Linux/macOS # 或 funsd_env\Scripts\activate # Windows ``` 接下来，安装核心依赖库。我们将用到`Pillow`处理图像，`opencv-python`或`matplotlib`进行可视化，`pandas`和`numpy`进行数据处理，`json`库自不必说。如果你后续打算进行深度学习建模，`torch`或`tensorflow`也需要安装。 ```bash pip install Pillow opencv-python matplotlib pandas numpy requests tqdm # 可选：根据你的深度学习框架选择 # pip install torch torchvision # 或 pip install tensorflow ``` FUNSD数据集官方托管在GitHub上。我们可以编写一个简单的下载脚本，自动获取数据集并解压。这样做的好处是代码可复现，其他人运行你的脚本也能直接拿到数据。 ```python import os import zipfile import requests from tqdm import tqdm def download_funsd(save_path="./funsd_dataset"): """ 下载并解压FUNSD数据集。 """ url = "https://guillaumejaume.github.io/FUNSD/dataset.zip" zip_path = os.path.join(save_path, "dataset.zip") os.makedirs(save_path, exist_ok=True) # 下载文件（带进度条） print(f"正在从 {url} 下载数据集...") response = requests.get(url, stream=True) total_size = int(response.headers.get('content-length', 0)) with open(zip_path, 'wb') as f, tqdm( desc="下载进度", total=total_size, unit='iB', unit_scale=True, unit_divisor=1024, ) as pbar: for data in response.iter_content(chunk_size=1024): size = f.write(data) pbar.update(size) # 解压文件 print("正在解压文件...") with zipfile.ZipFile(zip_path, 'r') as zip_ref: zip_ref.extractall(save_path) # 清理zip文件（可选） os.remove(zip_path) print(f"数据集已保存至：{save_path}") # 执行下载 if __name__ == "__main__": download_funsd() ``` 运行这段代码后，你会在当前目录下得到一个`funsd_dataset`文件夹，里面通常包含`training_data`和`testing_data`子目录，每个子目录下又有`images`（图片）和`annotations`（JSON标注）文件夹。 > 注意：由于网络环境差异，直接下载可能较慢或失败。你也可以手动从官方页面下载`dataset.zip`，解压后放在项目目录中，并相应调整后续代码中的路径。 ## 2. 深入解析FUNSD的JSON标注结构 FUNSD数据集的标注信息全部存储在JSON文件中，其结构比常见的图像分类或目标检测标注要复杂得多，因为它需要描述文本内容、位置、类别以及文本块之间的逻辑关系。理解这个结构是进行任何后续处理的基础。每个JSON文件对应一张表单图片，其结构是一个嵌套的字典。我们以一个具体的例子来拆解。首先，加载一个标注文件看看： ```python import json import os # 假设数据集已解压在当前目录 annotation_path = "./funsd_dataset/training_data/annotations/00040570.json" with open(annotation_path, 'r', encoding='utf-8') as f: annotation = json.load(f) # 查看顶层键 print("顶层键:", annotation.keys()) # 输出通常是：dict_keys(['form']) ``` 顶层通常只有一个键`'form'`，其值是一个列表，包含该表单的所有信息。这个列表只有一个元素（即整个表单），我们取出它： ```python form_data = annotation['form'][0] print("表单数据键:", form_data.keys()) # 输出可能包含：dict_keys(['id', 'text', 'words', 'linking', 'box']) ``` 现在，我们来逐一剖析这些关键字段： * **`id`**: 表单的唯一标识符。 * **`text`**: 整个表单拼接后的纯文本字符串，但实际应用中更常用的是`words`字段。 * **`box`**: 表单在图片中的整体边界框，格式为`[x_min, y_min, x_max, y_max]`，坐标基于图像像素。 * **`words`**: 这是**最重要的字段之一**，是一个列表，包含了表单中每一个被标注的文本块（通常是一个单词或一个连续的文本区域）。每个文本块本身又是一个字典。让我们深入查看一个`words`列表中的元素： ```python # 查看第一个文本块 first_word = form_data['words'][0] print("单个文本块结构示例:") for key, value in first_word.items(): print(f" {key}: {value}") ``` 你会看到类似这样的输出： ``` text: “DATE” box: [327, 84, 380, 102] label: “header” linking: [[1, 2], [3, 4]] id: 0 ``` * **`text`**: 该文本块的内容。 * **`box`**: 该文本块的边界框坐标。 * **`label`**: 该文本块的实体类别，共有四种： * **`header`**: 表单的标题或章节标题。 * **`question`**: 问题或字段标签（如“姓名：”）。 * **`answer`**: 对问题的回答（如“张三”）。 * **`other`**: 其他不参与问答逻辑的文本（如说明文字、页脚等）。 * **`linking`**: **这是实现表单理解（即问答对链接）的核心**。它是一个列表，列表中的每个元素是一个二元组`[source_id, target_id]`，表示从`source_id`指向`target_id`。通常，`question`实体链接到其对应的`answer`实体。`id`为0的文本块的`linking`字段`[[1,2], [3,4]]`，可能意味着这个`header`与id为1、2、3、4的文本块存在某种关联（具体需结合上下文）。 * **`id`**: 该文本块在表单内的唯一ID，用于`linking`字段的引用。为了更直观地理解实体类别和链接关系，我们可以用表格来总结： | 实体类别 (label) | 描述 | 在表单理解中的作用 | 链接关系示例 | | :--- | :--- | :--- | :--- | | **header** | 表单或区块的标题 | 定义文档结构，可能链接到一组相关问题 | 可能链接多个`question` | | **question** | 需要填写内容的字段标签 | 语义查询的起点，核心抽取目标 | 链接到一个或多个`answer` | | **answer** | 用户填写的具体内容 | 需要被抽取的结构化数据值 | 被一个或多个`question`链接 | | **other** | 无关的说明性文本 | 通常需要被模型忽略 | 通常无链接 | 理解`linking`是构建问答对的关键。一个简单的提取函数可以是： ```python def extract_qa_pairs(form_data): """ 从表单数据中提取（问题，答案）对。这是一个简化版本，假设每个question只链接一个answer。 """ qa_pairs = [] words = form_data['words'] # 首先构建一个id到word对象的映射，方便查找 id_to_word = {word['id']: word for word in words} for word in words: if word['label'] == 'question': q_text = word['text'] q_id = word['id'] # 查找链接到这个question的answer linked_answers = [] for link in word.get('linking', []): # link 可能是 [source_id, target_id] 或直接是target_id # 需要根据实际数据结构调整 target_id = link[1] if isinstance(link, list) else link target_word = id_to_word.get(target_id) if target_word and target_word['label'] == 'answer': linked_answers.append(target_word['text']) # 这里简单地将所有答案拼接 a_text = ' '.join(linked_answers) if linked_answers else '' if a_text: # 只保留有答案的对 qa_pairs.append((q_text, a_text)) return qa_pairs # 在示例数据上测试 pairs = extract_qa_pairs(form_data) print(f"提取到 {len(pairs)} 个QA对:") for q, a in pairs[:3]: # 显示前3对 print(f" 问：{q} -> 答：{a}") ``` > 提示：实际数据中的`linking`结构可能更复杂，可能存在一个`question`链接多个`answer`（比如多选框），或者`answer`链接到另一个`answer`（比如地址的多行）。编写健壮的解析代码时，需要仔细检查多个样本的数据结构。 ## 3. 数据可视化与噪声分析在处理像FUNSD这样的视觉-语言数据集时，将标注信息叠加到原图上进行可视化，是理解数据、发现问题和验证解析正确性的不可或缺的步骤。这能让我们直观地看到文本块的位置、类别以及它们之间的链接关系。我们使用`PIL`和`matplotlib`来完成这个任务。首先，定义一个函数，用于在图像上绘制文本块的边界框和标签。 ```python from PIL import Image, ImageDraw, ImageFont import matplotlib.pyplot as plt import random def visualize_annotation(image_path, annotation_data, save_path=None): """ 在表单图片上可视化标注的文本块和类别。参数: image_path: 表单图片的路径。 annotation_data: 加载好的JSON标注数据（字典格式）。 save_path: 可选，图片保存路径。 """ # 打开图片 img = Image.open(image_path).convert("RGB") draw = ImageDraw.Draw(img) # 为了清晰，为不同标签定义颜色 label_colors = { 'header': 'red', 'question': 'blue', 'answer': 'green', 'other': 'gray' } form = annotation_data['form'][0] words = form['words'] # 绘制每个文本块 for word in words: box = word['box'] # [x0, y0, x1, y1] label = word['label'] text = word['text'] # 绘制矩形框 color = label_colors.get(label, 'black') draw.rectangle(box, outline=color, width=2) # 在框上方绘制标签和文本（简化显示） # 注意：这里文本可能很长，可以只显示部分或ID display_text = f"{label}:{word['id']}" # 显示标签和ID # 计算文本位置（框的左上方稍微偏上） text_position = (box[0], box[1] - 15) # 这里为了简单，用默认字体。在实际中，可能需要处理字体文件。 try: # 尝试使用一个更小的默认字体 font = ImageFont.truetype("arial.ttf", 10) except IOError: font = ImageFont.load_default() draw.text(text_position, display_text, fill=color, font=font) # 显示或保存图片 plt.figure(figsize=(15, 20)) plt.imshow(img) plt.axis('off') plt.title(f"Visualization of {image_path.split('/')[-1]}") if save_path: plt.savefig(save_path, bbox_inches='tight', dpi=150) print(f"可视化结果已保存至：{save_path}") plt.show() # 使用示例 image_file = "./funsd_dataset/training_data/images/00040570.png" visualize_annotation(image_file, annotation, save_path="./visualization_example.png") ``` 运行这段代码，你会得到一张图片，其中不同颜色的框高亮了不同类型的文本实体。红色代表`header`，蓝色代表`question`，绿色代表`answer`，灰色代表`other`。通过可视化，我们可以立刻发现FUNSD数据集的典型挑战： 1. **文本噪声**：扫描导致的字体模糊、墨迹不均、背景污渍。 2. **布局多样性**：表格、自由文本、复选框混合排列，没有固定模板。 3. **空间关系复杂**：`question`和`answer`可能在同一行，也可能跨行、分列，甚至被其他元素隔开。 4. **语义歧义**：某些文本块（如“姓名”）本身可能既是`header`（在一个小区域内）又是`question`。为了量化这些噪声和挑战，我们可以进行一些简单的统计分析。例如，计算每个表单的平均文本块数量、各类别实体的比例、边界框的面积分布以及`linking`关系的平均数量。 ```python import pandas as pd import numpy as np from pathlib import Path def analyze_dataset_stats(data_dir="./funsd_dataset/training_data"): """ 分析数据集的统计特征。 """ ann_dir = Path(data_dir) / "annotations" stats = [] for json_file in ann_dir.glob("*.json"): with open(json_file, 'r', encoding='utf-8') as f: data = json.load(f) form = data['form'][0] words = form['words'] num_words = len(words) label_counts = {'header':0, 'question':0, 'answer':0, 'other':0} total_links = 0 for word in words: label = word['label'] label_counts[label] += 1 total_links += len(word.get('linking', [])) # 计算边界框的平均面积（近似） areas = [] for word in words: box = word['box'] area = (box[2]-box[0]) * (box[3]-box[1]) areas.append(area) avg_area = np.mean(areas) if areas else 0 stats.append({ 'form_id': json_file.stem, 'num_words': num_words, **label_counts, 'total_links': total_links, 'avg_box_area': avg_area }) df_stats = pd.DataFrame(stats) return df_stats # 执行分析 df = analyze_dataset_stats() print("数据集整体统计摘要:") print(df.describe()) # 查看实体类别分布 print("\n实体类别平均数量:") print(df[['header', 'question', 'answer', 'other']].mean()) ``` 通过这样的分析，你能对数据集的复杂度和需要关注的焦点有一个数据驱动的认识，从而在设计模型和预处理流程时更有针对性。 ## 4. 构建表单理解任务的数据预处理管道原始数据很少能直接扔进模型。一个精心设计的数据预处理管道，往往能显著提升后续模型训练的效果和效率。针对FUNSD，我们的预处理需要同时考虑文本和视觉信息。 **文本预处理**相对标准，但需注意表单文本的特性： * **大小写**：表单中大写字母可能表示标题或强调，需要谨慎处理。有时保留原始大小写更有益。 * **标点与特殊字符**：表单中常有“:”、“-”、“□”等，它们可能具有语义（如“姓名：”中的冒号），不应简单去除。 * **数字和日期**：可能需要规范化（如将“01/02/2023”统一格式）。一个基础的文本清洗函数可能是这样的： ```python import re def clean_form_text(text): """ 清洗表单文本，保留可能有语义的符号。 """ # 移除多余的空白字符（包括换行、制表符等），但保留一个空格 text = re.sub(r'\s+', ' ', text).strip() # 这里可以根据需要添加更多规则，例如： # - 处理连字符 # - 规范化数字格式 # - 处理特定的表单符号（如“□” -> “[CHECKBOX]”） return text # 应用到words中的每个text字段 for word in form_data['words']: word['text_cleaned'] = clean_form_text(word['text']) ``` **视觉/空间特征提取**是表单理解区别于纯文本NLP的关键。我们需要从边界框`box`中提取出有意义的空间特征，这些特征可以与文本特征融合，帮助模型理解布局。常见的空间特征包括： 1. **归一化坐标**：将绝对像素坐标归一化到[0, 1]区间，使其与图像尺寸无关。 2. **几何特征**：宽度、高度、面积、宽高比。 3. **相对位置特征**：一个文本块相对于表单中心、或其他文本块（如其链接的`question`或`answer`）的位置。 4. **排版特征**：是否与其他框在同一水平线或垂直线上（对齐信息）。下面是一个提取基础空间特征的函数： ```python def extract_spatial_features(word, img_width, img_height): """ 从单个word的box中提取空间特征。 """ x0, y0, x1, y1 = word['box'] # 归一化中心坐标和尺寸 center_x_norm = ((x0 + x1) / 2.0) / img_width center_y_norm = ((y0 + y1) / 2.0) / img_height width_norm = (x1 - x0) / img_width height_norm = (y1 - y0) / img_height # 宽高比 aspect_ratio = (x1 - x0) / (y1 - y0) if (y1 - y0) > 0 else 0 # 面积（归一化） area_norm = width_norm * height_norm return { 'center_x': center_x_norm, 'center_y': center_y_norm, 'width': width_norm, 'height': height_norm, 'aspect_ratio': aspect_ratio, 'area': area_norm } # 假设我们知道图像尺寸，例如从PIL Image获取 img = Image.open("./funsd_dataset/training_data/images/00040570.png") img_width, img_height = img.size for word in form_data['words']: spatial_feats = extract_spatial_features(word, img_width, img_height) # 可以将这些特征添加到word字典中 word.update(spatial_feats) ``` **构建模型输入**。根据你选择的任务（如序列标注、图神经网络、或基于Transformer的多模态模型），你需要将文本和视觉特征组合成特定的格式。例如，对于一个简单的序列标注模型（将每个文本块分类为`header`/`question`/`answer`/`other`），你可以构建如下结构： ```python def prepare_sequence_data(form_data, tokenizer, max_seq_length=128): """ 为序列标注任务准备数据。简化版：将每个文本块视为一个token。 """ words = form_data['words'] # 按某种顺序排序文本块，例如从上到下、从左到右 # 这里简单地按中心Y坐标排序（粗略的行序） sorted_words = sorted(words, key=lambda w: (w['center_y'], w['center_x'])) input_ids = [] bbox_features = [] labels = [] label_map = {'header':0, 'question':1, 'answer':2, 'other':3} for word in sorted_words[:max_seq_length]: # 截断 # 文本tokenization (这里简化，直接用word的text) # 实际应使用tokenizer(word['text_cleaned']) token_id = 1 # 假设1代表一个单词的ID，实际需用词汇表 input_ids.append(token_id) # 空间特征向量 bbox_vec = [word['center_x'], word['center_y'], word['width'], word['height']] bbox_features.append(bbox_vec) # 标签 labels.append(label_map[word['label']]) # 填充(Padding) while len(input_ids) < max_seq_length: input_ids.append(0) # 0作为[PAD] bbox_features.append([0.0]*4) labels.append(-100) # 忽略的标签索引 return { 'input_ids': input_ids, 'bbox': bbox_features, 'labels': labels } ``` > 注意：这只是一个极其简化的示例。工业级的预处理管道会复杂得多，包括处理子词分词（subword tokenization）、图像切片（image patches）的嵌入、以及更复杂的图结构构建（基于`linking`关系）。关键在于理解原理，然后根据所选模型框架（如LayoutLM、DocFormer等）的官方要求进行调整。 ## 5. 实战演练：一个简单的实体分类模型理论说再多，不如动手跑一遍。在这一节，我们将构建一个最简单的基线模型：一个基于文本和空间特征的多层感知机（MLP），用于对每个文本块进行四分类（`header`, `question`, `answer`, `other`）。这个模型虽然简单，但能帮你建立起完整的训练、验证和评估流程。首先，我们需要将整个数据集（训练集和测试集）转换为模型可用的格式。我们编写一个数据加载类。 ```python import torch from torch.utils.data import Dataset, DataLoader import torch.nn as nn import torch.optim as optim class FUNSDDataset(Dataset): def __init__(self, data_root, split='training', tokenizer=None, max_seq_len=50): """ 自定义Dataset类。 split: 'training' 或 'testing' """ self.data_root = Path(data_root) self.split = split self.image_dir = self.data_root / f"{split}_data" / "images" self.annotation_dir = self.data_root / f"{split}_data" / "annotations" self.max_seq_len = max_seq_len self.tokenizer = tokenizer # 这里简化，未使用真实tokenizer self.samples = self._load_samples() def _load_samples(self): samples = [] ann_files = list(self.annotation_dir.glob("*.json")) for ann_file in ann_files: with open(ann_file, 'r', encoding='utf-8') as f: ann_data = json.load(f) img_file = self.image_dir / f"{ann_file.stem}.png" if img_file.exists(): # 这里我们只存储每个文本块作为一个样本（简化） form = ann_data['form'][0] img = Image.open(img_file) img_w, img_h = img.size for word in form['words']: # 提取特征 text_feat = self._text_to_feature(word['text']) # 简化文本特征 spatial_feat = extract_spatial_features(word, img_w, img_h) # 合并特征 combined_feat = text_feat + [spatial_feat['center_x'], spatial_feat['center_y'], spatial_feat['width'], spatial_feat['height']] label = self._label_to_id(word['label']) samples.append({ 'features': torch.tensor(combined_feat, dtype=torch.float32), 'label': torch.tensor(label, dtype=torch.long) }) return samples def _text_to_feature(self, text): """将文本转换为一个简单的特征向量（例如，长度、是否包含数字等）。""" # 这是一个非常简单的示例。真实场景应使用词向量或BERT嵌入。 length_norm = min(len(text) / 20.0, 1.0) # 归一化长度 has_digit = 1.0 if any(c.isdigit() for c in text) else 0.0 return [length_norm, has_digit] def _label_to_id(self, label): label_map = {'header':0, 'question':1, 'answer':2, 'other':3} return label_map.get(label, 3) def __len__(self): return len(self.samples) def __getitem__(self, idx): return self.samples[idx]['features'], self.samples[idx]['label'] # 实例化数据集 train_dataset = FUNSDDataset("./funsd_dataset", split='training') test_dataset = FUNSDDataset("./funsd_dataset", split='testing') print(f"训练集样本数: {len(train_dataset)}") print(f"测试集样本数: {len(test_dataset)}") ``` 接下来，定义一个简单的MLP模型： ```python class SimpleFormClassifier(nn.Module): def __init__(self, input_dim, hidden_dim, num_classes): super(SimpleFormClassifier, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.relu = nn.ReLU() self.dropout = nn.Dropout(0.3) self.fc2 = nn.Linear(hidden_dim, num_classes) def forward(self, x): x = self.fc1(x) x = self.relu(x) x = self.dropout(x) x = self.fc2(x) return x # 模型参数 input_dim = 6 # 我们的特征维度：2个文本特征 + 4个空间特征 hidden_dim = 64 num_classes = 4 model = SimpleFormClassifier(input_dim, hidden_dim, num_classes) print(model) ``` 然后，设置训练循环： ```python def train_model(model, train_loader, test_loader, epochs=10, lr=0.001): device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model.to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=lr) for epoch in range(epochs): model.train() running_loss = 0.0 correct = 0 total = 0 for features, labels in train_loader: features, labels = features.to(device), labels.to(device) optimizer.zero_grad() outputs = model(features) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() train_acc = 100 * correct / total avg_loss = running_loss / len(train_loader) # 在测试集上评估 test_acc = evaluate_model(model, test_loader, device) print(f"Epoch [{epoch+1}/{epochs}], Loss: {avg_loss:.4f}, Train Acc: {train_acc:.2f}%, Test Acc: {test_acc:.2f}%") return model def evaluate_model(model, data_loader, device): model.eval() correct = 0 total = 0 with torch.no_grad(): for features, labels in data_loader: features, labels = features.to(device), labels.to(device) outputs = model(features) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() return 100 * correct / total # 创建DataLoader train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True) test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False) # 开始训练 trained_model = train_model(model, train_loader, test_loader, epochs=15) ``` 这个基线模型的准确率可能不会很高（或许在60%-70%左右），但它验证了整个流程的可行性。在实际项目中，你会用更强大的文本编码器（如BERT）、更丰富的视觉特征（如CNN提取的图像特征）以及能建模文本块间关系的网络（如图神经网络或Transformer）来替代这个简单的MLP。例如，微软的LayoutLM模型就是专门为这类文档理解任务设计的，它同时预训练了文本、布局和图像信息。处理FUNSD这样的数据集，最大的收获往往不是调出一个多高的分数，而是在解决一个个具体问题的过程中积累的经验：如何解析复杂标注、如何融合多模态特征、如何设计针对性的数据增强（如模拟扫描噪声、轻微旋转图像）来提升模型鲁棒性。当你成功让模型在嘈杂的表单上准确识别出“姓名”和其对应的“张三”时，那种解决实际问题的成就感，是学习过程中最宝贵的部分。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇实战指南：如何用Python+FAISS搭建本地向量搜索引擎（附避坑清单）

目录

FUNSD数据集实战：手把手教你用Python处理表单理解任务（附完整代码）

Python内容推荐

基于图谱增强的RAG电力系统知识应用（Python代码实现）

双有源桥DAB变换器三重移相TPS仿真模型研究（Simulink仿真实现）

带标注的西瓜病叶数据集，支持voc xml，可识别花叶病，霜霉病和健康叶子， 922张图

C语言图像旋转缩放裁切实现

制定变速器换挡叉的加工工艺.rar

【数据库优化】SQLite性能调优技术在芯片制造中应用于晶圆测试数据的高效存储与实时查询系统实现

CDR thumbnail patch 2019

实用代码脚本易语言源码弹力壁球

bmtxt.rar

芯片设计基于CentOS 7的EDA工作负载性能优化：内核参数调优与NUMA绑定在数字前端仿真中的应用

围绕消息补偿调度器设计Java后端闭环

智慧医药系统（smart-medicine）是一个基于 SpringBoot 开发的标准 Java Web 项目。整体页.zip

基于 SpringAI 的 Agent 开发项目：一个面向“组织知识库 + AI 助手”的 RAG Agent实战项目，把权限隔.zip

【重磅核心论文复现】分布式电源接入配电网承载力评估方法研究（Matlab代码代码实现）

Vue color picker plugin

实用代码脚本易语言源码电话簿

STC11F02E/STC11F04E单片机开发板 实验例程 测试例程

slackware-1.x-2.x-mirror Part 1

QAnything 网易有道本地 RAG 知识库一键部署源码离线可用

Springboot毕业设计含文档和代码springbootnuct产品售后管理系统-论文

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

STC11F02E/STC11F04E单片机开发板实验例程测试例程