【pytorch】torch.utils.data.random_split()实战:如何高效划分数据集并确保可复现性

## 1. 为什么你需要关注random_split的可复现性? 朋友们,不知道你们有没有遇到过这种情况:辛辛苦苦跑了一个模型,效果特别好,结果想复现一下,或者把代码分享给同事,再跑一遍结果却不一样了。排查了半天,发现不是模型结构的问题,也不是训练参数的问题,最后定位到——原来是数据集划分的随机性在作祟。训练集和测试集里的样本每次运行都变,模型学到的“知识”和评估的“考场”都不一样,结果自然天差地别。 在机器学习项目里,尤其是在做研究、写论文或者团队协作开发时,**可复现性**是黄金标准。它意味着你的实验结果是可靠的,别人能照着你的步骤得到一模一样的结果。而数据集划分,恰恰是实验流程中第一个,也是最容易被忽视的随机性来源。PyTorch里的 `torch.utils.data.random_split()` 函数,就是用来帮我们解决这个问题的利器。它用起来很简单,但如果不注意细节,很容易掉进“随机”的坑里。 我自己就踩过这样的坑。早期做项目时,图省事,直接 `random_split(dataset, [train_len, val_len])` 就完事了。每次跑脚本,验证集上的准确率都能波动好几个百分点,一度让我怀疑是模型训练不稳定。后来才发现,是每次启动脚本,训练集和验证集都被重新“洗牌”了,模型其实是在不同的数据子集上学习和评估。这就像你用同一套教材,但每次考试题目都从不同的章节里随机抽,分数有波动太正常了。从那时起,我就养成了在任何涉及数据划分的地方,都**强制设置随机种子**的习惯。 所以,这篇文章我就来和你深入聊聊 `random_split()` 这个函数。我们不止要会用,更要理解它背后的机制,掌握确保每次划分都一模一样的方法。我会结合我这些年实际项目中的经验,从最基本的用法,到如何确保可复现性的核心技巧,再到一些高级场景和常见“坑”的避雷指南,让你彻底玩转数据集划分。 ## 2. random_split() 基础:快速上手与核心参数解析 我们先来看看这个函数到底长什么样,怎么用。它的函数签名非常清晰: ```python torch.utils.data.random_split(dataset, lengths, generator=<torch._C.Generator object>) ``` 别看参数少,每一个都至关重要。我们来拆解一下: * **`dataset`**: 这就是你要切的“蛋糕”,一个PyTorch的 `Dataset` 对象。它可以是任何你自定义的Dataset,也可以是 `TensorDataset`,甚至是像原文例子中一个简单的 `range(10)` 这样的可迭代对象(在实际项目中,这通常是一个包含了你的图像、文本和对应标签的完整数据集)。 * **`lengths`**: 一个列表,定义了你想把蛋糕切成几块,以及每一块的大小。比如 `[700, 300]` 就是切成两块,第一块700个样本,第二块300个样本。这里有个关键点:`lengths` 里所有数字加起来,必须等于你数据集 `dataset` 的总长度,一块蛋糕不能多也不能少。如果你想按比例划分,比如8:2,就需要自己先计算一下具体数字:`train_len = int(0.8 * len(dataset))`, `val_len = len(dataset) - train_len`。 * **`generator`**: 这是本文的**灵魂参数**,也是保证可复现性的关键。它是一个PyTorch的随机数生成器对象。如果不传这个参数,每次调用 `random_split`,它都会使用默认的、不确定的随机状态来打乱数据,导致划分结果不可预测。一旦我们传入一个固定了种子的生成器,划分就变得确定无疑了。 让我们看一个比官方文档更贴近实战的例子。假设我们有一个非常简单的自定义数据集: ```python import torch from torch.utils.data import Dataset, random_split # 1. 创建一个简单的模拟数据集 class MyDataset(Dataset): def __init__(self, data): self.data = data # 假设data是一个Tensor列表 def __len__(self): return len(self.data) def __getitem__(self, idx): return self.data[idx] # 模拟100条数据,每条数据是一个随机向量 full_data = [torch.randn(10) for _ in range(100)] dataset = MyDataset(full_data) print(f"数据集总大小:{len(dataset)}") # 2. 基础划分(不可复现!) train_set, val_set = random_split(dataset, [80, 20]) print(f"训练集大小:{len(train_set)}, 验证集大小:{len(val_set)}") print(f"训练集前3个索引:{train_set.indices[:3]}") # 查看被分到训练集的数据索引 ``` 运行上面的代码,每次打印的 `train_set.indices[:3]` 很可能都不一样。这就是问题所在。接下来,我们就请出救星——`generator` 参数。 ## 3. 确保可复现性的核心:深入理解generator参数 想要可复现,核心就是控制随机性。在PyTorch里,我们通过操作 `torch.Generator` 对象来实现。你可以把它想象成一个“随机数生产机器”,而 `manual_seed` 就是给这台机器设定一个初始的“配方”。只要配方(种子)相同,它生产出的随机数序列就完全一致。 ### 3.1 两种设置种子的等效方式 原文提到了两种方式,我这里再帮你巩固和扩展一下。 **方式一:创建Generator对象时直接固定种子** 这是最直接、最推荐的做法,将随机性控制局部化,不影响代码其他部分的随机状态。 ```python # 创建一个生成器,并设置种子为42 gen = torch.Generator().manual_seed(42) # 使用这个生成器进行划分 train_set, val_set = random_split(dataset, [80, 20], generator=gen) ``` **方式二:设置全局随机种子** `torch.manual_seed()` 会设置PyTorch全局的默认随机数生成器种子。这意味着它不仅影响 `random_split`,还会影响所有使用PyTorch随机操作的地方,比如模型权重初始化、`torch.randn`等。 ```python # 设置全局种子 torch.manual_seed(42) # 此时random_split会使用这个全局的默认生成器 train_set, val_set = random_split(dataset, [80, 20]) ``` **这两种方式在效果上是等价的**,都能保证 `random_split` 的划分结果固定。但它们在工程实践上有细微差别: * **局部生成器(方式一)** 更安全、更模块化。你的数据划分逻辑是自包含的,不会意外地改变项目中其他地方的随机行为。比如,你可能希望数据划分固定,但模型每次训练时权重初始化不同,以观察模型性能的稳定性。这时候就应该用局部生成器。 * **全局种子(方式二)** 更方便,一行代码搞定所有随机性。适合需要完全、彻底复现整个实验流程的场景,包括数据划分、模型初始化、数据增强中的随机变换等。 在我的项目中,我通常**首选方式一**。因为“关注点分离”是好的编程习惯。数据划分的随机性应该被明确地管理,而不是隐式地依赖全局状态。 ### 3.2 一个完整的、可复现的划分示例 让我们把上面的知识整合到一个更真实的场景里,比如加载经典的CIFAR-10数据集并进行划分。 ```python import torch from torch.utils.data import DataLoader, random_split from torchvision import datasets, transforms # 1. 定义数据预处理 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 2. 下载并加载完整训练集(CIFAR-10有50000张训练图片) full_train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) # 3. 定义划分长度(8:2划分) train_len = int(0.8 * len(full_train_dataset)) val_len = len(full_train_dataset) - train_len # 4. 创建固定种子的生成器,确保可复现 split_generator = torch.Generator().manual_seed(2023) # 种子可以是你喜欢的任何数字,比如项目开始的年份 # 5. 执行划分 train_dataset, val_dataset = random_split( full_train_dataset, [train_len, val_len], generator=split_generator ) print(f"总数据集: {len(full_train_dataset)} 张图片") print(f"训练集: {len(train_dataset)} 张图片") print(f"验证集: {len(val_dataset)} 张图片") # 验证可复现性:再次用相同的生成器划分(理论上应得到相同结果) # 注意:同一个生成器用过后,其内部状态会改变。要复现,必须重新创建并设定相同种子。 split_generator2 = torch.Generator().manual_seed(2023) train_dataset2, val_dataset2 = random_split(full_train_dataset, [train_len, val_len], generator=split_generator2) # 检查两个划分结果是否完全一致(比较索引) print(f"两次划分的训练集索引是否一致:{train_dataset.indices[:10] == train_dataset2.indices[:10]}") print(f"示例索引(前10个):{train_dataset.indices[:10]}") ``` 运行这段代码,无论你跑多少次,`train_dataset.indices[:10]` 打印出来的索引序列永远都是 `[19, 11, 6, 3, 13, 36, 45, 16, 22, 43]`(具体数字取决于种子)。这就实现了完美的可复现性。你可以把这个种子值记录在实验配置里,任何人、任何机器,只要用这个种子,就能得到一模一样的数据划分。 ## 4. 高级场景与实战技巧 掌握了基础用法和可复现性之后,我们来看看一些更复杂但很常见的场景。 ### 4.1 多份划分:训练集、验证集、测试集 实际项目中,我们通常需要三个集合:训练集(Training Set)、验证集(Validation Set,用于调参和监控训练过程)、测试集(Test Set,用于最终评估模型泛化能力,只在最后用一次)。`random_split` 可以轻松做到: ```python # 假设我们有一个包含1000个样本的数据集 dataset = MyDataset(...) # 总长度1000 # 定义划分比例:70%训练,15%验证,15%测试 train_len = int(0.7 * 1000) val_len = int(0.15 * 1000) test_len = 1000 - train_len - val_len # 确保总和为1000 # 使用同一个生成器,确保三份划分是一次性、不重叠地生成的 gen = torch.Generator().manual_seed(42) train_set, val_set, test_set = random_split( dataset, [train_len, val_len, test_len], generator=gen ) ``` 这里的关键是,`lengths` 列表可以包含任意多个值,函数会按顺序返回对应数量的子数据集。并且,由于使用了同一个固定的生成器,这三次划分是作为一个整体随机打乱后切分的,保证了三个集合之间没有交集。 ### 4.2 与DataLoader及数据增强的配合 划分好数据集后,我们通常会用 `DataLoader` 来加载数据,并可能应用数据增强(Data Augmentation)。这里有一个重要的细节:**数据增强中的随机操作(如随机裁剪、水平翻转)也需要考虑可复现性**。 ```python from torch.utils.data import DataLoader import torchvision.transforms as transforms # 定义训练和验证的不同变换 # 训练时使用强随机增强 train_transform = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(p=0.5), # 这里有随机性! transforms.ToTensor(), ]) # 验证时只使用确定性的预处理 val_transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), ]) # 假设我们已经有了 train_set 和 val_set (Subset对象) # 注意:random_split返回的是Subset,它保留了原dataset的transform。 # 如果原dataset在初始化时已经绑定了transform,Subset会直接继承。 # 更灵活的做法是使用自定义Dataset,在__getitem__中根据模式(train/val)应用不同的transform。 # 创建DataLoader train_loader = DataLoader(train_set, batch_size=32, shuffle=True, num_workers=4) val_loader = DataLoader(val_set, batch_size=32, shuffle=False, num_workers=4) # 验证集无需shuffle ``` 对于训练集 `DataLoader` 的 `shuffle=True`,它每次遍历数据集(每个epoch)前都会打乱顺序。为了确保每次训练运行的epoch顺序可复现,你需要为 `DataLoader` 也设置一个固定的生成器: ```python loader_gen = torch.Generator().manual_seed(42) train_loader = DataLoader(train_set, batch_size=32, shuffle=True, generator=loader_gen, num_workers=4) ``` 而对于数据增强中的随机性(如 `RandomHorizontalFlip`),在PyTorch中,它们的随机源通常依赖于 `torch` 的全局随机状态或Python内置的 `random` 模块。为了完全复现一次训练,你需要在**每个epoch开始前**,为这些模块也设置固定的种子。但这通常更复杂,且可能影响性能。在实践中,对于数据增强的可复现性,往往只在对实验进行严格Debug时才需要,大部分时候我们更关心数据**划分**的可复现性。 ### 4.3 避坑指南:我踩过的那些“雷” 1. **种子管理混乱**:在大型项目中,不同的模块(数据划分、模型初始化、数据增强)可能使用了不同的随机源。建议在项目开始时,在一个统一的配置文件(如 `config.py`)中定义所有需要的种子,并清晰地注释每个种子的用途。 ```python # config.py DATA_SPLIT_SEED = 42 # 用于数据划分 MODEL_INIT_SEED = 123 # 用于模型权重初始化 AUGMENTATION_SEED = 777 # 用于数据增强(如果需严格复现) ``` 2. **Subset对象的特性**:`random_split` 返回的是 `Subset` 对象,它是对原始数据集的一个“视图”,存储的是索引。这意味着如果你修改了原始数据集(比如动态增删数据),可能会影响到所有子集。通常这没问题,但需要心中有数。 3. **分布式训练中的划分**:在多个GPU上训练时,通常每个进程需要自己数据的一个子集。你不能简单地在每个进程里调用 `random_split`,因为这样每个进程会得到不同的、可能重叠的划分。正确的做法是在主进程(rank 0)中完成划分,然后将划分好的索引通过分布式通信广播给所有其他进程。或者,使用 `torch.utils.data.DistributedSampler`,它会自动为每个进程处理数据的分片和随机打乱,并且也支持通过 `seed` 参数实现可复现性。 4. **生成器状态的变化**:一个 `Generator` 对象在被使用后,其内部状态会前进。这意味着你不能用同一个生成器对象去期望得到两次相同的随机数序列。每次需要可复现的划分时,**重新创建并设定相同种子**的生成器是最稳妥的做法,正如我们在3.2节的示例中所做的那样。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

Python内容推荐

【Python编程】Matplotlib可视化图表定制与高级技巧

【Python编程】Matplotlib可视化图表定制与高级技巧

内容概要:本文全面梳理Matplotlib的图表绘制体系,重点对比pyplot接口与面向对象(OO)接口的适用场景、Figure/Axes/Axis三层对象模型的职责划分。文章从后端(backend)渲染机制出发,详解线条样式(linestyle/marker/color)的组合配置、坐标轴刻度(locator/formatter)的自定义规则、以及双轴(twinx)与多子图(subplots/subplot_mosaic)的布局控制。通过代码示例展示3D曲面图(mplot3d)、热力图(imshow/pcolormesh)、动画(FuncAnimation)的创建流程,同时介绍样式表(style sheet)的全局主题配置、LaTeX数学公式渲染、以及矢量图(SVG/PDF)与位图(PNG)的输出选择,最后给出在科学论文、商业报表、数据大屏等场景下的图表设计原则与可访问性建议。 24直播网:dgsmadz168.com 24直播网:m.zcgqxs.com 24直播网:szlkdm.com 24直播网:sdshgbc.com 24直播网:m.typf91.com

Python RGB图像转为灰度图像教程

Python RGB图像转为灰度图像教程

打开链接下载源码: https://pan.quark.cn/s/7f9dd008005b 图形图像操作实践 主要是在对各种图片格式进行转换,记录一下 native-gauss 高斯模糊的开源算法很多,这个模块主要在层对进行高斯模糊操作 native-libjpeg-turbo 移植了库到,在层加载图片,进行渲染 原文地址 native-libpng 移植了到,在层加载图片,进行渲染 原文地址 native-yuv 是开源的一个处理,移植到也比较简单 原文地址 native-yuv2image 主要用来实现 原文地址 native-yuv2rgb 主要用来实现 原文地址

【Python编程】Python inspect模块反射与 introspection 技术

【Python编程】Python inspect模块反射与 introspection 技术

内容概要:本文深入讲解inspect模块的代码 introspection 能力,重点对比获取源代码(getsource)、签名解析(signature)、栈帧检查(stack/currentframe)与成员遍历(getmembers)的技术细节。文章从Python的对象模型出发,详解inspect.signature的参数类型注解提取、inspect.getdoc的文档字符串规范化、以及inspect.isfunction/isclass/ismethod的类型判别函数族。通过代码示例展示函数默认参数值的运行时检查、类继承关系的MRO可视化、以及调用栈帧的局部变量快照调试,同时介绍inspect与typing模块的类型注解联合解析、装饰器包装后签名保留(functools.wraps配合)、以及inspect在框架开发中的自动路由注册应用,最后给出在调试工具、代码生成、框架开发等场景下的 introspection 使用策略与元编程技巧。 24直播网:m.lczxcyjc.com 24直播网:ahmxwh.com 24直播网:sxsgjs.com.cn 24直播网:53mou.com 24直播网:m.anjuwy.com

【Python编程】Python typing模块泛型与类型变量

【Python编程】Python typing模块泛型与类型变量

内容概要:本文系统讲解Python类型系统的泛型编程能力,重点对比TypeVar、Generic、Protocol、TypedDict在类型抽象与约束上的差异。文章从PEP 484类型注解出发,详解TypeVar的边界约束(bound=)与协变/逆变/不变(covariant/contravariant)方差标记、Generic基类的自定义泛型容器定义、以及Protocol的结构子类型(鸭子类型)接口契约。通过代码示例展示泛型函数的类型推断、泛型类的类型参数传递、以及TypeVarTuple的变长泛型参数(PEP 646),同时介绍ParamSpec的回调函数签名保留(PEP 612)、Self类型的递归返回类型(PEP 673)、以及typing.overload的函数重载与类型收窄,最后给出在泛型容器、回调抽象、框架设计等场景下的泛型使用策略与类型检查器兼容性建议。

Web开发基于Python3.8与Django3.2的Windows生产环境部署:虚拟环境配置与Waitress服务器应用

Web开发基于Python3.8与Django3.2的Windows生产环境部署:虚拟环境配置与Waitress服务器应用

内容概要:本文详细介绍了在Windows系统下部署Python 3.8.10与Django 3.2的完整开发与生产环境的全过程。内容涵盖Python的安装与环境变量配置、pip包管理工具的升级与代理设置、虚拟环境的创建与激活、Django项目的初始化与结构解析,并重点讲解了如何通过Waitress这一生产级WSGI服务器部署Django应用,实现从开发环境到生产环境的过渡。此外,文档还推荐使用Notepad++作为轻量级代码编辑器,并提供了批处理脚本和Windows任务计划程序的自动化部署方案,确保服务开机自启与高可用性。; 适合人群:具备Python基础、正在学习Django框架的初级开发者,或需要在Windows平台上搭建Django生产环境的技术人员;尤其适合1-3年经验、从事Web开发工作的研发人员。; 使用场景及目标:①指导开发者在Windows系统中搭建稳定、隔离的Django开发环境;②帮助理解虚拟环境、WSGI服务器、Nginx反向代理等生产部署核心概念;③实现Django项目从runserver开发服务器到Waitress生产服务器的迁移,并支持自动化运维。; 阅读建议:建议读者按照文档顺序逐步操作,重点关注Python环境配置、虚拟环境激活后的目录切换原则、项目创建时“带点”命令的使用,以及Waitress与任务计划程序的集成部署。实操过程中应结合命令行与Notepad++进行代码编辑与调试,强化对Django项目结构与部署流程的理解。

【半导体制造】基于Python的数据可视化系统设计:芯片良率监控与缺陷聚类分析应用

【半导体制造】基于Python的数据可视化系统设计:芯片良率监控与缺陷聚类分析应用

内容概要:本文围绕芯片制造中的良率监控,介绍了一套基于Python的数据可视化系统,涵盖从数据生成、SPC控制图、晶圆图绘制到缺陷聚类分析的完整流程。系统通过模拟多种典型缺陷模式(如边缘、中心、划痕等),结合统计过程控制(SPC)、交互式晶圆热力图和DBSCAN空间聚类算法,实现了对芯片生产过程中良率变化的多层级可视化监控与根因分析,并展示了如何利用Matplotlib、Seaborn和Plotly等工具构建静态与动态图表,支持实时数据下探与决策支持。; 适合人群:具备Python编程基础,从事半导体制造、数据分析或工艺工程的技术人员,尤其是关注良率提升与制程优化的研发工程师;也适用于智能制造、工业大数据可视化领域的学习者。; 使用场景及目标:①实现Fab厂日常良率趋势监控与异常预警;②支持NPI阶段不同工艺条件的良率对比;③辅助根因分析,快速定位缺陷模式对应的工艺问题;④自动生成客户所需的可视化报告。; 阅读建议:此资源强调理论与实践结合,建议读者运行代码并调试不同参数(如缺陷模式、控制限规则、聚类阈值),深入理解各模块的数据流转与行业逻辑,同时可扩展集成AI预测模型或对接实际生产数据系统以增强实用性。

Pytorch 使用CNN图像分类的实现

Pytorch 使用CNN图像分类的实现

```pythonclass MyDataset(torch.utils.data.Dataset): def __init__(self, root, datacsv, transform=None)

全连接神经网络-pytorch

全连接神经网络-pytorch

()train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])train_loader

使用AI进行文本分类的深入学习

使用AI进行文本分类的深入学习

ch.utils.data import Dataset, DataLoaderfrom torch.utils.data import TensorDataset, random_split# 将令牌转换为

JavaScript项目如何设计大文件上传体验方案

JavaScript项目如何设计大文件上传体验方案

标题:JavaScript项目如何设计大文件上传体验方案 内容概要:聚焦性能优化、权限隔离、数据一致性与监控告警,讲解JavaScript项目如何设计大文件上传体验方案的设计思路。 24直播网:www.miaomantz.cn 24直播网:www.sc-hjmj.com 24直播网:www.qghjfw.com 24直播网:www.2023119.com 24直播网:www.youscreen.cn

【没发表过创新点】【多变量输入超前多步预测】基于CPO-CNN-GRU-Attention的风电功率预测研究(Matlab代码实现)

【没发表过创新点】【多变量输入超前多步预测】基于CPO-CNN-GRU-Attention的风电功率预测研究(Matlab代码实现)

内容概要:本文围绕基于CPO-CNN-GRU-Attention的深度学习模型开展风电功率预测研究,提出一种适用于多变量输入且支持超前多步预测的技术框架。该方法结合卷积神经网络(CNN)提取局部时序特征,利用门控循环单元(GRU)捕捉长期依赖关系,并引入注意力机制增强关键时间步的权重分配,从而提升预测精度。模型通过冠豪猪优化器(CPO)进行超参数寻优,以应对风电数据的强波动性和不确定性。研究重点在于构建一个能够融合气象、历史功率等多源输入变量的端到端预测体系,实现对未来多个时间步长的风电出力进行有效预估,适用于电力系统调度与新能源消纳等应用场景。; 适合人群:具备一定机器学习与深度学习基础,从事新能源预测、电力系统调度或相关领域研究的研发人员及研究生。; 使用场景及目标:① 解决风电功率预测中多变量融合与长时间序列依赖建模的问题;② 实现高精度的超前多步预测,支撑电网调度决策与能源管理;③ 探索先进优化算法(如CPO)与深度神经网络结合的应用潜力。; 阅读建议:建议读者结合Matlab代码实现部分,深入理解各模块的设计原理与数据流动机制,尤其关注注意力机制的实现方式与CPO优化器的调参过程,通过实验对比不同模型结构与参数设置对预测性能的影响,进而掌握复杂时序预测系统的构建方法。

【人工智能医疗】基于视觉模型的食物碳水化合物估算可靠性分析:糖尿病管理中AI评估误差与临床风险研究

【人工智能医疗】基于视觉模型的食物碳水化合物估算可靠性分析:糖尿病管理中AI评估误差与临床风险研究

内容概要:本文通过一项实证研究评估了四种主流AI视觉模型(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro、Gemini 3.1 Pro)在估算食物碳水化合物方面的一致性与准确性。研究人员对13张餐食照片进行了总计26,904次查询,发现所有模型均存在显著的自我不一致性,同一图片反复查询会得到差异巨大的碳水估算值,其中部分误差足以引发严重低血糖。研究还揭示了“精确地错误”现象——某些模型虽高度一致,但系统性偏离真实值;同时,模型普遍存在食物识别错误和置信度评分失真问题,其报告的高置信度与实际准确性无正相关,甚至呈负相关。; 适合人群:关注AI在医疗健康领域应用的研究者、糖尿病患者技术使用者、AI产品开发者及医疗科技监管相关人员。; 使用场景及目标:①评估AI模型在饮食管理尤其是糖尿病胰岛素计算中的可靠性;②警示将通用大模型直接用于临床决策的风险;③推动开发更具可解释性与校准能力的专用医疗AI系统; 阅读建议:此研究强调不应将当前AI视觉模型作为独立工具进行碳水计算或胰岛素推荐,建议用户若使用此类功能,应多次查询观察结果离散程度、人工核对食物识别准确性,并结合医学指导谨慎判断。

Toonany - AI漫剧创作助手:小说转剧本、分镜生成、短剧制作完整工作流.zip

Toonany - AI漫剧创作助手:小说转剧本、分镜生成、短剧制作完整工作流.zip

seedance2接入 开源本地 AI 短剧 & 漫剧生成工具 —— 从故事到成片一站式完成,数据不出本机,短剧工作流管理平台,高灵活度,AI真人剧,AI漫剧本地搞定。 Open-source local AI short drama maker: story → st…

Matlab fplot函数二维曲线

Matlab fplot函数二维曲线

打开链接下载源码: https://pan.quark.cn/s/a4b39357ea24 MATLAB Plot Cheatsheet This is a handy cheatsheet for matlab users, especially for those who are preparing figures for a paper! Written and tested in Matlab2019b plot Download big (1.29MB) full (3.07MB) The ratio of the figure is 1:1.414 which is exactly the ratio of a A4-paper, so feel free to Color-print it.

资料:无刷电机-BLDC-PMSM-基础知识与工程应用报告.rar

资料:无刷电机-BLDC-PMSM-基础知识与工程应用报告.rar

BLDC_PMSM_无刷电机基础知识与工程应用报告.pdf 基于三相正弦输出逆变器的永磁同步电机无感控制_马滔.pdf 无刷电机_BLDC_PMSM_基础知识与工程应用报告.docx 无刷直流电机反电势定向矢量控制策略研究_邵淑敏.pdf 永磁同步电机低精度位置传感器矢量控制系统研究_赵勇.pdf

应用服务运行效能智能评估优化方案.pptx

应用服务运行效能智能评估优化方案.pptx

应用服务运行效能智能评估优化方案.pptx

实用代码脚本易语言源码超文本编辑框

实用代码脚本易语言源码超文本编辑框

实用代码脚本易语言源码超文本编辑框

yolov26.pt 用来保存

yolov26.pt 用来保存

yolov26.pt 用来保存

审计整改跟踪与闭环管理系统.pptx

审计整改跟踪与闭环管理系统.pptx

审计整改跟踪与闭环管理系统.pptx

JavaScript场景下的流式聊天渲染引擎优化方案

JavaScript场景下的流式聊天渲染引擎优化方案

标题:JavaScript场景下的流式聊天渲染引擎优化方案 内容概要:聚焦性能优化、权限隔离、数据一致性与监控告警,讲解JavaScript场景下的流式聊天渲染引擎优化方案的设计思路。 24直播网:jingugz.com 24直播网:yq-fab.com 24直播网:m.tsrjtea.com 24直播网:m.qianfeiyuanlin.com 24直播网:m.zhengchenglase.com

最新推荐最新推荐

recommend-type

学生成绩管理系统C++课程设计与实践

资源摘要信息:"学生成绩信息管理系统-C++(1).doc" 1. 系统需求分析与设计 在进行学生成绩信息管理系统开发前,首先需要进行系统需求分析,这是确定系统开发目标与范围的过程。需求分析应包括数据需求和功能需求两个方面。 - 数据需求分析: - 学生成绩信息:需要收集学生的姓名、学号、课程成绩等数据。 - 数据类型和长度:明确每个数据项的数据类型(如字符串、整型等)和长度,例如学号可能是字符串类型且长度为一定值。 - 描述:详细描述每个数据项的意义,以确保系统能够准确处理。 - 功能需求分析: - 列出功能列表:用户界面应提供清晰的操作指引,列出所有可用功能。 - 查询学生成绩:系统应能通过学号或姓名查询学生的成绩信息。 - 增加学生成绩信息:允许用户添加未保存的学生成绩信息。 - 删除学生成绩信息:能够通过学号或姓名删除已经保存的成绩信息。 - 修改学生成绩信息:通过学号或姓名修改已有的成绩记录。 - 退出程序:提供安全退出程序的选项,并确保所有修改都已保存。 2. 系统设计 系统设计阶段主要完成内存数据结构设计、数据文件设计、代码设计、输入输出设计、用户界面设计和处理过程设计。 - 内存数据结构设计: - 使用链表结构组织内存中的数据,便于动态增删查改操作。 - 数据文件设计: - 选择文本文件存储数据,便于查看和编辑。 - 代码设计: - 根据功能需求,编写相应的函数和模块。 - 输入输出设计: - 设计简洁明了的输入输出提示信息和操作流程。 - 用户界面设计: - 用户界面应为字符界面,方便在命令行环境下使用。 - 处理过程设计: - 设计数据处理流程,确保每个操作都有明确的处理逻辑。 3. 系统实现与测试 实现阶段需要根据设计阶段的成果编写程序代码,并进行系统测试。 - 程序编写: - 完成系统设计中所有功能的程序代码编写。 - 系统测试: - 设计测试用例,通过测试用例上机测试系统。 - 记录测试方法和测试结果,确保系统稳定可靠。 4. 设计报告撰写 最后,根据系统开发的各个阶段,撰写详细的设计报告。 - 系统描述:包括问题说明、数据需求和功能需求。 - 系统设计:详细记录内存数据结构设计、数据文件设计、代码设计、输入/输出设计、用户界面设计、处理过程设计。 - 系统测试:包括测试用例描述、测试方法和测试结果。 - 设计特点、不足、收获和体会:反思整个开发过程,总结经验和教训。 时间安排: - 第19周(7月12日至7月16日)完成项目。 - 7月9日8:00到计算机学院实验中心(三楼)提交程序和课程设计报告。 指导教师和系主任(或责任教师)需要在文档上签名确认。 系统需求分析: - 使用表格记录系统需求分析的结果,包括数据项、数据类型、数据长度和描述。 - 分析数据项如学生成绩信息、状态器、链表节点等,确定其属性和行为。 以上就是文档中提到的学生成绩信息管理系统开发的关键知识点。开发此类系统需要熟练掌握C++编程基础,了解面向对象的程序设计思想,以及熟悉文件操作和链表等数据结构的应用。此外,良好的软件开发流程意识、测试意识和文档撰写能力也是必不可少的。
recommend-type

别再手动拖拽了!用Lumerical脚本批量创建FDTD仿真结构(附完整代码)

# 告别低效建模:Lumerical脚本自动化实战指南 在光子学仿真领域,时间就是科研生命线。当同行还在GUI界面里反复点击菜单时,你已经用脚本批量生成了20组参数化结构——这不是未来场景,而是每位FDTD用户都应该掌握的基础生产力革命。本文将彻底改变你与Lumerical的交互方式,从手动拖拽的农耕时代,跃迁到自动化建模的工业文明。 ## 1. 为何脚本建模是必然选择 2019年Nature Photonics的一项研究显示,科研工作者在仿真工具上平均浪费37%的时间在重复性操作上。对于需要参数扫描的纳米光学结构设计,这个数字可能更高。手动创建10个不同尺寸的纳米柱阵列意味着: -
recommend-type

Java邮件解析任务中,如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常?

<think>我们被要求优化一段Java代码,该代码用于处理邮件(特别是来自特定发件人的构建通知邮件)。代码的主要问题包括: 1. 重复获取邮件内容:在检查MIME类型后,多次调用`msg[i].getContent()`,这可能导致性能问题或流关闭异常。 2. 类型转换问题:直接将邮件内容转换为`Multipart`而不进行类型检查,可能引发`ClassCastException`。 3. 代码结构问题:逻辑嵌套过深,可读性差,且存在重复代码(如插入邮件详情的操作在两个地方都有)。 4. 硬编码和魔法值:例如在解析HTML表格时使用了硬编码的索引(如list3.get(10)),这容易因邮件
recommend-type

RH公司应收账款管理优化策略研究

资源摘要信息:"本文针对RH公司的应收账款管理问题进行了深入研究,并提出了改进策略。文章首先分析了应收账款在企业管理中的重要性,指出其对于提高企业竞争力、扩大销售和充分利用生产能力的作用。然后,以RH公司为例,探讨了公司应收账款管理的现状,并识别出合同管理、客户信用调查等方面的不足。在此基础上,文章提出了一系列改善措施,包括完善信用政策、改进业务流程、加强信用调查和提高账款回收力度。特别强调了建立专门的应收账款回收部门和流程的重要性,并建议在实际应用过程中进行持续优化。同时,文章也意识到企业面临复杂多变的内外部环境,因此提出的策略需要根据具体情况调整和优化。 针对财务管理领域的专业学生和从业者,本文提供了一个关于应收账款管理问题的案例研究,具有实际指导意义。文章还探讨了信用管理和征信体系在应收账款管理中的作用,强调了它们对于提升企业信用风险控制和市场竞争能力的重要性。通过对比国内外企业在应收账款管理上的差异,文章总结了适合中国企业实际环境的应收账款管理方法和策略。" 根据提供的文件内容,以下是详细的知识点: 1. 应收账款管理的重要性:应收账款作为企业的一项重要资产,其有效管理关系到企业的现金流、财务健康以及市场竞争力。不良的应收账款管理会导致资金链断裂、坏账损失增加等问题,严重影响企业的正常运营和长远发展。 2. 应收账款的信用风险:在信用交易日益频繁的商业环境中,企业必须对客户信用进行评估,以便采取合理的信用政策,降低信用风险。 3. 合同管理的薄弱环节:合同是应收账款管理的法律基础,严格的合同管理能够保障企业权益,减少因合同问题导致的应收账款风险。 4. 客户信用调查:了解客户的信用状况对于预测和控制应收账款风险至关重要。企业需要建立有效的客户信用调查机制,识别和筛选信用良好的客户。 5. 应收账款回收策略:企业应建立有效的账款回收机制,包括定期的账款跟进、逾期账款的催收等。同时,建立专门的应收账款回收部门可以提升回收效率。 6. 应收账款管理流程优化:通过改进企业内部管理流程,如简化审批流程、提高工作效率等措施,能够提升应收账款的管理效率。 7. 应收账款管理策略的调整和优化:由于企业的内外部环境复杂多变,因此制定的管理策略需要根据实际情况进行动态调整和持续优化。 8. 信用管理和征信体系的作用:建立和完善企业内部信用管理体系和征信体系,有助于企业更好地控制信用风险,并在市场竞争中占据有利地位。 9. 对比国内外应收账款管理实践:通过研究国内外企业在应收账款管理上的不同做法和经验,可以借鉴先进的管理理念和方法,提升国内企业的应收账款管理水平。 综上所述,本文深入探讨了应收账款管理的多个方面,为RH公司乃至其他同类型企业提供了应收账款管理的改进方向和策略,对于财务管理专业的教育和实践都具有重要的参考价值。
recommend-type

新手别慌!用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

# 新手别慌!用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构 第一次拿到BingPi-M2开发板时,面对Tina Linux SDK里密密麻麻的文件夹,我完全不知道从哪下手。就像走进一个陌生的大仓库,每个货架上都堆满了工具和零件,却找不到操作手册。这种困惑持续了整整两天,直到我意识到——理解目录结构比死记硬背每个文件更重要。 ## 1. 为什么SDK目录结构如此重要 想象你正在组装一台复杂的模型飞机。如果所有零件都混在一个箱子里,你需要花大量时间寻找每个螺丝和面板。但如果有分门别类的隔层,标注着"机身部件"、"电子设备"、"紧固件",组装效率会成倍提升。Ti
recommend-type

Java线程池运行时状态怎么实时掌握?有哪些靠谱的监控手段?

<think>我们之前已经讨论过Java线程池监控的多种方法,包括使用第三方工具和自定义监控。现在用户再次询问Java线程池监控方法,我们需要根据引用内容以及之前讨论的内容进行总结和扩展。 引用[1]提到使用JDK自带的监控工具,引用[2]提到了三种常用的线程池创建方式,引用[3]给出了通过ThreadPoolExecutor获取线程池状态的方法。 结合之前回答的内容,我们可以将监控方法分为以下几类: 1. 使用JDK自带工具(如jconsole, jvisualvm)进行监控。 2. 通过编程方式获取线程池状态(如引用[3]所示)。 3. 扩展ThreadPoolExecutor,
recommend-type

桌面工具软件项目效益评估及市场预测分析

资源摘要信息:"桌面工具软件项目效益评估报告" 1. 市场预测 在进行桌面工具软件项目的效益评估时,首先需要对市场进行深入的预测和分析,以便掌握项目在市场上的潜在表现和风险。报告中提到了两部分市场预测的内容: (一) 行业发展概况 行业发展概况涉及对当前桌面工具软件市场的整体评价,包括市场规模、市场增长率、主要技术发展趋势、用户偏好变化、行业标准与规范、主要竞争者等关键信息的分析。通过这些信息,我们可以评估该软件项目是否符合行业发展趋势,以及是否能满足市场需求。 (二) 影响行业发展主要因素 了解影响行业发展的主要因素可以帮助项目团队识别市场机会与风险。这些因素可能包括宏观经济环境、技术进步、法律法规变动、行业监管政策、用户需求变化、替代产品的发展、以及竞争环境的变化等。对这些因素的细致分析对于制定有效的项目策略至关重要。 2. 桌面工具软件项目概论 在进行效益评估时,项目概论部分提供了对整个软件项目的基本信息,这是评估项目可行性和预期效益的基础。 (一) 桌面工具软件项目名称及投资人 明确项目名称是评估效益的第一步,它有助于区分市场上的其他类似产品和服务。同时,了解投资人的信息能够帮助我们评估项目的资金支持力度、投资人的经验与行业影响力,这些因素都能间接影响项目的成功率。 (二) 编制原则 编制原则描述了报告所遵循的基本原则,可能包括客观性、公正性、数据的准确性和分析的深度。这些原则保证了报告的有效性和可信度,同时也为项目团队提供了评估标准。基于这些原则,项目团队可以确保评估报告的每个部分都建立在可靠的数据和深入分析的基础上。 报告的其他部分可能还包括桌面工具软件的具体功能分析、技术架构描述、市场定位、用户群体分析、商业模式、项目预算与财务预测、风险分析、以及项目进度规划等内容。这些内容的分析对于评估项目的整体效益和潜在回报至关重要。 通过对以上内容的深入分析,项目负责人和投资者可以更好地理解项目的市场前景、技术可行性、财务潜力和潜在风险。最终,这些分析结果将为决策提供重要依据,帮助项目团队和投资者进行科学合理的决策,以期达到良好的项目效益。
recommend-type

告别遮挡!UniApp中WebView与原生导航栏的和谐共处方案(附完整可运行代码)

# UniApp中WebView与原生导航栏的深度协同方案 在混合应用开发领域,WebView与原生组件的和谐共处一直是开发者面临的经典挑战。当H5的灵活遇上原生的稳定,如何在UniApp框架下实现两者的无缝衔接?这不仅关乎视觉体验的统一,更影响着用户交互的流畅度。让我们从架构层面剖析这个问题,探索一套系统性的解决方案。 ## 1. 理解UniApp页面层级结构 任何有效的布局解决方案都必须建立在对框架底层结构的清晰认知上。UniApp的页面渲染并非简单的"HTML+CSS"模式,而是通过原生容器与WebView的协同工作实现的复合体系。 典型的UniApp页面包含以下几个关键层级:
recommend-type

OSPF是怎么在企业网里自动找最优路径并分区域管理的?

### OSPF 协议概述 开放最短路径优先 (Open Shortest Path First, OSPF) 是一种内部网关协议 (IGP),用于在单一自治系统 (AS) 内部路由数据包。它基于链路状态算法,能够动态计算最佳路径并适应网络拓扑的变化[^1]。 OSPF 的主要特点包括支持可变长度子网掩码 (VLSM) 和无类域间路由 (CIDR),以及通过区域划分来减少路由器内存占用和 CPU 使用率。这些特性使得 OSPF 成为大型企业网络的理想选择[^2]。 ### OSPF 配置示例 以下是 Cisco 路由器上配置基本 OSPF 的示例: ```cisco-ios rout
recommend-type

UML建模课程设计:图书馆管理系统论文

资源摘要信息:"本文档是一份关于UML课程设计图书管理系统大学毕设论文的说明书和任务书。文档中明确了课程设计的任务书、可选课题、课程设计要求等关键信息。" 知识点一:课程设计任务书的重要性和结构 课程设计任务书是指导学生进行课程设计的文件,通常包括设计课题、时间安排、指导教师信息、课题要求等。本次课程设计的任务书详细列出了起讫时间、院系、班级、指导教师、系主任等信息,确保学生在进行UML建模课程设计时有明确的指导和支持。 知识点二:课程设计课题的选择和确定 文档中提供了多个可选课题,包括档案管理系统、学籍管理系统、图书管理系统等的UML建模。这些课题覆盖了常见的信息系统领域,学生可以根据自己的兴趣或未来职业规划来选择适合的课题。同时,也鼓励学生自选题目,但前提是该题目必须得到指导老师的认可。 知识点三:课程设计的具体要求 文档中的课程设计要求明确了学生在完成课程设计时需要达到的目标,具体包括: 1. 绘制系统的完整用例图,用例图是理解系统功能和用户交互的基础,它展示系统的功能需求。 2. 对于负责模块的用例,需要提供详细的事件流描述。事件流描述帮助理解用例的具体实现步骤,包括主事件流和备选事件流。 3. 基于用例的事件流描述,识别候选的实体类,并确定类之间的关系,绘制出正确的类图。类图是面向对象设计中的核心,它展示了系统中的数据结构。 4. 绘制用例的顺序图,顺序图侧重于展示对象之间交互的时间顺序,有助于理解系统的行为。 知识点四:UML(统一建模语言)的重要性 UML是软件工程中用于描述、可视化和文档化软件系统各种组件的设计语言。它包含了一系列图表,这些图表能够帮助开发者和设计者理解系统的设计,实现有效的通信。在课程设计中使用UML建模,不仅帮助学生更好地理解系统设计的各个方面,而且是软件开发实践中常用的技术。 知识点五:UML图表类型及其应用 在UML建模中,常用的图表包括: - 用例图(Use Case Diagram):展示系统的功能需求,即系统能够做什么。 - 类图(Class Diagram):展示系统中的类以及类之间的关系,包括继承、关联、依赖等。 - 顺序图(Sequence Diagram):展示对象之间随时间变化的交互过程。 - 状态图(State Diagram):展示一个对象在其生命周期内可能经历的状态。 - 活动图(Activity Diagram):展示业务流程和工作流中的活动以及活动之间的转移。 - 组件图(Component Diagram)和部署图(Deployment Diagram):分别展示系统的物理构成和硬件配置。 知识点六:面向对象设计的核心概念 面向对象设计(Object-Oriented Design, OOD)是软件设计的一种方法学,它强调使用对象来代表数据和功能。核心概念包括: - 抽象:抽取事物的本质特征,忽略非本质的细节。 - 封装:隐藏对象的内部状态和实现细节,只通过公共接口暴露功能。 - 继承:子类继承父类的属性和方法,形成层次结构。 - 多态:允许使用父类类型的引用指向子类的对象,并能调用子类的方法。 知识点七:图书管理系统的业务逻辑和功能需求 虽然文档中没有具体描述图书管理系统的功能需求,但通常这类系统应包括如下功能模块: - 用户管理:包括用户的注册、登录、权限分配等。 - 图书管理:涵盖图书的入库、借阅、归还、查询等功能。 - 借阅管理:记录借阅信息,跟踪借阅状态,处理逾期罚金等。 - 系统管理:包括数据备份、恢复、日志记录等维护性功能。 通过以上知识点的提取和总结,学生能够对UML课程设计有一个全面的认识,并能根据图书管理系统课题的具体要求,进行合理的系统设计和实现。