如何用python实现训练集和数据集的划分

### Python中使用`train_test_split()`函数划分训练集和测试集在机器学习任务中，数据集通常需要划分为训练集和测试集。Python中的`scikit-learn`库提供了`train_test_split()`函数，可以轻松实现这一目标。以下是一个完整的示例代码及详细说明。 #### 示例代码 ```python from sklearn.model_selection import train_test_split import numpy as np # 假设特征数据为X，标签数据为y X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12]]) y = np.array([0, 1, 0, 1, 0, 1]) # 设置随机种子以保证结果可复现 random_state = 42 # 使用train_test_split()函数划分数据集 # test_size=0.25 表示测试集占总数据的25%，即训练集占75% X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=random_state) # 输出划分结果 print("训练集特征:\n", X_train) print("训练集标签:\n", y_train) print("测试集特征:\n", X_test) print("测试集标签:\n", y_test) ``` #### 参数说明 - `X`: 特征数据矩阵。 - `y`: 标签向量。 - `test_size`: 测试集所占比例，默认为0.25（即25%）[^2]。 - `random_state`: 随机种子，用于确保每次运行代码时划分结果一致[^1]。 #### 输出示例假设输入数据如上所示，运行上述代码后可能得到以下输出： ``` 训练集特征: [[ 1 2] [ 9 10] [ 3 4] [ 5 6]] 训练集标签: [0 0 1 0] 测试集特征: [[ 7 8] [11 12]] 测试集标签: [1 1] ``` #### 注意事项 - 如果未指定`random_state`，每次运行代码时划分结果可能会不同。 - `test_size`参数也可以直接指定测试集的样本数量，例如`test_size=2`表示测试集包含2个样本[^3]。 --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python如何获取到authorization的值