当前位置：代码迷 >> 综合 >> sklearn in python

详细解决方案

sklearn in python

热度：31 发布时间：2023-11-26 19:24:13.0

pandas库用来对数据进行分割，而sklearn库则用来对数据进行处理

常用方法

train_test_split()分割数据集为训练集和测试集

功能：分割数据集为训练集和测试集

用法：

import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
“”“
X
array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]])
list(y)
[0, 1, 2, 3, 4]
”“”X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33,random_state=42)"""
X_train
array([[4, 5],[0, 1],[6, 7]])
y_train
[2, 0, 3]X_test
array([[2, 3],[8, 9]])
y_test
[1, 4]
"""

参数：
- ```
sklearn.model_selection.train_test_split
(*arrays, test_size=None, train_size=None, 
random_state=None, shuffle=True, stratify=None)
```
- *arrays表示需要分割的数据集
- test_size：
- train_size:
  - 属于0-1时表示test数据集所占的比例
  - 是integer时表示一个具体的数量
相关链接
- 相关链接1
- 相关链接2
- 相关链接3

相关解决方案