当前位置: 代码迷 >> 综合 >> sklearn in python
  详细解决方案

sklearn in python

热度:31   发布时间:2023-11-26 19:24:13.0

pandas库用来对数据进行分割,而sklearn库则用来对数据进行处理

常用方法

train_test_split()分割数据集为训练集和测试集

  • 功能:分割数据集为训练集和测试集
  • 用法:
    • import numpy as np
      from sklearn.model_selection import train_test_split
      X, y = np.arange(10).reshape((5, 2)), range(5)
      “”“
      X
      array([[0, 1],[2, 3],[4, 5],[6, 7],[8, 9]])
      list(y)
      [0, 1, 2, 3, 4]
      ”“”X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33,random_state=42)"""
      X_train
      array([[4, 5],[0, 1],[6, 7]])
      y_train
      [2, 0, 3]X_test
      array([[2, 3],[8, 9]])
      y_test
      [1, 4]
      """

    • 参数:
      • sklearn.model_selection.train_test_split
        (*arrays, test_size=None, train_size=None, 
        random_state=None, shuffle=True, stratify=None)
      • *arrays表示需要分割的数据集
      • test_size:
      • train_size:
        • 属于0-1时表示test数据集所占的比例
        • 是integer时表示一个具体的数量 
    • 相关链接
      • 相关链接1
      • 相关链接2
      • 相关链接3