Étant donné que les modèles d'apprentissage automatique ont tendance à surentraîner les données d'entraînement, il est courant de diviser les données disponibles en données d'entraînement et en données de test pour l'évaluation des performances (validation). L'explication de la validation de scicit-learn est facile à comprendre sur les différentes méthodes de cette division. https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation

1. Pour le pli K stratifié de scikit-learn

Lors de la classification, je veux diviser pour que la distribution des étiquettes correctes soit la même, donc je pense que le pli en K stratifié de scikit-learn est souvent utilisé.

`python`


import numpy as np
from sklearn.model_selection import StratifiedKFold

X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([0, 0, 1, 1])
skf = StratifiedKFold(n_splits=2)
for train_index, test_index in skf.split(X, y):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

`résultat`


TRAIN: [1 3] TEST: [0 2]
TRAIN: [0 2] TEST: [1 3]

Cela suffit si vous n'avez qu'une seule étiquette, mais ne prend pas en charge plusieurs étiquettes.

`python`


import numpy as np
from sklearn.model_selection import StratifiedKFold

X = np.array([[1,2], [3,4], [1,2], [3,4], [1,2], [3,4], [1,2], [3,4]])
y = np.array([[0,0], [0,0], [0,1], [0,1], [1,1], [1,1], [1,0], [1,0]])
skf = StratifiedKFold(n_splits=2)

for train_index, test_index in skf.split(X, y):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

`résultat`


ValueError: Supported target types are: ('binary', 'multiclass'). Got 'multilabel-indicator' instead.

2. Pour iterstrat

iterstrat prend en charge plusieurs étiquettes https://github.com/trent-b/iterative-stratification

Installation

`terminal`


pip install iterative-stratification

Comment utiliser (quand il n'est pas aléatoire)

`python`


from iterstrat.ml_stratifiers import MultilabelStratifiedKFold
import numpy as np

X = np.array([[1,2], [3,4], [1,2], [3,4], [1,2], [3,4], [1,2], [3,4]])
y = np.array([[0,0], [0,0], [0,1], [0,1], [1,1], [1,1], [1,0], [1,0]])

mskf = MultilabelStratifiedKFold(n_splits=2, shuffle=True, random_state=0)

for train_index, test_index in mskf.split(X, y):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

`résultat`


TRAIN: [0 3 4 6] TEST: [1 2 5 7]
TRAIN: [1 2 5 7] TEST: [0 3 4 6]

Comment utiliser (lors de la lecture aléatoire)

`python`


from iterstrat.ml_stratifiers import MultilabelStratifiedShuffleSplit
import numpy as np

X = np.array([[1,2], [3,4], [1,2], [3,4], [1,2], [3,4], [1,2], [3,4]])
y = np.array([[0,0], [0,0], [0,1], [0,1], [1,1], [1,1], [1,0], [1,0]])

msss = MultilabelStratifiedShuffleSplit(n_splits=3, test_size=0.5, random_state=0)

for train_index, test_index in msss.split(X, y):
   print("TRAIN:", train_index, "TEST:", test_index)
   X_train, X_test = X[train_index], X[test_index]
   y_train, y_test = y[train_index], y[test_index]

`résultat`


TRAIN: [1 2 5 7] TEST: [0 3 4 6]
TRAIN: [2 3 6 7] TEST: [0 1 4 5]
TRAIN: [1 2 5 6] TEST: [0 3 4 7]

Comment utiliser (lors du bootstrap)

`python`


from iterstrat.ml_stratifiers import RepeatedMultilabelStratifiedKFold
import numpy as np

X = np.array([[1,2], [3,4], [1,2], [3,4], [1,2], [3,4], [1,2], [3,4]])
y = np.array([[0,0], [0,0], [0,1], [0,1], [1,1], [1,1], [1,0], [1,0]])

rmskf = RepeatedMultilabelStratifiedKFold(n_splits=2, n_repeats=2, random_state=0)

for train_index, test_index in rmskf.split(X, y):
   print("TRAIN:", train_index, "TEST:", test_index)
   X_train, X_test = X[train_index], X[test_index]
   y_train, y_test = y[train_index], y[test_index]

`résultat`


TRAIN: [0 3 4 6] TEST: [1 2 5 7]
TRAIN: [1 2 5 7] TEST: [0 3 4 6]
TRAIN: [0 1 4 5] TEST: [2 3 6 7]
TRAIN: [2 3 6 7] TEST: [0 1 4 5]

[PYTHON] Utiliser iter trat pour CV stratifié multi-étiquettes

1. Pour le pli K stratifié de scikit-learn

python

résultat

python

résultat

2. Pour iterstrat

Installation

terminal

Comment utiliser (quand il n'est pas aléatoire)

python

résultat

Comment utiliser (lors de la lecture aléatoire)

python

résultat

Comment utiliser (lors du bootstrap)

python

résultat

`python`

`résultat`

`python`

`résultat`

`terminal`

`python`

`résultat`

`python`

`résultat`

`python`

`résultat`