Ich habe versucht, die maschinelle Lernbibliothek PyCaret zu verwenden, die neulich veröffentlicht wurde. Die Analyse von Datenmerkmalen und der Leistungsvergleich mit mehreren Modellen werden automatisiert, und ich denke, dass die Arbeitszeit von Datenwissenschaftlern bisher erheblich reduziert wird.
Dieses Mal verwenden wir Mice Protein Expression Data Set 2015, um Clustering durchzuführen und die Ergebnisse anzuzeigen. ..
Datenübersicht Expression levels of 77 proteins measured in the cerebral cortex of 8 classes of control and Down syndrome mice exposed to context fear conditioning, a task used to assess associative learning.
Führen Sie den folgenden Code aus, um ihn zu installieren. Ich verwende Anaconda, habe jedoch eine virtuelle Umgebung für PyCaret gestartet und installiert. In einer virtuellen Umgebung, die von einer vorhandenen Conda verwaltet wird, kann ein Fehler auftreten. (Wahrscheinlich aufgrund der Kollision zwischen Pip und Conda)
pip install pycaret
from pycaret.datasets import get_data
dataset = get_data('mice')
Ergebnis
Schauen wir uns den Inhalt der Daten mit Pandas 'profile_report () an.
import pandas_profiling
dataset.profile_report()
Ergebnis
Dann werden 95% in Trainingsdaten und 5% in Testdaten (als unsichtbare Daten bezeichnet) unterteilt.
data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)
data_unseen = dataset.drop(data.index).reset_index(drop=True)
print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))
Ergebnis
Data for Modeling: (1026, 82) Unseen Data For Predictions: (54, 82)
Verarbeiten Sie die Daten mit setup () vor.
from pycaret.clustering import *
data_clust = setup(data, normalize = True,
ignore_features = ['MouseID'],
session_id = 123)
Normalisierung numerischer Daten durchführen. Ignorieren Sie die Funktion "Maus-ID". Geben Sie dann session_id = 123 als festen zufälligen Startwert an.
Ergebnis
Wählen Sie ein Clustering-Modell für die Modellierung aus. Verwenden Sie create_model (). Dieses Mal werden wir das kmeans-Modell verwenden.
kmeans = create_model('kmeans',num_clusters = 5 )
print(kmeans)
Die Anzahl der Cluster sollte 5 betragen. Standard ist 4.
Ergebnis
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=5, n_init=10, n_jobs=None, precompute_distances='auto', random_state=123, tol=0.0001, verbose=0)
Weisen Sie dem Dataset (1080 Beispiele) mit assign_model () eine Clusterbezeichnung zu.
kmean_results = assign_model(kmeans)
kmean_results.head()
Ergebnis
Visualisieren Sie die Clustering-Ergebnisse mit plot_model.
6.1. PCA Plot
plot_model(kmeans)
Ergebnis
6.2. Elbow Plot
plot_model(kmeans, plot = 'elbow')
In Elbow Plot wird die empfohlene Anzahl von Clustern angezeigt. In diesem Fall wird die optimale Anzahl von Clustern mit 5 angegeben. Ergebnis
6.3. Silhouette Plot
plot_model(kmeans, plot = 'silhouette')
Ergebnis
6.4. Distribution Plot
plot_model(kmeans, plot = 'distribution', feature = 'class')
Ergebnis
unseen_predictions = predict_model(kmeans, data=data_unseen)
unseen_predictions.head()
Die Spalte Beschriftung repräsentiert das Ergebnis der Vorhersage.
Ergebnis
1.PyCaret Home Page , http://www.pycaret.org/ 2.PyCaret Classification, https://pycaret.org/classification/ 3. Ich habe versucht, PyCaret mit der schnellsten Geschwindigkeit zu verwenden: https://qiita.com/s_fukuzawa/items/5dd40a008dac76595eea 4. Ich habe versucht, die Qualität des Weins mit PyCaret zu klassifizieren. Https://qiita.com/kotai2003/items/c8fa7e55230d0fa0cc8e 5. Ich habe versucht, das Überleben der Titanic mit PyCaret https://qiita.com/kotai2003/items/a377f45ddee9829ed2c5 vorherzusagen 6. Ich habe versucht, den Immobilienpreis in Boston mit PyCaret vorherzusagen (Rendite) https://qiita.com/kotai2003/items/bf4e8a278e43c58cab06
Recommended Posts