Einführung

Ich habe versucht, die maschinelle Lernbibliothek PyCaret zu verwenden, die neulich veröffentlicht wurde. Die Analyse von Datenmerkmalen und der Leistungsvergleich mit mehreren Modellen werden automatisiert, und ich denke, dass die Arbeitszeit von Datenwissenschaftlern bisher erheblich reduziert wird.

Dieses Mal verwenden wir Mice Protein Expression Data Set 2015, um Clustering durchzuführen und die Ergebnisse anzuzeigen. ..

Datenübersicht Expression levels of 77 proteins measured in the cerebral cortex of 8 classes of control and Down syndrome mice exposed to context fear conditioning, a task used to assess associative learning.

1. Installieren Sie PyCaret

Führen Sie den folgenden Code aus, um ihn zu installieren. Ich verwende Anaconda, habe jedoch eine virtuelle Umgebung für PyCaret gestartet und installiert. In einer virtuellen Umgebung, die von einer vorhandenen Conda verwaltet wird, kann ein Fehler auftreten. (Wahrscheinlich aufgrund der Kollision zwischen Pip und Conda)

pip install pycaret

2. Datenerfassung

from pycaret.datasets import get_data
dataset = get_data('mice')

Ergebnis

Schauen wir uns den Inhalt der Daten mit Pandas 'profile_report () an.

import pandas_profiling
dataset.profile_report()

Ergebnis

Dann werden 95% in Trainingsdaten und 5% in Testdaten (als unsichtbare Daten bezeichnet) unterteilt.

data = dataset.sample(frac=0.95, random_state=786).reset_index(drop=True)
data_unseen = dataset.drop(data.index).reset_index(drop=True)

print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))

Ergebnis

Data for Modeling: (1026, 82) Unseen Data For Predictions: (54, 82)

3. Datenvorverarbeitung

Verarbeiten Sie die Daten mit setup () vor.

from pycaret.clustering import *
data_clust = setup(data, normalize = True, 
                   ignore_features = ['MouseID'],
                   session_id = 123)

Normalisierung numerischer Daten durchführen. Ignorieren Sie die Funktion "Maus-ID". Geben Sie dann session_id = 123 als festen zufälligen Startwert an.

Ergebnis

4. Erstellung eines analytischen Modells

Wählen Sie ein Clustering-Modell für die Modellierung aus. Verwenden Sie create_model (). Dieses Mal werden wir das kmeans-Modell verwenden.

kmeans = create_model('kmeans',num_clusters = 5 )
print(kmeans)

Die Anzahl der Cluster sollte 5 betragen. Standard ist 4.

Ergebnis

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=5, n_init=10, n_jobs=None, precompute_distances='auto', random_state=123, tol=0.0001, verbose=0)

5. Modellzuweisung

Weisen Sie dem Dataset (1080 Beispiele) mit assign_model () eine Clusterbezeichnung zu.

kmean_results = assign_model(kmeans)
kmean_results.head()

Ergebnis

6. Modellvisualisierung

Visualisieren Sie die Clustering-Ergebnisse mit plot_model.

6.1. PCA Plot

plot_model(kmeans)

Ergebnis

6.2. Elbow Plot

plot_model(kmeans, plot = 'elbow')

In Elbow Plot wird die empfohlene Anzahl von Clustern angezeigt. In diesem Fall wird die optimale Anzahl von Clustern mit 5 angegeben. Ergebnis

6.3. Silhouette Plot

plot_model(kmeans, plot = 'silhouette')

Ergebnis

6.4. Distribution Plot

plot_model(kmeans, plot = 'distribution', feature = 'class')

Ergebnis

7. Prognose

unseen_predictions = predict_model(kmeans, data=data_unseen)
unseen_predictions.head()

Die Spalte Beschriftung repräsentiert das Ergebnis der Vorhersage.

Ergebnis

8. Zusammenfassung

Ich habe versucht, mit PyCaret Clustering zu betreiben, bei dem es sich nicht um das Lernen von Lehrern handelt.

8.1 Liste der für das Clustering verwendeten Pycaret-Funktionen

Datenvorverarbeitung: setup ()
Generieren Sie ein analytisches Modell: create_model ()
Cluster-Label Zuweisen: assign_model ()
Visualisierung: plot_model ()
Vorhersage: Predict_Model ()

9. Referenzmaterialien

1.PyCaret Home Page , http://www.pycaret.org/ 2.PyCaret Classification, https://pycaret.org/classification/ 3. Ich habe versucht, PyCaret mit der schnellsten Geschwindigkeit zu verwenden: https://qiita.com/s_fukuzawa/items/5dd40a008dac76595eea 4. Ich habe versucht, die Qualität des Weins mit PyCaret zu klassifizieren. Https://qiita.com/kotai2003/items/c8fa7e55230d0fa0cc8e 5. Ich habe versucht, das Überleben der Titanic mit PyCaret https://qiita.com/kotai2003/items/a377f45ddee9829ed2c5 vorherzusagen 6. Ich habe versucht, den Immobilienpreis in Boston mit PyCaret vorherzusagen (Rendite) https://qiita.com/kotai2003/items/bf4e8a278e43c58cab06

[PYTHON] Ich habe versucht, mit PyCaret zu clustern

Einführung

1. Installieren Sie PyCaret

2. Datenerfassung

3. Datenvorverarbeitung

4. Erstellung eines analytischen Modells

5. Modellzuweisung

6. Modellvisualisierung

7. Prognose

8. Zusammenfassung

8.1 Liste der für das Clustering verwendeten Pycaret-Funktionen

9. Referenzmaterialien