[PYTHON] Ich habe versucht, die häufig verwendete Seaborn-Methode mit so wenig Argumenten wie möglich anzuwenden [für Anfänger]

Zweck

Beim Erlernen und Implementieren von Python

Hast du irgendwelche Erfahrung?

Mir fehlte das Wissen, und jedes Mal, wenn ich die Daten verarbeitete, überprüfte und stellte ich die Argumente der Seaborn-Methode ein.

In diesem Artikel erkläre ich die häufigen Methoden von Seaborn, die selbst Anfänger verstehen müssen, und die Mindestargumente, die für eine schnelle Bestätigung erforderlich sind.

Rauer Fluss

Vorsichtsmaßnahmen

(Wenn Sie andere Parameter haben, die Sie nach Möglichkeit einstellen sollten, würde ich mich freuen, wenn Sie einen Kommentar abgeben könnten.)

Zielperson

Ich schreibe für solche Leute.

Was Sie in diesem Artikel verstehen können

Wenn Sie mit der Datenanalyse beginnen, z. B. in Kaggles Tutorial "Welche Art von Daten wird eingestellt?" In Bezug auf diesen Punkt denke ich, dass es möglich ist, die Grundzüge von Seaborn zur Selbstvisualisierung zu unterdrücken.

Umgebung

Annahme

Diagrammzeichnung

Wärmekarte

Offizielle Website: Heatmap

Mithilfe der Wärmekarte wird die Stärke der numerischen Daten durch Farbe in einem Format wie einem Round-Robin-Tisch dargestellt.

Dieses Mal zeichnen wir eine Grafik, die sich auf Elemente konzentriert, deren Korrelationskoeffizient (absoluter Wert) in Bezug auf den Verkaufspreis des Hauses (Verkaufspreis) größer als 0,5 ist.

import seaborn as sns

#Holen Sie sich den Korrelationskoeffizienten
corr_mat = house_price.corr()

#Korrelationskoeffizient mit dem Verkaufspreis(Absolutwert)Aber 0.Erstellen Sie einen DataFrame, der auf Elemente größer als 5 eingegrenzt ist
top_corr_features = corr_mat.index[abs(corr_mat["SalePrice"])>0.5]


# import matplotlib.pyplot as plt
# plt.figure(figsize=(11,11)) #Wenn Sie so etwas tun, können Sie es schöner anzeigen.

#Überprüfen Sie die Korrelation
sns.heatmap(data=house_price[top_corr_features].corr(),annot=True,cmap="RdYlGn")

Der Inhalt des Arguments ist wie folgt.

Streit Inhalt
data Zieldaten
annot Gibt an, ob der Wert in der Matrix angezeigt werden soll
cmap Farbtyp

Unter dem Gesichtspunkt, ob es funktioniert, können Sie die Argumente von Ansage und cmap ausschließen. Aus der Perspektive der Visualisierung der Funktionen

Von diesem Punkt an denke ich, ist es besser, diesen Parameter auf das Minimum zu setzen.

Die Ergebnisse sind wie folgt. heatmap_simle2.png

Es handelt sich um einen Round-Robin-Tisch, der sich nur auf Artikel mit einem Verkaufspreis von mehr als 0,5 konzentriert. Der Grund für die Eingrenzung der Datenelemente ist diesmal, dass es ungefähr 80 Datenelemente gibt. Wenn Sie daraus eine Round-Robin-Tabelle erstellen, ist es nicht sinnvoll, sie zu visualisieren. Daher reduzieren wir die Anzahl der Elemente.

In diesem Beispiel können Sie sehen, dass Grün eine stärkere Korrelation aufweist, insbesondere haben die folgenden beiden eine stärkere Korrelation.

Artikel Korrelationskoeffizient
OverallQual(Umfassende Bewertung von Wohnraum) 0.79
GrLivArea(Wohnbereich) 0.71

Auf diese Weise können Heatmaps verwendet werden, um die Korrelation der zu analysierenden Daten zu bestimmen.

Ergänzung

Barplot

Zeigt den Durchschnittswert und den Fehlerbalken im Balkendiagramm des Balkendiagramms an.

[Offizielle Seite: Barplot] (http://seaborn.pydata.org/generated/seaborn.barplot.html)

Die Merkmale von "Overall Qual", die die höchste Korrelation auf der Heatmap aufwiesen, werden angezeigt.

import seaborn as sns
sns.set()

sns.barplot(x=house_price.OverallQual,y=house_price.SalePrice)![distplot.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/310367/f788ef75-d123-fb53-b721-ed7a329b2de6.png)

Die Ergebnisse sind wie folgt. barplot.png

Die horizontale Achse ist Overall Qual (umfassende Bewertung des Wohnraums) und die vertikale Achse ist House Price (Hauspreis).

Sie sehen, dass der Hauspreis umso höher ist, je besser die Gesamtbewertung eines Hauses ist.

Balkendiagramm (Zähldiagramm)

Ein Balkendiagramm des Countplots zeigt die Anzahl der kategorialen Variablen.

import seaborn as sns
sns.set()

sns.countplot(x='MSSubClass', data=house_price)

Die Ergebnisse sind wie folgt. countplot.png

Die horizontale Achse zeigt den Immobilienpreis und die vertikale Achse zeigt die Anzahl der Fälle.

Histogramm (Distplot)

Unterteilt die Daten in Abschnitte und zeigt an, welche Abschnitte zahlreicher sind.

import seaborn as sns
sns.set()

sns.distplot(house_price['SalePrice'])

Die Ergebnisse sind wie folgt. distplot.png

Offizielle Website: distplot

Streudiagramm

Es ist ein einfaches Streudiagramm.

import seaborn as sns
sns.set()

sns.scatterplot(data=house_price, x='GrLivArea', y='SalePrice')

Die Ergebnisse sind wie folgt. scatterplot.png

Offizielle Website: Scatterplot

Mehrfachanzeige von Grafiken (Paardiagramm)

Sie können die Streudiagramme auf einmal anstatt einzeln anzeigen. Dies ist nützlich, wenn Sie die Korrelation umfassend überprüfen möchten.

import seaborn as sns
sns.set()

#Zeigen Sie das Diagramm an, indem Sie die Artikel eingrenzen, die eine hohe Korrelation mit SalePrice aufweisen
sns.pairplot(data=house_price[top_corr_features])

Die Ergebnisse sind wie folgt. pairplot.png

Offizielle Website: pairplot

Schließlich

Referenzseite

Basierend auf der folgenden Site habe ich mit dem Lernen fortgefahren, während ich die offizielle Site überprüft habe.

Dieser Artikel ist wirklich minimal. Wenn Sie also mehr erfahren möchten, schauen Sie bitte.

Recommended Posts

Ich habe versucht, die häufig verwendete Seaborn-Methode mit so wenig Argumenten wie möglich anzuwenden [für Anfänger]
[Für Anfänger] Ich habe versucht, die Tensorflow-Objekterkennungs-API zu verwenden
Ich habe versucht, die häufig verwendete Implementierungsmethode von pytest-mock zusammenzufassen
Ich habe versucht, das TensorFlow-Tutorial mit Kommentaren auszuführen (_TensorFlow_2_0_Einführung für Anfänger).
vprof - Ich habe versucht, den Profiler für Python zu verwenden
Ich habe versucht, die Zusammenführungssortierung in Python mit möglichst wenigen Zeilen zu implementieren
Ich habe das MNIST-Tutorial von tensorflow für Anfänger ausprobiert.
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Ich habe versucht, die Python-Bibliothek von Ruby mit PyCall zu verwenden
Verschiedene Hinweise zur Verwendung von Python für Projekte
Ich habe versucht, die Anfängerausgabe des Ameisenbuchs mit Python zu lösen
Ich habe versucht, Kwant zu verwenden, ein Python-Modul für die Quantentransportberechnung
[Pandas] Ich habe versucht, Verkaufsdaten mit Python zu analysieren. [Für Anfänger]
Häufig verwendete Linux-Befehle (für Anfänger)
Ich habe versucht, die checkio-API zu verwenden
[Textklassifizierung] Ich habe versucht, den Aufmerksamkeitsmechanismus für Faltungs-Neuronale Netze zu verwenden.
Ich habe versucht, Amazon SQS mit Django-Sellerie zu verwenden
Ich habe zum ersten Mal Tensorflow ausprobiert
Ich habe versucht, Selen mit Headless-Chrom zu verwenden
Ich habe versucht, die selektive Suche als R-CNN zu verwenden
Ich habe versucht, mit Pillow mit dem Bild zu spielen
Ich habe versucht, die BigQuery-Speicher-API zu verwenden
Ich habe versucht, die Informationen der ASPX-Site, die mit Selenium IDE ausgelagert wird, so programmlos wie möglich abzurufen
Ich habe Hello World mit 64-Bit-OS + C-Sprache ohne Verwendung einer Bibliothek ausprobiert
Ich habe versucht zu erklären, wozu der Python-Generator so einfach wie möglich ist.
Ich habe versucht, die multiple Regressionsanalyse anhand konkreter Beispiele so einfach wie möglich zu erklären.
■ Kaggle-Übung für Anfänger - Hausverkaufspreis (ich habe versucht, PyCaret zu verwenden) - von Google Colaboratory
Ich habe versucht, die Operationen zusammenzufassen, die wahrscheinlich mit numpy-stl verwendet werden
[Python] Ich habe die gleiche Berechnung versucht wie die Vorhersage von LSTM von Grund auf [Keras]
Ein Memorandum of Method, das häufig bei der Analyse von Daten mit Pandas verwendet wird (für Anfänger)
Ein Memorandum über Methoden, die häufig beim maschinellen Lernen mit Scikit-Learn (für Anfänger) verwendet werden.
Ich habe versucht, das Bild mit Python + OpenCV zu "glätten"
Ich habe in der Bibliothek nach der Verwendung der Gracenote-API gesucht
[Python] Ich habe versucht, den Funktionsnamen durch den Funktionsnamen zu ersetzen
Ich habe versucht, das Bild mit Python + OpenCV zu "differenzieren"
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe die Methode der kleinsten Quadrate in Python ausprobiert
Ich habe versucht, PyCaret mit der schnellsten Geschwindigkeit zu verwenden
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Ich habe vorerst mit Floydhub gespielt
Ich habe zum ersten Mal versucht, Python zu programmieren.
Ich habe versucht, Mecab mit Python2.7, Ruby2.3, PHP7 zu verwenden
Ich habe versucht, das Bild mit Python + OpenCV zu "binarisieren"
Ich habe versucht, das Datetime-Modul von Python zu verwenden
Ich habe Mind Meld zum ersten Mal ausprobiert
Ich habe versucht, Firebase für Djangos Cache-Server zu verwenden
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
Ich habe DBM mit Pylearn 2 unter Verwendung künstlicher Daten ausprobiert
Ich habe versucht, die funktionale Programmierbibliothek toolz zu verwenden
Ich habe versucht, die Datenbank (sqlite3) mit kivy zu verwenden
Ich habe versucht, mit tkinter mit dem Taschenrechner zu spielen
[Für Anfänger von Wettkampfprofis] Ich habe versucht, 40 AOJ "ITP I" -Fragen mit Python zu lösen
[MQTT] Ich habe versucht, mit einem Gerät über AWS IoT Core und Soracom Beam zu sprechen.