Beim Erlernen und Implementieren von Python
Hast du irgendwelche Erfahrung?
Mir fehlte das Wissen, und jedes Mal, wenn ich die Daten verarbeitete, überprüfte und stellte ich die Argumente der Seaborn-Methode ein.
In diesem Artikel erkläre ich die häufigen Methoden von Seaborn, die selbst Anfänger verstehen müssen, und die Mindestargumente, die für eine schnelle Bestätigung erforderlich sind.
Die diesmal verwendeten Daten sind die Daten von "Hauspreis" von "Kaggle".
Um den Hauspreiswettbewerb auf den Punkt zu bringen, ist es ein Wettbewerb, der den Verkaufspreis anhand der Größe und Lage des Hauses vorhersagt.
Lesen Sie die Daten und zeichnen Sie ein Diagramm, um die Funktionen zu verstehen.
Die Parameter werden so weit wie möglich eingegrenzt, damit auch Anfänger leicht verstehen, wie die Methode angewendet wird. Aus diesem Grund ist das Diagramm ziemlich schmutzig. .. Als ich auf verschiedenen Websites gesucht habe, habe ich mich gefragt: "Was ist am Ende notwendig, wenn ich mindestens anzeigen möchte?". Also wage ich es, die Parameter einzugrenzen.
Die erforderlichen Argumente für die Anzeige des Diagramms werden jedoch vor der Verwendung durch Kommentare ergänzt.
(Wenn Sie andere Parameter haben, die Sie nach Möglichkeit einstellen sollten, würde ich mich freuen, wenn Sie einen Kommentar abgeben könnten.)
Ich schreibe für solche Leute.
Wenn Sie mit der Datenanalyse beginnen, z. B. in Kaggles Tutorial "Welche Art von Daten wird eingestellt?" In Bezug auf diesen Punkt denke ich, dass es möglich ist, die Grundzüge von Seaborn zur Selbstvisualisierung zu unterdrücken.
Mithilfe der Wärmekarte wird die Stärke der numerischen Daten durch Farbe in einem Format wie einem Round-Robin-Tisch dargestellt.
Dieses Mal zeichnen wir eine Grafik, die sich auf Elemente konzentriert, deren Korrelationskoeffizient (absoluter Wert) in Bezug auf den Verkaufspreis des Hauses (Verkaufspreis) größer als 0,5 ist.
import seaborn as sns
#Holen Sie sich den Korrelationskoeffizienten
corr_mat = house_price.corr()
#Korrelationskoeffizient mit dem Verkaufspreis(Absolutwert)Aber 0.Erstellen Sie einen DataFrame, der auf Elemente größer als 5 eingegrenzt ist
top_corr_features = corr_mat.index[abs(corr_mat["SalePrice"])>0.5]
# import matplotlib.pyplot as plt
# plt.figure(figsize=(11,11)) #Wenn Sie so etwas tun, können Sie es schöner anzeigen.
#Überprüfen Sie die Korrelation
sns.heatmap(data=house_price[top_corr_features].corr(),annot=True,cmap="RdYlGn")
Der Inhalt des Arguments ist wie folgt.
Streit | Inhalt |
---|---|
data | Zieldaten |
annot | Gibt an, ob der Wert in der Matrix angezeigt werden soll |
cmap | Farbtyp |
Unter dem Gesichtspunkt, ob es funktioniert, können Sie die Argumente von Ansage und cmap ausschließen. Aus der Perspektive der Visualisierung der Funktionen
Von diesem Punkt an denke ich, ist es besser, diesen Parameter auf das Minimum zu setzen.
Die Ergebnisse sind wie folgt.
Es handelt sich um einen Round-Robin-Tisch, der sich nur auf Artikel mit einem Verkaufspreis von mehr als 0,5 konzentriert. Der Grund für die Eingrenzung der Datenelemente ist diesmal, dass es ungefähr 80 Datenelemente gibt. Wenn Sie daraus eine Round-Robin-Tabelle erstellen, ist es nicht sinnvoll, sie zu visualisieren. Daher reduzieren wir die Anzahl der Elemente.
In diesem Beispiel können Sie sehen, dass Grün eine stärkere Korrelation aufweist, insbesondere haben die folgenden beiden eine stärkere Korrelation.
Artikel | Korrelationskoeffizient |
---|---|
OverallQual(Umfassende Bewertung von Wohnraum) | 0.79 |
GrLivArea(Wohnbereich) | 0.71 |
Auf diese Weise können Heatmaps verwendet werden, um die Korrelation der zu analysierenden Daten zu bestimmen.
Zeigt den Durchschnittswert und den Fehlerbalken im Balkendiagramm des Balkendiagramms an.
[Offizielle Seite: Barplot] (http://seaborn.pydata.org/generated/seaborn.barplot.html)
Die Merkmale von "Overall Qual", die die höchste Korrelation auf der Heatmap aufwiesen, werden angezeigt.
import seaborn as sns
sns.set()
sns.barplot(x=house_price.OverallQual,y=house_price.SalePrice)![distplot.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/310367/f788ef75-d123-fb53-b721-ed7a329b2de6.png)
Die Ergebnisse sind wie folgt.
Die horizontale Achse ist Overall Qual (umfassende Bewertung des Wohnraums) und die vertikale Achse ist House Price (Hauspreis).
Sie sehen, dass der Hauspreis umso höher ist, je besser die Gesamtbewertung eines Hauses ist.
Ein Balkendiagramm des Countplots zeigt die Anzahl der kategorialen Variablen.
import seaborn as sns
sns.set()
sns.countplot(x='MSSubClass', data=house_price)
Die Ergebnisse sind wie folgt.
Die horizontale Achse zeigt den Immobilienpreis und die vertikale Achse zeigt die Anzahl der Fälle.
Unterteilt die Daten in Abschnitte und zeigt an, welche Abschnitte zahlreicher sind.
import seaborn as sns
sns.set()
sns.distplot(house_price['SalePrice'])
Die Ergebnisse sind wie folgt.
Es ist ein einfaches Streudiagramm.
import seaborn as sns
sns.set()
sns.scatterplot(data=house_price, x='GrLivArea', y='SalePrice')
Die Ergebnisse sind wie folgt.
Offizielle Website: Scatterplot
Sie können die Streudiagramme auf einmal anstatt einzeln anzeigen. Dies ist nützlich, wenn Sie die Korrelation umfassend überprüfen möchten.
import seaborn as sns
sns.set()
#Zeigen Sie das Diagramm an, indem Sie die Artikel eingrenzen, die eine hohe Korrelation mit SalePrice aufweisen
sns.pairplot(data=house_price[top_corr_features])
Die Ergebnisse sind wie folgt.
Es gibt auch Box- und Violin-Plots, die jedoch aufgrund ihres häufigen Auftretens von dieser Erklärung ausgeschlossen sind.
Im Moment konzentriere ich mich auf häufige Methoden und minimale Argumente, aber es ist ein bisschen verwirrend, also werde ich es klarstellen.
Basierend auf der folgenden Site habe ich mit dem Lernen fortgefahren, während ich die offizielle Site überprüft habe.
Dieser Artikel ist wirklich minimal. Wenn Sie also mehr erfahren möchten, schauen Sie bitte.
Recommended Posts