[PYTHON] Data Scientist Training Course Kapitel 2 Tag 2

Heute sind wir mit Kapitel 2 fortgefahren. Wie üblich verwendet die Umgebung Docker.

Die wichtigsten verwendeten Bibliotheken sind wie folgt

Numpy
Scipy
Pandas
Matplotlib

Numpy Memo

Grundsätzlich habe ich Numpy selbst bis zum letzten Mal berührt, aber es gibt einige Punkte, die ich nicht verstehe, so dass ich jedes Mal überprüfe.

Bei der Berechnung von Datenrahmen werden die Datenrahmen von Pandas möglicherweise häufiger verwendet. Vor diesem Hintergrund denke ich, dass Numpy hier häufig für Berechnungen und zur Erzeugung von Zufallszahlen verwendet wird.

Was Numpys Zufallszahlengenerierung betrifft, hier

np.random.randn()

Scheint oft benutzt zu werden. Die Randn-Funktion ist eine normale Standard-Zufallszahl. Mit anderen Worten, es scheint normalverteilte numerische Werte zu erzeugen randn

Es gibt verschiedene Möglichkeiten, andere Zufallszahlen als randn zu generieren, und am Ende wird eine Uniform herauskommen. Beim Generieren mehrerer Zufallszahlen

np.random.randn(1000)

Sie können 1000 Zufallszahlen durch Schreiben erstellen. In diesem Fall sind die zurückgegebenen Werte ein Array

Auch um den numerischen Wert zu erhalten, der in Ordnung war

np.arrange(1000)

Es gab auch eine Verwendung wie. Im obigen Fall wird eine Sequenz von 1 bis 1000 zurückgegeben. Wird als X-Achsenwert beim Zeichnen des Diagramms verwendet.

Scipy Memo

Wird hauptsächlich für die Matrixberechnung verwendet. Da ich die Matrixberechnung selbst vergessen habe, gehe ich beim Lesen vor, aber ich habe das Gefühl, dass es mit Sicherheit den Eigenwert der Matrix oder der inversen Matrix gab. Hier wird bei Bedarf Rache gebraucht.

Ich habe die Newton-Methode als Methode zum Lösen von Gleichungen gelernt.

from scipy.optimize import newton newton(sample_function, 0)

Der Wert bei sample_function ist das Argument 0 in einer solchen Beschreibung. Mit anderen Worten, es findet x, wenn f (x) = 0 ist.

Als Beispiel gilt die Formel x ** 2 + 2 * x + 1. Mit anderen Worten, die Lösung von f (x) = x ^ 2 + 2x + 1 wurde auf die Newton-Funktion angewendet, um die Antwort zu finden. Als ich jedoch versuchte, der Newton-Funktion f (x) = 2x ^ 2 + 2x + 1 zuzuführen, trat ein Fehler auf.

Failed to converge after 50 iterations, value is 0.6246914113887032

Ich habe 50 Iterationen ausprobiert, aber es scheint, dass es nicht funktioniert hat.

newton(sample_function2,0,maxiter=1000)

Die Newton-Funktion scheint in der Lage zu sein, diese Iteration als Argument anzugeben, daher habe ich versucht, sie etwa 1000 Mal zu drehen, aber am Ende hat es nicht funktioniert. Ich verstehe die Eigenschaften der Newton-Funktion selbst nicht wirklich, daher wird sie wahrscheinlich nicht funktionieren, aber ich habe mich gefragt, was passiert ist.

Pandas Memo

Ich habe die Grundlagen gelesen. Die Zusammenführungsfunktion wird als Methode zum Verknüpfen mehrerer DataFrames wie einer RDB-Tabelle bereitgestellt. Im Feld Kapitel gab es jedoch nur eine automatische Verknüpfung, und ich konnte keine Möglichkeit finden, die Verknüpfungsbedingungen manuell anzugeben.

Dies wurde in der offiziellen Referenz mit detaillierten Beispielen geschrieben.

pandas.DataFrame.merge

Wenn Sie genauer hinschauen, heißt es in Kapitel pd.merge (data_frame1, data_frame2), in der Referenz jedoch data_frame1.merge (data_frame2). Da das erste Argument der Zusammenführungsfunktion ein Selbst enthält, scheinen beide als Schreibweise unterstützt zu werden.

Wenn ich nachschaue, werde ich von vielen Artikeln getroffen, die als japanische Übersetzungen geschrieben wurden, und ich bekomme den Drang, mich auf sie zu beziehen, aber ich denke, es ist besser, sich daran zu gewöhnen, die Formel fest zu lesen. Zunächst werde ich versuchen, dies in Frage zu stellen. Beim Tränen vergießen.

Matplotlib-Memo

Unabhängig davon, ob Sie die Bedeutung richtig verstehen oder nicht, liegt es wahrscheinlich daran, dass Sie müde werden, dass etwas, das in Form eines Diagramms gezeichnet ist, Sie ein wenig glücklich macht.

import matplotlib.pyplot as plt plt.plot(x, y, "o")

Ich habe es in Form von zeichnen lassen, aber als ich diesen "o" -Teil entsprechend geändert habe, hat sich der geplottete geändert. Es war wie erwartet, dass das "x" gekreuzt wurde, aber als ich zum Beispiel "g" versuchte, wurde es ein Balkendiagramm. Wenn Sie sich die Referenz ansehen, anstatt sie durch Setzen auf g zu einem Balkendiagramm zu machen, war die Standardeinstellung in erster Linie ein Balkendiagramm, und g hatte eine grüne Farbspezifikation.

matplotlib.puplot.plot

Es scheint, dass Sie einige andere Plot-Marker angeben können, also ist es gut, es zum Spaß zu versuchen.

Das Ende

Ich habe es geschafft, Kapitel 2 zu beenden. Ich kann fortfahren, weil ich mich nur daran erinnern muss, aber es tut weh, dass ich mir nicht die Zeit nehmen kann, ein Kapitel voranzutreiben.

Bis zu diesem Punkt wird die grundlegende Verwendung von Python und Bibliotheken verwendet, und ab dem nächsten Kapitel werden wir mit der eigentlichen Statistik und Analyse beginnen, sodass der Schwierigkeitsgrad sofort steigt.