[PYTHON] Data Scientist Training Course Kapitel 3 Tag 1 + 2

Umfang

Der Titel lautet wie folgt

Beschreibende Statistik und einfache Regressionsanalyse --Beschreibende Statistik
Einfache Regressionsanalyse
Umfassendes Problem
Grundlagen und Visualisierung von Statistiken
Lorentz-Kurve und Gini-Koeffizient

Der Grad des Unverständnisses und des gefährlichen Geruchs für eine kleine Anzahl von Gegenständen wird auftauchen, aber im Grunde sollte die Berechnung Python überlassen bleiben.

read_csv Lesen Sie die Daten aus CSV, um das Problem tatsächlich zu lösen. Verwenden Sie dazu read_csv in Pandas. Natürlich gab es verschiedene Möglichkeiten, den DataFrame zu laden, aber als ich mir die Parameter read_csv ansah, bemerkte ich, dass dies der Fall war.

?pd.read_csv Signature: pd.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None

Mit diesem Gefühl können Sie das Trennzeichen und die Begrenzung angeben. Im gleichen Sinne? ich dachte

pd.read_csv("xxx.csv", sep=";") pd.read_csv("xxx.csv", delimiter=";")

Ich habe versucht zu vergleichen, aber es hat sich nicht geändert In Stack Overflow gab es dazu einen guten Kommentar

What is the difference between sep and delimiter attributes in pandas.read_csv() method?

Einfach ausgedrückt, wenn "Trennzeichen" nicht angegeben ist (= Keine), wird der Wert von "sep" eingegeben. Mit anderen Worten, es spielt keine Rolle, welche Sie verwenden. In Anbetracht der Kompatibilität und anderer Funktionen ("to_csv" usw.) scheint "sep" jedoch vorzuziehen zu sein. Der Quellcode sagt auch "Trennzeichen ist der nervige Eckfall". Verwenden wir sep

Datenqualität

Wenn mehrere Spalten vorhanden sind, muss die Qualität der Daten korrekt erkannt werden. Enthält es Nulldaten, ist es quantitativ oder qualitativ? Wenn es sich um quantitative Daten handelt, können sie als Wert verwendet werden, der durch mathematische Berechnung erhalten wird. Wenn es sich um qualitative Daten handelt, können sie als Kategorie zum Klassifizieren quantitativer Daten oder als Wert zum Sortieren von Daten wie Rang verwendet werden.

statistische Analyse

Die statistische Analyse kann in deskriptive Statistiken und spekulative Statistiken unterteilt werden.

Beschreibende Statistik: Der Zweck besteht darin, die Daten auf leicht lesbare Weise zu organisieren und die allgemeinen Informationen zu erfassen, über die die Daten verfügen.
Geschätzte Statistik: Durchführung einer präzisen Analyse anhand eines Modells basierend auf der Wahrscheinlichkeitsverteilung

Grob gesagt ist es wahrscheinlich so mit beschreibenden Statistiken und einem Vorhersagemodell! Ist es eine spekulative Statistik? Letzteres ist überwältigend, wenn man bedenkt, dass der Zweck darin besteht, KI / maschinelles Lernen zu lernen, aber die spekulativen Statistiken scheinen das nächste Kapitel zu sein.

Box Whisker

plt.boxplot(student_data_math.G1)

Eine Kastenbartfigur ist in Form von gezeichnet. Ich fühlte mich so. Um es zu sehen, sieht es aus wie eine Kerze, die den Aktienkurs anzeigt. Es scheint, dass die unteren und oberen Grenzen von Box für Kerzen 25% Fliesen und 75% Fliesen sind. Es heißt Box Plot, wie es auf Englisch ist.

Es ist nicht darauf beschränkt, aber es ist eine gute Idee, sich so weit wie möglich daran zu erinnern, aus welchem Englisch die Funktion stammt. Dieses Mal habe ich gelernt, dass die Boxplot-Funktion eine Funktion ist, die ein Box-Whisker-Diagramm zeichnet. Wenn Sie jedoch wissen, dass das Box-Whisker-Diagramm in erster Linie Box Plot in Englisch ist, finden Sie es in der Funktionsliste.

Formeln, Formeln, Formeln

Der Schwankungskoeffizient ist die Standardabweichung geteilt durch den Durchschnitt.

student_data_math.std() / student_data_math.mean()

Die Funktion, die zur Verteilung führt, ist var Es ist cov, das die Kovarianz ableitet, die verwendet wird, wenn die Varianz von zwei oder mehr Variablen berücksichtigt wird. Die Kovarianz wird als mathematische Formel aus dem Produkt der Abweichungen vom Mittelwert berechnet.

In ihrer endgültigen Form wird der Korrelationskoeffizient berechnet, um anzuzeigen, ob die beiden Variablen eine Beziehung haben. Hier wird der Koeffizient mit einer Pearson-Funktion berechnet.

sp.stats.pearsonr(student_data_math.G1, student_data_math.G3)

Nun, das ist alles für heute!