Python für Feature Prediction Statistics

Da ich es als Ergebnis einer Studie geschrieben habe, kann es einige Fehler geben. Fühlen Sie sich frei zu kommentieren. Diesmal Predictive Statistics (praktische Ausgabe, multiple Regression) Python Python verbessert die Genauigkeit der multiplen Regression weiter. Zusammenfassend ist zur Verbesserung der Vorhersagegenauigkeit " Merkmale </ b>" erforderlich. Dieses Mal werden wir uns mit der Feature-Menge befassen.

Inhalt

・ Was ist die Merkmalsmenge? ・ So verbessern Sie die Vorhersagegenauigkeit mithilfe von Merkmalsgrößen · Datenverarbeitung

Was ist eine Feature-Menge?

Eine Merkmalsmenge ist eine erklärende Variable. In der Welt des maschinellen Lernens handelt es sich häufig eher um eine Merkmalsgröße als um eine erklärende Variable. Funktionen sind für die Verbesserung der Analysegenauigkeit unverzichtbar.

So verbessern Sie die Vorhersagegenauigkeit

Es gibt die folgenden zwei Methoden, um die Vorhersagegenauigkeit unter Verwendung der Merkmalsmenge zu verbessern. ① Machen Sie einen Funktionsbetrag ② Wählen Sie den Funktionsbetrag aus

Machen Sie eine Funktion

Was bedeutet es, eine Feature-Menge zu erstellen? Das heißt, die Verarbeitung bestimmter Daten und externer Daten, um neue Funktionen </ b> zu erstellen. Bei der Regression werden beispielsweise Durchschnittswerte und Standardabweichungen ermittelt, und bei der Klassifizierung werden nur Daten für Personen in den Zwanzigern aggregiert. Auf diese Weise können nutzlose Daten eliminiert und die Vorhersagegenauigkeit verbessert werden.

Wählen Sie den Funktionsbetrag aus

Dies dient zur Auswahl der Merkmalsmenge ohne Überschuss oder Mangel. Es gibt die folgenden drei Methoden zum Auswählen der Feature-Menge. ① Univariate Analyse ② Modellbasisauswahl ③ Iterative Auswahl

Univariate Analyse

Dies dient dazu, die Zielvariable und die erklärende Variable in einer Eins-zu-Eins-Beziehung zu analysieren. Es ist sozusagen eine einfache Regressionsanalyse. Ein Beispiel ist die Dispersionsanalyse.

Modellbasierte Auswahl

Dies ist eine Methode zur Berechnung der Wichtigkeit von Merkmalsmengen in dem zu erstellenden Modell.

Iterative Auswahl

Wir werden die Vorhersagegenauigkeit verbessern, indem wir die Merkmalsmenge erhöhen oder verringern. Schrittweise ist ein Beispiel.

Datenverarbeitung

Ich erklärte, dass es wichtig ist, über Merkmalsgrößen nachzudenken, um die Vorhersagegenauigkeit zu verbessern. Hier erklären wir, ob der Feature-Betrag tatsächlich verarbeitet werden soll. Es gibt verschiedene Methoden zur Auswahl von Feature-Mengen, daher werde ich zu einem späteren Zeitpunkt einen Artikel schreiben.

Bequeme Funktion

Es gibt nützliche Funktionen zur Datenverarbeitung. Dieses Mal werde ich die folgenden zwei Punkte einführen. ・ Split-Funktion ・ Funktion anwenden

Split-Funktion

Dies ist eine Funktion, die eine Zeichenfolge aufteilt. Wenn Sie dem Argument das Zeichen zuweisen, das Sie teilen möchten, wird dieses Zeichen ausgeschlossen und die Zeichenfolge wird geteilt.

Funktion anwenden

Dies ist eine Funktion, die auf jeden Wert der Daten einen numerischen Wert anwendet. Bei der Datenverarbeitung können Sie numerische Werte einfach verarbeiten, indem Sie eine anonyme Funktion (Lambda-Funktion) als Argument angeben.

Code

Ich werde erklären, wie diese Funktionen tatsächlich verwendet werden. Angenommen, die Datumsspalte enthält eine Datumszeichenfolge wie "2019-12-12". Wenn Sie nur das Jahr in die Spalte Jahr einfügen möchten, schreiben Sie wie folgt.

df["year"] = df["date"].apply(lambda x: x.split("-")[0])

Recommended Posts
Python für Feature Prediction Statistics

Statistik mit Python

Python: Schiffsüberlebensvorhersage Teil 2

Predictive Statistics (Übungsklassifizierung) Python

Python: Schiffsüberlebensvorhersage Teil 1

Python: Schiffsüberlebensvorhersage Teil 3

Python

Vorhersagestatistik (einfache Regression üben) Python

1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)

Predictive Statistics (Practice Edition Multiple Regression) Python

1. Mit Python 1-3 gelernte Statistiken. Berechnung verschiedener Statistiken (Statistiken)