Da ich es als Ergebnis einer Studie geschrieben habe, kann es einige Fehler geben. Fühlen Sie sich frei zu kommentieren. Diesmal Predictive Statistics (praktische Ausgabe, multiple Regression) Python Python verbessert die Genauigkeit der multiplen Regression weiter. Zusammenfassend ist zur Verbesserung der Vorhersagegenauigkeit " Merkmale </ b>" erforderlich. Dieses Mal werden wir uns mit der Feature-Menge befassen.
・ Was ist die Merkmalsmenge? ・ So verbessern Sie die Vorhersagegenauigkeit mithilfe von Merkmalsgrößen · Datenverarbeitung
Eine Merkmalsmenge ist eine erklärende Variable. In der Welt des maschinellen Lernens handelt es sich häufig eher um eine Merkmalsgröße als um eine erklärende Variable. Funktionen sind für die Verbesserung der Analysegenauigkeit unverzichtbar.
Es gibt die folgenden zwei Methoden, um die Vorhersagegenauigkeit unter Verwendung der Merkmalsmenge zu verbessern. ① Machen Sie einen Funktionsbetrag ② Wählen Sie den Funktionsbetrag aus
Was bedeutet es, eine Feature-Menge zu erstellen? Das heißt, die Verarbeitung bestimmter Daten und externer Daten, um neue Funktionen </ b> zu erstellen. Bei der Regression werden beispielsweise Durchschnittswerte und Standardabweichungen ermittelt, und bei der Klassifizierung werden nur Daten für Personen in den Zwanzigern aggregiert. Auf diese Weise können nutzlose Daten eliminiert und die Vorhersagegenauigkeit verbessert werden.
Dies dient zur Auswahl der Merkmalsmenge ohne Überschuss oder Mangel. Es gibt die folgenden drei Methoden zum Auswählen der Feature-Menge. ① Univariate Analyse ② Modellbasisauswahl ③ Iterative Auswahl
Dies dient dazu, die Zielvariable und die erklärende Variable in einer Eins-zu-Eins-Beziehung zu analysieren. Es ist sozusagen eine einfache Regressionsanalyse. Ein Beispiel ist die Dispersionsanalyse.
Dies ist eine Methode zur Berechnung der Wichtigkeit von Merkmalsmengen in dem zu erstellenden Modell.
Wir werden die Vorhersagegenauigkeit verbessern, indem wir die Merkmalsmenge erhöhen oder verringern. Schrittweise ist ein Beispiel.
Ich erklärte, dass es wichtig ist, über Merkmalsgrößen nachzudenken, um die Vorhersagegenauigkeit zu verbessern. Hier erklären wir, ob der Feature-Betrag tatsächlich verarbeitet werden soll. Es gibt verschiedene Methoden zur Auswahl von Feature-Mengen, daher werde ich zu einem späteren Zeitpunkt einen Artikel schreiben.
Es gibt nützliche Funktionen zur Datenverarbeitung. Dieses Mal werde ich die folgenden zwei Punkte einführen. ・ Split-Funktion ・ Funktion anwenden
Dies ist eine Funktion, die eine Zeichenfolge aufteilt. Wenn Sie dem Argument das Zeichen zuweisen, das Sie teilen möchten, wird dieses Zeichen ausgeschlossen und die Zeichenfolge wird geteilt.
Dies ist eine Funktion, die auf jeden Wert der Daten einen numerischen Wert anwendet. Bei der Datenverarbeitung können Sie numerische Werte einfach verarbeiten, indem Sie eine anonyme Funktion (Lambda-Funktion) als Argument angeben.
Ich werde erklären, wie diese Funktionen tatsächlich verwendet werden. Angenommen, die Datumsspalte enthält eine Datumszeichenfolge wie "2019-12-12". Wenn Sie nur das Jahr in die Spalte Jahr einfügen möchten, schreiben Sie wie folgt.
df["year"] = df["date"].apply(lambda x: x.split("-")[0])
Recommended Posts