Beginn des Studiums: Samstag, 7. Dezember
Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 12/7 (Sa) -12/19 (Do) gelesen ・ Progate Python-Kurs (insgesamt 5 Kurse): Ende 12/19 (Donnerstag) -12/21 (Samstag) ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): 21.12. (Sa) - 23. Dezember (Sa) ・ Kaggle: Real or Not? NLP mit Katastrophen-Tweets: Veröffentlicht am Samstag, 28. Dezember, bis Freitag, 3. Januar Einstellung ・ ** Wes Mckinney "(japanischer Titel) Einführung in die Datenanalyse von Python" (O'Reilly Japan, 2018) **: 1/4 (Mittwoch) bis 1/13 (Montag) gelesen
Lesen Sie am 13. Januar
-Datenzeit, Zeit, Kalendermodule Sie können das Format mit str oder strftime angeben. % Y ist ein 4-stelliges Jahr,% y ist ein 2-stelliges Jahr usw. Verwenden Sie es wie datetime.strftime ('% Y-% m-% d').
-Indexreferenz Wenn Sie das Datum ['2000'] verwenden, können Sie auf die Daten des entsprechenden Datums verweisen. Generierung durch Angabe eines Bereichs date_range Datenverschiebung Sie können sich auch verschieben, indem Sie Verschiebung und Versatz angeben.
・ Die meisten Zeitreihen werden von der Vereinbarung World Time UTC verarbeitet. Holen Sie sich Zeitzonenobjekte mit pytz.timezone und generieren Sie sie Mit tz_localize lokalisieren und mit tz_convert in eine andere Zeitzone konvertieren. Sie können die Zeitzone auch beim Generieren des Zeitstempels angeben.
-Zeitreihenfrequenz kann konvertiert werden. Verwenden Sie die Resample-Methode. Downsampling zum Aggregieren zu weniger häufigen Daten und umgekehrt zum Upsampling Bestimmen Sie für ein Resample ('5min', geschlossen = XXX), geschlossen, ob der linke oder rechte Abschnitt geschlossen ist (nicht im Wert enthalten). OHLC-Funktion (Open-High-Low-Close), Eröffnungspreis, Schlusskurs, höchster Preis, niedrigster Preis können aggregiert werden. -Fensterfunktion: Gewichte, die exponentiell abnehmen, werden auf die Daten angewendet. Eine Funktion, die bis auf ein bestimmtes endliches Intervall 0 ist. Reduziert Rausch- und Lückendaten. Sie können Ihre eigenen Funktionen anwenden, indem Sie rollen, erweitern, überspannen und anwenden.
・ Kategorisch für Pandas Es besteht die Möglichkeit, dass die Verarbeitungsgeschwindigkeit und die Speichernutzung durch Verwendung verbessert werden können.
Wenn eine große Menge an Analysen unter Verwendung eines bestimmten Datensatzes durchgeführt wird, kann eine Leistungsverbesserung mit kategorialen Variablen erzielt werden. Das Ersetzen von Spalten in einem Datenrahmen durch kategoriale Darstellungen spart außerdem viel Speicher. astype('category')
Kategoriemethode hinzufügen, Größenbeziehung festlegen, löschen usw. add_categories, as_ordered,remove_categories
Bei Verwendung eines maschinellen Lernwerkzeugs usw. kann es erforderlich sein, in ein Dummy-Variablenformat zu konvertieren. (One-Hot-Codierung.) Ausgedrückt als 0 oder 1. Es kann mit get_dummies konvertiert werden.
-Groupby kann eine allgemeine Verarbeitung für bestimmte Elemente durchführen. Dasselbe kann mit der Transformation unter Verwendung eines Lambda-Ausdrucks wie Lambda x: x.mean () durchgeführt werden. df.transform(lambda x:x.mean()) Gruppenberechnung ist auch durch Transformation möglich normalisiert = (df ['A'] - b.transform ('mean')) / b.transform ('std') usw. Die Aggregation für jede Gruppe kann mehrfach erfolgen, oder die Vorteile von Vektoroperationen überwiegen die Gesamtvorteile.
-Der Kontaktpunkt zwischen Pandas und der Analysebibliothek ist normalerweise ein NumPy-Array. Verwenden Sie das Attribut .value, um einen Datenrahmen in NumPy zu konvertieren. (Wird ein Ndarray.) data.values Übergeben Sie bei der Rückkehr ein zweidimensionales ndarray und geben Sie den Spaltennamen an. pd.DataFrame(data.values, columns=['one', 'two', 'three']
-Wenn nur ein Teil der Spalte verwendet wird Es ist besser, Werte zu verwenden, während auf den Index mit loc verwiesen wird. model_cols = ['x0', 'x1'] data.loc[:, model_cols].values Jetzt können Sie nur ** x0, x1 ** aller ** Zeilen ** mit Array extrahieren.
Ersetzen Sie einige durch Dummy-Variablen
dummies = pd.get_dummies(data.category, prefix='category')
data_with_dummies = data.drop('category', axis=1).join(dummies)
#Erstellen Sie einen Dummy, löschen Sie die ursprüngliche Spalte mit drop und fügen Sie sie mit join hinzu.
Recommended Posts