[PYTHON] Lernrekord Nr. 19 (23. Tag)

Lernrekord (23. Tag)

Beginn des Studiums: Samstag, 7. Dezember

Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 19.12. (Donnerstag) Abgeschlossen ・ Progate Python-Kurs (insgesamt 5 Kurse): Endet am Samstag, den 21. Dezember ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): Abschluss am Samstag, 23. Dezember ・ Kaggle: Real or Not? NLP mit Katastrophen-Tweets: Veröffentlicht am Samstag, 28. Dezember, bis Freitag, 3. Januar Einstellung ・ ** Wes Mckinney "(japanischer Titel) Einführung in die Datenanalyse von Python" (O'Reilly Japan, 2018) **: 4. Januar (Sa) ~

"Einführung in die Datenanalyse mit Python"

S.276 Lesen Sie weiter bis zu Kapitel 8 Data Wrangling.

Kapitel 6 Lesen, Schreiben und Dateiformat von Daten

-Das Merkmal von Pandas ist, dass es reichlich Funktionen gibt, um tabellarische Daten als Datenrahmenobjekte zu lesen.  read_csv、read_table、read_excel、read_html ... Einige der Lesefunktionen geben die Inferenz automatisch ein, sodass Sie die Details nicht unbedingt festlegen müssen. Standardtrennzeichen (sep): read_csv → Komma, read_table → \ t (horizontale Registerkarte) Wenn Sie andere Dinge trennen möchten, geben Sie dies mit einem Argument an.

-Datenrahmen von Dateien mit verschiedenen Zeilenformaten Gib es an csf.reader weiter. Lesen Sie den zurückgegebenen Taple mit Linien. Aufteilen in Header und Datenzeile Wörterbuchformat mit Wörterbucheinschlussnotation und Zip (* -Werte) ...

・ Json (JavaScript-Objektnotation) Eines der Formate für den Datenaustausch mit HTTP-Anforderungen zwischen einem Webbrowser und einer Anwendung.

-Es ist auch möglich, Daten im HTML / XML-Format zu lesen und zu schreiben. Lesen Sie mit der Lesefunktion, fügen Sie Sprünge und Indizes hinzu, um ein Wörterbuch zu erstellen, und erstellen Sie schließlich einen Datenrahmen. Die Arbeit des sogenannten Schabens. Formen Sie die Daten so, dass sie verwendet werden können. Kaggle usw. verfügt über viele gut organisierte Daten. Warum also nicht? Vielmehr handelt es sich um eine Technologie, die in der Praxis wahrscheinlich häufig eingesetzt wird.

-HDF5 Dateiformat zum Speichern wissenschaftlicher Sequenzdaten. In C geschrieben und in der Lage, Daten effizient zu lesen und zu schreiben, ist es eine gute Wahl für die Verwendung großer Datenmengen.

・ Excel kann auch gelesen werden. Es kann auch aus der SQL-Datenbank gelesen werden.

Kapitel 7 Datenbereinigung und Vorverarbeitung

・ Umgang mit fehlenden Werten Löschen Sie alle Zeilen mit fehlenden Werten (NA, NaN) mit dropna. Mit Fillna füllen. Es gibt auch Füllungen und Füllungen, die denen vorher und nachher ähnlich sind. Sie können auch how = 'all' als Argument angeben und nur die Zeilen löschen, die alle NA sind. Die Spalte ist dieselbe wie die anderen und es wird Achse = 1 angegeben. Wenn Sie fillna ein Wörterbuch geben, können Sie jede Spalte mit einer anderen Nummer füllen. an Ort und Stelle überschreiben. Wenn Sie fillna data.mean angeben, können Sie die Lücken auch mit dem arithmetischen Durchschnitt ausfüllen.

・ Datentransformation Gibt eine Reihe von Booleschen Werten mit Duplikat zurück. drop_duplicates löscht nur wahre / falsche Werte (dieselben Elemente wie andere) Elementweise Konvertierung mit Karte. Sie können auch ein Wörterbuch geben. (Es scheint, dass allen Funktionen ein Wörterbuch gemeinsam übergeben werden kann.) Sie können es auch ersetzen. Ich habe das Gefühl, dass ich das oft auf Kaggle sehe. Ändern Sie das erste Argument in die zweite Zahl.

・ Diskriminierung und Binning Erstellen Sie ein Element in der Liste und übergeben Sie es als Argument an die Pandas, um es in Bins zu unterteilen.

・ Erkennung von Ausreißern data [(np.abs (data)> 3) .any (1), 3 oder mehr ist ein Beispiel. Listen Sie diejenigen auf, deren absoluter Wert des Datenelements größer als der angegebene numerische Wert ist. Wenn = np.sign (data) * 3, kann die Obergrenze in Kombination mit dem Vorzeichen erstellt werden, das einen numerischen Wert zurückgibt, der dem Vorzeichen jedes Elements entspricht.

· Stichproben Sie können 5 Zufälle mit random.permutation (5) und äquivalente Stichproben mit take abtasten. Pass replace = True in der Beispielmethode, um die nicht wiederherstellende Extraktion auszuwählen.

·Reguläre Ausdrücke. Verwenden Sie re module, complile, findall, regex.match ...

Kapitel 8 Data Langling

-Hierarchischer Index. Daten mit zwei oder mehr Indizes. Index a hat 1,2,3 Elemente und Index b hat 1,2,3 Elemente. Eine solche. Sie können mit Unstack und Stack schwenken. (Verwenden Sie das innere Element als Spaltenbeschriftung usw.)

-Sie können die Reihenfolge der Hierarchie mit Swaplevel ändern. Sortieren nach sort_index. Wenn Sie die Ebene als Argument übergeben, können Sie angeben, ob diese Hierarchie verwendet werden soll. 0, 1, ... von außen

-Datenrahmenspalten können indiziert werden. set.index Wenn set.index ('a') angegeben wird, werden die Elemente, aus denen die Spalte von a besteht, neu als Indizes hinzugefügt. reset.index ist das Gegenteil davon.

-Merge und Merge, Concat, Merge und Attach. Es wird im Wesentlichen durch eine innere Verknüpfung angegeben, und im Ergebnis sind nur allgemeine Verknüpfungen enthalten. Geben Sie wie = 'äußere' an, wenn Sie alles in das Ergebnis aufnehmen möchten, auch wenn es unabhängig ist.

-Stack wurde entwickelt, um fehlende Werte zu entfernen. Sie können ihn jedoch auch mit dropna = False löschen. Nicht darauf beschränkt, scheint es, dass die meisten Operationen ausgeführt werden können, indem man es mit einem Argument angibt (beurteilt) Wenn Sie eine Operation ausführen möchten, sollten Sie sich zuerst die Argumente ansehen.

Recommended Posts

Lernrekord Nr. 19 (23. Tag)
Lernrekord Nr. 29 (33. Tag)
Lernrekord Nr. 21 (25. Tag)
Lernrekord Nr. 10 (14. Tag)
Lernrekord Nr. 17 (21. Tag)
Lernrekord Nr. 18 (22. Tag)
Lernrekord Nr. 24 (28. Tag)
Lernrekord Nr. 28 (32. Tag)
Lernrekord Nr. 23 (27. Tag)
Lernrekord Nr. 25 (29. Tag)
Lernrekord Nr. 26 (30. Tag)
Lernrekord Nr. 20 (24. Tag)
Lernrekord Nr. 27 (31. Tag)
Lernrekord Nr. 14 (18. Tag) Kaggle4
Lernrekord Nr. 15 (19. Tag) Kaggle5
Lernrekord 4 (8. Tag)
Lernrekord 9 (13. Tag)
Lernrekord 3 (7. Tag)
Lernrekord 5 (9. Tag)
Lernrekord 6 (10. Tag)
Programmieren des Lernprotokolls 2. Tag
Lernrekord 8 (12. Tag)
Lernrekord 1 (4. Tag)
Lernrekord 7 (11. Tag)
Lernrekord 2 (6. Tag)
Lernrekord 16 (20. Tag)
Lernrekord 22 (26. Tag)
Lernrekord 13 (17. Tag) Kaggle3
Lernrekord 12 (16. Tag) Kaggle2
Lernaufzeichnung
Lernrekord Nr. 3
Lernrekord Nr. 1
Lernrekord Nr. 2
Lernrekord 11 (15. Tag) Kaggle-Teilnahme
Lernaufzeichnung (3. Tag) # CSS-Selektorbeschreibungsmethode #Scraping with BeautifulSoup
Python-Lerntag 4
Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup
Bisherige Lernbilanz
Linux-Lernprotokoll ① Planen
<Kurs> Tiefes Lernen: Day2 CNN
<Kurs> Tiefes Lernen: Tag 1 NN
Themen> Deep Learning: Tag 3 RNN
63. Tag habe ich Tensorflow installiert.
Studiere gründlich Deep Learning [DW Tag 0]