[PYTHON] Lernrekord Nr. 18 (22. Tag)

Lernrekord (22. Tag)

Beginn des Studiums: Samstag, 7. Dezember

Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 19.12. (Donnerstag) Abgeschlossen ・ Progate Python-Kurs (insgesamt 5 Kurse): Endet am Samstag, den 21. Dezember ・ Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017): Abschluss am Samstag, 23. Dezember ・ Kaggle: Real or Not? NLP mit Katastrophen-Tweets: Veröffentlicht am Samstag, 28. Dezember, bis Freitag, 3. Januar Einstellung ・ ** Wes Mckinney "(japanischer Titel) Einführung in die Datenanalyse von Python" (O'Reilly Japan, 2018) **: 4. Januar (Sa) ~

"Einführung in die Datenanalyse mit Python"

S.181 Kapitel 5 Lesen bis zur Einführung in Pandas beendet.

-Pandas wurde entwickelt, um tabellarische und uneinheitliche Daten zu verarbeiten. Wie NumPy bevorzuge ich die Datenverarbeitung, die nicht für Schleifen verwendet wird. Es werden viele Serien- und Datenrahmen verwendet.

-Serie: Enthält ein Beschriftungsarray, das als Index bezeichnet wird und aufeinanderfolgenden Werten zugeordnet ist. Es ist auch möglich, auf Objekte wie eindimensionale Arrays und numerische Werte zu verweisen, indem Beschriftungen und Bedingungen angegeben werden. Sie können auch ein Wörterbuchformat von Python übergeben, um eine Serie zu erstellen. Wenn es keine entsprechende gibt, behandeln Sie sie als NaN. NaN kann durch die isnull- und notnull-Funktionen von Pandas identifiziert werden.

-Datenrahmen: Hat eine tabellarische Datenstruktur und geordnete Spalten. Ein Bild, das den Index der gesamten Serie teilt. Viele der in der Vorverarbeitung von Kaggle verwendeten Prozesse. Extraktion von Kopf, Lok, Columsbezeichnung usw. (Weil die extrahierte Reihe den gleichen Index hat wie der Datenrahmen.) Wenn Sie ein verschachteltes Wörterbuch übergeben, wird der äußere Schlüssel als Spaltenindex und der innere Schlüssel als Zeilenindex interpretiert.

-Das Indexobjekt hat die Rolle, Beschriftungen und Metadaten zu speichern. Daher wird es als unveränderlich behandelt. Dies ermöglicht einen sicheren Umgang mit Daten. Wenn Sie den Index ändern möchten, verwenden Sie die Reindex-Funktion von pandas. Sie können Spalten auch indizieren, indem Sie Spalten als Argument angeben. Die Drop-Funktion, die ein Element löscht, kann beim Überschreiben der Originaldaten geändert werden, indem Sie als Argument replace = True festlegen.

・ Datenauswahl Verwenden Sie iloc, um auf die Beschriftung des Datenrahmens mit loc und auf die Indexposition zu verweisen. Das Schneiden von Etiketten unterscheidet sich von Pythons und enthält Endpunkte. (Einschließlich 2 in [: 2])

・ Es können auch zusammenfassende Statistiken (Anzahl der einzelnen Elemente usw.) ausgegeben werden. Summe etc. Auch für Spalten durch Angabe von axis = 1 (oder axis = 'column') als Argument. Für idxmax der Maximalwert für jeden Index. Sie können auch alle zusammenfassenden Statistiken abrufen, indem Sie beschreiben übergeben. Wenn es sich um numerische Daten handelt, handelt es sich um die Abweichung oder die Summe. Wenn es sich nicht um numerische Daten handelt, handelt es sich um die Anzahl der Elemente selbst, ausgenommen Anzahl oder Duplizierung. Dies wurde auch oft in Kaggle verwendet. Sie können die Nummer jedes Elements mit value_count abrufen. Sie können auch sortieren, indem Sie mit sortieren kombinieren. value_count.sort () Sortierung ist wahr oder falsch. Mit der Funktion isin kann festgestellt werden, ob das angegebene Element vorhanden ist. Stimmt, wenn es das gibt. Auf diese Weise können Sie auch eine Teilmenge nur dessen erstellen, was Sie möchten.

Recommended Posts

Lernrekord Nr. 18 (22. Tag)
Lernrekord Nr. 28 (32. Tag)
Lernrekord Nr. 21 (25. Tag)
Lernrekord Nr. 10 (14. Tag)
Lernrekord Nr. 17 (21. Tag)
Lernrekord Nr. 24 (28. Tag)
Lernrekord Nr. 19 (23. Tag)
Lernrekord Nr. 29 (33. Tag)
Lernrekord Nr. 23 (27. Tag)
Lernrekord Nr. 25 (29. Tag)
Lernrekord Nr. 26 (30. Tag)
Lernrekord Nr. 20 (24. Tag)
Lernrekord Nr. 27 (31. Tag)
Lernrekord Nr. 14 (18. Tag) Kaggle4
Lernrekord Nr. 15 (19. Tag) Kaggle5
Lernrekord 4 (8. Tag)
Lernrekord 3 (7. Tag)
Lernrekord 5 (9. Tag)
Lernrekord 6 (10. Tag)
Programmieren des Lernprotokolls 2. Tag
Lernrekord 8 (12. Tag)
Lernrekord 1 (4. Tag)
Lernrekord 7 (11. Tag)
Lernrekord 2 (6. Tag)
Lernrekord 16 (20. Tag)
Lernrekord 22 (26. Tag)
Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup
Lernrekord 13 (17. Tag) Kaggle3
Lernrekord 12 (16. Tag) Kaggle2
Lernaufzeichnung
Lernrekord Nr. 3
Lernrekord Nr. 1
Lernrekord Nr. 2
Lernrekord 11 (15. Tag) Kaggle-Teilnahme
Python-Lerntag 4
Bisherige Lernbilanz
Linux-Lernprotokoll ① Planen
<Kurs> Tiefes Lernen: Day2 CNN
Lernaufzeichnung (3. Tag) # CSS-Selektorbeschreibungsmethode #Scraping with BeautifulSoup
<Kurs> Tiefes Lernen: Tag 1 NN
Themen> Deep Learning: Tag 3 RNN
Studiere gründlich Deep Learning [DW Tag 0]
Lernaufzeichnung (4. Tag) #Wie man den absoluten Pfad vom relativen Pfad erhält