Dieses Mal haben wir ** "Pandas 100 Knocks für Anfänger von Python" ** als Inhalte erstellt, um Pandas, eine Python-Bibliothek, effizient zu lernen, und werden sie veröffentlichen. Dieser Inhalt entspricht auch dem Inhalt des ** Python3 Engineer Certification Data Analysis-Tests. Die Durchführung dieser 100 Schläge ist daher auch eine Qualifizierungsmaßnahme. ** Es gibt auch ein Überlebensprognoseproblem für Titanic-Passagiere am Ende des Klopfens, das auch für die Teilnahme an maschinellen Lernwettbewerben wie Kaggle üblich ist.
No. | Einstufung | Problem |
---|---|---|
1 | Grundlagen | Zeigen Sie die ersten 5 in df eingelesenen Datenzeilen an |
2 | Grundlagen | Zeigen Sie die letzten 5 in df eingelesenen Datenzeilen an |
3 | Grundlagen | Überprüfen Sie die DataFrame-Größe von df |
4 | Grundlagen | data1 im Eingabeordner.Lesen Sie die CSV-Datei und speichern Sie sie in df2. Zeigen Sie die ersten 5 Zeilen an |
5 | Grundlagen | Sortiert in aufsteigender Reihenfolge nach df Tarifspalte |
6 | Grundlagen | df_Kopieren Sie df, um die ersten 5 Zeilen zu kopieren und anzuzeigen |
7 | Grundlagen | ① Überprüfen Sie den Datentyp jeder Spalte von df ② Überprüfen Sie den Datentyp der Kabinensäule von df |
8 | Grundlagen | ① Überprüfen Sie den Datentyp der pclass-Spalte von df mit dtype (2) Konvertieren Sie vom numerischen Typ in den Zeichentyp und überprüfen Sie den Datentyp mit dtype |
9 | Grundlagen | Anzahl der Datensätze in df(Anzahl der Zeilen)bestätigen |
10 | Grundlagen | Anzahl der Datensätze in df(Anzahl der Zeilen), Überprüfen Sie den Datentyp jeder Spalte und das Vorhandensein oder Fehlen fehlender Werte |
11 | Grundlagen | df Sex,Überprüfen Sie die Elemente der Kabinensäule |
12 | Grundlagen | Anzeigen der Liste der df-Spaltennamen im Listenformat |
13 | Grundlagen | Anzeige der df-Indexliste im ndarray-Format |
14 | Extraktion | Nur Spalte mit dem Namen von df anzeigen |
15 | Extraktion | Nur Spalten mit df-Namen und Geschlecht anzeigen |
16 | Extraktion | df index(Linie)の4Linie目までを表示 |
17 | Extraktion | df index(Linie)の4Linie目から10Linie目までを表示 |
18 | Extraktion | Zeigen Sie die gesamte df mit loc an |
19 | Extraktion | Alle df-Tarifspalten mit loc anzeigen |
20 | Extraktion | Verwenden Sie loc, um bis zur 10. Zeile der Spalte df-Tarif anzuzeigen |
21 | Extraktion | Verwenden Sie loc, um alle Spalten für df-Namen und Tickets anzuzeigen |
22 | Extraktion | Verwenden Sie loc, um alle Spalten vom df-Namen bis zur Kabine anzuzeigen |
23 | Extraktion | Zeigen Sie mit iloc die Altersspalte von df bis zur 5. Zeile an |
24 | Extraktion | df name,age,sexの列のみExtraktionしdf2に格納 Dann als CSV-Datei in den Ausgabeordner ausgeben |
25 | Extraktion | dfのage列の値が30以上のデータのみExtraktion |
26 | Extraktion | dfのsex列がfemaleのデータのみExtraktion |
27 | Extraktion | dfのsex列がfemaleでかつageが40以上のデータのみExtraktion |
28 | Extraktion | queryを用いてdfのsex列がfemaleでかつageが40以上のデータのみExtraktion |
29 | Extraktion | Zeigen Sie Daten mit der Zeichenfolge "Mrs" in der Namensspalte von df an |
30 | Extraktion | Nur Zeichentypspalten in df anzeigen |
31 | Extraktion | Zählen der Anzahl eindeutiger Elemente in jeder Spalte von df |
32 | Extraktion | Überprüfen Sie die Elemente der eingeschifften Spalte von df und die Anzahl der Vorkommen |
33 | wird bearbeitet | Die Altersspalte des df-Indexnamens "3" wurde von 30 auf 40 geändert |
34 | wird bearbeitet | Ändern Sie männlich → 0 und weiblich → 1 in der Geschlechtsspalte von df und zeigen Sie die ersten 5 Zeilen an |
35 | wird bearbeitet | Fügen Sie der Tarifspalte von df 100 hinzu, um die ersten 5 Zeilen anzuzeigen |
36 | wird bearbeitet | Multiplizieren Sie die Tarifspalte von df mit 2, um die ersten 5 Zeilen anzuzeigen |
37 | wird bearbeitet | Runden Sie die Tarifspalte von df nach dem Dezimalpunkt ab |
38 | wird bearbeitet | Fügen Sie df eine Spalte mit dem Spaltennamen "test" und allen 1 Werten hinzu und zeigen Sie die ersten 5 Zeilen an |
39 | wird bearbeitet | Fügen Sie die Kabine und die eingeschifften Säulen zu df hinzu_Fügen Sie Spalten hinzu, die durch verbunden sind(Der Spaltenname lautet "test".)Und zeigen Sie die ersten 5 Zeilen an |
40 | wird bearbeitet | Fügen Sie das Alter und die eingeschifften Spalten zu df hinzu_Fügen Sie Spalten hinzu, die durch verbunden sind(Der Spaltenname lautet "test".)Und zeigen Sie die ersten 5 Zeilen an |
41 | wird bearbeitet | Entfernen Sie die Körperspalte aus df, um die ersten 5 Zeilen anzuzeigen |
42 | wird bearbeitet | Entfernen Sie die Zeile mit dem Indexnamen "3" aus df und zeigen Sie die ersten 5 Zeilen an |
43 | wird bearbeitet | Der Spaltenname von df2'name', 'class', 'Biology', 'Physics', 'Chemistry'ändern Zeige die ersten 5 Zeilen von df2 |
44 | wird bearbeitet | Der Spaltenname von df2'English'Biologie'ändern Zeige die ersten 5 Zeilen von df2 |
45 | wird bearbeitet | Der Indexname "1" von df2 wurde in "10" geändert. Zeige die ersten 5 Zeilen von df2 |
46 | wird bearbeitet | Überprüfen Sie die Anzahl der fehlenden Werte in allen Spalten von df |
47 | wird bearbeitet | Ersetzen Sie den fehlenden Wert in der Spalte df age durch 30 Überprüfen Sie danach die Anzahl der fehlenden Alterswerte |
48 | wird bearbeitet | Löschen Sie Zeilen mit nur einem fehlenden Wert mit df Überprüfen Sie danach die Anzahl der fehlenden Werte in df |
49 | wird bearbeitet | df überlebte Spalte im Array-Format(Array)Anzeige mit |
50 | wird bearbeitet | Mischen und Anzeigen von df-Zeilen |
51 | wird bearbeitet | Mische die df-Zeile und indiziere sie neu, um sie anzuzeigen |
52 | wird bearbeitet | ① Zählen Sie die Anzahl der doppelten Zeilen in df2 |
53 | wird bearbeitet | Konvertieren Sie die Spalte df name in Großbuchstaben und zeigen Sie sie an |
54 | wird bearbeitet | Konvertieren Sie die Namensspalte von df in Kleinbuchstaben und zeigen Sie sie an |
55 | wird bearbeitet | Das Wort "weiblich" in der Geschlechtsspalte von df Ersetzt durch "Python" |
56 | wird bearbeitet | "Allen" in der ersten Zeile der Namensspalte von df, Miss.Elisabeth Walton " "Elisabeth" löschen(brauche Import re) |
57 | wird bearbeitet | Stellen Sie sicher, dass die Spalte Präfektur und die Spalte Stadt / Gemeinde / Stadt / Dorf von df5 keine Leerzeichen enthalten 「_Kombinieren mit(Neuer Spaltenname ist "test2")Und zeigen Sie die ersten 5 Zeilen an |
58 | wird bearbeitet | Zeigen Sie df2 mit vertauschten Zeilen und Spalten an |
59 | Zusammenführen und verketten | Verbinden Sie df3 mit df2 und speichern Sie es in df2 |
60 | Zusammenführen und verketten | Verbinden Sie df3 mit df2 und speichern Sie es in df2 |
61 | Zusammenführen und verketten | Inner df3 mit df2 verbinden und in df2 speichern |
62 | Zusammenführen und verketten | Äußere Verknüpfung von df3 mit df2 und Speicherung in df2 |
63 | Zusammenführen und verketten | Verketten Sie df2 und df4 in Spaltenrichtung und speichern Sie sie in df2 |
64 | Zusammenführen und verketten | df2 und df4 sind in Spaltenrichtung verbunden und überlappen sich Löschen Sie eine der Namensspalten und speichern Sie sie in df2 |
65 | Zusammenführen und verketten | df2 und df2 sind in Zeilenrichtung verbunden und überlappen sich Löschen Sie eine der Namensspalten und speichern Sie sie in df2 |
66 | Statistiken | Überprüfen Sie den Durchschnittswert der Altersspalte von df |
67 | Statistiken | Überprüfen Sie den Medianwert der Altersspalte von df |
68 | Statistiken | ① Gesamtpunktzahl für jeden Schüler von df2 (Gesamtpunktzahl in Zeilenrichtung) (2) Punktesumme für jedes Subjekt von df2 (Summe in Spaltenrichtung) |
69 | Statistiken | Maximale Punktzahl in Englisch für df2 |
70 | Statistiken | Mindestpunktzahl in Englisch für df2 |
71 | Statistiken | Gruppieren Sie nach Klassen in df2 und ermitteln Sie die Maximal-, Minimal- und Durchschnittswerte der Probanden für jede Klasse.(Löschen Sie die Namensspalte) |
72 | Statistiken | dfの基本Statistiken量を確認(describe) |
73 | Statistiken | Zwischen jeder Spalte von df(Pearson)Überprüfen Sie den Korrelationskoeffizienten |
74 | Statistiken | scikit-Verwenden Sie learn, um Englisch, Mathematik und Geschichte von df2 zu standardisieren |
75 | Statistiken | scikit-Verwenden Sie learn, um die englische Spalte von df2 zu standardisieren |
76 | Statistiken | scikit-Min die Englisch-, Mathematik- und Geschichtsspalten von df2 mit learn-Maximale Skala |
77 | Statistiken | Ruft den Zeilennamen der Maximal- und Minimalwerte der Tarifspalte von df ab |
78 | Statistiken | Holen Sie sich die 0, 25, 50, 75, 100 Perzentile der df-Tarifspalte |
79 | Statistiken | ① Ermitteln Sie den häufigsten Wert der Altersspalte von df ②value_counts()Überprüfen Sie die Anzahl der Elemente in der Altersspalte unter und die Gültigkeit des Ergebnisses von ①. |
80 | Beschriftung | Beschriften Sie die Geschlechtsspalte von df und zeigen Sie die ersten 5 Zeilen von df an |
81 | Beschriftung | Eine Geschlechtssäule von df-Hot-Codierung und Anzeige der ersten 5 Zeilen von df |
82 | Pandas Verschwörung | Zeigen Sie ein Histogramm aller numerischen Spalten in df an |
83 | Pandas Verschwörung | Zeigen Sie die Altersspalte von df als Histogramm an |
84 | Pandas Verschwörung | Zeigen Sie die Gesamtpunktzahl von 3 Probanden für jeden Namen von df2 in einem Balkendiagramm an |
85 | Pandas Verschwörung | Zeigen Sie 3 Themen für jedes Element der Namensspalte von df2 nebeneinander in einem Balkendiagramm an |
86 | Pandas Verschwörung | Zeigen Sie 3 Themen für jedes Element der Namensspalte von df2 als gestapeltes Balkendiagramm an |
87 | Pandas Verschwörung | Streudiagramm zwischen jeder Spalte von df anzeigen |
88 | Pandas Verschwörung | Erstellen Sie ein Streudiagramm mit Alters- und Tarifspalten von df |
89 | Pandas Verschwörung | In der in [88] gezeichneten Grafik ist "Alter"-Tarifstreuung " Geben Sie einen Diagrammtitel an |
90 | Vorhersage der Überlebenden der Titanic | df_Etikett, das das Geschlecht und die eingeschriebenen Spalten der Kopie codiert |
91 | Vorhersage der Überlebenden der Titanic | df_Überprüfen Sie die Kopie auf fehlende Werte |
92 | Vorhersage der Überlebenden der Titanic | df_Ergänzen Sie die fehlenden Werte in den Alters- und Tarifspalten der Kopie mit dem Durchschnittswert jeder Spalte |
93 | Vorhersage der Überlebenden der Titanic | df_Entfernen Sie unnötige Zeilen, die beim maschinellen Lernen nicht zum Kopieren verwendet wurden |
94 | Vorhersage der Überlebenden der Titanic | ①df_Extrahieren Sie Klasse, Alter, Geschlecht, Fahrpreis, eingeschriebene Spalten der Kopie und konvertieren Sie sie in das Ndarray-Format ②df_Extrahieren Sie die erhaltene Spalte der Kopie und konvertieren Sie sie in das ndarray-Format |
95 | Vorhersage der Überlebenden der Titanic | Teilen Sie die in [94] erstellten Funktionen und Ziele in Trainingsdaten und Testdaten ein. |
96 | Vorhersage der Überlebenden der Titanic | Trainingsdaten(features、target)Führen Sie das Lernen in einem zufälligen Wald mit |
97 | Vorhersage der Überlebenden der Titanic | test_Vorhersage des Überlebens von Passagieren in X-Daten |
98 | Vorhersage der Überlebenden der Titanic | Vorhersageergebnis ist Test_y(Antwort auf das Überleben)Und wie viel Überprüfen Sie, ob es konsistent war(Bewertungsindex ist Genauigkeit) |
99 | Vorhersage der Überlebenden der Titanic | Jede Spalte im Lernen(Funktionswert)Zeigen Sie die Wichtigkeit von |
100 | Vorhersage der Überlebenden der Titanic | test_Geben Sie das Vorhersageergebnis von X mit csv in den Ausgabeordner aus (Dateiname ist "Übermittlung")..csv」) |
Wenn Sie Python noch nicht installiert haben, installieren Sie bitte zuerst anaconda auf Ihrem eigenen PC. Neben Pandas werden in dem Problem auch Bibliotheken wie Scikit-learn verwendet.
Nachdem Sie den ZIP-Ordner von GitHub heruntergeladen haben, extrahieren Sie ihn in den lokalen Bereich Ihres eigenen PCs.
Öffnen Sie die im Ordner "notebook" gespeicherte ipynb-Datei mit Jupyter Notebook (versuchen Sie zuerst, "01_Pandas_100_Knocks_for_Begginer_v1.0.ipynb" zu öffnen).
Führen Sie nach dem Öffnen der ipynb-Datei die erste Zelle aus, in der die Antwortdatei und der in der Frage verwendete Datensatz geladen werden. Der verwendete Datensatz sind die Passagierdaten der Titanic.
Geben Sie den Code für jede Frage in die Zelle jeder Frage ein.
Wenn Sie die Antwort nicht kennen, löschen Sie das "#" aus der Beschreibung "#print (ans [])" in der Fragezelle und führen Sie es aus, um das Antwortbeispiel anzuzeigen.
pandas_100_knocks_v1.0 ├ notebook /… Speichert 3 ipynb-Dateien ├ input /… Enthält Antwortdateien für 100 Fragen und Datensätze, die in Fragen verwendet werden └ output /… Wird hier bei der Ausgabe einer Datei aufgrund eines Problems gespeichert
Hoffentlich habe ich das Problem mit dem Bewusstsein gelöst, dass Anfänger von Python Level 3 erreichen können (ich denke, dass Sie Level 2 erreichen können, wenn Sie es dreimal lösen).
Der Inhalt kann von GitHub heruntergeladen werden.
https://github.com/kunishou/Pandas_100_knocks
Einsatzbereich Jeder kann es verwenden, unabhängig von Person oder Unternehmen (Wenn Sie es für freiwillige Lernsitzungen oder interne Schulungen verwenden, lassen Sie es uns bitte wissen und es wird den Autor motivieren. Ich freue mich auch über Kommentare wie "Dieser Inhalt hat mir geholfen, die Python-Zertifizierungsprüfung zu erhalten")
Vorsichtsmaßnahmen Inhalte können nicht weitergegeben oder neu organisiert werden
Das Scratchpad von nbextensions ist praktisch als Erweiterung von Jupyter Notebook. Wir empfehlen daher, es zu installieren. Während der Arbeit an 100 Klopfen ist es mühsam, "Neue Zelle hinzufügen-> df.head ()" auszuführen, um den im Datenrahmen gespeicherten Dateninhalt zu überprüfen. Mit Scratchpad können Sie mit "Strg + B" einen Einwegzellenbereich aufrufen.
Informationen zur Installationsmethode finden Sie im Folgenden.
[Python] Jupiter-Notebook-Erweiterungen ~
Wenn Sie Fragen oder Wünsche zu diesem Inhalt haben, wenden Sie sich bitte an uns.
Recommended Posts