[PYTHON] Kaggle-Wettbewerbsprozess unter dem Gesichtspunkt des Punkteübergangs

Kaggle-Wettbewerbsprozess unter dem Gesichtspunkt des Punkteübergangs

Dieser Artikel ist der 6. Tag des Adventskalenders von Der Weg zur KI Dojo "Kaggle" von Nikkei xTECH Business AI - Adventskalender 2019 Dies ist ein Artikel.

Dieser Artikel richtet sich an Kaggle-Anfänger, die nicht wissen, wie man mit Kaggle ** arbeitet. Ich werde einen Artikel darüber schreiben, was die Kagglers zu einer bestimmten Zeit tun, während ich den Punktewechsel des Wettbewerbs beobachte. Was das Level angeht: Was tun als nächstes nach der Registrierung bei Kaggle? Wenn Sie dies tun, können Sie genug kämpfen! Versuchen Sie, die tatsächliche Konkurrenz herauszufordern, nachdem Sie die Grundlagen des maschinellen Lernens und des Kaggle um Titanic's Introductory 10 Kernel ~ gelernt haben Es ist für Leute gedacht, die darüber nachdenken.

Punkteübergang

Verwenden Sie zunächst kaggle api, um den Punkteübergang des Teilnehmers aus der Rangliste zu extrahieren.

Name der Rangliste der Kaggle-Wettbewerbe--download

Mit dem obigen Befehl können das Einreichungsdatum und die öffentliche Punktzahl, wenn jeder Teilnehmer die Punktzahl aktualisiert, als CSV-Datei heruntergeladen werden.

Dies ist mein Punkteübergang des NFL-Wettbewerbs, der neulich endete. Leider kann mein Prozess in diesem Wettbewerb, von dem ich nichts bemerkt habe, in vier Perioden unterteilt werden. nfl_my_score.png

Dies ist der Punkteübergang der Top 5 der öffentlichen Teams. Ist das auch so, wenn Sie den Prozess durch Vorstellungskraft teilen? nfl_top5_score.png

Einige Teams erhöhen ständig ihre Punktzahl.

Grundbauzeit

nfl_my_score_1.png

Es ist an der Zeit, die Daten zu verstehen und EDA leichtfertig durchzuführen und ein einfaches Modell zu erstellen, ohne Funktionen oder anderen Einfallsreichtum zu erstellen. Wir werden hier auch die entsprechende Kreuzvalidierung erstellen (falls möglich). Ich denke, viele Leute reichen hier nicht ein, aber zum Vergleich schicke ich immer ** ein **. Eine der Erkenntnisse ist, wie groß der Unterschied zwischen dem einfachen Modell und dem oberen Modell ist. Im Falle einer Teilnahme mitten im Krieg kann der Kernel als Basis verwendet werden.

Das goldene Zeitalter, das auf jeden Fall hochgeht

nfl_my_score_2.png

Bei einem Tabellenwettbewerb beginnt hier die Feature-Erstellung. Ich kann mir das hier relativ leicht vorstellen, und ich werde den Funktionen Vorrang einräumen, von denen ich denke, dass sie zunehmen werden. Die erste Parametereinstellung wird auch hier durchgeführt (ich bin übrigens eine warme manuelle Abstimmungssekte). Von hier aus werde ich es für die Tabelle und das Bild getrennt beschreiben.

Tabelle

--Erstellen Sie Funktionen, die sich jeder aufgrund von Domänenkenntnissen vorstellen kann (im Allgemeinen im Kernel aufgeführt).

Bild

Ich weiß nichts

nfl_my_score_3.png Es ist eine Zeit, in der nichts schief geht. Die Zeit, in der Sie nichts verstehen, wie z. B. die Anzahl der Funktionen, von denen Sie glauben, dass sie funktionieren, funktioniert nicht. Der Lebenslauf steigt, aber die LB steigt nicht. Der Lebenslauf steigt nicht, aber die LB steigt. Wenn eine bestimmte Anzahl von Features erstellt wird, kann dies zu einer Überanpassung führen, indem Features erstellt werden, die bereits berücksichtigt wurden (glaube ich).

Tabelle

――Suchen Sie nach Hinweisen, indem Sie den Kernel patrouillieren und die Diskussion zusammenfassen.

Bild

Es kann lange dauern, ein Bild einmal zu lernen, und ich habe das Gefühl, etwas zu bemerken oder die letzte Anpassungsperiode vor der Periode einzugeben, in der ich nichts verstehe.

――Suchen Sie nach Hinweisen, indem Sie den Kernel patrouillieren und die Diskussion zusammenfassen. ――Versuchen Sie Verwechslungen, Schnittmischungen und andere Vergrößerungen, die in den neuesten Veröffentlichungen enthalten sind. ――Versuchen Sie Augmentation, die nicht intuitiv zu funktionieren scheint. --Das Netzwerk schwächen (← Bilder machen normalerweise keinen Sinn)

Es ist zu diesem Zeitpunkt schwierig, weil es auf dem LeaderBoard herausgezogen wird. In Freesound Audio Tagging 2019, das die Goldmedaille gewann, war die Überprüfung des puclischen Kernels ein Durchbruch.

Die Zeit, als ich etwas bemerkte

nfl_top5_score_1.png (Der Pfeil oben ist eine Täuschung)

Leider hatte ich diese Zeit nicht im NFL-Wettbewerb, aber wenn ich mir die Rangliste anschaue, gibt es einige Leute, die plötzlich aufspringen. Ich denke, es gibt verschiedene Gründe, aber wenn ich die Lösungen lese, denke ich, dass das Gemeinsame ist, dass ich mir oft die Daten ansehe **.

"Erstellen von Funktionen basierend auf tiefen Einsichten" ist im Allgemeinen schwer auszudrücken, da es sich um einen Wettbewerb handelt, aber ich denke, dieser Artikel wird sehr hilfreich sein. (Referenz: Unterschied zwischen gewöhnlichen Datenwissenschaftlern und erstklassigen Datenwissenschaftlern)

Ensemble & letzte Anpassungsperiode

nfl_my_score_4.png In diesem NFL-Wettbewerb hatte ich keine andere Wahl, als das Ensemble und die endgültigen Anpassungen frühzeitig zu beginnen, aber es scheint, dass viele Leute dies normalerweise vor ungefähr einer Woche tun.

Grundsätzlich weiß ich, dass die Punktzahl steigen wird, aber ich denke, dass ich es oft zuletzt für Dinge mache, die den Rechenaufwand erhöhen **. Die Punktzahl des Ensembles wird definitiv steigen. Wenn Sie also bei einem Kernel-Wettbewerb usw. nicht das Zeitlimit erreichen, werde ich mein Bestes geben, bis es trifft. Die zweite Parametereinstellung ist ebenfalls hier. Im Fall einer Tabelle wird normalerweise eine große Anzahl von Features hinzugefügt, daher sollte diese hier erneut angepasst werden. Es senkt auch die Lernrate. Wenn Sie sich zusammenschließen und verschiedene Modelle erstellen, ist das Ensemble oft sehr effektiv.

Tabelle

Bild

Das einmalige Lernen von Bildern dauert lange, daher denke ich, dass es oft schneller ist, mit dem Training für ein Ensemble zu beginnen.

Dies ist das Ende des Prozesses vom Beginn des Kaggle-Wettbewerbs bis zur endgültigen Einreichung. Natürlich glaube ich nicht, dass jeder diesen Prozess durchführt, und die Reihenfolge, in der er arbeitet, hängt von den Herausforderungen des Wettbewerbs ab, aber ich bin der Meinung, dass der Prozess in gewissem Maße konvergieren wird, wenn Sie mehrere Wettbewerbe erleben. Ich möchte auch den Prozess stärkerer Menschen kennenlernen.

Schließlich ist es ein Bonus.

Best Practice für diejenigen, die Kaggle starten

Meiner Meinung nach wird diese Route für diejenigen empfohlen, die Kaggle starten.

Was tun als nächstes nach der Registrierung bei Kaggle? Wenn Sie dies tun, können Sie genug kämpfen! Erste Schritte mit dem Titanic 10 Kernel ~ Dies soll von Kodansha als Einführung in Kaggle im März 2020 veröffentlicht werden (https://upura.hatenablog.com/entry/2019/12/04/220200). 20191203164651.png

(2) Kopieren Sie den Kernel mit einer großen Anzahl von Stimmen im vergangenen Wettbewerb / aktuellen Wettbewerb Ein großer Kernel ist eine Schatzkammer des Wissens. Insbesondere für Anfänger sind in der Regel viele Stimmen angebracht. Wählen Sie daher eine, die eine große Anzahl von Stimmen hat und von Anfang an sorgfältig zu erklären scheint. Wenn Sie eine Punktzahl haben, können Sie den Ablauf der Einreichung lernen. Ich habe das Gefühl, mit dem Home Credit-Wettbewerb Start Here: A Gentle Introduction begonnen zu haben. homecredit_kernel.png

Datenanalysetechnologie, die mit Kaggle gewinnt Unnötig zu sagen, ein Eisenplattenbuch. Es ist überhaupt kein Buch für Anfänger, daher denke ich, dass es besser ist, den obigen Prozess durchzugehen. Der Code ist ebenfalls enthalten. Wenn Sie also an einem Tischwettbewerb teilnehmen, können Sie stärker werden, indem Sie mit einer Hand am aktuellen Wettbewerb teilnehmen.

418YjfYRlhL.jpg

Am Ende

Ich denke, es ist eine großartige Gelegenheit, Kaggle zu starten, da die in verschiedene Richtungen verstreuten und implizit in Kaggler bekannten Informationen in Büchern gesammelt wurden. Ich hoffe, dieser Artikel hilft jedem, der mit Kaggle anfangen möchte.

Recommended Posts

Kaggle-Wettbewerbsprozess unter dem Gesichtspunkt des Punkteübergangs
Python zeigt aus der Perspektive eines C-Sprachprogrammierers
Existenz aus Sicht von Python
Verarbeiten Sie das Ergebnis von% time,% timeit
Lernen Sie aus dem siegreichen Code-Mercari-Wettbewerb ①-
Vergleich von R, Python, SAS, SPSS aus Sicht europäischer Datenwissenschaftler
Trends in Programmiersprachen aus Sicht von GitHub (aktualisierte halbjährliche Änderungen)
Herausforderungen des Titanic-Wettbewerbs für Kaggle-Anfänger
Implementieren Sie einen Teil des Prozesses in C ++
Notizen vom Anfang von Python 1 lernen
Lassen Sie die Stückliste am Anfang der Zeichenfolge weg
Legen Sie den Prozessnamen des Python-Programms fest
Notizen vom Anfang von Python 2 lernen
Holen Sie sich den Inhalt von Git Diff aus Python
Kaggle Zusammenfassung: Planet, den Amazonas aus dem Weltraum verstehen
Signate_ Rückblick auf den 1. Beginner Limited Competition
Ändern Sie den Dezimalpunkt der Protokollierung von, nach.
Senden Sie Google Mail am Ende des Vorgangs [Python]
Finden des Beginns der Avenomics anhand der NT-Vergrößerung 2
Auszug nur vollständig aus dem Ergebnis von Trinity
Finden des Beginns der Avenomics anhand der NT-Vergrößerung 1
Von der Einführung von Pyethapp bis zur Vertragsabwicklung
Übergang von Baseball aus Daten gesehen
Die Geschichte vom Umzug von Pipenv zur Poesie