Dieser Artikel ist der 6. Tag des Adventskalenders von Der Weg zur KI Dojo "Kaggle" von Nikkei xTECH Business AI - Adventskalender 2019 Dies ist ein Artikel.
Dieser Artikel richtet sich an Kaggle-Anfänger, die nicht wissen, wie man mit Kaggle ** arbeitet. Ich werde einen Artikel darüber schreiben, was die Kagglers zu einer bestimmten Zeit tun, während ich den Punktewechsel des Wettbewerbs beobachte. Was das Level angeht: Was tun als nächstes nach der Registrierung bei Kaggle? Wenn Sie dies tun, können Sie genug kämpfen! Versuchen Sie, die tatsächliche Konkurrenz herauszufordern, nachdem Sie die Grundlagen des maschinellen Lernens und des Kaggle um Titanic's Introductory 10 Kernel ~ gelernt haben Es ist für Leute gedacht, die darüber nachdenken.
Verwenden Sie zunächst kaggle api, um den Punkteübergang des Teilnehmers aus der Rangliste zu extrahieren.
Name der Rangliste der Kaggle-Wettbewerbe--download
Mit dem obigen Befehl können das Einreichungsdatum und die öffentliche Punktzahl, wenn jeder Teilnehmer die Punktzahl aktualisiert, als CSV-Datei heruntergeladen werden.
Dies ist mein Punkteübergang des NFL-Wettbewerbs, der neulich endete. Leider kann mein Prozess in diesem Wettbewerb, von dem ich nichts bemerkt habe, in vier Perioden unterteilt werden.
Dies ist der Punkteübergang der Top 5 der öffentlichen Teams. Ist das auch so, wenn Sie den Prozess durch Vorstellungskraft teilen?
Einige Teams erhöhen ständig ihre Punktzahl.
Es ist an der Zeit, die Daten zu verstehen und EDA leichtfertig durchzuführen und ein einfaches Modell zu erstellen, ohne Funktionen oder anderen Einfallsreichtum zu erstellen. Wir werden hier auch die entsprechende Kreuzvalidierung erstellen (falls möglich). Ich denke, viele Leute reichen hier nicht ein, aber zum Vergleich schicke ich immer ** ein **. Eine der Erkenntnisse ist, wie groß der Unterschied zwischen dem einfachen Modell und dem oberen Modell ist. Im Falle einer Teilnahme mitten im Krieg kann der Kernel als Basis verwendet werden.
Bei einem Tabellenwettbewerb beginnt hier die Feature-Erstellung. Ich kann mir das hier relativ leicht vorstellen, und ich werde den Funktionen Vorrang einräumen, von denen ich denke, dass sie zunehmen werden. Die erste Parametereinstellung wird auch hier durchgeführt (ich bin übrigens eine warme manuelle Abstimmungssekte). Von hier aus werde ich es für die Tabelle und das Bild getrennt beschreiben.
--Erstellen Sie Funktionen, die sich jeder aufgrund von Domänenkenntnissen vorstellen kann (im Allgemeinen im Kernel aufgeführt).
Es ist eine Zeit, in der nichts schief geht. Die Zeit, in der Sie nichts verstehen, wie z. B. die Anzahl der Funktionen, von denen Sie glauben, dass sie funktionieren, funktioniert nicht. Der Lebenslauf steigt, aber die LB steigt nicht. Der Lebenslauf steigt nicht, aber die LB steigt. Wenn eine bestimmte Anzahl von Features erstellt wird, kann dies zu einer Überanpassung führen, indem Features erstellt werden, die bereits berücksichtigt wurden (glaube ich).
――Suchen Sie nach Hinweisen, indem Sie den Kernel patrouillieren und die Diskussion zusammenfassen.
Es kann lange dauern, ein Bild einmal zu lernen, und ich habe das Gefühl, etwas zu bemerken oder die letzte Anpassungsperiode vor der Periode einzugeben, in der ich nichts verstehe.
――Suchen Sie nach Hinweisen, indem Sie den Kernel patrouillieren und die Diskussion zusammenfassen. ――Versuchen Sie Verwechslungen, Schnittmischungen und andere Vergrößerungen, die in den neuesten Veröffentlichungen enthalten sind. ――Versuchen Sie Augmentation, die nicht intuitiv zu funktionieren scheint. --Das Netzwerk schwächen (← Bilder machen normalerweise keinen Sinn)
Es ist zu diesem Zeitpunkt schwierig, weil es auf dem LeaderBoard herausgezogen wird. In Freesound Audio Tagging 2019, das die Goldmedaille gewann, war die Überprüfung des puclischen Kernels ein Durchbruch.
(Der Pfeil oben ist eine Täuschung)
Leider hatte ich diese Zeit nicht im NFL-Wettbewerb, aber wenn ich mir die Rangliste anschaue, gibt es einige Leute, die plötzlich aufspringen. Ich denke, es gibt verschiedene Gründe, aber wenn ich die Lösungen lese, denke ich, dass das Gemeinsame ist, dass ich mir oft die Daten ansehe **.
"Erstellen von Funktionen basierend auf tiefen Einsichten" ist im Allgemeinen schwer auszudrücken, da es sich um einen Wettbewerb handelt, aber ich denke, dieser Artikel wird sehr hilfreich sein. (Referenz: Unterschied zwischen gewöhnlichen Datenwissenschaftlern und erstklassigen Datenwissenschaftlern)
In diesem NFL-Wettbewerb hatte ich keine andere Wahl, als das Ensemble und die endgültigen Anpassungen frühzeitig zu beginnen, aber es scheint, dass viele Leute dies normalerweise vor ungefähr einer Woche tun.
Grundsätzlich weiß ich, dass die Punktzahl steigen wird, aber ich denke, dass ich es oft zuletzt für Dinge mache, die den Rechenaufwand erhöhen **. Die Punktzahl des Ensembles wird definitiv steigen. Wenn Sie also bei einem Kernel-Wettbewerb usw. nicht das Zeitlimit erreichen, werde ich mein Bestes geben, bis es trifft. Die zweite Parametereinstellung ist ebenfalls hier. Im Fall einer Tabelle wird normalerweise eine große Anzahl von Features hinzugefügt, daher sollte diese hier erneut angepasst werden. Es senkt auch die Lernrate. Wenn Sie sich zusammenschließen und verschiedene Modelle erstellen, ist das Ensemble oft sehr effektiv.
Das einmalige Lernen von Bildern dauert lange, daher denke ich, dass es oft schneller ist, mit dem Training für ein Ensemble zu beginnen.
Dies ist das Ende des Prozesses vom Beginn des Kaggle-Wettbewerbs bis zur endgültigen Einreichung. Natürlich glaube ich nicht, dass jeder diesen Prozess durchführt, und die Reihenfolge, in der er arbeitet, hängt von den Herausforderungen des Wettbewerbs ab, aber ich bin der Meinung, dass der Prozess in gewissem Maße konvergieren wird, wenn Sie mehrere Wettbewerbe erleben. Ich möchte auch den Prozess stärkerer Menschen kennenlernen.
Schließlich ist es ein Bonus.
Meiner Meinung nach wird diese Route für diejenigen empfohlen, die Kaggle starten.
① Was tun als nächstes nach der Registrierung bei Kaggle? Wenn Sie dies tun, können Sie genug kämpfen! Erste Schritte mit dem Titanic 10 Kernel ~ Dies soll von Kodansha als Einführung in Kaggle im März 2020 veröffentlicht werden (https://upura.hatenablog.com/entry/2019/12/04/220200).
(2) Kopieren Sie den Kernel mit einer großen Anzahl von Stimmen im vergangenen Wettbewerb / aktuellen Wettbewerb Ein großer Kernel ist eine Schatzkammer des Wissens. Insbesondere für Anfänger sind in der Regel viele Stimmen angebracht. Wählen Sie daher eine, die eine große Anzahl von Stimmen hat und von Anfang an sorgfältig zu erklären scheint. Wenn Sie eine Punktzahl haben, können Sie den Ablauf der Einreichung lernen. Ich habe das Gefühl, mit dem Home Credit-Wettbewerb Start Here: A Gentle Introduction begonnen zu haben.
③ Datenanalysetechnologie, die mit Kaggle gewinnt Unnötig zu sagen, ein Eisenplattenbuch. Es ist überhaupt kein Buch für Anfänger, daher denke ich, dass es besser ist, den obigen Prozess durchzugehen. Der Code ist ebenfalls enthalten. Wenn Sie also an einem Tischwettbewerb teilnehmen, können Sie stärker werden, indem Sie mit einer Hand am aktuellen Wettbewerb teilnehmen.
Ich denke, es ist eine großartige Gelegenheit, Kaggle zu starten, da die in verschiedene Richtungen verstreuten und implizit in Kaggler bekannten Informationen in Büchern gesammelt wurden. Ich hoffe, dieser Artikel hilft jedem, der mit Kaggle anfangen möchte.
Recommended Posts