[PYTHON] Wenn Sie Datenwissenschaftler werden möchten, beginnen Sie mit Kaggle

zunaechst

** "AI" **, ** "Big Data" **, ** "Data Scientist" **, wie viele Personen möchten an diesen Schlüsselwörtern arbeiten? Wie viele von ihnen wissen nicht, wie man lernt, haben studiert, waren aber frustriert und konnten es nicht in die Praxis umsetzen?

Dieser Artikel fasst zusammen, was mir beim Studium der Datenwissenschaft aufgefallen ist. Es ist nur eine Zusammenfassung dessen, was ich persönlich gefühlt habe und bestimmt nicht, wie ich studieren soll.

Was ist Kaggle?

kaggle.png Von Offiziell

Was ist Kaggle? "Eine Plattform im Zusammenhang mit prädiktiven Modellierungs- und Analysemethoden und ihrer operativen Gesellschaft, auf der Unternehmen und Forscher Daten veröffentlichen und Statistiker und Datenanalysten auf der ganzen Welt um das optimale Modell konkurrieren." [Wikipedia](https :: Von //ja.wikipedia.org/wiki/Kaggle)

Kurz gesagt, Unternehmen usw. veröffentlichen Probleme, die sie analysieren möchten, und Datenwissenschaftler auf der ganzen Welt erstellen Vorhersagemodelle und übermitteln Vorhersageergebnisse. Der Datenwissenschaftler, der das beste Vorhersagemodell erstellt hat, ist ein belohnter Datenwissenschaftlerwettbewerb.

Ich denke, dass dieser Artikel hilfreich sein wird, um sich auf die Teilnahme vorzubereiten.

Warum mit Kaggle anfangen?

Der Grund ist, dass ** Kaggle den Fluss der Datenanalyse erleben kann ** </ font>

Kaggle verarbeitet zwei Arten von Daten: Daten zur Analyse und Erstellung von Vorhersagemodellen und Daten zur Vorhersage von Antworten. Diese Daten sind der Hauptgrund, Kaggle zu empfehlen.

Tatsächlich sind die angegebenen Daten nicht immer sauber. Daher ist es nicht möglich, ein gutes Vorhersagemodell ohne ** Datenbereinigung ** zu erstellen, das die Daten bereinigt, damit sie analysiert werden können. Und es wird gesagt, dass diese Datenbereinigung 70 bis 80% der Zeit in einem Datenanalyseprojekt verbringt.

Mit anderen Worten, die meisten Datenanalysen erfordern einen Aufwand bei der Vorbereitung von Daten für statistische Analysen und maschinelles Lernen. Mit anderen Worten, ohne die Fähigkeit, die Daten zu lesen, ist es unmöglich, ein gutes Vorhersagemodell zu erstellen. Kaggle, das mit dem Betrachten der Daten beginnt, ist eine gute Lernerfahrung.

Datenanalyseprojekt

Schauen wir uns nun das Datenanalyseprojekt an. In einem Datenanalyseprojekt gibt es die Idee von ** CRISP-DM ** (CRoss-Industriestandardprozess für Data Mining), der Phasen definiert, die allen Branchen gemeinsam sind. CRISP-DM_Process_Diagram.png

Das Bild ist hier

Wie Sie der obigen Abbildung entnehmen können, beginnt die Analyse von Daten mit dem ** Verständnis des Geschäfts (Problems) **. Nachdem Sie das zu lösende Problem definiert haben, ist der nächste Schritt ** Daten verstehen **. Überprüfen Sie, ob genügend Daten vorhanden sind, um das festgelegte Problem zu lösen.

Wenn Sie Daten haben, fahren Sie mit ** Datenvorbereitung ** fort. Bereiten Sie sich nun darauf vor, das oben genannte Vorhersagemodell wie die Datenbereinigung zu erstellen. Wenn Sie nicht über die Daten verfügen, müssen Sie die benötigten Daten erfassen oder das Problem neu konfigurieren.

Wenn Sie bereit sind, ein Vorhersagemodell zu erstellen, führen Sie ** Modellerstellung ** und ** Modellbewertung (Verbesserung) ** durch. Wenn die Vorhersagegenauigkeit des erstellten Modells gut ist, wird es ** bereitgestellt und geliefert **. Es ist zu beachten, dass die Genauigkeit des erstellten und verbesserten Modells ** nicht immer besser ** </ font> ist.

Wenn das Modell nicht genau ist, kehren Sie zur Phase des Geschäftsverständnisses zurück und beginnen Sie erneut mit den Problemeinstellungen.

Wie Sie aus Erfahrung sehen können, dauert es tatsächlich sehr lange, die Daten zu betrachten.

Statistik und maschinelles Lernen

Als nächstes werden wir kurz die Modellerstellung und -bewertung (Verbesserung) erläutern. Persönlich denke ich, ich brauche Kenntnisse sowohl in Statistik als auch in maschinellem Lernen. Um genau zu sein, ** Sie müssen beide kennen, um ein gutes Vorhersagemodell zu erstellen ** </ font>.

Kenntnisse in Statistiken sind nützlich, um Daten anzuzeigen. In meinem Fall habe ich noch nie Statistik studiert und ich studiere maschinelles Lernen, aber ich weiß nicht, welche Variable ich wählen soll. Um ehrlich zu sein, war es ** Intuition **. Vor kurzem hatte ich die Möglichkeit, Statistiken zu studieren. Als ich studierte, lernte ich zunächst, die Korrelation zwischen der Zielvariablen (der abzuleitenden Antwort) und der erklärenden Variablen (dem Element, aus dem die Antwort abgeleitet werden soll) zu untersuchen.

Kenntnisse über maschinelles Lernen sind effektiv, um Antworten abzuleiten. Je mehr Daten Sie haben, desto genauer kann das Vorhersagemodell erstellt werden, das einen Algorithmus verwendet, um die Antwort abzuleiten. Es gibt jetzt so viele Daten, dass sie als Big Data bezeichnet werden (nicht alle können verwendet werden). Obwohl die Menge der generierten Daten in Zukunft zunehmen kann, ist es unwahrscheinlich, dass sie abnimmt, sodass sich die Technologie des maschinellen Lernens in Zukunft weiterentwickeln wird.

Es ist nur meine persönliche Meinung, aber ich denke, dass statistische Kenntnisse erforderlich sind, um die Daten zu sehen, und dass maschinelles Lernen erforderlich ist, um die Antwort abzuleiten.

Kaggle ist nicht genug

Ich denke, es gibt so viel zu lernen, wenn Sie anfangen, bei Kaggle zu lernen, aber Kaggle ist möglicherweise nicht genug. Es ist ** Problemeinstellung **. Es ist dasselbe wie das Problem, das im obigen Geschäftsverständnis (Problem) festgelegt wurde.

Im Fall von Kaggle werden Fragen gestellt, da es sich um einen Wettbewerb handelt, sodass Sie das Setzen von Fragen nicht üben können. Wenn Sie jedoch Datenwissenschaftler werden möchten, können Sie dies nur analysieren, wenn Sie das Problem festlegen können. Und wenn Sie das Problem nicht einstellen können, können Sie die Genauigkeit des Modells nicht bewerten.

Sie können mit Kaggle keine Probleme festlegen, sollten jedoch die Beziehung zwischen den Problemeinstellungen und der Genauigkeit des Vorhersagemodells kennen.

Modellgenauigkeit

Wissen Sie, wie Sie die Genauigkeit eines Modells bewerten können? Ist beispielsweise ein Modell mit einer Genauigkeit von 90% ein gutes Modell?

Ich denke, Sie sollten verstehen, dass die Genauigkeit des Modells ** ist. Die Untergrenze kann festgelegt werden ** </ font>, je nachdem, wie das Problem eingestellt ist.

Angenommen, Sie möchten ein Modell erstellen, das die besten Personen vorhersagt. Definieren wir zunächst eine gute Person, aber nehmen wir an, Sie führen einen Test durch und definieren die besten 10% der Testergebnisse als gute Person.

Die Genauigkeit des Modells wird durch den Prozentsatz der Gesamtzahl von ** ausgezeichnet ** und ** nicht ausgezeichnet ** nicht ausgezeichnet ** bestimmt. In der Abbildung gibt die Zahl, die für die folgenden hellblauen Bereiche gilt, den Prozentsatz der Gesamtsumme an. 予測精度.png

Angenommen, Sie erstellen ein Modell, das ** nicht jeder hervorragend ** ist. Die Genauigkeit dieses Modells beträgt 90% ( ** vorhergesagt nicht ausgezeichnet ** </ font>: 10%, ** nicht ausgezeichnet Vorhersage, dass es nicht ausgezeichnet ist ** </ font>: 90%). Ist dieses Modell ein gutes Modell? Vielleicht ist niemand davon überzeugt, dass es ein gutes Modell ist.

Kurz gesagt, ein gutes Modell ist keine ** Genauigkeit von XX% **, sondern ein Modell, das eine bessere Genauigkeit liefern kann als ein Modell, das alle Vorhersagen 0 oder 1 macht (ausgezeichnet oder nicht im obigen Beispiel). ** ist ein gutes Modell.

Mit anderen Worten, die untere Genauigkeitsgrenze eines Modells, das beurteilt, ob es ausgezeichnet ist oder nicht, beträgt 90%. Wenn also die Genauigkeit des zu erstellenden Modells 90% überschreitet, ist es ein gutes Modell.

schließlich

Ich schrieb, dass es gut wäre, bei Kaggle zu studieren, um Datenwissenschaftler zu werden. Das erste Problem, das angegangen werden muss, ist das Titanic-Problem (Kaggles Tutorial-Problem). Sie können viele Dinge lernen, z. B. nicht nur das Modellieren und Verbessern des maschinellen Lernens, sondern auch die Auswahl der Variablen.

Wenn das Modell fertig ist, antizipieren Sie die Antwort und senden Sie sie ab. Sie können sehen, wie viel Sie sind und wie hoch Ihre Punktzahl ist. In der Lage zu sein, einen hohen Rang zu erreichen, gibt Ihnen Selbstvertrauen, und es ist eine gute Idee, an anderen Wettbewerben teilzunehmen und Belohnungen anzustreben. Als Datenwissenschaftler zu arbeiten ist auch kein Traum. (Obwohl es andere Dinge zu studieren gibt, wie SQL ...)

Ich hoffe, dieser Artikel hilft jedem, der Datenwissenschaftler werden möchte. Wenn es Ihnen nichts ausmacht, bitte ** wie **.

Das war Gedicht.

Recommended Posts