[PYTHON] Si vous souhaitez devenir data scientist, commencez par Kaggle

en premier

** "AI" **, ** "Big Data" **, ** "Data Scientist" **, combien de personnes aimeraient travailler sur ces mots clés? Combien d'entre eux ne savent pas étudier, ont étudié mais ont été frustrés et n'ont pas pu le mettre en pratique?

Cet article résume ce que j'ai remarqué en étudiant la science des données. C'est juste un résumé de ce que j'ai ressenti personnellement et ne détermine pas comment étudier.

Qu'est-ce que Kaggle?

kaggle.png De Officiel

Qu'est-ce que Kaggle? "Une plateforme liée à la modélisation prédictive et aux méthodes d'analyse et sa société d'exploitation, où les entreprises et les chercheurs publient des données et les statisticiens et les analystes de données du monde entier se disputent le modèle optimal." [Wikipedia](https :: De //ja.wikipedia.org/wiki/Kaggle)

En bref, les entreprises, etc., publient des problèmes qu'elles souhaitent analyser, et les scientifiques du monde entier créent des modèles de prédiction et soumettent des résultats de prédiction. Le scientifique des données qui a créé le meilleur modèle prédictif est un concours de science des données récompensé.

Je pense que cet article sera utile pour se préparer à participer.

Pourquoi commencer avec Kaggle?

La raison en est que ** Kaggle peut faire l'expérience du flux d'analyse des données ** </ font>

Kaggle gère deux types de données: des données pour analyser et créer des modèles prédictifs et des données pour prédire des réponses. Ces données sont la principale raison de recommander Kaggle.

En fait, les données fournies ne sont pas toujours propres. Par conséquent, il n'est pas possible de créer un bon modèle prédictif sans ** nettoyage des données **, qui nettoie les données pour qu'elles puissent être analysées. Et on dit que ce nettoyage des données passe de 70 à 80% du temps dans un projet d'analyse de données.

En d'autres termes, la plupart des analyses de données impliquent des efforts de préparation des données pour l'analyse statistique et l'apprentissage automatique. En d'autres termes, sans la capacité de lire les données, il est impossible de créer un bon modèle prédictif. Kaggle, qui commence par examiner les données, est une bonne expérience d'apprentissage.

Projet d'analyse de données

Jetons maintenant un œil au projet d'analyse de données. Dans un projet d'analyse de données, il y a l'idée de ** CRISP-DM ** (CRoss-Industry Standard Process for Data Mining), qui définit des phases communes à toutes les industries. CRISP-DM_Process_Diagram.png

L'image est ici

Comme vous pouvez le voir sur la figure ci-dessus, lors de l'analyse des données, cela commence par ** comprendre l'entreprise (problème) **. Après avoir défini le problème à résoudre, l'étape suivante consiste à ** Comprendre les données **. Vérifiez s'il y a suffisamment de données pour résoudre le problème d'ensemble.

Si vous avez des données, passez à ** Préparation des données **. Maintenant, préparez-vous à créer le modèle de prédiction mentionné ci-dessus, tel que le nettoyage des données. Si vous ne disposez pas des données, vous devrez collecter les données dont vous avez besoin ou reconfigurer le problème.

Lorsque vous êtes prêt à créer un modèle prédictif, faites ** création de modèle ** et ** évaluation de modèle (amélioration) **. Si la précision de prédiction du modèle créé est bonne, il sera ** déployé et livré **. Il convient de noter que la précision du modèle créé et amélioré est ** pas toujours meilleure ** </ font>.

Si le modèle n'est pas précis, revenez à la phase de compréhension métier et recommencez avec les paramètres du problème.

En fait, comme vous pouvez le voir par expérience, il faut énormément de temps pour regarder les données.

Statistiques et apprentissage automatique

Ensuite, nous expliquerons brièvement la création et l'évaluation du modèle (amélioration). Personnellement, je pense que j'ai besoin de connaissances à la fois en statistiques et en apprentissage automatique. Pour être précis, ** Vous devez connaître les deux pour faire un bon modèle de prédiction ** </ font>.

La connaissance des statistiques est utile pour visualiser les données. Dans mon cas, je n'ai jamais étudié les statistiques et j'étudie l'apprentissage automatique, mais je ne sais pas quelle variable choisir. Pour être honnête, c'était ** l'intuition **. Récemment, j'ai eu l'occasion d'étudier les statistiques, alors quand j'ai étudié, j'ai appris à regarder d'abord la corrélation entre la variable objective (la réponse à dériver) et la variable explicative (l'élément pour dériver la réponse).

La connaissance de l'apprentissage automatique est efficace pour obtenir des réponses. Plus vous avez de données, plus le modèle de prédiction que vous pouvez créer est précis, qui utilise un algorithme pour dériver la réponse. Il y a tellement de données aujourd'hui qu'on les appelle big data (toutes ne peuvent pas être utilisées). Bien que la quantité de données générées puisse augmenter à l'avenir, il est peu probable qu'elle diminue, de sorte que la technologie d'apprentissage automatique continuera à se développer à l'avenir.

C'est juste mon opinion personnelle, mais je pense que la connaissance des statistiques est nécessaire pour voir les données, et la connaissance de l'apprentissage automatique est nécessaire pour obtenir la réponse.

Kaggle ne suffit pas

Je pense que vous pouvez apprendre tellement de choses lorsque vous commencez à étudier avec Kaggle, mais Kaggle peut ne pas suffire. Il s'agit d'un ** problème de réglage **. C'est le même que le problème défini dans la compréhension ci-dessus des affaires (problème).

Dans le cas de Kaggle, puisqu'il s'agit d'un concours, les questions sont posées, vous ne pouvez donc pas vous entraîner à poser des questions. Cependant, si vous voulez être un data scientist, vous ne pouvez pas l'analyser à moins de pouvoir régler le problème. Et si vous ne pouvez pas régler le problème, vous ne pouvez pas évaluer la précision du modèle.

Vous ne pouvez pas définir de problèmes avec Kaggle, mais vous devez connaître la relation entre les paramètres du problème et la précision du modèle de prédiction.

Précision du modèle

Savez-vous comment évaluer la précision d'un modèle? Par exemple, un modèle avec une précision de 90% est-il un bon modèle?

Je pense que vous devez comprendre que la précision du modèle est ** la limite inférieure peut être définie ** </ font> en fonction de la façon dont le problème est défini.

À titre d'exemple, disons que vous souhaitez créer un modèle qui prédit les meilleures personnes. Tout d'abord, définissons une bonne personne, mais disons que vous faites un test et que vous définissez les 10% des meilleurs scores du test comme une bonne personne.

La précision du modèle est déterminée par le pourcentage du nombre total de ** excellent ** et ** pas excellent ** pas excellent **. Dans la figure, le nombre qui s'applique aux zones bleu clair suivantes correspond au pourcentage du total. 予測精度.png

Maintenant, disons que vous créez un modèle qui ** tout le monde n'est pas excellent **. La précision de ce modèle est de 90% ( ** Ne devrait pas être excellent ** </ font>: 10%, ** Pas excellent Prédire que ce n'est pas excellent ** </ font>: 90%). Ce modèle est-il un bon modèle? Peut-être que personne n'est convaincu que c'est un bon modèle.

En bref, un bon modèle n'est pas une ** précision de XX% **, mais un modèle qui peut donner une meilleure précision qu'un modèle qui rend toutes les prédictions 0 ou 1 (excellent ou pas dans l'exemple ci-dessus). ** est un bon modèle.

En d'autres termes, la limite inférieure de précision d'un modèle qui juge s'il est excellent ou non est de 90%, donc si la précision du modèle à créer dépasse 90%, ce sera un bon modèle.

à la fin

J'ai écrit qu'il serait bon de commencer à étudier avec Kaggle pour devenir un data scientist. Le premier problème à résoudre est le problème du Titanic (problème du tutoriel de Kaggle). Vous pouvez apprendre de nombreuses choses, comme non seulement la modélisation et l'amélioration de l'apprentissage automatique, mais également les variables à sélectionner.

Une fois le modèle terminé, anticipez et soumettez la réponse. Vous pouvez voir combien vous êtes et quel est votre score. Être en mesure de vous classer haut vous donnera confiance, et c'est une bonne idée de participer à d'autres concours et de viser des récompenses. Travailler en tant que data scientist n'est pas non plus un rêve. (Bien qu'il y ait d'autres choses à étudier comme SQL ...)

J'espère que cet article sera utile à tous ceux qui souhaitent devenir data scientist. Si cela ne vous dérange pas, veuillez ** aimer **.

C'était Poème.

Recommended Posts