[PYTHON] Le jour 70 GCI2019Winter s'est terminé avec succès!

Le cours de data scientist de l'Université de Tokyo qui a débuté en décembre a été complété avec succès! Cours en ligne GCI Todai Data Scientist / Future CMO Training Course Online Course C'est gratuit dans le cadre de la demande d'un data scientist en 3 mois.

● Plan du cours
*Analysez et analysez librement une grande quantité de données pour découvrir les relations cachées. La demande de «scientifiques des données» qui ont acquis de telles compétences augmente non seulement dans le domaine de l'ingénierie, mais aussi dans de nombreux domaines tels que les soins médicaux, l'économie, la gestion et les sciences de la vie.
*Dans ce cours, vous acquerrez de manière exhaustive les bases de la technologie d'apprentissage automatique et de traitement des données volumineuses, qui sont au cœur des compétences d'analyse et d'analyse de données qui seront une arme dans tous les domaines, et une technologie qui visualise efficacement les résultats d'analyse. Nous visons à être à l'entrée pour jouer un rôle actif en tant que data scientist.
*Il n'y a pas de frais de scolarité (les frais de communication, etc. sont à votre charge).

Quoi qu'il en soit, il y a beaucoup de tâches. Au cours des trois derniers mois, je me suis plongé quotidiennement dans l'apprentissage automatique. Le manuel de l'année précédente était en vente, alors je l'ai parcouru, mais j'étais sur le point de le lancer car c'était trop difficile.

Cours de formation de Data Scientist à l'Université de Tokyo Kunitaka Tsukamoto https://www.amazon.co.jp/dp/B07PD237GQ/ref=cm_sw_r_tw_dp_U_x_j1bHEb66RA461

Cependant, le texte était bien développé, je pouvais poser des questions à tout moment sur Slack, j'ai participé à l'équipe, et le système de support m'a beaucoup aidé, et j'ai réussi à le terminer.

Vous pourrez lire le texte devenu le meilleur. Cela me donne confiance. Nous recrutons à nouveau des étudiants à partir du mois d'avril, je le recommande donc à tous ceux qui souhaitent commencer l'apprentissage automatique à partir de maintenant.

Test de présence (12 / 7-12)

Il y avait un test pour confirmer la compétence avant de suivre le cours. C'est un niveau de base comme WhirlwindTourOfPython. La destination du lien s'est soudainement confondue avec l'explication en anglais. J'ai réussi à le nettoyer parce que je mordais Python. Le problème est de résoudre le problème de la matrice avec Python. Les mathématiques étaient frustrées au collège, je ne pouvais donc pas du tout comprendre la signification du problème. J'ai réussi à m'éclaircir en demandant à quelqu'un de bon en mathématiques de m'apprendre.

Partie 1 (12/18) Qu'est-ce que la science des données? Bases de Python, bibliothèques

Bien qu'il existe une grande quantité de données en raison de l'introduction de l'informatique, elles n'ont guère été analysées. Lorsque j'ai analysé cela, c'était une conférence que je pouvais utiliser énormément dans les affaires. C'était intéressant de voir la vidéo livrée le lendemain. Puis les bases de Python.

Partie 2 (12/25) Bases du calcul scientifique et traitement des données par Python (Numpy, Pandas)

J'ai appris le calcul de table Python. C'est comme Excel pour les commandes. Agrégation, statistiques, etc. J'ai beaucoup utilisé par la suite.

Compétition 1 Prédiction de vie et de mort du Titanic.

Identique à [Titanic: Machine Learning from Disaster] de Kaggle (https://www.kaggle.com/c/titanic). Au début, je ne savais pas du tout, et même si je voyais un film et faisais une prédiction, je cherchais dans le noir comment le mettre en œuvre. J'étais persévérant lors de l'échange d'opinions avec Kaggle, l'équipe et Slack. Cela devient intéressant lorsque l'idée mène à un score. J'ai classé dans le boost pour réutiliser le résultat pour la prochaine prédiction. Le code de haut niveau sera publié après la compétition, mais je suis juste impressionné par le fait qu'il y ait des gens vraiment intelligents.

Partie 3 (1/8) Visualisation des données en science des données (Matplotlib)

J'ai appris à créer des graphiques, des matrices de corrélation et des cartes thermiques. C'est difficile à exprimer comme vous le souhaitez, c'est donc une bonne idée de collecter de beaux graphiques au début et de copier et coller le code pour s'y habituer.

4e (1/15) Principes de base des statistiques probabilistes

Comment dessiner des statistiques telles que des totaux et des moyennes, des graphiques en nuages de points et des diagrammes tels que des histogrammes. Je ne connais pas du tout la probabilité et les statistiques. J'ai enfin pu résoudre le problème du débutant.

Concours 2 Qualité du vin

À partir du projet du vin portugais, les ingrédients de 4898 bouteilles et l'évaluation par le sommelier sont lus et le goût est prédit à partir des ingrédients. J'adore le vin. C'était une compétition amusante pour lire l'étiquette du vin dans le magasin et y réfléchir.

5e (1/29) Bases de l'apprentissage automatique (apprentissage avec l'enseignant)

À propos de l'apprentissage supervisé, de l'apprentissage non supervisé et de l'apprentissage amélioré. Une explication détaillée de la méthode utilisée pour prédire le Titanic et le vin. Si vous suivez le didacticiel sur la régression multiple, la régression logistique, la régression au lasso, la régression de crête, K-NN et la machine vectorielle de support, vous pourrez l'utiliser d'une manière ou d'une autre.

6e (2/5) Bases de l'apprentissage automatique (apprentissage sans enseignant)

J'ai appris un apprentissage non supervisé et la construction d'un modèle d'apprentissage sans variables objectives. Classification grossière, clustering, analyse en composantes principales ... Pour être honnête, je ne comprends toujours pas bien. Il est pratique de pouvoir filtrer les données sans information préalable, alors rappelez-vous-en. Il a besoin d'un examen.

Prédiction du vainqueur de la compétition 3 PUBG

Identique à la prédiction de placement d'arrivée PUBG de Kaggle (noyaux uniquement). PUBG est un jeu dans lequel 100 participants sont envoyés sur l'île pour la bataille royale. Je l'ai essayé, mais je l'ai juste tué. Tout d'abord, j'ai demandé aux gens qui jouent souvent de me montrer où ils jouent. Il semble que le facteur décisif dans le jeu soit de savoir comment utiliser des objets, des véhicules et des armes, et comment se faufiler dans la zone de sécurité de plus en plus étroite. Cependant, je n'ai aucune idée de comment coder la force du jeu. Kaggle publie de nombreuses prédictions sous forme de cahier. Il y avait de nombreuses approches à l'échelle des yeux. L'apprentissage automatique se développe à une vitesse fulgurante. Lorsque j'ai soumis une combinaison de codes forts, j'ai obtenu un bon score.

Unité 7 (2/12) Méthode de vérification du modèle et méthode de réglage

Vous avez appris à ajuster les paramètres du modèle, à présenter différents modèles et à prévoir en combinant plusieurs modèles. Si vous essayez de le faire correctement, vous tomberez dans le principe du précédent ou vous le supprimerez parce que vous pensez trop, donc l'image est de faire des asobi. Ensuite, lorsque j'ai implémenté une méthode appelée ensachage, qui divise les données en plusieurs parties et les forme, la précision de la prédiction est devenue bien meilleure. Je ne le comprends pas encore bien, alors j'aimerais l'approfondir.

8e (3/4) route vers un scientifique de données intermédiaire

Nous avons invité des personnes actives en première ligne à parler du site. J'ai appris à utiliser les données dans les défis commerciaux, tels que le marketing et ce que vous voulez que les gens pensent de la vente. L'histoire de la mesure de l'effet de CM était très intéressante. Ensuite, il y avait l'apprentissage en profondeur, des algorithmes pour exécuter Python à haute vitesse, Pyspark, SparkSQL et d'autres méthodes mathématiques et des outils d'ingénierie.

Numéro final Nouvelle proposition commerciale au crédit immobilier

Analysons les données de Home Credit, société de crédit opérant en Asie du Sud-Est, et proposons une nouvelle activité. En utilisant les données de Kaggle Home Credit Default Risk l'année dernière, une autre approche est adoptée par la direction qui n'est pas au courant de l'apprentissage automatique. Présenter. Comme je n'ai aucune idée de cela, j'ai réussi à le soumettre, pensant que je serais satisfait d'une telle prédiction, en me référant à la 8e conférence.

Terminé

En regardant en arrière de cette façon, je suis impressionné d'avoir pu bien le terminer. Je remercie tous les participants du cours pour leur généreux soutien.

Divers horaires ont été annulés à Corona, je vais donc les revoir petit à petit. GCI 2020 Summer recommencera en avril, donc si vous êtes intéressé par l'apprentissage automatique, faites-le. c'est recommandé!

Recommended Posts

Le jour 70 GCI2019Winter s'est terminé avec succès!
Chainer v1.21 est sorti