Créez un modèle de prédiction de survie pour les passagers du Kaggle Titanic sans utiliser Python

Résumé et résultats de cet article

Je vais défier la compétition Kaggle Titanic en utilisant l'AutoML? Appelé VARISTA que j'ai appris récemment. Le score était de 0,80861.

Inscrivez-vous avec Kaggle

Si vous n'êtes pas inscrit auprès de Kaggle, veuillez vous inscrire auprès de Kaggle. Veuillez vous inscrire en haut à droite de l'écran. image.png

Préparation des données

Ce concours est "Titanic: Machine Learning from Disaster" de ici. Accédez au concours et sélectionnez l'onglet "Données". Vous pouvez également accéder à la page de données en cliquant ici. Lorsque vous atteignez l'écran de données, sélectionnez Télécharger tout. image.png

Lorsque le téléchargement est terminé, vous trouverez "titanic.zip", alors décompressez ce fichier. Après la décompression, vous pouvez voir les fichiers suivants.

image.png

L'utilisation de chaque fichier est la suivante.

nom de fichier Utilisation
train.csv Données des enseignants
test.csv données de test
gender_submission.csv Exemple de données à publier

** Description de la variable de données **

Nom de colonne Japonais
PassengerID ID du passager
Survived Résultat de survie(1:Survie, 0:mort)
Pclass Classe de chambre 1=Upper, 2=Middle, 3=Lower
Name Nom
Sex sexe
Age âge
SibSp Nombre de frères et conjoints
Parch Nombre de parents et d'enfants
Ticket Numéro de billet
Fare Frais d'embarquement
Cabin numéro de chambre
Embarked Trois types de ports à bord: Cherbourg, Queenstown et Southampton

Inscrivez-vous avec VARISTA

Créez un compte VARISTA. Allez sur http://www.varista.ai et enregistrez-vous depuis la page d'accueil. En passant, si vous vous inscrivez à partir de ce compte, ce sera un crédit qui peut être utilisé dans le service, donc si cela ne vous dérange pas, je serais heureux si vous pouviez voler à partir de ce lien. .. Si vous ne l'aimez pas, vous pouvez voler à partir de ↑ du tout. .. Je ne savais pas··. https://console.varista.ai/welcome/jamaica-draft-coach-cup-blend

Il semble y avoir un plan payant, mais pour le moment, je l'ai essayé gratuitement.

image.png

Création de projet et confirmation des données

Après vous être connecté à VARISTA, créez un espace de travail avec le nom de votre choix. Après avoir créé l'espace de travail, créez le projet. Je pense que le nom est peut-être Titanic.

Suivez le guide pour télécharger les données. スクリーンショット 2020-05-26 23.02.41.png

Les données à télécharger sont les données de l'enseignant "train.csv". スクリーンショット 2020-05-26 23.03.29.png

Une fois le téléchargement terminé, sélectionnez la colonne que vous souhaitez prédire. Dans cette compétition, je veux prédire la survie des passagers, je vais donc sélectionner "Survived". スクリーンショット 2020-05-26 23.04.14.png

Sélectionnez DÉMARRER pour lequel les paramètres sont terminés pour passer à l'écran suivant. スクリーンショット 2020-05-26 23.04.38.png

Une fois que vous avez sélectionné votre cible, vous êtes prêt à partir.

Confirmation des données

Vous pouvez commencer à apprendre soudainement ici, mais comme c'est un gros problème, jetons un coup d'œil au contenu des données. Sélectionnez le menu de données et sélectionnez le "train.csv" que vous avez téléchargé précédemment. スクリーンショット 2020-05-26 23.11.40.png

Si vous regardez les lacunes des données, vous pouvez voir qu'il y a des lacunes dans les données d'âge et de cabine. Cependant, dans le cas de VARISTA, il semble que les données manquantes soient automatiquement complétées.

image.png

Regardons la distribution des données. Si vous sélectionnez "Visualiser" dans l'onglet, la distribution sera affichée pour chaque donnée dans la colonne de caractéristiques, ce qui est pratique. Si vous sélectionnez l'onglet Corrélation, vous pouvez voir la corrélation entre les colonnes que vous souhaitez prédire et chaque colonne.

スクリーンショット 2020-05-26 23.53.13.png

** Sexe, âge ** Essayez de remplacer 0 par la mort et 1 par la survie. Le genre y est pour beaucoup et les femmes semblent être vivantes. Quant à l'âge, le taux de survie est généralement élevé sous 7 ans, et le taux de mortalité semble être élevé après 60 ans. Il ne semble pas y avoir de grande différence au milieu. L'enfant semble avoir été sauvé préférentiellement image.png

PClass Plus la note est élevée, plus le taux de survie est élevé. image.png

Apprentissage

Apprenons réellement. Sélectionnez le modèle AI sur la gauche et cliquez sur "Créer un modèle AI". Ensuite, assurez-vous que la colonne que vous souhaitez prédire est "Survived" et cliquez sur le bouton ** Start Learning **. スクリーンショット 2020-05-26 23.05.21.png

L'apprentissage commencera automatiquement sans aucun réglage, en particulier de ce côté, qui est populaire de nos jours. Il semble que l'ingénierie de la quantité de caractéristiques soit effectuée et que l'apprentissage se fasse avec plusieurs algorithmes.

Résultat d'apprentissage

Il a un score de 70. En regardant le degré d'influence, il semble que le sexe et la classe P soient liés à la survie. スクリーンショット 2020-06-03 21.39.23.png

Soumission à Kaggle

Cliquez sur ** Prédire avec ce modèle ** sur l'écran ↑. Cliquez ici pour changer le format de sortie. image.png

Définissez les colonnes qui ne sont pas générées. スクリーンショット 2020-05-28 8.51.57.png

Modifiez ensuite le format des colonnes de sortie en indicateurs. スクリーンショット 2020-05-28 8.52.18.png

Enfin, faites glisser et déposez test.csv à partir du fichier que vous avez téléchargé précédemment. image.png

Téléchargez le fichier terminé. image.png

Lorsque vous ouvrez le fichier, vous pouvez voir que la colonne la plus à droite contient la prédiction de survie. Certaines colonnes ne sont pas nécessaires pour publier sur Kaggle, alors supprimez-les. Cette fois, je l'ai supprimé avec Numbers sur Mac, mais je pense qu'Excel, etc. est bon pour Windows. スクリーンショット 2020-06-03 21.20.22.png

Sélectionnez «Soumettre les prédictions» sur l'écran du concours Kaggle et faites glisser et déposez le fichier que vous avez téléchargé précédemment. スクリーンショット 2020-05-28 8.30.37.png

Enfin, appuyez sur Faire une soumission pour publier. Après un certain temps, il sera noté et le score sera produit.

スクリーンショット 2020-06-03 21.17.46.png

Le score cette fois était de 0,77511.

Ajuster le modèle en modifiant les paramètres d'apprentissage

J'ai changé le niveau d'apprentissage, le rapport des données de vérification, le nombre de divisions de la vérification des intersections et la valeur de la graine aléatoire à partir des paramètres d'apprentissage, et le score s'est amélioré, je vais donc le publier.

Cliquez sur le bouton de réglage en haut à droite de l'écran de démarrage de l'apprentissage du modèle. スクリーンショット 2020-06-03 8.09.21.png

J'ai essayé de faire de la valeur comme ça. Je ne l'ai pas tellement essayé, donc il y a peut-être une meilleure valeur de réglage, mais je vais l'essayer plus tard.

image.png

image.png

Maintenant, apprenons à nouveau et soumettons-nous à nouveau à Kaggle.

スクリーンショット 2020-06-03 20.13.18.png

Le score est passé à 0.80861. Il faut environ 30 minutes pour apprendre le niveau 3, alors j'aimerais essayer diverses choses et écrire davantage.

Recommended Posts

Créez un modèle de prédiction de survie pour les passagers du Kaggle Titanic sans utiliser Python
Configurons un modèle de prédiction de survie pour les passagers du Titanic
Créer une interface graphique python à l'aide de tkinter
Créez un modèle pour votre planning Django
Créons un environnement virtuel pour Python
[Python] Créer un environnement Batch à l'aide d'AWS-CDK
(Kaggle) Prédiction des survivants du Titanic à l'aide d'un modèle utilisant des arbres de décision et des forêts aléatoires
Créer un diagramme de dispersion elliptique en Python sans utiliser une distribution normale multivariée
Créer un LINE BOT avec Minette pour Python
Créer une carte Web en utilisant Python et GDAL
Créer un modèle d'investissement dynamique simple en Python
Créez un fichier MIDI en Python en utilisant pretty_midi
Faisons un module pour Python en utilisant SWIG
[Python] Implémentation du clustering à l'aide d'un modèle gaussien mixte
Créer un bot de collecte de données en Python à l'aide de Selenium
[CRUD] [Django] Créer un site CRUD en utilisant le framework Python Django ~ 1 ~
[Python] 2 Créez une carte risque-rendement pour votre portefeuille d'actifs
[Python] Générer ValueObject avec un constructeur complet à l'aide de classes de données
Créer une couche pour AWS Lambda Python dans Docker
[CRUD] [Django] Créer un site CRUD en utilisant le framework Python Django ~ 2 ~
Mémo de construction d'environnement d'apprentissage automatique par Python
[CRUD] [Django] Créer un site CRUD en utilisant le framework Python Django ~ 3 ~
[CRUD] [Django] Créer un site CRUD en utilisant le framework Python Django ~ 4 ~
[CRUD] [Django] Créer un site CRUD en utilisant le framework Python Django ~ 5 ~
Créer un module Python
Créer un environnement Python
Implémentation de VGG16 à l'aide de Keras créé sans utiliser de modèle entraîné
Créons une fonction pour le test paramétré à l'aide d'un objet frame
Créer une portée locale en Python sans polluer l'espace de noms
Prédiction de survie Titanic à l'aide de l'outil de gestion du flux de travail d'apprentissage automatique Kedro
Créer un compte enfant de connect with Stripe en Python
[Python] Créer une liste de dates et d'heures pour une période spécifiée
Essayez une recherche similaire de recherche d'images à l'aide du SDK Python [Recherche]
[Django] Créez un modèle adapté au numéro de téléphone / code postal
Créez un Twitter BOT avec le SDK GoogleAppEngine pour Python
Essayez de créer un réseau de neurones en Python sans utiliser de bibliothèque
Créer un script Python pour Wake on LAN (Wake on LAN over NAT [5])
Créer un environnement virtuel pour python sur mac [Très facile]
[Python] Créer un écran pour le code d'état HTTP 403/404/500 avec Django
Créer un plugin Wox (Python)
Créer une fonction en Python
Créer un dictionnaire en Python
Python: prévision de survie de navire, partie 2
Python: prévision de survie des navires, partie 1
Créer des tickets JIRA en utilisant Python
Créer un tableau numpy python
Python: prévision de survie des navires, partie 3
[Pour les débutants de Kaggle] Titanic (LightGBM)
Créer un répertoire avec python
Concurrence avec VS Code Créez un environnement Python pour les professionnels sous Windows
Créer une API qui renvoie les données d'un modèle à l'aide de turicreate
Créer un environnement de développement local pour Lambda + Python à l'aide de Serverless Framework
Créez une illusion rayée avec correction gamma pour Python3 et openCV3
Créez un sélecteur de couleurs pour la roue chromatique avec Python + Qt (PySide)
Essayez d'utiliser virtualenv qui peut créer un environnement virtuel de Python
Créez un lot planifié simple à l'aide de l'image Python de Docker et de parse-crontab
[Ev3dev] Créez un programme qui capture LCD (écran) en utilisant python
Python vba pour créer une chaîne de date pour créer un nom de fichier