Je vais défier la compétition Kaggle Titanic en utilisant l'AutoML? Appelé VARISTA que j'ai appris récemment. Le score était de 0,80861.
Si vous n'êtes pas inscrit auprès de Kaggle, veuillez vous inscrire auprès de Kaggle. Veuillez vous inscrire en haut à droite de l'écran.
Ce concours est "Titanic: Machine Learning from Disaster" de ici. Accédez au concours et sélectionnez l'onglet "Données". Vous pouvez également accéder à la page de données en cliquant ici. Lorsque vous atteignez l'écran de données, sélectionnez Télécharger tout.
Lorsque le téléchargement est terminé, vous trouverez "titanic.zip", alors décompressez ce fichier. Après la décompression, vous pouvez voir les fichiers suivants.
L'utilisation de chaque fichier est la suivante.
nom de fichier | Utilisation |
---|---|
train.csv | Données des enseignants |
test.csv | données de test |
gender_submission.csv | Exemple de données à publier |
** Description de la variable de données **
Nom de colonne | Japonais |
---|---|
PassengerID | ID du passager |
Survived | Résultat de survie(1:Survie, 0:mort) |
Pclass | Classe de chambre 1=Upper, 2=Middle, 3=Lower |
Name | Nom |
Sex | sexe |
Age | âge |
SibSp | Nombre de frères et conjoints |
Parch | Nombre de parents et d'enfants |
Ticket | Numéro de billet |
Fare | Frais d'embarquement |
Cabin | numéro de chambre |
Embarked | Trois types de ports à bord: Cherbourg, Queenstown et Southampton |
Créez un compte VARISTA. Allez sur http://www.varista.ai et enregistrez-vous depuis la page d'accueil. En passant, si vous vous inscrivez à partir de ce compte, ce sera un crédit qui peut être utilisé dans le service, donc si cela ne vous dérange pas, je serais heureux si vous pouviez voler à partir de ce lien. .. Si vous ne l'aimez pas, vous pouvez voler à partir de ↑ du tout. .. Je ne savais pas··. https://console.varista.ai/welcome/jamaica-draft-coach-cup-blend
Il semble y avoir un plan payant, mais pour le moment, je l'ai essayé gratuitement.
Après vous être connecté à VARISTA, créez un espace de travail avec le nom de votre choix. Après avoir créé l'espace de travail, créez le projet. Je pense que le nom est peut-être Titanic.
Suivez le guide pour télécharger les données.
Les données à télécharger sont les données de l'enseignant "train.csv".
Une fois le téléchargement terminé, sélectionnez la colonne que vous souhaitez prédire. Dans cette compétition, je veux prédire la survie des passagers, je vais donc sélectionner "Survived".
Sélectionnez DÉMARRER pour lequel les paramètres sont terminés pour passer à l'écran suivant.
Une fois que vous avez sélectionné votre cible, vous êtes prêt à partir.
Vous pouvez commencer à apprendre soudainement ici, mais comme c'est un gros problème, jetons un coup d'œil au contenu des données. Sélectionnez le menu de données et sélectionnez le "train.csv" que vous avez téléchargé précédemment.
Si vous regardez les lacunes des données, vous pouvez voir qu'il y a des lacunes dans les données d'âge et de cabine. Cependant, dans le cas de VARISTA, il semble que les données manquantes soient automatiquement complétées.
Regardons la distribution des données. Si vous sélectionnez "Visualiser" dans l'onglet, la distribution sera affichée pour chaque donnée dans la colonne de caractéristiques, ce qui est pratique. Si vous sélectionnez l'onglet Corrélation, vous pouvez voir la corrélation entre les colonnes que vous souhaitez prédire et chaque colonne.
** Sexe, âge ** Essayez de remplacer 0 par la mort et 1 par la survie. Le genre y est pour beaucoup et les femmes semblent être vivantes. Quant à l'âge, le taux de survie est généralement élevé sous 7 ans, et le taux de mortalité semble être élevé après 60 ans. Il ne semble pas y avoir de grande différence au milieu. L'enfant semble avoir été sauvé préférentiellement
PClass Plus la note est élevée, plus le taux de survie est élevé.
Apprenons réellement. Sélectionnez le modèle AI sur la gauche et cliquez sur "Créer un modèle AI". Ensuite, assurez-vous que la colonne que vous souhaitez prédire est "Survived" et cliquez sur le bouton ** Start Learning **.
L'apprentissage commencera automatiquement sans aucun réglage, en particulier de ce côté, qui est populaire de nos jours. Il semble que l'ingénierie de la quantité de caractéristiques soit effectuée et que l'apprentissage se fasse avec plusieurs algorithmes.
Il a un score de 70. En regardant le degré d'influence, il semble que le sexe et la classe P soient liés à la survie.
Cliquez sur ** Prédire avec ce modèle ** sur l'écran ↑. Cliquez ici pour changer le format de sortie.
Définissez les colonnes qui ne sont pas générées.
Modifiez ensuite le format des colonnes de sortie en indicateurs.
Enfin, faites glisser et déposez test.csv à partir du fichier que vous avez téléchargé précédemment.
Téléchargez le fichier terminé.
Lorsque vous ouvrez le fichier, vous pouvez voir que la colonne la plus à droite contient la prédiction de survie. Certaines colonnes ne sont pas nécessaires pour publier sur Kaggle, alors supprimez-les. Cette fois, je l'ai supprimé avec Numbers sur Mac, mais je pense qu'Excel, etc. est bon pour Windows.
Sélectionnez «Soumettre les prédictions» sur l'écran du concours Kaggle et faites glisser et déposez le fichier que vous avez téléchargé précédemment.
Enfin, appuyez sur Faire une soumission pour publier. Après un certain temps, il sera noté et le score sera produit.
Le score cette fois était de 0,77511.
J'ai changé le niveau d'apprentissage, le rapport des données de vérification, le nombre de divisions de la vérification des intersections et la valeur de la graine aléatoire à partir des paramètres d'apprentissage, et le score s'est amélioré, je vais donc le publier.
Cliquez sur le bouton de réglage en haut à droite de l'écran de démarrage de l'apprentissage du modèle.
J'ai essayé de faire de la valeur comme ça. Je ne l'ai pas tellement essayé, donc il y a peut-être une meilleure valeur de réglage, mais je vais l'essayer plus tard.
Maintenant, apprenons à nouveau et soumettons-nous à nouveau à Kaggle.
Le score est passé à 0.80861. Il faut environ 30 minutes pour apprendre le niveau 3, alors j'aimerais essayer diverses choses et écrire davantage.
Recommended Posts