[PYTHON] Jour 66 [Introduction à Kaggle] Les prévisions Titanic les plus faciles

J'ai essayé "Titanic: Machine Learning from Disaster" de Kaggle.

Kaggle est comme une équipe de combat qui concourt pour les compétences de l'apprentissage automatique. Quand je suis entré, il y avait du contenu pour les débutants, je vais donc regarder la vidéo d'orientation immédiatement.

How to Get Started with Kaggle’s Titanic Competition | Kaggle

Anglais super rapide! !! !! Le contenu comprenait un aperçu de l'accident du Titanic, des explications sur l'ensemble de données, des didacticiels et comment utiliser Kaggle.

Je ne peux pas l'entendre car il est trop rapide à entendre, donc le Wiki japonais [accident de naufrage du Titanic](https://ja.wikipedia.org/wiki/%E3%82%BF%E3%82%A4%E3%82%BF%E3 % 83% 8B% E3% 83% 83% E3% 82% AF% E5% 8F% B7% E6% B2% 88% E6% B2% A1% E4% BA% 8B% E6% 95% 85) Mettre.

En gros résumé

・ Parce que c'était un accident alors que je dormais à minuit, l'action initiale a été retardée. ・ Il n'y avait pas assez d'outils de sauvetage. (On pensait que c'était sûr) ・ Les taux de survie diffèrent considérablement entre les aristocrates et les gens ordinaires, les hommes et les femmes, et l'âge.

En regardant la figure, je pense que le taux de mortalité est élevé dans la zone où il y avait un trou dans la mine de glace.

Une remorque qui vous donne une vue panoramique sur le navire. Bien que ce soit un film, je pense que vous pouvez saisir la taille du navire, le nombre de personnes et l'atmosphère à ce moment-là. (Ces gens sont sur le point de ...)

Titanic (version doublée) --Trailer Titanic (version doublée) --Trailer

Données utilisées pour la prédiction

Il y en avait 891 pour la formation et 418 pour les données de test. La définition des données est la suivante:

variable Définition Remarques
Survived S'il a survécu 0 = No, 1 = Yes
Pclass Classe de billet 1 = 1st, 2 = 2nd, 3 = 3rd
Name Nom
Sex sexe
Age âge
SibSp Nombre de frères, sœurs et conjoints à bord
Parch Nombre de parents / enfants à bord
Ticket Numéro de billet
Fare Prix du billet
Cabin Numéro de cabine
embarked Port à bord C = Cherbourg, Q = Queenstown, S = Southampton

Eh bien la programmation!

Il existe de nombreux exemples de programmes publiés sur "Notebook", alors découvrez quelques-uns des plus populaires.

Il y avait aussi un tutoriel japonais. Kaggle Titanic First Step \ (1st Step for Kaggle Titanic )

Je l'ai lu grossièrement et ma tête s'est foirée, alors j'ai d'abord créé un modèle de survie pour tout le monde afin de rendre l'histoire plus facile. Tout ce que vous avez à faire est de créer une ligne de "Survived" et de la télécharger sur Kaggle.

Modèle Titanic All Survival ["Survived"] = 1

00.py


import pandas as pd

#Lire CSV
test = pd.read_csv('test.csv')

#Ajout de la colonne Survived.
test["Survived"] = 1

#Vérification
print(test["Survived"])

#Seulement PassengerId et Survived pour la soumission.
test = test.loc[:,['PassengerId','Survived']]

#Sortie au format CSV (aucun index requis)
test.to_csv('titanic1-1.csv',index=False)

Vérifiez le CSV créé et engagez-vous dans Kaggle.

Public Score 0.37320 lederbord 15 800e

Le «score public» est proche du taux de survie réel (31,9%). «lederbord» semble être classé par le score le plus élevé de la personne, et je ne connaissais pas le classement exact, mais «0,37320» était environ 15800e. Il y a tellement de gens dans le monde qui ont le même score, c'est-à-dire qui pensent à la même chose ... c'est un peu ... j'ai été impressionné.

スクリーンショット 2020-01-19 19.08.26.png

Le bas était à 0 et il était 70e à partir du bas. Un score de 0 signifie que toutes les bonnes réponses sont retournées à l'envers, et c'est le score qui vous tient à cœur.

Tout modèle de mort

Téléchargez le CSV avec [" Survived "] = 0 sur Kaggle. Depuis «1 --0,37320 = 0,6268», je m'attendais à la même valeur, mais c'était «Score public: 0,62679». C'est presque vrai.

Mort masculine, modèle de survie féminine

Cette fois, je vais simplement l'affecter comme mort pour les hommes et vivant pour les femmes. Le Titanic avait un taux de mortalité masculine élevé et un taux de survie élevé des femmes, donc cela devrait toujours être prédictif.

01.py


#Utilisez des pandas
import pandas as pd

#Lire CSV
test = pd.read_csv('test.csv')

#Ajout de la colonne Survived
test["Survived"] = 0

#1 pour les femmes(Survie)Remplacer par
test.loc[test["Sex"] == 'female', "Survived"] = 1

#Seulement PassengerId et Survived pour la soumission.
test = test.loc[:,['PassengerId','Survived']]

#Sortie au format CSV (aucun index requis)
test.to_csv('titanic1.csv',index=False)

Public Score:0.76555 lederbord: 12457e place / environ 15 000 personnes?

Il semble que le contenu soit le même que celui du CSV de «Gender Based Model». スクリーンショット 2020-01-19 19.41.28.png

Même un modèle très simple est «0,76555», alors comment améliorer la précision de la prédiction à partir d'ici est une vitrine de compétences.

Tout d'abord, il s'agit de vérifier les règles.

Recommended Posts

Jour 66 [Introduction à Kaggle] Les prévisions Titanic les plus faciles
[Introduction à Python3 Jour 20] Chapitre 9 Démêler le Web (9.1-9.4)
Kaggle Tutorial Le savoir-faire Titanic pour être dans le top 2%
Jour 67 [Introduction à Kaggle] Avez-vous essayé d'utiliser Random Forest?
Le jour 68 [Introduction à Kaggle] Random Forest était simple.
[Introduction à Python3 Jour 1] Programmation et Python
[Introduction à Python3 Jour 13] Chapitre 7 Chaînes de caractères (7.1-7.1.1.1)
[Introduction à Python3 Jour 14] Chapitre 7 Chaînes de caractères (7.1.1.1 à 7.1.1.4)
[Introduction à Python3 Jour 15] Chapitre 7 Chaînes de caractères (7.1.2-7.1.2.2)
La façon la plus simple de faire un flacon
La façon la plus simple d'essayer PyQtGraph
[Introduction à Python3 Day 21] Chapitre 10 Système (10.1 à 10.5)
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_3
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.1-8.2.5)
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.3-8.3.6.1)
Défis de la compétition Titanic pour les débutants de Kaggle
[Introduction à Python3 Jour 19] Chapitre 8 Destinations de données (8.4-8.5)
[Introduction à Python3 Day 18] Chapitre 8 Destinations de données (8.3.6.2 à 8.3.6.3)
Probablement l'introduction la plus simple à TensorFlow
Introduction à discord.py (1er jour) -Préparation pour discord.py-
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_1
Explication d'approche pour que les débutants soient dans le top 1,5% (0,83732) dans Kaggle Titanic_2
Kaggle: Introduction à l'ingénierie manuelle des fonctionnalités, partie 1
C'est normal de tomber sur Titanic! Présentation de la stratégie Kaggle pour les super débutants
Le moyen le plus simple de démarrer avec Django
[Introduction à Python3 Jour 12] Chapitre 6 Objets et classes (6.3-6.15)
[Introduction à AWS] Le premier Lambda est Transcribe ♪
Le moyen le plus simple de synthétiser la voix avec python
[Introduction à Python3, jour 22] Chapitre 11 Traitement parallèle et mise en réseau (11.1 à 11.3)
[Introduction à Python3, Jour 23] Chapitre 12 Devenir un Paisonista (12.1 à 12.6)
Introduction à Python avec Atom (en route)
[Introduction à l'algorithme] Trouvez l'itinéraire le plus court [Python3]
Introduction à MQTT (Introduction)
Introduction à Scrapy (1)
Introduction à Scrapy (3)
Premiers pas avec Supervisor
Introduction à Tkinter 1: Introduction
Introduction à PyQt
Introduction à Scrapy (2)
Défiez Kaggle Titanic
[Linux] Introduction à Linux
Introduction à Scrapy (4)
Introduction à discord.py (2)
[Introduction à Python3 Jour 8] Chapitre 4 Py Skin: Structure du code (4.1-4.13)
Le moyen le plus simple de configurer Last-Modified dans Flask
Une introduction approximative à la bibliothèque de traduction automatique neuronale
[Introduction à Python] Comment itérer avec la fonction range?
[Introduction à Udemy Python3 + Application] 30. Comment utiliser l'ensemble
[Introduction à Python] Comment arrêter la boucle en utilisant break?
Le robot en ligne le plus simple au monde pour perdre du poids
[Introduction à Python] Utilisation basique de la bibliothèque matplotlib
Regardez de plus près le tutoriel Kaggle / Titanic