Le code d'exécution, le contenu et l'explication sont décrits à l'URL suivante.

cahier Jupyter https://github.com/spica831/kaggle_titanic/blob/master/titanic.ipynb

Contexte

J'ai participé à un hackathon pour estimer le prix d'une maison à Kaggle Je n'ai pas pu le résoudre à temps en raison d'un manque de connaissances sur la façon d'utiliser python et de l'analyser. Par conséquent, en guise de revanche, nous avons prédit la survie du Titanic. https://www.kaggle.com/c/titanic

Prédire les prix de vente des maisons avec Kaggle

House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques

D'après la conclusion, le taux de réponse correcte de la prédiction du Titanic était de 0,7512.

Méthode

#Importer les packages requis
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline

#Lire la valeur
df = pd.read_csv("./input/train.csv")
df

Affichez la valeur. スクリーンショット 2017-04-19 22.53.49.png

Prétraitement

Remplacement de la chaîne de caractères

Apparemment, les chaînes de caractères sont utilisées pour les noms et les sexes. Puisqu'il ne peut pas être utilisé pour l'analyse en l'état, s'agit-il du sexe (sexe) ou du rang d'embarquement? Comme il existe peu de modèles de caractères tels que (Embarqué), ils sont remplacés par des valeurs numériques telles que 0, 1 et 2, respectivement.

De plus, age (Age) a une valeur manquante (NaN), donc tous ont été remplacés par 0.

df.Embarked = df.Embarked.replace(['C', 'S', 'Q'], [0, 1, 2])
#df.Cabin = df.Cabin.replace('NaN', 0)
df.Sex = df.Sex.replace(['male', 'female'], [0, 1])
df.Age = df.Age.replace('NaN', 0)

Supprimer la colonne

Les éléments difficiles à gérer, tels que le nom et la cabine de billets, ont été supprimés pour chaque colonne. (douloureux)

df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

Résultat du prétraitement

Tout pourrait être remplacé par des valeurs numériques.

df

スクリーンショット 2017-04-19 22.54.08.png

une analyse

Coefficient de corrélation

Calculez d'abord le coefficient de corrélation

Reportez-vous au wiki suivant pour le coefficient de corrélation https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

Valeur du coefficient de corrélation

#Calculer le coefficient de corrélation
corrmat = df.corr()
corrmat

スクリーンショット 2017-04-19 22.54.18.png

Carte thermique des coefficients de corrélation

f, ax = plt.subplots(figsize=(12,9))
sns.heatmap(corrmat, vmax=.8, square=True)

8nqTunXxjzAAAAABJRU5ErkJggg==.png

Il a été constaté qu'il y avait une corrélation.

Apprentissage

Préparation avant l'apprentissage

Divisez la réponse (train_labels ici Survived) et le paramètre (train_features here autre que Survived`)

train_labels = df['Survived'].values
train_features = df
train_features.drop('Survived', axis=1, inplace=True)
train_features = train_features.values.astype(np.int64)

Apprenez avec la machine vectorielle de support

Enfin, nous avons créé une machine d'apprentissage de classification à deux classes en utilisant le SVM linéaire dans scicit-learn. (Je n'ai pas défini de paramètres détaillés, mais j'aurais dû faire des régularisations L1 et L2.)

from sklearn import svm
#Standard = svm.LinearSVC(C=1.0, intercept_scaling=1, multi_class=False , loss="l1", penalty="l2", dual=True)
svm = svm.LinearSVC()
svm.fit(train_features, train_labels)

tester

Lire la valeur de test calculée cette fois

df_test = pd.read_csv("./input/test.csv")

Préparation préalable

#Supprimer les colonnes inutiles
df_test.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

#Remplacement numérique de la chaîne de caractères
df_test.Embarked = df_test.Embarked.replace(['C', 'S', 'Q'], [0, 1, 2])
df_test.Sex = df_test.Sex.replace(['male', 'female'], [0, 1])
df_test.Age = df_test.Age.replace('NaN', 0)

#Convertir en valeur de tableau
test_features = df_test.values.astype(np.int64)

Classifiez avec SVM.

y_test_pred = svm.predict(test_features)

finalement

Convertir en un formulaire qui peut être soumis à Kaggle

#Recharger les valeurs de test et ajouter des colonnes classées par SVM
df_out = pd.read_csv("./input/test.csv")
df_out["Survived"] = y_test_pred

#Sortie vers le répertoire de sortie
df_out[["PassengerId","Survived"]].to_csv("./output/submission.csv",index=False)

résultat

Comme mentionné au début, le taux de réponse correcte de la prédiction du Titanic était de 0,7512. Cependant, j'ai été satisfait car j'ai pu former et soumettre en un court laps de temps de quelques heures.

Choses à améliorer

Il y avait de nombreux points à améliorer lors de la création.

Prétraitement

L'âge doit être divisé en deux, à l'exclusion de NaN et d'une certaine valeur de NaN.
En regardant l'histogramme, si la distribution gaussienne est à gauche, elle aurait dû être logarithmique pour approcher la distribution gaussienne. (Le Dr Andrew a également dit cela à Coursera.)
Aucune valeur de blanchiment n'a été effectuée.
J'aurais dû faire de mon mieux pour convertir les valeurs d'une grande quantité de chaînes de caractères rejetées en valeurs numériques. En particulier, je ne voulais pas jeter Cabin et Ticket.

une analyse

Je ne regardais que le coefficient de corrélation.

Trieur

La valeur n'a pas été régularisée
Nous n'avons pas considéré les SVM non linéaires ni d'autres classificateurs.

Résumé

J'ai pu produire une sortie en peu de temps, j'ai donc atteint mon objectif. Cependant, j'ai profondément réalisé que je n'avais ni le temps ni l'expérience pour trouver la méthode de calcul optimale en utilisant ce que j'avais appris jusqu'à présent en peu de temps.

[PYTHON] J'ai essayé de prédire et de soumettre les survivants du Titanic avec Kaggle

Le code d'exécution, le contenu et l'explication sont décrits à l'URL suivante.

Contexte

Prédire les prix de vente des maisons avec Kaggle

Méthode

Prétraitement

Remplacement de la chaîne de caractères

Supprimer la colonne

Résultat du prétraitement

une analyse

Coefficient de corrélation

Apprentissage

Préparation avant l'apprentissage

Apprenez avec la machine vectorielle de support

tester

Préparation préalable

Classifiez avec SVM.

finalement

Convertir en un formulaire qui peut être soumis à Kaggle

résultat

Choses à améliorer

Prétraitement

une analyse

Trieur

Résumé