Récemment, j'ai commencé à travailler sur kaggle, et il y avait une méthode pour simplifier le traitement des colonnes que j'avais essayé de faire à la main, donc je vais la résumer sous forme de mémorandum. Seule l'utilisation utilisée dans le concours que nous faisons est brièvement résumée, veuillez donc passer à l'article auquel vous avez fait référence pour une utilisation détaillée.
Dans le concours que je fais cette fois, les données données existaient sous forme de train_data et train_label, et il y avait des éléments en double dans les deux csv. En fin de compte, ces deux données doivent être combinées et fournies au modèle, de sorte que le contenu dupliqué doit être éclairci avant d'être combiné.
La valeur que vous voulez vérifier si elle est incluse
)
Vérifiez si la valeur que vous souhaitez vérifier est incluse dans le DataFrame. La valeur de retour est de type booléen et False est renvoyé par défaut. Si vous ajoutez ~
au début, True sera renvoyé.
--where (condition cible
, vrai
, faux
, option
)
Exécutez chaque processus pour l'index qui correspond aux conditions cibles. Avec l'option ʻinplace = True`, il sera reflété dans le DataFrame d'origine.
Si les deuxième et troisième arguments sont omis, l'index correspondant sera renvoyé.--groupby ([nom de la première colonne que vous voulez grouper'`,
nom de la deuxième colonne que vous souhaitez grouper'])
.Processus que vous souhaitez appliquer `.mean () ou son côté Calculez le prix moyen du groupe B qui appartient au groupe A. Utilisez-le comme ça. Il n'y aura pas de duplication du nom de colonne spécifié.
--agg ({ Nom de la colonne à traiter'`: [
Ce que vous voulez traiter 1 (min, max, etc.) '' ,
Ce que vous voulez traiter 2`]})
Pratique à utiliser après groupby
note.nkmk.me CUBE SUGAR CONTAINER
Recommended Posts