[PYTHON] J'ai essayé de résumer le code souvent utilisé dans Pandas

Au fur et à mesure que j'ai commencé kaggle et que j'ai été de plus en plus exposé à la science des données, j'ai inévitablement utilisé des pandas pour traiter les données parce que j'utilise python. Cette fois, j'ai résumé les codes que j'utilise souvent personnellement. C'est presque un mémo pour moi, mais j'ai pensé que cela pourrait être utile pour quelqu'un, alors j'ai décidé de le publier tous ensemble sur qiita. Si vous avez des conseils ou des impressions, comme d'autres meilleures notations, veuillez nous le faire savoir dans les commentaires. De plus, s'il existe un code à usage général, je voudrais le mettre à jour de temps en temps.

DataFrame Comment créer des données. Il n'y a rien de particulièrement bon à ce sujet, mais les mêmes données sont créées de deux manières. Veuillez utiliser celui qui vous convient le mieux en fonction de la situation. La sortie est la même. method 1

index = ['a','b','c']
columns = ['A','B','C']
inputs = [[1,2,1],[3,4,3],[5,6,5]]
df = pd.DataFrame(columns = columns,index = index)
for i,columns in enumerate(columns):
    df[columns] = inputs[i]
df
A B C
a 1 3 5
b 2 4 6
c 1 3 5

method 2

index = ['a','b','c']
df = pd.DataFrame({
    'A':[1,2,1],
    'B':[3,4,3],
    'C':[5,6,5]},
    index=index)
df
A B C
a 1 3 5
b 2 4 6
c 1 3 5

Cette fois, nous mettons un alphabet approprié (a, b, c) comme index, mais si vous ne spécifiez pas d'index, il attribuera un numéro à partir de 0.

Feature Encoding Un résumé concernant la conversion des fonctionnalités. One-Hot Encoding Je pense qu'il existe de nombreuses situations dans lesquelles vous souhaitez convertir en un vecteur chaud lorsque vous manipulez les données. Vous pouvez utiliser le codage à chaud de sklearn, mais si vous gérez vos données avec des pandas, get_dummes est plus efficace.

pd.get_dummies(df['A'])
1 2
a 1 0
b 0 1
c 1 0

Frequency Encoding C'est un code complètement personnel. J'ai pensé que je pourrais l'utiliser à nouveau, alors prenez-en note. Le processus consiste à convertir la valeur en une étiquette pour le nombre d'occurrences et à la renvoyer.

df.groupby('B')[['B']].transform('count')
B
a 2
b 1
c 2

Cela signifie que 3 apparaît deux fois et 4 apparaît une fois dans les colonnes B.

Je n'ai pas encore tout rassemblé, mais pour l'instant. J'ajouterai encore du code.

Recommended Posts

J'ai essayé de résumer le code souvent utilisé dans Pandas
J'ai essayé de résumer les commandes souvent utilisées en entreprise
J'ai essayé de résumer comment utiliser les pandas de python
J'ai essayé de résumer les méthodes qui sont souvent utilisées lors de l'implémentation d'algo de base dans Quantx Factory
J'ai essayé de résumer la commande umask
J'ai essayé de résumer la modélisation graphique.
J'ai essayé de résumer les commandes utilisées par les ingénieurs débutants aujourd'hui
J'ai essayé de résumer la méthode de mise en œuvre fréquemment utilisée de pytest-mock
LeetCode j'ai essayé de résumer les plus simples
[Python] J'ai essayé de résumer le type collectif (ensemble) d'une manière facile à comprendre.
J'ai essayé de résumer les commandes Linux utilisées par les ingénieurs débutants aujourd'hui - Partie 1-
J'ai essayé de résumer SparseMatrix
J'ai essayé de représenter graphiquement les packages installés en Python
J'ai essayé de résumer la forme de base de GPLVM
J'ai essayé de résumer les opérations de chaîne de Python
J'ai essayé d'organiser les index d'évaluation utilisés en machine learning (modèle de régression)
J'ai essayé de résumer les opérations susceptibles d'être utilisées avec numpy-stl
J'ai essayé de résumer tous les graphiques Python utilisés dans la recherche par des étudiants diplômés en sciences actifs [Basique]
J'ai essayé de porter le code écrit pour TensorFlow sur Theano
[Première API COTOHA] J'ai essayé de résumer l'ancienne histoire
Résumé de la grammaire fréquemment utilisée dans les pandas
J'ai essayé d'illustrer le temps et le temps du langage C
J'ai essayé de résumer les nouvelles personnes infectées par le virus corona dans la ville d'Ichikawa, préfecture de Chiba
J'ai essayé d'implémenter la fonction d'envoi de courrier en Python
[Apprentissage automatique] J'ai essayé de résumer la théorie d'Adaboost
J'ai essayé de résumer tous les outils de visualisation Python utilisés dans la recherche par des étudiants diplômés en sciences actifs [Application]
J'ai essayé de déplacer le ballon
J'ai essayé d'estimer la section.
J'ai essayé de résumer comment utiliser à nouveau le référentiel EPEL
[Pas de code] J'ai écrit sur les courbes elliptiques et la blockchain dans ma thèse de fin d'études, alors j'ai essayé de résumer la méthode d'étude
J'ai essayé de résumer ce que l'homme fort de python fait dans le quartier des professionnels de la compétition
J'ai essayé de décrire le trafic en temps réel avec WebSocket
[Linux] J'ai essayé de résumer les commandes de confirmation des ressources
J'ai essayé de traiter l'image en "style croquis" avec OpenCV
J'ai écrit le code pour écrire le code Brainf * ck en python
J'ai essayé de traiter l'image dans un "style de dessin au crayon" avec OpenCV
Je veux faire de la deuxième ligne le nom de la colonne dans pandas
J'ai essayé de résumer la gestion des exceptions Python
J'ai essayé d'implémenter PLSA en Python
J'ai essayé d'implémenter la permutation en Python
J'ai essayé de reconnaître le mot de réveil
Entrée standard Python3 que j'ai essayé de résumer
J'ai essayé d'implémenter ADALINE en Python
J'ai essayé d'estimer le rapport de circonférence π de manière probabiliste
J'ai essayé de toucher l'API COTOHA
J'ai essayé d'implémenter PPO en Python
Traitement des mémos souvent utilisés dans les pandas (débutants)
J'ai essayé de résumer les modules d'Ansible - l'édition Linux
J'ai essayé de résumer le contenu de chaque paquet enregistré par Python pip en une seule ligne
J'ai essayé de résumer jusqu'à ce que je quitte la banque et devienne ingénieur
J'ai essayé de résumer moi-même le flux général jusqu'à la création de services.
J'ai essayé d'obtenir le code d'authentification de l'API Qiita avec Python.
J'ai essayé de résumer Cpaw Level1 & Level2 Write Up d'une manière facile à comprendre
J'ai essayé de résumer diverses phrases à l'aide de l'API de synthèse automatique "summpy"
J'ai essayé de résumer la manière logique de penser l'orientation objet.
J'ai essayé d'afficher la valeur d'altitude du DTM dans un graphique
J'ai implémenté le modèle VGG16 avec Keras et essayé d'identifier CIFAR10
J'ai essayé de former le modèle RWA (Recurrent Weighted Average) dans Keras
J'ai essayé de mettre PyCharm dans Ubuntu 16.04 LTS (PPA ne peut pas être utilisé)
J'ai essayé Web Scraping pour analyser les paroles.