[PYTHON] Conseils de traitement des données avec Pandas

C'est aussi un mémorandum personnel, et c'est une astuce du traitement des données par Pandas. J'ai écrit ce que je n'avais pas été attrapé lorsque j'ai cherché sur Google. Nous prévoyons d'en ajouter de plus en plus. Nous vous serions reconnaissants si vous pouviez nous faire savoir si vous avez des erreurs ou des améliorations.

La première chose à regarder est la feuille de triche

Un grand merci à ceux qui l'ont traduit en japonais. https://qiita.com/s_katagiri/items/4cd7dee37aae7a1e1fc0

Appliquez la fonction à plusieurs variables et enregistrez la valeur de retour dans une autre variable.

Exemple: Mettez le nombre de "@" contenu dans x1 dans cnt_x1, ce qui est également fait pour x2, x3, .... x1→cnt_x1, ..., x13→cnt_x13

migs = {'cnt_x1': 'x1', 'cnt_x2': 'x2', ...,  'cnt_x13': 'x13'}

for vars, mig in migs.items():
    df1[vars] = df1[mig].str.count('@')

--keys (): pour le traitement en boucle de la clé de chaque élément --values (): pour le traitement en boucle de la valeur de chaque élément --items (): pour le traitement en boucle de la clé clé et de la valeur de chaque élément

Utilise un dictionnaire. La correspondance entre la clé et la valeur dans le dictionnaire est la suivante. {'key1': 'value1', 'key2': 'value2', 'key3': 'value3'}

Soumettez une requête à postgres pour créer un bloc de données (récupérez également l'en-tête)

Écrivez la requête entre '' 'dans cur.execute (). Personnellement (dans le cas de Postgres) je l'ai écrit après avoir vérifié le mouvement avec PgAdmin.

import psycopg2
import pandas as pd
conn = psycopg2.connect("host=hostname  user=username port=port dbname=dbname password=password")
# execute sql
cur = conn.cursor()
#Nom du schéma.nom de la table
cur.execute('''
select *
from hoge
;''')
results = cur.fetchall()
#Je veux être df
df = pd.DataFrame(results, columns=[col.name for col in cur.description])
cur.close()
conn.close()

Comment créer un fichier vide et écrire le nombre actuel d'échantillons dans le nom du fichier pour comprendre la situation

En interrogeant les postgres ci-dessus, en les combinant avec un programme dataframe et en les exécutant régulièrement sur le planificateur de tâches Windows, vous pouvez voir l'état des échantillons dans la base de données chaque jour (hebdomadaire, horaire, etc.). peut faire.

allcnt = len(df)

with open(r"./Date" + str(date) +  r"_Total_" + str(allcnt) + r"_National_" + str(domestic) + r"_étranger_" + str(foreign) + r".txt","w"):pass

Recommended Posts

Conseils de traitement des données avec Pandas
Traitement des ensembles de données avec des pandas (1)
Traitement des ensembles de données avec des pandas (2)
Visualisation des données avec les pandas
Manipulation des données avec les Pandas!
Exemple de traitement efficace des données avec PANDAS
Traiter les données csv avec python (traitement du comptage à l'aide de pandas)
Traçage de données polyvalent avec pandas + matplotlib
[pandas] Conseils GroupBy
lecture de données pandas
Conseils pour tracer plusieurs lignes avec des pandas
Essayez de convertir en données ordonnées avec les pandas
Meilleures pratiques pour manipuler les données avec les pandas
Essayez d'agréger les données de musique doujin avec des pandas
Lire les données csv Python avec Pandas ⇒ Graphique avec Matplotlib
Dessinez un graphique en traitant avec Pandas groupby
[Pandas] Principes de base du traitement des données de date à l'aide de dt
Visualisez de manière interactive les données avec Treasure Data, Pandas et Jupyter.
100 langage de traitement knock-20 (à l'aide de pandas): lecture de données JSON
100 traitement du langage knock-95 (en utilisant des pandas): Note avec WordSimilarity-353
Analyse de données avec python 2
Traitement d'image avec MyHDL
Convertir 202003 en 2020-03 avec les pandas
[Astuces] Ma note Pandas
Fusionner les ensembles de données avec les pandas
Pandas apprenant avec la chimioinfomatique
Lecture de données avec TensorFlow
Traitement d'image avec Python
Traitement parallèle avec multitraitement
Augmentation des données avec openCV
Normariser les données avec Scipy
Analyse de données avec Python
CHARGER DES DONNÉES avec PyMysql
Traitement d'image avec PIL
Obtenez des données Amazon RDS (PostgreSQL) à l'aide de SQL avec pandas
Comment convertir des données détenues horizontalement en données détenues verticalement avec des pandas
Soyez prudent lors de la lecture de données avec des pandas (spécifiez dtype)
Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)
Vue d'ensemble et astuces de Seaborn avec visualisation de données statistiques
Comment extraire des données qui ne manquent pas de valeur nan avec des pandas
Comment extraire des données qui ne manquent pas de valeur nan avec des pandas
Résumé des processus souvent effectués par Pandas 2 (référence des données, opération d'édition)
Exemple de données créées avec python
100 coups de traitement du langage avec Python 2015
Lire csv avec des pandas python
Incorporer des données audio avec Jupyter
Graphique des données Excel avec matplotlib (1)
Traitement parallèle avec des fonctions locales
Traitement d'image avec PIL (Pillow)
Génération artificielle de données avec numpy
"Traitement Apple" avec OpenCV3 + Python3
Extraire les données Twitter avec CSV
Traitement du signal acoustique avec Python (2)
Obtenez des données Youtube avec python
Remarques sur la gestion de grandes quantités de données avec python + pandas
Traitement du signal acoustique avec Python
C'est pourquoi j'ai quitté les pandas [Data Science 100 Knock (traitement des données structurées) # 2]
C'est pourquoi j'ai quitté les pandas [Data Science 100 Knock (traitement des données structurées) # 1]
Ingéniosité pour gérer les données avec Pandas de manière à économiser la mémoire