Python 3.5.1 :: Anaconda 2.5.0
N'est-il pas difficile de lire csv avec python, de lire json ou d'exécuter (hogehoge) un document SQL à partir de DB? Surtout pour DB, il est très difficile de séparer la restauration et la validation dans la gestion des erreurs.
Si vous utilisez des pandas, ce problème sera résolu.
Chargement du CSV commun
before
import csv
with open("data.csv",'r') as f:
data = csv.reader(f)
for row in data:
print(row)
after
import pandas as pd
data = pd.read_csv("data.csv")
print(data)
Déposer les données sélectionnées dans SQL en python (postgres)
before
import psycopg2
conn = psycopg2.connect("dbname=test host=localhost user=postgres")
cur = conn.cursor()
cur.execute("SELECT * FROM test_table LIMIT 100;")
data = cur.fetchall()
for row in data:
print(row)
after
import pandas as pd
import psycopg2
conn = psycopg2.connect("dbname=test host=localhost user=postgres")
data = pd.read_sql("SELECT * FROM test_table LIMIT 100;",conn)
print(data)
La bonne chose à propos des pandas est __ La structure des données au format tableau peut être conservée telle quelle __ Il y a. En d'autres termes, vous pouvez extraire la structure de la table DB ou la colonne csv telle quelle.
Exemple (exemple de fichier Csv)
__Jupyter notebook rend plus facile à voir et plus pratique __
__ Vérifiez facilement le type de chaque colonne __
(Le type appelé objet est une chaîne de caractères car la colonne contient plusieurs types de données. Par exemple, si vous souhaitez convertir une colonne contenant des nombres et des caractères étranges en un type uniquement numérique, Si vous définissez df ["nom_colonne"]. Convert_objects (convert_numeric = True)
, ceux qui n'ont pas pu être convertis seront stockés sous NaN)
Il existe de nombreux articles sur la façon de pandas, et Jupyter notebook est un outil très facile à utiliser. Si vous les combinez, vous pouvez analyser les données très rapidement et facilement, alors essayez-le.
Postscript Nous résumerons les méthodes utiles d'agrégation et d'analyse des données avec les pandas sous forme de mémorandum (sera mis à jour à tout moment) Méthode minimale à retenir lors de l'agrégation de données avec Pandas
Recommended Posts