Application de Python: Traitement des données Partie 2: Analyse de divers formats de données

Différents formats de données

Entrée et sortie de fichiers à l'aide de la bibliothèque pandas

HTML est une page Web, JSON est une API Web CSV et Excel ont différentes utilisations principales telles que l'organisation des données. Une conversion mutuelle est possible en utilisant la bibliothèque pandas.

Structure de fichier HTML

Un fichier HTML est un format de données qui décrit le contenu d'une page Web.

Le maître de la méthode d'analyse HTML est toutes les pages Web écrites en HTML Cela peut être la cible de l'analyse. Extraction d'informations à partir de fichiers HTML sur le Web

C'est ce qu'on appelle le grattage.
En python, vous pouvez gratter avec une bibliothèque.

bibliothèque pandas:Gratter des éléments de tableau dans des fichiers HTML
Une autre bibliothèque telle que BeautifulSoup et lxml:Grattage autre que des éléments de tableau

Structure de fichier JSON

Le fichier JSON est une abréviation de «JavaScript Object Notation» C'est un format de texte créé à l'origine en se référant à la notation du langage de programmation "Javascript".

Le format JSON est un format texte indépendant du langage Javascript. Parce que la plupart des langages de programmation prennent en charge la lecture et l'écriture Il est souvent utilisé pour échanger des données entre différents langages de programmation.

image.png

La structure d'un fichier JSON est fondamentalement la même que la structure des variables du dictionnaire Python. Spécifiez les paires clé / valeur entre crochets {}, séparés par des virgules. Placez deux points: entre la clé et la valeur.

Structure de fichier CSV

Le fichier CSV est une abréviation de "Valeurs séparées par des virgules" C'est un format de données appelé «valeurs séparées par des virgules».

Parce que les fichiers CSV sont enregistrés au format texte Vous pouvez ouvrir les données indépendamment de tout logiciel spécifique.

La structure des données est simple, il n'y a pas de métadonnées supplémentaires et elle est légère. Il est utilisé depuis longtemps pour la communication entre le logiciel de calcul de table et le logiciel de base de données.

image.png

La structure du fichier CSV est très simple et les valeurs sont séparées par des virgules pour représenter les colonnes. Cela permet de décrire de manière concise les données tabulaires.

Structure de fichier Excel

Excel est un logiciel de calcul de table utilisé dans le monde entier De nombreuses entreprises et organisations telles que les institutions publiques l'utilisent Les informations sont divulguées au format de fichier Excel.

Par conséquent, il est possible de gérer des fichiers Excel lors de la collecte et de l'analyse de données à l'aide de Python. La gamme d'analyse des données est considérablement élargie.

image.png

Puisqu'il peut être utilisé graphiquement lors de la manipulation de fichiers Excel avec un logiciel de calcul de table Vous n'avez pas besoin d'être si conscient de la structure, Utilisez ces termes lorsque vous travaillez avec des fichiers Excel à partir d'un langage de programmation Souvenez-vous de ces mots clés pour spécifier ce que vous voulez faire.

le terme Détails
book fichier Excel
sheet Feuille dans le livre
row ligne
column Colonne
cell cellule

Conversion de DataFrame et de chaque format de données

Lire le fichier avec DataFrame

Utilisez la bibliothèque pandas pour créer des fichiers tels que HTML, JSON, CSV, etc. Utilisez read_ pour lire.

read_***() 
#Utilisez cette fonction pour charger.
# ***Contiendra des caractères différents pour chaque format de fichier.

Pour les fichiers HTML, la fonction read_html (), Pour les fichiers Excel, spécifiez quelque chose comme la fonction read_excel ().

La bibliothèque pandas prend également en charge des formats autres que les formats de fichier répertoriés dans le tableau. Il peut être lu par une fonction appelée read _ *** (). Le fichier chargé est converti en objet de type DataFrame dans la bibliothèque pandas Il est possible d'effectuer divers traitements en utilisant la fonction de pandas

format de fichier une fonction
HTML read_html()
JSON read_json()
CSV read_csv()
Excel read_excel()

Par exemple, si vous souhaitez analyser des fichiers HTML à l'aide de la bibliothèque pandas Utilisez la fonction read_html () dans la bibliothèque pandas. En saisissant le chemin ou l'URL du fichier HTML que vous souhaitez analyser dans l'argument de la fonction read_html (), Vous pouvez générer un objet de type DataFrame à partir d'un élément de table dans un fichier HTML.

import pandas as pd  
tables = pd.read_html("Fichier HTML que vous souhaitez analyser")

Exporter de DataFrame vers un fichier

Objet DataFrame de la bibliothèque pandas Utilisez to_ comme un fichier tel qu'un fichier HTML, un fichier JSON ou un fichier CSV.

to_***() 
#Utilisez cette fonction pour exporter.
# read_***()Comme des fonctions***Contiendra des caractères différents pour chaque format de fichier

Pour HTML, la fonction to_html (), pour Excel, la fonction to_excel (), etc. La bibliothèque pandas prend également en charge des formats autres que les formats de fichier répertoriés dans le tableau. Il peut être lu par la fonction à _ *** ().

format de fichier une fonction
HTML to_html()
JSON to_json()
CSV to_csv()
Excel to_excel()

Par exemple, lorsque vous utilisez la bibliothèque pandas pour générer une sortie dans un fichier Excel Utilisez la fonction to_excel () dans la bibliothèque pandas. En spécifiant le nom du fichier Excel que vous souhaitez exporter dans l'argument de la fonction to_excel () Vous pouvez générer un fichier Excel à partir d'un objet de type DataFrame.

# pandas.Objet de type DataFrame`df`Pour exporter vers un fichier Excel
df.to_excel("Nom du fichier Excel que vous souhaitez exporter")

Obtenez des données de fichier CSV et tracez sur un graphique

Lire les données du fichier CSV

Tout d'abord, lisez les données.

import pandas as pd

stock_data=pd.read_csv(Où se trouve le fichier csv spécifié?)
# ./~Spécifiez l'emplacement du fichier, etc.

print(stock_data)

Dessinez un graphique en utilisant les fonctions de Pandas

pandas permet de créer des graphiques en utilisant des objets de type DataFrame comme fonctions d'index. En supposant que vous ayez un objet df de type DataFrame, vous pouvez écrire:

from matplotlib import pyplot as plt
df.plot()
plt.show()

#Lorsque seules des données spécifiques
df = data[price]
df.plot()
plt.show()

#Au moment de toutes les données
df = data
df.plot()
plt.show()

#Non précisé. Vous pouvez le laisser sous forme de données

Recommended Posts

Application de Python: Traitement des données Partie 2: Analyse de divers formats de données
Application Python: Traitement des données # 3: Format des données
Application de Python: visualisation de données Partie 3: divers graphiques
Application de Python: Nettoyage des données Partie 1: Notation Python
Application Python: visualisation de données partie 1: basique
Traitement des données 2 Analyse de divers formats de données
Application Python: Traitement des données Partie 1: Formatage des données et entrée / sortie de fichier
Application Python: Pandas Partie 2: Série
Application Python: visualisation de données, partie 2: matplotlib
Application Python: Numpy Partie 3: Double tableau
Application de Python: Nettoyage des données Partie 2: Nettoyage des données à l'aide de DataFrame
[Python] Chapitre 04-06 Différentes structures de données (création de dictionnaire)
[Python] Chapitre 04-03 Diverses structures de données (liste multidimensionnelle)
[Python] Chapitre 04-04 Diverses structures de données (voir liste)
[Introduction à l'application Udemy Python3 +] 65. Gestion des exceptions
Application de Python: Pandas Partie 4: Concaténation et combinaison de DataFrames
Le traitement des données
[Python] Application Web à partir de 0! Pratique (4) - Mise en forme des données-
[Python] Divers traitements de données utilisant le tableau Numpy
[Python] Chapitre 04-02 Diverses structures de données (manipulation de liste)
Acquisition de données à partir de l'API d'analyse avec l'application Web Client API Google pour python Partie 2
Créez des données de test comme ça avec Python (partie 1)
Une histoire sur la gestion des données binaires en Python
QGIS + Python Partie 2
QGIS + Python Partie 1
Analyse de données python
Gestion des erreurs Python
Gestion des exceptions Python
# 3 [python3] Divers opérateurs
Traitement des données multi-conditions
Python: grattage partie 1
Gestion des fuseaux horaires Python
Gestion des exceptions Python
Python3 commence la partie 1
[python] Lecture de données
Python: grattage, partie 2
"My Graph Generation Application" par Python (PySide + PyQtGraph) Partie 2
Application Web réalisée avec Python3.4 + Django (Construction de l'environnement Part.1)
[Python] Chapitre 04-05 Diverses structures de données (création de taple et fonctionnalités)
"My Graph Generation Application" par Python (PySide + PyQtGraph) Partie 1