Nettoyage des données à l'aide de Python

Aperçu

Code réel

0. Chargement de la bibliothèque

Cette fois, nous utiliserons pandas` et `` re '' (modules pour l'utilisation d'expressions régulières)

import pandas as pd
import re

1. Lire les données

df = pd.read_csv("filename.csv")

2. Supprimez les éléments inutiles (espaces, symboles, chiffres, mots)

Supprimer les éléments inutiles pour toute la colonne

df['Nom de colonne'] = df['Nom de colonne'].str.replace(r'(\d)', '') #Supprimer les numéros
df['Nom de colonne'] = df['Nom de colonne'].str.replace('-', '') #Supprimer le symbole
df['Nom de colonne'] = df['Nom de colonne'].str.replace('word', '') #Supprimer le mot
df['Nom de colonne'] = df['Nom de colonne'].str.strip() #Retirez les blancs au début et à la fin
df['Nom de colonne'] = df['Nom de colonne'].str.replace(r'(\d)', '').str.replace('-', '').str.replace('Ah', '').str.strip()
#Ceux-ci peuvent également être exécutés en même temps

3. Découpez des mots

Chose que tu veux faire

nameSupposons que chaque élément composé de plusieurs mots existe dans la colonne Exemple:

df['name'][0] = "I have a pen."
df['name'][1] = "She has a pen."

D'autre part, le premier mot est extrait et stocké sous forme de liste dans une nouvelle colonne appelée `` sujet ''. Exemple:

df['subject'][0] = "I"
df['subject'][1] = "She"

code

temp = df['name'].str.split() #Décomposer en mots
subject = [] #Créez une liste vide pour stocker les mots coupés
for item in temp: 
    subject.append(item[0]) #Stocker le premier mot de chaque ligne dans la liste
df['subject'] = subject #Ajouté au bloc de données d'origine avec le nom de la colonne sujet

4. Écrire dans un élément de données spécifique

.at[]Vous pouvez accéder à des données spécifiques en utilisant



df.at['Nom de la ligne','Nom de colonne'] = "C'est un test" df.at[numéro de ligne,'Nom de colonne'] = "C'est un test"


## 5. sortie csv
 Enfin, sortez la trame de données éditée vers csv. En ajoutant ```encoding = 'utf_8_sig'` ``, les caractères déformés peuvent être évités.

df.to_csv("filename_v2.csv", encoding='utf_8_sig')



Recommended Posts

Nettoyage des données à l'aide de Python
Analyse de données à l'aide de pandas python
Acquisition de données à l'aide de l'API googlemap de python
Analyse de données python
Commencez à utiliser Python
Scraping à l'aide de Python
[python] Lecture de données
Obtenez des données Youtube en Python à l'aide de l'API Youtube Data
[Python] Divers traitements de données utilisant le tableau Numpy
Créer une feuille de calcul Google à l'aide de l'API Python / Google Data
Analyse de données avec python 2
Analyse des données à l'aide de xarray
Manipuler Redmine à l'aide de Python Redmine
Séquence de Fibonacci utilisant Python
Bibliothèques de visualisation de données Python
[Python] Obtenez tous les commentaires à l'aide de Youtube Data Api
Présentation de l'analyse de données python
Nettoyage des données 2 Nettoyage des données à l'aide de DataFrame
Utilisation des packages Python #external
Câblage Communication Pi-SPI avec Python
Calcul de l'âge à l'aide de python
Modèle d'analyse de données Python
Rechercher sur Twitter avec Python
[Tutoriel Python] Structure des données
[Python] Tri des données Numpy
Étude introductive sur Python-Sortie des données de vente à l'aide de tapple-
Identification de nom à l'aide de python
Notes sur l'utilisation de sous-processus Python
Essayez d'utiliser Tweepy [Python2.7]
Analyse de données avec Python
Nettoyage du backlog avec Python
Analysons les données Covid-19 (Corona) en utilisant Python [Pour les débutants]
Créer un bot de collecte de données en Python à l'aide de Selenium
Enregistrez collectivement des données dans Firestore à l'aide d'un fichier csv en Python
Obtenez des données LEAD à l'aide de l'API REST de Marketo en Python
[Python] Obtenez des données insight à l'aide de l'API Google My Business
Écrire des données dans KINTONE à l'aide du module de requêtes Python
Traiter les données csv avec python (traitement du comptage à l'aide de pandas)
[Livre technique] Introduction à l'analyse de données avec Python -1 Chapitre Introduction-
Aplatir à l'aide du rendement Python de
Scraping à l'aide de Python 3.5 async / await
Exemple de données créées avec python
Mon conteneur d'analyse de données python
Enregistrer des images à l'aide de requêtes python3
Gérer les données ambiantes en Python
structure de données Python push pop
[S3] CRUD avec S3 utilisant Python [Python]
Python pour l'analyse des données Chapitre 4
[Python] Essayez d'utiliser le canevas de Tkinter
Utilisation de Quaternion avec Python ~ numpy-quaternion ~
Afficher les données UTM-30LX en Python
Essayez d'utiliser Kubernetes Client -Python-
Sélectionnez des fonctionnalités avec des données textuelles
Obtenez des données Youtube avec python
[Python] Utilisation d'OpenCV avec Python (basique)
Surveillance des changements de site Web à l'aide de python
Publier sur Twitter en utilisant Python
Fiche technique de la science des données (Python)
Commencez à Selenium en utilisant python