Datenbereinigung mit Python

Überblick

Tatsächlicher Code

0. Laden der Bibliothek

Dieses Mal werden wir `pandas und `re``` verwenden (Module zur Verwendung regulärer Ausdrücke)

import pandas as pd
import re

1. Daten lesen

df = pd.read_csv("filename.csv")

2. Löschen Sie unnötige Elemente (Leerzeichen, Symbole, Zahlen, Wörter).

Löschen Sie unnötige Elemente für die gesamte Spalte

df['Spaltenname'] = df['Spaltenname'].str.replace(r'(\d)', '') #Zahlen löschen
df['Spaltenname'] = df['Spaltenname'].str.replace('-', '') #Entfernen Sie das Symbol
df['Spaltenname'] = df['Spaltenname'].str.replace('word', '') #Wort löschen
df['Spaltenname'] = df['Spaltenname'].str.strip() #Entfernen Sie die Rohlinge am Anfang und am Ende
df['Spaltenname'] = df['Spaltenname'].str.replace(r'(\d)', '').str.replace('-', '').str.replace('Ah', '').str.strip()
#Diese können auch gleichzeitig ausgeführt werden

3. Wörter ausschneiden

Was du machen willst

nameAngenommen, jedes Element, das aus mehreren Wörtern besteht, ist in der Spalte vorhanden Beispiel:

df['name'][0] = "I have a pen."
df['name'][1] = "She has a pen."

Andererseits wird das erste Wort extrahiert und als Liste in einer neuen Spalte mit dem Namen "Betreff" gespeichert. Beispiel:

df['subject'][0] = "I"
df['subject'][1] = "She"

Code

temp = df['name'].str.split() #In Worte zerlegen
subject = [] #Erstellen Sie eine leere Liste, um die abgeschnittenen Wörter zu speichern
for item in temp: 
    subject.append(item[0]) #Speichern Sie das erste Wort jeder Zeile in der Liste
df['subject'] = subject #Zum ursprünglichen Datenrahmen mit dem Betreff des Spaltennamens hinzugefügt

4. Schreiben Sie in ein bestimmtes Datenelement

.at[]Sie können mit auf auf bestimmte Daten zugreifen



df.at['Zeilenname','Spaltenname'] = "Dies ist ein Test" df.at[Zeilennummer,'Spaltenname'] = "Dies ist ein Test"


## 5. CSV-Ausgabe
 Geben Sie abschließend den bearbeiteten Datenrahmen an csv aus. Durch Hinzufügen von `` `encoding = 'utf_8_sig'`` `können verstümmelte Zeichen verhindert werden.

df.to_csv("filename_v2.csv", encoding='utf_8_sig')



Recommended Posts

Datenbereinigung mit Python
Datenanalyse mit Python-Pandas
Datenerfassung mit Python Googlemap API
Datenanalyse Python
Starten Sie Python
Scraping mit Python
[Python] Daten lesen
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
[Python] Verschiedene Datenverarbeitung mit Numpy-Array
Erstellen einer Google-Tabelle mit der Python / Google Data-API
Datenanalyse mit Python 2
Datenanalyse mit xarray
Bearbeiten Sie Redmine mit Python Redmine
Fibonacci-Sequenz mit Python
Python-Datenvisualisierungsbibliotheken
[Python] Holen Sie sich alle Kommentare mit Youtube Data Api
Datenanalyse Übersicht Python
Datenbereinigung 2 Datenbereinigung mit DataFrame
Verwenden von Python # externen Paketen
WiringPi-SPI-Kommunikation mit Python
Altersberechnung mit Python
Python-Datenanalysevorlage
Suchen Sie Twitter mit Python
[Python-Tutorial] Datenstruktur
[Python] Numpy Daten sortieren
Einführungsstudie zur Python-Ausgabe von Verkaufsdaten mit tapple-
Namensidentifikation mit Python
Hinweise zur Verwendung von Python-Unterprozessen
Versuchen Sie es mit Tweepy [Python2.7]
Datenanalyse mit Python
Bereinigen von Backlog mit Python
Lassen Sie uns Covid-19 (Corona) -Daten mit Python analysieren [Für Anfänger]
Erstellen Sie mit Selenium einen Datenerfassungsbot in Python
Registrieren Sie gemeinsam Daten im Firestore mithilfe der CSV-Datei in Python
Holen Sie sich LEAD-Daten mit der REST-API von Marketo in Python
[Python] Abrufen von Insight-Daten mithilfe der Google My Business-API
Schreiben Sie Daten mit dem Python-Anforderungsmodul in KINTONE
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
[Technisches Buch] Einführung in die Datenanalyse mit Python -1 Kapitel Einführung-
Mit Python abflachen
Scraping mit Python 3.5 async / await
Mit Python erstellte Beispieldaten
Mein Python-Datenanalyse-Container
Speichern Sie Bilder mit Python3-Anforderungen
Behandeln Sie Umgebungsdaten in Python
Datenstruktur Python Push Pop
[S3] CRUD mit S3 unter Verwendung von Python [Python]
Python für die Datenanalyse Kapitel 4
[Python] Versuchen Sie, Tkinters Leinwand zu verwenden
Verwenden von Quaternion mit Python ~ numpy-quaternion ~
Zeigen Sie UTM-30LX-Daten in Python an
Versuchen Sie es mit Kubernetes Client -Python-
Wählen Sie Features mit Textdaten aus
Holen Sie sich Youtube-Daten mit Python
[Python] Verwenden von OpenCV mit Python (Basic)
Überwachung von Website-Änderungen mit Python
Mit Python auf Twitter posten
Data Science Cheet Sheet (Python)
Starten Sie mit Python zu Selen