Dieses Mal werden wir `pandas
und
`re``` verwenden (Module zur Verwendung regulärer Ausdrücke)
import pandas as pd
import re
df = pd.read_csv("filename.csv")
Löschen Sie unnötige Elemente für die gesamte Spalte
df['Spaltenname'] = df['Spaltenname'].str.replace(r'(\d)', '') #Zahlen löschen
df['Spaltenname'] = df['Spaltenname'].str.replace('-', '') #Entfernen Sie das Symbol
df['Spaltenname'] = df['Spaltenname'].str.replace('word', '') #Wort löschen
df['Spaltenname'] = df['Spaltenname'].str.strip() #Entfernen Sie die Rohlinge am Anfang und am Ende
df['Spaltenname'] = df['Spaltenname'].str.replace(r'(\d)', '').str.replace('-', '').str.replace('Ah', '').str.strip()
#Diese können auch gleichzeitig ausgeführt werden
name
Angenommen, jedes Element, das aus mehreren Wörtern besteht, ist in der Spalte vorhanden
Beispiel:
df['name'][0] = "I have a pen."
df['name'][1] = "She has a pen."
Andererseits wird das erste Wort extrahiert und als Liste in einer neuen Spalte mit dem Namen "Betreff" gespeichert. Beispiel:
df['subject'][0] = "I"
df['subject'][1] = "She"
temp = df['name'].str.split() #In Worte zerlegen
subject = [] #Erstellen Sie eine leere Liste, um die abgeschnittenen Wörter zu speichern
for item in temp:
subject.append(item[0]) #Speichern Sie das erste Wort jeder Zeile in der Liste
df['subject'] = subject #Zum ursprünglichen Datenrahmen mit dem Betreff des Spaltennamens hinzugefügt
.at[]Sie können mit auf auf bestimmte Daten zugreifen
df.at['Zeilenname','Spaltenname'] = "Dies ist ein Test" df.at[Zeilennummer,'Spaltenname'] = "Dies ist ein Test"
## 5. CSV-Ausgabe
Geben Sie abschließend den bearbeiteten Datenrahmen an csv aus. Durch Hinzufügen von `` `encoding = 'utf_8_sig'`` `können verstümmelte Zeichen verhindert werden.
df.to_csv("filename_v2.csv", encoding='utf_8_sig')
Recommended Posts