So vereinheitlichen Sie Daten, die eine Mischung aus Katakana, Symbolen, Alphabeten und Zahlen sind.
Referenz:
https://qiita.com/shakechi/items/d12641d6cad01479785f
Da es problematisch ist, CSV mit Pandas zu öffnen, wird es zu einer Funktion gemacht, so dass für jede Spalte eine Verarbeitung in voller und halber Breite durchgeführt werden kann. Fügen Sie einfach den Spaltennamen in die Liste der Spalten = [] ein und es ist OK.
Was zu verarbeiten ist: Machen Sie alle Katakana, Symbole (Leerzeichen usw.) und Zahlen zur halben Breite.
#Installieren Sie pip install jaconv mit einem Terminal oder einem Befehlszeilentool vor.
import jaconv
def shori(column):
list= df[column].values.tolist()
new_list = []
for li in list:
li = jaconv.z2h(li,digit=True, ascii=True,kana=True)
new_list.append(li)
df[column] = new_list
return df[column]
##Listen Sie die Spaltennamen auf, die Sie verarbeiten möchten.
columns = []
#Drehen Sie mit für.
for column in columns:
shori(column)
Recommended Posts