Ich habe Daten auf Twitter gesammelt, aber danach habe ich sie in Ruhe gelassen. Wenn ich mir die Daten lange anschaue, ist der mysteriöse Stadt-, Dorf- und Dorftweet von fav0 dating Wansaka Wansaka ……. Ich habe es tatsächlich gefunden, indem ich Twitter durchsucht habe.
Der Benutzername war so obszön, dass ich ihn versteckte ... Was ist das für ein mysteriöses Wort ... Es war vorher ein bisschen mehr Satz ...? Früher habe ich ein bestimmtes Wort angegeben, und als es traf, habe ich mich immer verabschiedet, aber es gibt kein gemeinsames Wort, das mit dieser Anzahl von Zeichen angegeben werden kann.
Also werde ich es mit einem regulären Ausdruck löschen.
Dokan bei jeder Probe der Funktionsprüfung. Irdenes Rohr.
Auf den ersten Blick als murmelndes Muster ① "Ein Zeichen von flachem Kana" "Einfaches Kana oder Interpunktion" "Kommunaler Name" ② "Einfaches Pseudonym 3 Zeichen" "Symbol" "Kommunaler Name" Da dies die beiden sind, ersetzen Sie die entsprechende durch eine leere und löschen Sie dann die leere Zeile.
Die Daten befinden sich in einem Datenrahmen, also werde ich es dort schaffen. Es ist schon eine Weile her, seit ich eine Python-Zeit hatte. Es ist bald vorbei.
import pandas as pd
import re
DF_samp=pd.DataFrame({'col_0': {'row_0': "Oh Osaka City", 'row_1': "Ups, Stadt Osaka aaa", 'row_2': "Ups, Stadt Osaka"},'col_1': {'row_0': 3, 'row_2': 4, 'row_3': 5},})
cols=DF_samp.col_0
cols0=cols.str.replace("[Ah-Von][Ah-Von][!-/:-@?[-`{-~.. , ... \].+[Stadt, Dorf|Dorf|Stadt]$|[Ah-Von][Ah-Von!-/:-@?[-`{-~.. , ... \].+[Stadt, Dorf|Dorf|Stadt]$", '')
DF_samp.col_0=cols0
DF_samp.dropna(subset=['col_0'])
Damit sind nur die entsprechenden mysteriösen Sätze beseitigt. Yattane. Ich habe das Gefühl, ich kann die Stimme fragen hören, ob ich dort Ersatz mache, aber ich mag es schon lange nicht mehr ...
Ich erkannte, dass ein neues Muster kommen könnte, wenn dies von den BOT-Mitarbeitern gesehen würde ... Zu dieser Zeit jedoch.
Wie auch immer, ich möchte in einer Welt sein, in der ich effizient blockieren kann! Nun, es ist die API, die Tweets sammelt, also ist sie diesmal nicht mit Blöcken verbunden.
Recommended Posts