Ich wollte etwas tun, wenn die in das PDF eingebetteten Zeichen seltsam waren. Ich möchte wie folgt aussehen. Ich möchte dieselben Zeichen kombinieren, wenn sie nacheinander wiederholt werden.
Ah ah → Ah Aiuueo → Aiueo ABCABCABC → ABCABCABC Zustimmung von Yui Yui → Zustimmung von Yui Yui
python
#Es wird angenommen, dass das Ergebnis bereits eine Zeichenfolge enthält
result = re.sub(r"(.)\1{1,}", "\g<1>", result) #Sammle sich wiederholende Strings
Textformatierung
import re
from unicodedata import normalize
def clean_text(txt:str):
result = re.sub(r"\s| ",'',txt) #Entfernen Sie zuerst leere Zeichen, um die Verarbeitung zu vereinfachen
result = normalize('NFKC', result) #Unicode-Normalisierung
result = re.sub(r"(.)\1{1,}", "\g<1>", result) #Sammle sich wiederholende Strings
if (')(cid:' in result): #Korrespondenz bei Zeichen eingebettetem PDF
return ''
return result
Louise
import re
text = "Louise! Louise! Louise! Ruizuuuuuuuuaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa !! !!\n\
Ah ah ah ... ah ... ah! Ah ah ah ah! !! !! Louise Louise Louise Wow Wow Ah Ah! !! !!\n\
Ah Kunka Kunka! Kunka Kunka! Suha Suha! Suha Suha! Es riecht gut ... Kun\n\
Hmm! Ich möchte die rosa blonden Haare von Louise Francoise-tan quetschen! Kunka Kunka! Aa! !!\n\
habe mich geirrt! Ich möchte flauschig sein! Mofumofu! Mofumofu! Haar Haar Mofumofu! Knuspriger Mofumofu ... Kyun Kyun Kyu! !!\n\
Der 12. Band des Romans, Louise, war süß! !! Ah ah ah ah ah ah! !! Fahhhhh! !!\n\
Ich bin froh, dass die zweite Staffel des Anime ausgestrahlt wurde, Louis-tan! Oh oh oh oh! süß! Louise! süß! A-aa ~ aa!"
print(re.sub(r"(.)\1{1,}", "\g<1>", text))
#Louise! Louise! Louise! Louis Wow Wow!
#Ah ... ah ... ah! Aa! Louise Louise Louise Wow!
#Ah Kunka Kunka! Kunka Kunka! Suha Suha! Suha Suha! Es riecht nach ... Kun
#Hmm! Ich möchte die rosa blonden Haare von Louise Francoise-tan quetschen! Kunka Kunka! Aa!
#habe mich geirrt! Ich möchte flauschig sein! Mofumofu! Mofumofu! Haare flauschig! Knuspriger Mofumofu ... Kyun Kyun Kyu!
#Der 12. Band des Romans, Louise, war süß! Ah ... ah ... ah! Fah!
#Ich bin froh, dass die zweite Staffel des Anime ausgestrahlt wurde, Louis-tan! Aa! Süß! Louise! Süß! Ahhhh!
Reverse-Austausch. Ich habe verschiedene Dinge gesehen, aber ich hatte das Gefühl, dass sie alle hier waren.
Gruppierung bei Verwendung regulärer Ausdrücke in Python. Für Python dauerte es eine Weile, bis mir klar wurde, dass ich \ g <1> anstelle von $ 1 schreiben musste.
Recommended Posts