[PYTHON] Ich hatte Probleme, weil die Zeichenfolge im PDF seltsam war

Probleme konfrontiert

Wenn ich versuche, die Zeichenfolge von PDF zu erhalten, sind manchmal seltsame Zeichen enthalten. Selbst wenn ich versuche, durch Suchen einen passenden Ort zu finden, funktioniert dies nicht.

Kopieren Sie die folgende Zeichenfolge und fügen Sie sie in den Editor ein!

Große Höhe Mida Mt.

Ist es nicht anders? Auf der Konsole sah es genauso aus, daher brauchte ich eine Weile, um zu erkennen, warum ich es nicht finden konnte.

Die Ursache scheint Unicode zu sein

Ich habe vergessen, wie ich gesucht habe und bin angekommen, aber ich habe mich hier darauf bezogen. https://qiita.com/korkewriya/items/e747253b715f41febfc4

Mit dem folgenden Code gelöst


#Es wird angenommen, dass das Ergebnis bereits eine Zeichenfolge enthält
from unicodedata import normalize
result = normalize('NFKC', result)  #Unicode-Normalisierung

Recommended Posts

Ich hatte Probleme, weil die Zeichenfolge im PDF seltsam war
Ich war in Schwierigkeiten, weil ich nicht mit Heroku pushen konnte
Ich war in Schwierigkeiten, weil sich das Verhalten des Docker-Containers nicht geändert hat
Finden Sie heraus, wie viele Zeichen sich in der Zeichenfolge befinden.
[Golang] Überprüfen Sie, ob eine bestimmte Zeichenfolge in der Zeichenfolge enthalten ist
Ich habe mich im Labyrinth verlaufen
Ich habe an der ISUCON10-Qualifikationsrunde teilgenommen!
Ich habe die Warteschlange in Python geschrieben
Ich habe den Stack in Python geschrieben
Holen Sie sich die Abfragezeichenfolge (Abfragezeichenfolge) mit Django
Ich möchte das Ergebnis von "Zeichenfolge" .split () in Python stapelweise konvertieren
Der Dateiname war in Python schlecht und ich war süchtig nach Import
[Einführung in Python] Eine ausführliche Erklärung der in Python verwendeten Zeichenkettentypen!
[Pandas] Erweitern Sie die Zeichenfolgen zu DataFrame
Ich habe versucht, die verkratzten Daten in CSV zu speichern!
Schriftliche Auswahlsortierung in C.
Ich kann das Element in Selen nicht bekommen!
Wellenförmige Klammern in der Formatzeichenfolge maskieren
[PowerShell] Lesen Sie die Zeichenfolge
Ich habe den Gleitflügel in der Schöpfung geschrieben.
Bei der Konvertierung von CSV in JSON mit Python bin ich auf einen Zeichencode gestoßen
Teilt die Zeichenfolge durch die angegebene Anzahl von Zeichen. In Ruby und Python.
Ich war vergebens, weil ich mit pybitflyer keine Bestellung für Eltern erhalten konnte
Bei Verwendung des Dialogfelds zum Öffnen des Verzeichnisses in Tkinter wird ein seltsames Fenster angezeigt