[Python] [chardet] Automatische Erkennung von Zeichencode in Dateien

Ich habe geprüft, ob Python den Zeichencode automatisch ermitteln kann, und mir eine Notiz gemacht.

Mit einem Paket namens "Chardet" war das ganz einfach.

Usage — chardet 2.3.0 documentation

Anwendungsbeispiel

test.py


from chardet.universaldetector import UniversalDetector

def check_encoding(file_path):
    detector = UniversalDetector()
    with open(file_path, mode='rb') as f:
        for binary in f:
            detector.feed(binary)
            if detector.done:
                break
    detector.close()
    print(detector.result, end='')
    print(detector.result['encoding'], end='')

def main():
    check_encoding('/path/to/sjis.txt')
    check_encoding('/path/to/utf8.txt')

if __name__ == '__main__':
    main()

Ausgabebeispiel


$ python test.py
{'encoding': 'CP932', 'confidence': 0.99}
CP932
{'encoding': 'utf-8', 'confidence': 0.99}
utf-8

Bitte beachten Sie, dass es einige Zeit dauern kann, um festzustellen, ob es sich um eine große Datei handelt. (Der obige "Universal Detetor" scheint zu enden, sobald er bestimmt werden kann.)

Referenz

Kodierung des Urteils in Python - Qiita Usage — chardet 2.3.0 documentation

Recommended Posts

[Python] [chardet] Automatische Erkennung von Zeichencode in Dateien
[Python] Ruft den Zeichencode der Datei ab
Konvertieren Sie den Zeichencode der Datei mit Python3
2.x, 3.x Serienzeichencode von Python
Python-Zeichencode
Umgang mit Zeichencodes von Dateien in IronPython
Links und Memos von Python-Zeichencodezeichenfolgen
Zusammenfassung der Python-Dateivorgänge
In Python gelernter Zeichencode
Csv spuckte eine Liste mit Dateinamen, zuletzt geänderten Daten und Zeichencodes in Python3 aus
Einfache Verschlüsselung von Dateiinhalten (Python)
Automatische Erfassung von Aktienkursen mit Python
[Python3] Schreiben Sie das Codeobjekt der Funktion neu
[Python] Zusammenfassung der Konvertierung zwischen Zeichenfolgen und numerischen Werten (ASCII-Code)
Zeichencode
Python CSV-Datei Zeichencodekonvertierung, Extraktion von Dateinamen, Lesen, Ausgeben, Zusammenführen
Lesen Sie die Datei, indem Sie den Zeichencode angeben.
Grundlegende Grammatik der Python3-Reihe (Zeichenkette)
Zeichencode-Konvertierung von CSV-Dateien mit Loop (Shift JIS to UTF8)
[Python3] Grundlegendes zu Dateivorgängen
[Python] Lesen Sie den Quellcode von Flasche Teil 2
[Python] Erstellen Sie eine Liste mit verschiedenen Zeichentypen
[Automatisierung] Konvertieren Sie Python-Code in eine exe-Datei
Pounding Literary Club x Python ① Analyse der Charakterdatei
Zeichenkodierung bei Verwendung des CSV-Moduls von Python 2.7.3
[Python] Lesen Sie den Quellcode von Flasche Teil 1
[Python] Zusammenfassung der S3-Dateivorgänge mit boto3
Code zum Überprüfen des Betriebs von Python Matplot lib
Liste des zu verschiebenden und zu merkenden Python-Codes
[Python] Kapitel 02-02 Grundlagen von Python-Programmen (Umgang mit Zeichenketten)
Statische Analyse von Python-Code mit GitLab CI
Geschwindigkeitsbewertung der Ausgabe von CSV-Dateien in Python
[Blender x Python] Denken Sie an Code mit Symbolen
Python / Automatic Low Wrench, nicht für experimentelle Daten geeignet
Rufen Sie das Aktualisierungsdatum der Python-Memorandum-Datei ab.
Skript-Python-Datei
Python-Dateiverarbeitung
Python-Grundlagen ①
Grundlagen von Python ①
Leere Dateierkennung
Kopie von Python
[Python] Code, der Algorithmen kennt
Einführung von Python
python2 series / 3 series, Zeichencode und print-Anweisung / Befehlszeile
Erstellen Sie eine Kopie einer Google Drive-Datei aus Python
[Python] Ruft den offiziellen Dateipfad der Verknüpfungsdatei ab (.lnk)
Eine Code-Sammlung, die häufig in persönlichem Python verwendet wird
Lassen Sie uns die Grundlagen des Python-Codes von TensorFlow aufschlüsseln
Holen Sie sich den Rückkehrcode eines Python-Skripts von bat
#Eine Funktion, die den Zeichencode einer Zeichenfolge zurückgibt
Ruby, Python-Codefragment Ausführung der Auswahl in Emacs
Lesen Sie den QR-Code aus der Bilddatei mit Python (Mac).
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Die Geschichte der automatischen Sprachkonvertierung von TypeScript / JavaScript / Python
[Python] Code zur Messung des Umgebungslichts RGB von APDS9960
Lassen Sie uns den Code des in Python [VS Code] geschriebenen automatischen E2E-Tests statisch überprüfen und formatieren.