[Python] [chardet] Automatische Erkennung von Zeichencode in Dateien

Ich habe geprüft, ob Python den Zeichencode automatisch ermitteln kann, und mir eine Notiz gemacht.

Mit einem Paket namens "Chardet" war das ganz einfach.

Usage — chardet 2.3.0 documentation

Anwendungsbeispiel

`test.py`


from chardet.universaldetector import UniversalDetector

def check_encoding(file_path):
    detector = UniversalDetector()
    with open(file_path, mode='rb') as f:
        for binary in f:
            detector.feed(binary)
            if detector.done:
                break
    detector.close()
    print(detector.result, end='')
    print(detector.result['encoding'], end='')

def main():
    check_encoding('/path/to/sjis.txt')
    check_encoding('/path/to/utf8.txt')

if __name__ == '__main__':
    main()

`Ausgabebeispiel`


$ python test.py
{'encoding': 'CP932', 'confidence': 0.99}
CP932
{'encoding': 'utf-8', 'confidence': 0.99}
utf-8

Bitte beachten Sie, dass es einige Zeit dauern kann, um festzustellen, ob es sich um eine große Datei handelt. (Der obige "Universal Detetor" scheint zu enden, sobald er bestimmt werden kann.)

Referenz

Kodierung des Urteils in Python - Qiita Usage — chardet 2.3.0 documentation

Recommended Posts

[Python] [chardet] Automatische Erkennung von Zeichencode in Dateien

[Python] Ruft den Zeichencode der Datei ab

Konvertieren Sie den Zeichencode der Datei mit Python3

2.x, 3.x Serienzeichencode von Python

Python-Zeichencode

Umgang mit Zeichencodes von Dateien in IronPython

Links und Memos von Python-Zeichencodezeichenfolgen

Zusammenfassung der Python-Dateivorgänge

In Python gelernter Zeichencode

Csv spuckte eine Liste mit Dateinamen, zuletzt geänderten Daten und Zeichencodes in Python3 aus

Einfache Verschlüsselung von Dateiinhalten (Python)

Automatische Erfassung von Aktienkursen mit Python

[Python3] Schreiben Sie das Codeobjekt der Funktion neu

[Python] Zusammenfassung der Konvertierung zwischen Zeichenfolgen und numerischen Werten (ASCII-Code)

Zeichencode

Python CSV-Datei Zeichencodekonvertierung, Extraktion von Dateinamen, Lesen, Ausgeben, Zusammenführen

Lesen Sie die Datei, indem Sie den Zeichencode angeben.

Grundlegende Grammatik der Python3-Reihe (Zeichenkette)

Zeichencode-Konvertierung von CSV-Dateien mit Loop (Shift JIS to UTF8)

[Python3] Grundlegendes zu Dateivorgängen

[Python] Lesen Sie den Quellcode von Flasche Teil 2

[Python] Erstellen Sie eine Liste mit verschiedenen Zeichentypen

[Automatisierung] Konvertieren Sie Python-Code in eine exe-Datei

Pounding Literary Club x Python ① Analyse der Charakterdatei

Zeichenkodierung bei Verwendung des CSV-Moduls von Python 2.7.3

[Python] Lesen Sie den Quellcode von Flasche Teil 1

[Python] Zusammenfassung der S3-Dateivorgänge mit boto3

Code zum Überprüfen des Betriebs von Python Matplot lib

Liste des zu verschiebenden und zu merkenden Python-Codes

[Python] Kapitel 02-02 Grundlagen von Python-Programmen (Umgang mit Zeichenketten)

Statische Analyse von Python-Code mit GitLab CI

Geschwindigkeitsbewertung der Ausgabe von CSV-Dateien in Python

[Blender x Python] Denken Sie an Code mit Symbolen

Python / Automatic Low Wrench, nicht für experimentelle Daten geeignet

Rufen Sie das Aktualisierungsdatum der Python-Memorandum-Datei ab.

Skript-Python-Datei

Python-Dateiverarbeitung

Python-Grundlagen ①

Grundlagen von Python ①

Leere Dateierkennung

Kopie von Python

[Python] Code, der Algorithmen kennt

Einführung von Python

python2 series / 3 series, Zeichencode und print-Anweisung / Befehlszeile

Erstellen Sie eine Kopie einer Google Drive-Datei aus Python

[Python] Ruft den offiziellen Dateipfad der Verknüpfungsdatei ab (.lnk)

Eine Code-Sammlung, die häufig in persönlichem Python verwendet wird

Lassen Sie uns die Grundlagen des Python-Codes von TensorFlow aufschlüsseln

Holen Sie sich den Rückkehrcode eines Python-Skripts von bat

#Eine Funktion, die den Zeichencode einer Zeichenfolge zurückgibt

Ruby, Python-Codefragment Ausführung der Auswahl in Emacs

Lesen Sie den QR-Code aus der Bilddatei mit Python (Mac).

Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird

Die Geschichte der automatischen Sprachkonvertierung von TypeScript / JavaScript / Python

[Python] Code zur Messung des Umgebungslichts RGB von APDS9960

Lassen Sie uns den Code des in Python [VS Code] geschriebenen automatischen E2E-Tests statisch überprüfen und formatieren.