[Python] [chardet] Détection automatique du code de caractère dans les fichiers

J'ai vérifié si Python pouvait déterminer automatiquement le code du caractère et j'ai pris une note.

C'était facile à faire avec un paquet appelé chardet.

Usage — chardet 2.3.0 documentation

Exemple d'utilisation

`test.py`


from chardet.universaldetector import UniversalDetector

def check_encoding(file_path):
    detector = UniversalDetector()
    with open(file_path, mode='rb') as f:
        for binary in f:
            detector.feed(binary)
            if detector.done:
                break
    detector.close()
    print(detector.result, end='')
    print(detector.result['encoding'], end='')

def main():
    check_encoding('/path/to/sjis.txt')
    check_encoding('/path/to/utf8.txt')

if __name__ == '__main__':
    main()

`Exemple de sortie`


$ python test.py
{'encoding': 'CP932', 'confidence': 0.99}
CP932
{'encoding': 'utf-8', 'confidence': 0.99}
utf-8

Veuillez noter que cela peut prendre un certain temps pour déterminer s'il s'agit d'un fichier volumineux. (Le «Détecteur universel» ci-dessus semble se terminer dès qu'il peut être déterminé)

référence

Jugement d'encodage en Python --Qiita Usage — chardet 2.3.0 documentation

Recommended Posts

[Python] [chardet] Détection automatique du code de caractère dans les fichiers

[Python] Récupère le code de caractère du fichier

Convertir le code de caractère du fichier avec Python3

2.x, 3.x code de caractères des séries python

code de caractère python

Gestion des codes de caractères des fichiers en IronPython

Liens et mémos de chaînes de code de caractères Python

résumé lié à l'opération de fichier python

Code de caractère appris en Python

Crache une liste de noms de fichiers, de dates de dernière modification et de codes de caractères en python3

Chiffrement facile du contenu des fichiers (Python)

Collecte automatique des cours boursiers à l'aide de python

[Python3] Réécrire l'objet code de la fonction

[Python] Résumé de la conversion entre les chaînes de caractères et les valeurs numériques (code ascii)

Code de caractère

Fichier Python CSV Conversion de code de caractère, extraction de nom de fichier, lecture, sortie, opération de fusion

Lisez le fichier en spécifiant le code de caractère.

Grammaire de base de la série Python3 (chaîne de caractères)

Conversion de code de caractère des fichiers CSV à l'aide de Loop (Shift JIS to UTF8)

[Python3] Comprendre les bases des opérations sur les fichiers

[Python] Lire le code source de Bottle Part 2

[python] Créer une liste de différents types de caractères

[Automation] Convertissez le code Python en fichier exe

Pounding Literary Club x Python ① Analyse de fichier de personnage

Encodage de caractères lors de l'utilisation du module csv de python 2.7.3

[Python] Lire le code source de Bottle Part 1

[Python] Résumé des opérations sur les fichiers S3 avec boto3

Code pour vérifier le fonctionnement de Python Matplot lib

Liste de code Python à déplacer et à mémoriser

[Python] Chapitre 02-02 Bases des programmes Python (gestion des chaînes de caractères)

Analyse statique du code Python avec GitLab CI

Évaluation de la vitesse de sortie du fichier CSV en Python

[Blender x Python] Pensez au code avec des symboles

Python / Clé basse automatique inadaptée aux données expérimentales

Obtenez la date de mise à jour du fichier de mémorandum Python.

Fichier python de script

Traitement de fichiers Python

Les bases de Python ①

Bases de python ①

Détection de fichier vide

Copie de python

[Python] Code conscient des algorithmes

Introduction de Python

série python2 / série 3, code de caractère et instruction d'impression / ligne de commande

Faire une copie d'un fichier Google Drive à partir de Python

[Python] Obtenez le chemin d'accès officiel du fichier de raccourci (.lnk)

Une collection de code souvent utilisée dans Python personnel

Décomposons les bases du code Python de TensorFlow

Récupérer le code retour d'un script Python depuis bat

#Une fonction qui renvoie le code de caractère d'une chaîne de caractères

Ruby, exécution de fragments de code Python de la sélection dans Emacs

Lire le code QR à partir du fichier image avec Python (Mac)

Liste du code Python utilisé dans l'analyse de Big Data

L'histoire de la conversion automatique du langage de TypeScript / JavaScript / Python

[Python] Code pour mesurer la lumière ambiante RVB de l'APDS9960

Vérifions et formons statiquement le code du test automatique E2E écrit en Python [VS Code]