[Python] [chardet] Détection automatique du code de caractère dans les fichiers

J'ai vérifié si Python pouvait déterminer automatiquement le code du caractère et j'ai pris une note.

C'était facile à faire avec un paquet appelé chardet.

Usage — chardet 2.3.0 documentation

Exemple d'utilisation

test.py


from chardet.universaldetector import UniversalDetector

def check_encoding(file_path):
    detector = UniversalDetector()
    with open(file_path, mode='rb') as f:
        for binary in f:
            detector.feed(binary)
            if detector.done:
                break
    detector.close()
    print(detector.result, end='')
    print(detector.result['encoding'], end='')

def main():
    check_encoding('/path/to/sjis.txt')
    check_encoding('/path/to/utf8.txt')

if __name__ == '__main__':
    main()

Exemple de sortie


$ python test.py
{'encoding': 'CP932', 'confidence': 0.99}
CP932
{'encoding': 'utf-8', 'confidence': 0.99}
utf-8

Veuillez noter que cela peut prendre un certain temps pour déterminer s'il s'agit d'un fichier volumineux. (Le «Détecteur universel» ci-dessus semble se terminer dès qu'il peut être déterminé)

référence

Jugement d'encodage en Python --Qiita Usage — chardet 2.3.0 documentation

Recommended Posts

[Python] [chardet] Détection automatique du code de caractère dans les fichiers
[Python] Récupère le code de caractère du fichier
Convertir le code de caractère du fichier avec Python3
2.x, 3.x code de caractères des séries python
code de caractère python
Gestion des codes de caractères des fichiers en IronPython
Liens et mémos de chaînes de code de caractères Python
résumé lié à l'opération de fichier python
Code de caractère appris en Python
Crache une liste de noms de fichiers, de dates de dernière modification et de codes de caractères en python3
Chiffrement facile du contenu des fichiers (Python)
Collecte automatique des cours boursiers à l'aide de python
[Python3] Réécrire l'objet code de la fonction
[Python] Résumé de la conversion entre les chaînes de caractères et les valeurs numériques (code ascii)
Code de caractère
Fichier Python CSV Conversion de code de caractère, extraction de nom de fichier, lecture, sortie, opération de fusion
Lisez le fichier en spécifiant le code de caractère.
Grammaire de base de la série Python3 (chaîne de caractères)
Conversion de code de caractère des fichiers CSV à l'aide de Loop (Shift JIS to UTF8)
[Python3] Comprendre les bases des opérations sur les fichiers
[Python] Lire le code source de Bottle Part 2
[python] Créer une liste de différents types de caractères
[Automation] Convertissez le code Python en fichier exe
Pounding Literary Club x Python ① Analyse de fichier de personnage
Encodage de caractères lors de l'utilisation du module csv de python 2.7.3
[Python] Lire le code source de Bottle Part 1
[Python] Résumé des opérations sur les fichiers S3 avec boto3
Code pour vérifier le fonctionnement de Python Matplot lib
Liste de code Python à déplacer et à mémoriser
[Python] Chapitre 02-02 Bases des programmes Python (gestion des chaînes de caractères)
Analyse statique du code Python avec GitLab CI
Évaluation de la vitesse de sortie du fichier CSV en Python
[Blender x Python] Pensez au code avec des symboles
Python / Clé basse automatique inadaptée aux données expérimentales
Obtenez la date de mise à jour du fichier de mémorandum Python.
Fichier python de script
Traitement de fichiers Python
Les bases de Python ①
Bases de python ①
Détection de fichier vide
Copie de python
[Python] Code conscient des algorithmes
Introduction de Python
série python2 / série 3, code de caractère et instruction d'impression / ligne de commande
Faire une copie d'un fichier Google Drive à partir de Python
[Python] Obtenez le chemin d'accès officiel du fichier de raccourci (.lnk)
Une collection de code souvent utilisée dans Python personnel
Décomposons les bases du code Python de TensorFlow
Récupérer le code retour d'un script Python depuis bat
#Une fonction qui renvoie le code de caractère d'une chaîne de caractères
Ruby, exécution de fragments de code Python de la sélection dans Emacs
Lire le code QR à partir du fichier image avec Python (Mac)
Liste du code Python utilisé dans l'analyse de Big Data
L'histoire de la conversion automatique du langage de TypeScript / JavaScript / Python
[Python] Code pour mesurer la lumière ambiante RVB de l'APDS9960
Vérifions et formons statiquement le code du test automatique E2E écrit en Python [VS Code]