Kodierung des Urteils in Python

Kodierung des Urteils in Python

Klassische Bibliothek

Übersicht über Chardet

Lesen Sie die Byte-Zeichenfolge und leiten Sie die aus diesem Muster verwendete Codierung ab.

Es gibt zwei grundlegende Möglichkeiten, Chardet zu verwenden

  1. Lassen Sie die Funktion `` `erkennen``` die Byte-Zeichenfolge lesen
  2. Wenn die Größe der zu lesenden Byte-Zeichenfolge zu groß ist, erstellen Sie ein `UniversalDetector```-Objekt und laden Sie es nach und nach mit der` feed``` -Methode.

Methode 1

import chardet
from urllib.request import urlopen

with urlopen('http://qiita.com/') as response:
    html = response.read()
    print(chardet.detect(html))  // {'confidence': 0.99, 'encoding': 'utf-8'}

Methode 2

Hauptschnittstellen des Universal Detector :

from chardet.universaldetector import UniversalDetector
from urllib.request import urlopen

detector = UniversalDetector()

with urlopen('http://qiita.com/') as response:
    for l in response:
        detector.feed(l)
        if detector.done:
            break
detector.close()
print(detector.result)  // {'confidence': 0.99, 'encoding': 'utf-8'}

Es ist einfach, `` detector.feed``` Zeile für Zeile detector``` zu lesen und `detecor.done``` zu überprüfen, ob das Urteil vollständig ist. Dann der Ablauf der Anzeige des Ergebnisses am Ende.

Weiter studieren

  • [Wie es funktioniert] in der Chardet-Dokumentation (https://chardet.readthedocs.org/en/latest/how-it-works.html)
  • Die erste Hälfte von [Kapitel 15] von Dive Into Python 3 (http://diveintopython3-ja.rdy.jp/case-study-porting-chardet-to-python-3.html)

Recommended Posts

Kodierung des Urteils in Python
Base64-Codierung von Bildern in Python 3
Python-Codierung
Quadtree in Python --2
Python in der Optimierung
CURL in Python
Metaprogrammierung mit Python
Python 3.3 mit Anaconda
SendKeys in Python
Epoche in Python
Zwietracht in Python
Deutsch in Python
DCI in Python
Quicksort in Python
nCr in Python
N-Gramm in Python
Programmieren mit Python
Konstante in Python
FizzBuzz in Python
SQLite in Python
Schritt AIC in Python
LINE-Bot [0] in Python
CSV in Python
Reverse Assembler mit Python
Reflexion in Python
Konstante in Python
nCr in Python.
Format in Python
Scons in Python 3
Puyopuyo in Python
Python in Virtualenv
PPAP in Python
Quad-Tree in Python
Reflexion in Python
Chemie mit Python
Hashbar in Python
DirectLiNGAM in Python
LiNGAM in Python
In Python reduzieren
In Python flach drücken
So setzen Sie die Standardcodierung in Python auf utf-8
Sortierte Liste in Python
Täglicher AtCoder # 36 mit Python
Clustertext in Python
AtCoder # 2 jeden Tag mit Python
Täglicher AtCoder # 32 in Python
Täglicher AtCoder # 6 in Python
Täglicher AtCoder # 18 in Python
Bearbeiten Sie Schriftarten in Python
Singleton-Muster in Python
Dateioperationen in Python
Lesen Sie DXF mit Python
Täglicher AtCoder # 53 in Python
Tastenanschlag in Python
Verwenden Sie config.ini mit Python
Täglicher AtCoder # 33 in Python
Löse ABC168D in Python
Logistische Verteilung in Python