Links und Memos von Python-Zeichencodezeichenfolgen
Über den Zeichencode
Es gibt zwei Typen, einen codierten Zeichensatz und eine Zeichencodierungsmethode.
Codierter Zeichensatz
Zeichen- und Codepunktzuordnung
- Beispiel: Unicode, ASCII
- Standard-Unicode in Python3
>>> hex(ord("Ah"))
'0x3042' #Unicode"Ah"Codepunkt
Zeichencodierungsmethode
Zeichenoperationsmethode, Implementierungsmethode
- Beispiel: utf-8, shift-jis, euc-jp
- "A" wird zu einer anderen Byte-Zeichenfolge, wenn es mit utf-8 und utf-16 codiert wird
- utf-8: 0xE3 0x81 0x82
- utf-16: 0x30, 0x42
Umgang mit Zeichen in Python 3
--'Ah'
Literal ist eine Unicode-Zeichenfolge
- Bei der Konvertierung in Bytes "Ah". Encode ("utf-8")
- Wenn Bytes an Unicode zurückgegeben werden,
bytes_moji.decode ('utf-8')
- Die Funktion unterscheidet sich beim Schreiben in eine Datei mit Unicode und beim Schreiben mit Byte und Lesen.
- Umgang mit Zeichencodes in Python
Vorerst Umgang mit Python2
- In Python2 erfolgt die Bytekonvertierung standardmäßig mit ASCII
- Beim Versuch, eine japanische Zeichenfolge in eine Datei zu konvertieren, tritt ein Fehler auf, wenn versucht wird, mit dem Standard-ASCII in Byte zu codieren.
- muss angegeben werden, um mit utf-8 zu codieren