Zusammenfassung dessen, was ich aus dem Lesen der Python 2.7-Dokumentation gelernt habe
Unicode HOWTO — Python 2.7.13 documentation https://docs.python.org/2/howto/unicode.html
7.8. codecs — Codec registry and base classes — Python 2.7.13 documentation https://docs.python.org/2/library/codecs.html#encodings-and-unicode
Die Nummern 0-127 wurden den Buchstaben von ASCII (American Standard Code for Information Interchange) zugewiesen. Beispiel) a: 97
$ python -V
Python 2.7.10
>>> unichr(97)
u'a'
>>> ord('a')
97
unichr(i) - 2. Built-in Functions — Python 2.7.13 documentation ord(i) - 2. Built-in Functions — Python 2.7.13 documentation
Es konnte jedoch nicht die in Europa verwendeten é- und russischen Kirill-Zeichen darstellen.
8-Bit-Computer (2 ^ 8 = 256) wurden zum Mainstream, und 128-255 wurden jeweils Zeichen in ihrem eigenen Format zugewiesen.
Unicode wurde entwickelt, um diesen Unterschied zu beseitigen.
Unicode
The Unicode standard describes how characters are represented by code points.
Character: a code points: 97 (0x61)
Anfangs verwendete Unicode 16 Bit (65.536). Es hat derzeit eine Breite von 0–1.114.111 (0x10ffff).
a Unicode string is a sequence of code points, which are numbers from 0 to 0x10ffff.
Encodings
The rules for translating a Unicode string into a sequence of bytes are called an encoding.
>>> 'a'.encode('hex')
'61'
$ python -V
Python 2.7.10
>>> s = 'a b c x y z'
>>> s.encode('hex')
'612062206320782079207a'
"A" wird mit "STRG-v + u0061" eingegeben.
Recommended Posts