Zeichencode | Zeichencode von "A" | len('Ah') |
---|---|---|
unicode | \u3042 | 1 |
euc-jp | \xa4\xa2 | 2 |
utf-8 | \xe3\x81\x82 | 3 |
Umwandlung | Code | Rückgabewert |
---|---|---|
euc-jp → unicode | unicode('\xa4\xa2','euc-jp') | u'\u3042' |
euc-jp → unicode | '\xa4\xa2'.decode('euc-jp') | u'\u3042' |
utf-8 → unicode | unicode('\xe3\x81\x82','utf-8') | u'\u3042' |
utf-8 → unicode | '\xe3\x81\x82'.decode('utf-8') | u'\u3042' |
unicode → euc-jp | u'\u3042'.encode('euc-jp') | '\xa4\xa2' |
unicode → utf-8 | u'\u3042'.encode('utf-8') | '\xe3\x81\x82' |
utf-8 → unicode → euc-jp | unicode('\xe3\x81\x82','utf-8').encode('euc-jp') | '\xa4\xa2' |
utf-8 → unicode → euc-jp | '\xe3\x81\x82'.decode('utf-8').encode('euc-jp') | '\xa4\xa2' |
euc-jp → unicode → utf-8 | unicode('\xa4\xa2','euc-jp').encode('utf-8') | '\xe3\x81\x82' |
euc-jp → unicode → utf-8 | '\xa4\xa2'.decode('euc-jp').encode('utf-8') | '\xe3\x81\x82' |
Unicode
Zum Zeitpunkt von Unicode
>>> string=u'Ah'
>>> string
u'\u3042'
EUC-JP -> Unicode
EUC-Zum Zeitpunkt von JP
>>> string='Ah'
>>> string
'\xa4\xa2'
>>> len(string)
2
Falsch
>>> unicode(string)
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa4 in position 0: ordinal not in range(128)
Positiv
>>> unicode(string,'euc-jp')
u'\u3042'
UTF -> Unicode
UTF-Um 8
>>> string='Ah'
>>> string
'\xe3\x81\x82'
>>> len(string)
3
Falsch
>>> unicode(string)
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128)
Positiv
>>> unicode(string,'utf-8')
u'\u3042'
Konvertierungstyp | Funktion oder Methode |
---|---|
Nicht-Unicode-Zeichenfolge → Unicode-Zeichenfolge | unicode([Nicht-Unicode-Zeichenfolge], [Zeichencode], [errors='strict']) |
Nicht-Unicode-Zeichenfolge → Unicode-Zeichenfolge | Nicht-Unicode-Zeichenfolge.decode([Zeichencode], [errors='strict']) |
Unicode-Zeichenfolge → Nicht-Unicode-Zeichenfolge | Unicode-Zeichenfolge.encode([Zeichencode], [errors='strict']) |
errors
unicode | encode | decode | errors | Inhalt |
---|---|---|---|---|
○ | ○ | ○ | strict | Wirf UnicodeDecodeError |
○ | ○ | ○ | replace | U+FFFD,"ERSATZZEICHEN" hinzugefügt |
○ | ○ | ○ | ignore | Entfernen Sie Zeichen aus der resultierenden Unicode-Zeichenfolge |
× | ○ | × | xmlcharrefreplace | Verwenden Sie XML-Zeichenreferenzen |
Recommended Posts