Python-String

Python verwendet einen Mechanismus namens Codecs, um Multibyte-Zeichen in verschiedene Codierungen zu konvertieren. Es scheint, dass es nicht nur Japanisch, sondern auch Koreanisch und Chinesisch unterstützt.

Multibyte-Zeichen

Ausgedrückt als Daten von 2 Bytes oder mehr. Zeichen, die nicht durch 1 Byte dargestellt werden können

[a] Kann in 1 Byte ausgedrückt werden [A] Kann nicht in 1 Byte ausgedrückt werden

Zeichencode

Ich habe die repräsentativen untersucht und sie unten zusammengefasst

ASCII Ein Zeichencode, der Alphabete, Zahlen, Symbole usw. zusammenfasst. Es wird weltweit häufig als grundlegendster Zeichencode verwendet, und viele andere Zeichencodes werden als Erweiterungen von ASCII implementiert. Zeichen werden durch 7-Bit-Werte (0 bis 127) dargestellt, und 128 Zeichen werden aufgezeichnet. "A" ist 0x41 in ASCII (0x steht für eine Hexadezimalzahl).

Da es schwer vorstellbar war, habe ich die unteren Buchstaben und alphabetischen Teile unten extrahiert.

Hexagon	Brief
0x61	a
0x62	b
0x63	c
0x64	d
0x65	e
0x66	f
0x67	g
0x68	h
0x69	i
0x6a	j
0x6b	k
0x6c	l
0x6d	m
0x6e	n
0x6f	o
0x70	p
0x71	q
0x72	r
0x73	s
0x74	t
0x75	u
0x76	v
0x77	w
0x78	x
0x79	y
0x7a	z

Shift_JIS Es ist ein Zeichencode, der häufig zur Darstellung von Japanisch verwendet wird und verschiedene Zeichen zusammenfasst, einschließlich Japanisch, das von der Japan Industrial Standards Research Association standardisiert wurde. Alle Zeichen werden durch 2 Bytes dargestellt. "A" ist 0x82E0 in Shift_JIS. UTF-8 Dies ist heute der am weitesten verbreitete Standardzeichencode. Alle Zeichen werden durch 1 bis 4 Bytes dargestellt. Da es Zeichen aus der ganzen Welt verarbeiten kann, wird es standardmäßig verwendet. Der gleiche Teil wie ASCII wird durch 1 Byte dargestellt, und die anderen Teile werden durch 2 bis 6 Byte dargestellt, was eine Codierungsmethode mit variabler Länge ist. UTF-8 ist sehr kompatibel mit ASCII-Code und wird von vielen Softwareprogrammen auf der ganzen Welt verwendet. "A" ist 0xe38182 in UTF-8. In Python Version 2.x war der Standardzeichencode ASCII. In Python Version 3.x lautet der Standardzeichencode UTF-8, sodass Sie Japanisch verarbeiten können, ohne den Zeichencode zu deklarieren.

Unicode Ein von der International Standards Organization (ISO) als Teil von ISO / IEC 10646 standardisierter Zeichencode. Der Zweck ist, dass es mit dem Ziel der Codierung erstellt wurde, die in allen Ländern gemeinsam verwendet werden kann.

So konvertieren Sie eine Zeichenfolge in einen Bytetyp

encode() Beschreibungsmethode 'Character string'.encode (' Character code name ') * Character code = "utf-8" usw.

decode() Beschreibungsmethode b'byte string'.decode ('Zeichencode Name')