3-3, Python-Zeichenfolge und Zeichencode

Zeichencode

Die Zeichenfolge lautet Zeichencode, Es wird ein spezieller Datentyp.

Da der Computer nur Zahlen verarbeiten kann, müssen textformatierte Zeichen in Zahlen umgewandelt werden. Als der Computer zum ersten Mal entworfen wurde, wurde 1 Byte zu 8 Bit. Die maximale Ganzzahl, die in einem Byte angezeigt werden kann, ist 255 (die Binärzahl 11111111 ist die Dezimalzahl 255), und eine große Anzahl von Bytes ist erforderlich, um eine größere Ganzzahl anzuzeigen. Die maximale Ganzzahl, die in 2 Bytes angezeigt werden kann, beträgt beispielsweise 65535 und 4 Byte 4294967295.

Die Computerentwicklung schreitet hauptsächlich in den USA voran, und der erste standardisierte Zeichencode ist nur 128. Dieser Zeichencode heißt ASCII und kann alle im Englischen verwendeten alphanumerischen Zeichen, Symbole, Leerzeichen, Zeilenumbrüche usw. verarbeiten. Beispiel: Der Zeichencode von "A" ist "65" und der Zeichencode von "z" ist "122".

Natürlich reicht 1 Byte nicht aus, um Japanisch zu verarbeiten, also müssen wir 2 Bytes machen. Da jedoch ASCII nicht verwendet werden kann, hat Japan einen JIS-Code erstellt. In anderen Ländern wurden nationale Zeichencodes basierend auf ASCII erstellt. Infolgedessen wurden verstümmelte Zeichen für Textdateien angezeigt, in denen mehrere Sprachen gemischt wurden.

Unicode wurde geboren, um mit verstümmelten Charakteren umzugehen. Alle Sprachen wurden zu einem Zeichencode (Unicode) zusammengefasst. Unicode wird noch verbessert, aber alle häufig verwendeten Zeichen werden in 2 Bytes verarbeitet.

Das ASCII der Zeichenfolge "A" ist die Dezimalzahl "65" und die Binärzahl "01000001". Das ASCII der Zeichenfolge "0" ist die Dezimalzahl "48" und die Binärzahl "00110000". (Hinweis: Die Zeichenfolge "0" und die Zahl "0" sind nicht identisch.) Da ASCII A als Unicode angezeigt wird, sollte 0 davor eingegeben werden. Der Unicode-Zeichencode für "A" lautet "00000000 01000001". Hier kommt ein neues Problem. Wenn Unicode verwendet wird, verschwinden die verstümmelten Zeichen, aber die Datenmenge ist doppelt so groß wie die von ASCII für alle englischen Textdaten. Um dies zu lösen, haben wir ein UTF-8 mit variabler Länge erstellt. In UTF-8 wurde es abhängig von der Größe von 1 Zeichen Unicode von 1 Byte auf 6 Byte konvertiert. Es gibt 1 Byte für Alphabete, 1 bis 3 Byte für gewöhnliches Kanji und 4 bis 6 Byte für selten verwendetes Kanji.

E697A 5. 110010111100101 11100110 10010111 10100101

Inhaltsverzeichnis IT-Memos für Nicht-IT-Branchen

Referenz: ・ Zeichencode-Kurs 1. Verlauf des Zeichencodes (Vor-Unicode-Verlauf)

Recommended Posts

3-3, Python-Zeichenfolge und Zeichencode
Links und Memos von Python-Zeichencodezeichenfolgen
[Python] Extrahieren Sie nur Zahlen aus Listen und Zeichenfolgen
[Anfänger] Extrahieren Sie Zeichenketten mit Python
Python-Zeichencode
[Einführung in die Udemy Python3 + -Anwendung] 11. Zeichenkette
[Einführung in die Udemy Python3 + -Anwendung] 12. Indizieren und Schneiden von Zeichenketten
[Python] Verschiedene Kombinationen von Zeichenketten und Werten
[Python] Zusammenfassung der Konvertierung zwischen Zeichenfolgen und numerischen Werten (ASCII-Code)
[Python] Kapitel 02-02 Grundlagen von Python-Programmen (Umgang mit Zeichenketten)
[Python] Komprimieren und dekomprimieren
Python- und Numpy-Tipps
[Python] Pip und Wheel
Python Node.js Zeichenmanipulation
Python Iterator und Generator
Python-Pakete und -Module
Vue-Cli- und Python-Integration
Ruby, Python und Map
Python-Eingabe und Ausgabe
Python und Ruby teilen sich
Vergleichen Sie Zeichenfolgen in Python
Strings in Python umkehren
Python asyncio und ContextVar
Ersetzen und löschen Sie Zeichenfolgen
python2 series / 3 series, Zeichencode und print-Anweisung / Befehlszeile
Bearbeiten von Python-Zeichenlisten (Arrays)
Programmieren mit Python und Tkinter
[Python3] Sei vorsichtig beim Strippen (Strip, Lstrip, Rstrip)
Python: Klassen- und Instanzvariablen
Zeichenfolgen ohne Zeilenumbrüche in Python anzeigen (persönliches Memo)
Python 2-Serie und 3-Serie (Anaconda Edition)
Python und Hardware-Verwenden von RS232C mit Python-
Python auf Ruby und wütend Ruby auf Python
Python-Einzug und String-Format
[Python] So erstellen Sie eine Liste von Zeichenfolgen Zeichen für Zeichen
Python Real Number Division (/) und Integer Division (//)
Installieren Sie Python und Flask (Windows 10)
Entfernen Sie Leerzeichen in voller Breite vor und nach der Zeichenfolge (Python).
Informationen zu Python-Objekten und -Klassen
Informationen zu Python-Variablen und -Objekten
Apache mod_auth_tkt und Python AuthTkt
Å (Ongustorome) und NFC @ Python
Lernen Sie Python-Pakete und -Module kennen
# 2 [python3] Trennung und Kommentar aus
Flache Python-Kopie und tiefe Kopie
Python und Ruby Slice Memo
Python-Installation und grundlegende Grammatik
Ich habe Java und Python verglichen!
Flache Python-Kopie und tiefe Kopie
Holen Sie sich Python-Webseite, Zeichenkodierung und Anzeige
Datum und Uhrzeit ⇔ Zeichenkette
Über Python, len () und randint ()
Informationen zu Python-Datums- und Zeitzone
Installieren Sie Python 3.7 und Django 3.0 (CentOS)
2.x, 3.x Serienzeichencode von Python
Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python