Die Zeichenfolge lautet Zeichencode, Es wird ein spezieller Datentyp.
Da der Computer nur Zahlen verarbeiten kann, müssen textformatierte Zeichen in Zahlen umgewandelt werden. Als der Computer zum ersten Mal entworfen wurde, wurde 1 Byte zu 8 Bit. Die maximale Ganzzahl, die in einem Byte angezeigt werden kann, ist 255 (die Binärzahl 11111111 ist die Dezimalzahl 255), und eine große Anzahl von Bytes ist erforderlich, um eine größere Ganzzahl anzuzeigen. Die maximale Ganzzahl, die in 2 Bytes angezeigt werden kann, beträgt beispielsweise 65535 und 4 Byte 4294967295.
Die Computerentwicklung schreitet hauptsächlich in den USA voran, und der erste standardisierte Zeichencode ist nur 128. Dieser Zeichencode heißt ASCII und kann alle im Englischen verwendeten alphanumerischen Zeichen, Symbole, Leerzeichen, Zeilenumbrüche usw. verarbeiten. Beispiel: Der Zeichencode von "A" ist "65" und der Zeichencode von "z" ist "122".
Natürlich reicht 1 Byte nicht aus, um Japanisch zu verarbeiten, also müssen wir 2 Bytes machen. Da jedoch ASCII nicht verwendet werden kann, hat Japan einen JIS-Code erstellt. In anderen Ländern wurden nationale Zeichencodes basierend auf ASCII erstellt. Infolgedessen wurden verstümmelte Zeichen für Textdateien angezeigt, in denen mehrere Sprachen gemischt wurden.
Unicode wurde geboren, um mit verstümmelten Charakteren umzugehen. Alle Sprachen wurden zu einem Zeichencode (Unicode) zusammengefasst. Unicode wird noch verbessert, aber alle häufig verwendeten Zeichen werden in 2 Bytes verarbeitet.
Das ASCII der Zeichenfolge "A" ist die Dezimalzahl "65" und die Binärzahl "01000001".
Das ASCII der Zeichenfolge "0" ist die Dezimalzahl "48" und die Binärzahl "00110000".
(Hinweis: Die Zeichenfolge "0" und die Zahl "0" sind nicht identisch.)
Da ASCII A
als Unicode angezeigt wird, sollte 0 davor eingegeben werden. Der Unicode-Zeichencode für "A" lautet "00000000 01000001". Hier kommt ein neues Problem. Wenn Unicode verwendet wird, verschwinden die verstümmelten Zeichen, aber die Datenmenge ist doppelt so groß wie die von ASCII für alle englischen Textdaten.
Um dies zu lösen, haben wir ein UTF-8 mit variabler Länge erstellt. In UTF-8 wurde es abhängig von der Größe von 1 Zeichen Unicode von 1 Byte auf 6 Byte konvertiert. Es gibt 1 Byte für Alphabete, 1 bis 3 Byte für gewöhnliches Kanji und 4 bis 6 Byte für selten verwendetes Kanji.
E697A 5. 110010111100101 11100110 10010111 10100101
Inhaltsverzeichnis IT-Memos für Nicht-IT-Branchen
Referenz: ・ Zeichencode-Kurs 1. Verlauf des Zeichencodes (Vor-Unicode-Verlauf)
Recommended Posts