[PYTHON] Kanji-Rangliste BEST20 (UTF8 → SJIS), die mit verstümmelten Zeichen angezeigt wurde

Motivation

(Zusammenfassung) Nur weil ich es wissen wollte. Es gibt keinen besseren Grund.

Weitere Details

Es gibt viele Arten von verstümmelten Charakteren. Verstümmelte Zeichen, die auftreten, wenn eine UTF8-Datei in SJIS angezeigt wird. Verstümmelte Zeichen, die auftreten, wenn UTF8 in EUC angezeigt wird, Verstümmelte Zeichen, die auftreten, wenn EUC in UTF8 angezeigt wird .... Auf dieser Seite können Sie überprüfen, wie die einzelnen Elemente aussehen (https://tools.m-bsys.com/ex/html-mojibake.php).

Um ehrlich zu sein, habe ich in letzter Zeit an UTF8 gearbeitet, also habe ich nicht viel verstümmelte Charaktere gesehen. An dem Arbeitsplatz, an dem ich als neuer Absolvent eingestiegen bin, war SJIS jedoch die Grundlage für die Erstellung von Textdateien. Das Öffnen von UTF8-Dateien mit SJIS und das Verursachen verstümmelter Zeichen kam häufig vor. Wenn die Zeichen von UTF8 auf SJIS verstümmelt sind, treten verstümmelte Zeichen auf, z. Sie können sehen, dass das gleiche Kanji immer wieder erscheint.

Es gibt eine Tendenz im Kanji, die als verstümmelte Zeichen erscheint. Ich wollte nur die gängigen Kanji und ihre Bedeutung kennen ... Aber überraschenderweise kann ich keinen Artikel mit solchen Inhalten finden, und ich kann nichts dagegen tun, also schreibe ich ihn selbst ... Das ist meine ** besonders nutzlose kleine Neugier **, die die treibende Kraft hinter diesem Artikel war.

Der Grund, warum nur das gleiche Kanji erscheint

Was den Grund betrifft, warum nur die gleichen Zeichen erscheinen, werde ich es hier weglassen, da letztes Jahr ein wunderbarer Artikel geschrieben wurde. Wenn die Zeichen von UTF-8 bis SJIS verstümmelt sind, wird häufig das Kanji der Thread-Verzerrung angezeigt

Aggregationsmethode

Generieren Sie basierend auf einem entsprechend langen Satz verstümmelte Zeichen in der ** ursprünglichen UTF8 → SJIS-Anzeige **, speichern Sie sie in einer Datei und zählen Sie die Kanji in Python.

Egal wie brillant ein Namenssatz ist, sobald er in SJIS angezeigt und dann als UTF8 gespeichert wurde, kann er schnell in ein schreckliches Erscheinungsbild umgewandelt werden. Ich kann nicht anders, als die Unveränderlichkeit dieser Welt zu spüren.

Was für einen langen Satz zu wählen, aber hier werde ich versuchen, das zu verwenden, was Sie wahrscheinlich wissen. Zählen wir jeden von Soseki Natsumes "Kokoro" in Schulbüchern und Osamu Osamus "Run Meros" in Schulbüchern. Das wichtigste ist "Kokoro", und die Rangliste des kurzen "Run Meros" wird als Bonus eingeführt.

Da sich der Text im Aozora Bunko befindet, habe ich ihn von dort kopiert, um die Daten zu erstellen.

Natsume Soseki "Kokoro" Osamu Osamu "Run Meros"

Das Programm schrieb Python-Code, der nicht besonders interessant war.

import re


with open('./source.txt', encoding="utf-8") as f:
    s: str = f.read()
    
    #Zählen Sie die angezeigten Zeichen und verwenden Sie die Ergebnisse als Wörterbuch
    #Zu diesem Zeitpunkt sind andere Zeichen als Kanji ausgeschlossen. Mit anderen Worten, es stößt "yo" und "ka" ab.
    count_dic = {}
    for char in s:
        result = re.search('[einer-鿐]', char)
        if result is None:
            #Es ist kein Kanji, also überspringe es
            continue
        if char in count_dic:
            count_dic[char] += 1
        else:
            count_dic[char] = 1

    #Ausgabe in aufsteigender Reihenfolge
    for k, v in sorted(count_dic.items(), key=lambda x: x[1]):
        print(str(k) + ": " + str(v))

Ergebnisansage "Kokoro" Abschnitt

20. Platz

Erscheinungsnummer 1049 mal $ \ Huge {Long} $ Hanken 1. Klasse

Ein schwieriges Kanji, das mir plötzlich das Herz bricht, kam aus dem obersten Teig heraus. Kennen Sie das Ranking von "Kokoro"? Treffen. Es wird sein. Es ist ein Kanji namens "Meguriai". Meguri Au kann auch als "Meguri Ryo" geschrieben werden, und Encounter kann auch als "Meguri Ryo" geschrieben werden. Wenn Sie eine solche Figur in der Neuzeit schreiben, werden Sie wahrscheinlich nicht gemocht.

19. Platz

Anzahl der Auftritte 1112 mal $ \ Huge {dai} $ Hanken 8. Klasse

Das "dai" von "Masashi Tashiro". Keine Stimulanzien.

18. Platz

Aussehen 1190 mal $ \ Huge {荳} $ Hanken 1. Klasse

Es ist ein Charakter, der die Bohne einer Pflanze darstellt. Es sieht auf jeden Fall so aus, als wären Bohnen schwierig geworden. Es scheint, dass die Prinzessin des Nachfolgekaisers, Prinzessin Sasage, um das 6. Jahrhundert kam.

Es ist unklar, ob es etwas damit zu tun hat, aber die Bohne Sasage ist eine einjährige Pflanze der Gattung Sasage, die in Japan schon lange gegessen wird. Gegenwärtig wird Azuki für den größten Teil des roten Reises zum Feiern verwendet, aber in der Vergangenheit wurde Sasage besonders bevorzugt und verwendet. In der Edo-Ära wurde Azukis Haut beim Kochen leicht zerrissen und von Samurai gehasst, da "hungrige Bohnen zu Hunger führen". Daher wird gesagt, dass dickhäutiger Salbei für roten Reis verwendet wurde. Selbst jetzt scheinen einige Rotreis-Prinzipien immer noch zu behaupten, dass der rote Reis von Sasage der wahre rote Reis ist.

...... Dies ist ein Programmierartikel. Es ist in Ordnung. Ich habe den Python-Code oben geschrieben. Es sollte also nicht gelöscht werden.

17. Platz

Anzahl der Auftritte 1201 mal $ \ Huge {莠} $ Hanken 1. Klasse

Lesen Sie "Hagusa" in der Lektion. Es ist ähnlich wie Reis, aber es ist ein Unkraut, das nur in Blättern wächst und keine Früchte trägt. Es sieht aus wie Reis, trägt aber keine Früchte. Im Gegenzug scheint es als Analogie für schlechte Dinge verwendet zu werden. Yugen ist also ein schädliches und hässliches Wort. Nun, ich benutze dieses zusammengesetzte Wort nicht ...

16. Platz

Aussehen 1401 mal $ \ Huge {subaru} $ Hanken 1. Klasse

Es ist verwirrend, aber es ist nicht die "Aufregung" von "Aufregung". "Subaru" wird als "Subaru" gelesen. Es ist ein Stern. In der Heian-Ära lobte die Qing-Dynastie Subaru und sagte: "Die Sterne sind Subaru. Hikoboshi. Yufuzutsu. Subaru im Wind, die Galaxie im Sand, wohin alle gingen, ohne gesehen zu werden ...

15. Platz

Auftritt 1493 mal $ \ Huge {峨} $ Hanken quasi 1. Klasse

Wenn Sie sich für die japanische Geschichte in den freien Künsten entschieden haben, sollten Sie das Wort "Gosatennou" gesehen haben. Selbst wenn nicht, können Sie dieses Kanji in Ihrem Namen sehen. Das Wort 峨 steht für einen hohen Berg und einen rauen Zustand.

14. Platz

Erscheinungsnummer 1512 mal $ \ Huge {翫} $ Hanken quasi 1. Klasse

Es kann als "spielen", "spielen" und "spielen" gelesen werden. Shikanjima ist ein Kimonomuster, das in der Edo-Zeit beliebt war. Es war ein Muster, das die Form von vier vertikalen Streifen und einem Schwert (einem Metallring) kombinierte, und es war semantisch korrekt, "vier Schwerter" zu schreiben, aber die dritte Generation von Kabuki-Schauspielern. Es scheint, dass dieses Kanji von Utaemon Nakamura nach dem Haiku "Shiba" benannt wurde.

13. Platz

Aussehen 1553 mal $ \ Riesige {Medizin} $ Hanken 8. Klasse

Haben Sie einen Arzt unter unseren Kunden? ??

12. Platz

Erschien 1555 mal $ \ Riesig {über} $ Hanken 10. Klasse

Gibt es eine Firma, die die Adresse der Quittung akzeptiert?

11. Platz

Anzahl der Auftritte 1625 mal $ \ Huge {suke} $ Hanken quasi 1. Klasse

Obwohl es oft mit dem Namen einer Person erscheint, wird es überraschenderweise als Hanken quasi 1. Klasse behandelt. Das Wort "suke", das im Leseproblem der ersten Klasse des Hanken-Tests vorkommt, wird als "hohitsu" gelesen. Beileid ist zu raten, was als Akt des Kaisers getan werden soll oder soll.

10. Platz

1794 mal erschienen $ \ Huge {Saka} $ Hanken 2. Klasse

Es gibt zwei Arten von Saka, "Slope" und "Saka". Es scheint verschiedene Theorien darüber zu geben, warum, aber laut "Seiyo Ochihoshu", das 1808 veröffentlicht wurde, wird der Hang, wenn er zerlegt wird, in "Boden" und "Anti" unterteilt und kann als "Rückkehr in den Boden" gelesen werden. Es wird gesagt, dass es Leute gab, die es hassten, "Saka" zu benutzen, wenn es nicht gut war. Wenn Sie Osaka von Saya aus schreiben, ist es Akan. Ich weiß es nicht.

9. Platz

Anzahl der Auftritte 2215 mal $ \ Huge {吶} $ Hanken 1. Klasse

Es ist ein Kanji, das manchmal in Romanen vorkommt. Ich schreibe, dass es 吶 ist. Er fing an mit mir zu reden. Humorvoll zu sprechen bedeutet, gedämpft zu sprechen. Das nicht dekorierte und stille Ding heißt "Ich". Es gibt ein wortvoreingenommenes "訥" und ein mundvoreingenommenes "吶", aber sie scheinen dieselbe Bedeutung zu haben.

8. Platz

Anzahl der Auftritte 2482 mal $ \ Huge {Nagi} $ Hanken quasi 1. Klasse

Es wird als Hanken Level 1 behandelt, aber es ist keine Erklärung erforderlich. Die drei Arten von heiligen Schätzen, "Hachibashi Kagami", "Tenso Unken (auch bekannt als Kusanagi Ken)" und "Hachishaku Gourd Ball", sind Schulpflicht für Otaku.

7. Platz

3147 mal erschienen $ \ Riesig {nach} $ Hanken 9. Klasse

Ab hier steigt die Anzahl der Auftritte.

6. Platz

Anzahl der Auftritte 4078 mal $ \ Huge {溘} $ Hanken 1. Klasse

Das Wort "溘" bedeutet sofort. "Tod als Geist" ist grob gesagt "plötzlicher Tod !!!".

5. Platz

Erschien 4718 mal $ \ Riesige {Ermutigung} $ Hanken 3. Klasse

Es ist ermutigend, Qiita zu mögen. Bitte drücken.

4. Platz

Anzahl der Auftritte 5831 mal $ \ Riesige {neun} $ Hanken 10. Klasse

  1. Platz, obwohl es neun ist. Von nun an bin ich ein fadenvoreingenommener Schütze, den ich oft mit verstümmelten Charakteren sehe.

3. Platz

Erschien 6656 mal $ \ Huge {縲} $ Hanken 1. Klasse

Spiralkreis! !! !! Es ist nicht. Es ist keine Bug-Voreingenommenheit, sondern eine Thread-Voreingenommenheit. "縲" ist ein ziemlich nisches Kanji, das ein Seil darstellt, das Sünder bindet. Es scheint, dass es hauptsächlich als Set mit "Setsu" verwendet wird, wie es heißt: "Anstatt von Ruisetsu gedemütigt zu werden, werde ich mich jetzt nicht anmutig verpflichten" <Ryukei / Keikoku Bidan>. Das 絏 scheint zu drücken.

Vor der Showa-Ära gab es kein Metallhandschloss, daher wurde der Sünder mit einem Seil gefesselt. In der Edo-Zeit wurde das Fangen von Seilen (Hojojutsu / Torinawajutsu) häufig als Teil der Fangoperation verwendet (Toritejutsu, eine Kampfkunst, die Feinde fängt, ohne sie mit bloßen Händen zu töten). Es gibt "Haya-nawa", die den gefangenen Feind schnell zurückhalten, "Hon-nawa", das formal und zeremoniell verwendet wird, und "Torture-nawa", das verwendet wird, um durch Binden zu foltern. Es scheint, dass verschiedene Bindemethoden vorbereitet wurden. Das Fangen von Seilen ist eine etablierte Kampfkunst, und in der Edo-Zeit gab es 150 Schulen ... Es ist wunderbar.

2. Platz

Anzahl der Auftritte 12928 mal $ \ Riesiger {Verkauf} $ Hanken 1. Klasse

Die Anzahl der Auftritte war stark vom 3. Platz getrennt und verdoppelte sich fast. Dieses hasserfüllte Kanji, das Sie aufgrund verstümmelter Charaktere immer wieder gesehen hätten, selbst wenn Sie kein Ingenieur gewesen wären ...

Es gibt ein Wort "ungen". Einfach ausgedrückt ist es eine alte Abstufung. Es wurde aus Westchina eingeführt und für buddhistische Gemälde in der Nara- und Heian-Zeit, für die Tempeldekoration sowie für das Färben und Weben verwendet. Und es gibt einen Farbbegriff namens "ungensai-shiki". Sie können es sehen, indem Sie das konkrete Bild betrachten. Es scheint, dass es in Farbtests erscheinen wird, also wissen es vielleicht einige Webdesigner. Referenz: Was bedeutet die Farbe? Es gibt einen Schatz von Shokurain namens Urushikin Pakue no Ban, der ein leicht verständliches Farbschema hat. (Quelle: Website der Miyauchi Agency http://shosoin.kunaicho.go.jp/ja-JP/Treasure?id=0000014245) Wenn Sie genau hinschauen, können Sie sehen, dass sich die Farben des gleichen Typs in Ebenen überlappen, anstatt zu verwischen und zu überlappen. Dies ist die Farbe des Produkts. Als bekanntes Beispiel kann das Vue-Logo auch als farbenfroh bezeichnet werden.

Den ersten Platz

Erscheinungsnummer 60693 mal $ \ Huge {縺} $ Hanken 1. Klasse

Mit einer überwältigenden Anzahl von Auftritten von 60.000 Mal erzielte er eine unübertroffene Punktzahl. Der Champion der verstümmelten Welt von UTF8 → SJIS ist das stärkste Kanji der drei bewaffneten Männer, "縺"!

Ich höre oft Kanji, das für "Verstrickung" steht, wie "Gewirr der Lust". Gewirr ist Verstrickung. Es soll "den Faden aufdrehen". Verwirrenderweise gibt es zwei Wörter: "Ausfransen" und "Verwickeln". Da die jeweiligen Kanji-Zeichen "entwirren" und "verwickeln" darauf hinweisen, Enträtseln und Verwickeln sind miteinander verwoben, daher ist die Bedeutung genau umgekehrt. Lass uns aufpassen.

Wirren Zunge bedeutet, dass Sie nichts sagen können, auch wenn Ihre Zunge verheddert ist. Um genau zu sein, verwickeln sich Entzugsingenieure wie ich oft in Gespräche mit Menschen, die sich zum ersten Mal treffen. Verwirrtes Haar ist verwirrtes Haar. Es ist unordentliches Haar. Insbesondere ist es die Frisur eines Generalingenieurs. Das für einen Ingenieur geeignete Kanji hat den ersten Platz gewonnen! !! !! (Laut)

Ergebnisansage "Meros ausführen"

Wenn Sie nur "Herz" haben, funktioniert das obige Ergebnis nur für "Herz", oder? ?? ?? Ist das Ergebnis bei anderen Sätzen nicht völlig anders? ?? ?? Es ist leicht zu glauben, dass ich für alle Fälle versucht habe, auch andere Sätze zu ordnen. Die Rangliste hat sich ein wenig geändert, aber die Ergebnisse sind mit einigen Ausnahmen im Allgemeinen ähnlich. Da Melos ein kurzer Roman ist, ist die Textmenge gering.

  1. Platz: 20 Mal (nicht bewertet)
  2. Platz: 24 Mal (nicht bewertet)
  3. Platz 莠: 48 Mal (nicht bewertet) ―――――――――――――――
  4. Platz: 54 mal neu! (Adventure Tan)
  5. Platz: 56 mal
  6. Platz Detective: 57 mal neu! (Recruitment Detective)
  7. Platz: 59 mal
  8. Platz: 63 mal
  9. Platz: 76 mal
  10. Platz: 80 mal
  11. Platz: 92 mal
  12. Platz oben: 98 mal
  13. Platz Osaka: 98 mal
  14. Platz Arzt: 111 mal
  15. Platz Nagi: 117 mal
  16. Platz Ermutigung: 149 mal ** 7. Platz: 156 mal neu! (Für diejenigen, die ungen sind) **
  17. Platz: 222 mal Nach dem 5. Platz: 224 mal
  18. Platz 9: 290 mal
  19. Platz: 753 mal
  20. Platz: 933 mal
  21. Platz: 2944 mal

Der zu beachtende Punkt ist, dass ** "", der Partner des 2. Platzes "", auf dem 7. Platz ** rangiert. Tatsächlich hatte "Kokoro" ein unvollständiges Verbrennungsergebnis von Platz 78, das 172 Mal in "Kokoro" auftrat, aber in Meros zeigte es seine Fähigkeit ohne Bedauern. "Sho" hat auch einen freudigen Ausdruck auf dem Sprung des Partners.

Tatsächlich wird das Zeichen "" auch in einem anderen Artikel eingefügt "[Wenn die Zeichen von UTF-8 bis SJIS verstümmelt sind, wird häufig das Kanji der Thread-Verzerrung angezeigt](https://qiita.com/kaityo256/items/ Es wird auch in "878cbe35d4c8444b045a)" eingeführt, aber wenn die Zeichen von "Dachidizutsudetodonaninune nohabapahibipifubupuhebepehobopomamemiyayuyoyorarirurero wawa ヱ onvuka" verstümmelt sind herauskommen. Wenn Sie also "Meros" verstümmeln, erscheint das Zeichen "" zweimal wie "", aber der Anteil von Katakana in "Kokoro" wird mit dem aktuellen Satz verglichen. Da es einige gibt, kann ich das Gefühl nicht leugnen, dass ich gezwungen war, ein wenig nachteilig für den "Sho" -Spieler zu kämpfen. Wenn die drei bewaffneten Männer mit den Fäden die vier himmlischen Könige mit den Fäden werden würden, wäre ihre schwächste Position definitiv der "" Spieler.

abschließend

Dies ist ein Programmierartikel ... Es ist nervtötend ...

Es wäre großartig, wenn Sie sagen könnten, dass das etwas beängstigende Kanji, das als Ergebnis der verstümmelten Charaktere erscheint, überraschend interessant war, als ich es nachgeschlagen habe. Das mysteriöse Kanji, das ich hasse, ist auch ein lebendiges Kanji mit einem Hintergrund aus Literatur und Geschichte. Bitte schikanieren Sie mich nicht zu sehr.

Recommended Posts

Kanji-Rangliste BEST20 (UTF8 → SJIS), die mit verstümmelten Zeichen angezeigt wurde