[PYTHON] Classement Kanji BEST20 (UTF8 → SJIS) apparaissant avec des caractères déformés

Motivation

(Résumé) Juste parce que je voulais savoir. Il n'y a pas de meilleure raison.

Plus de détails

Il existe de nombreux types de caractères déformés. Caractères déformés qui se produisent lorsqu'un fichier UTF8 est affiché dans SJIS, Caractères déformés qui se produisent lorsque UTF8 est affiché dans EUC, Caractères déformés qui se produisent lorsque EUC est affiché en UTF8 ... Vous pouvez vérifier à quoi chacun ressemble sur cette page (https://tools.m-bsys.com/ex/html-mojibake.php).

Pour être honnête, je travaille sur UTF8 ces derniers temps, donc je n'ai pas vu beaucoup de personnages déformés. Cependant, sur le lieu de travail où je suis entré en tant que nouveau diplômé, SJIS était la base de la création de fichiers texte. Et, ouvrir des fichiers UTF8 avec SJIS et provoquer des caractères déformés se produisait assez souvent. Si les caractères sont déformés de UTF8 à SJIS, des caractères déformés tels que «縺 蜈 踺 踺 蜻 踺 踺 縺 縺 溘 € □ 縺 ……» se produiront. Vous pouvez voir que le même kanji apparaît encore et encore.

Il y a un biais dans les kanji qui apparaissent comme des caractères déformés. Je voulais juste connaître les kanji communs et leurs significations ... Mais étonnamment, je ne trouve pas d'article avec ce genre de contenu, et je ne peux pas m'en empêcher, alors je l'écrirai moi-même ... C'est ma ** petite curiosité particulièrement inutile ** qui a été le moteur de cet article.

La raison pour laquelle seul le même kanji apparaît

Quant à la raison pour laquelle seuls les mêmes personnages apparaissent, je vais l'omettre ici car un merveilleux article a été écrit l'année dernière. Si les caractères sont déformés de UTF-8 à SJIS, le kanji de biais de thread apparaît souvent

Méthode d'agrégation

Sur la base d'une longue phrase appropriée, générez des caractères déformés dans ** UTF8 d'origine → affichage SJIS **, enregistrez-le dans un fichier et comptez les kanji en Python.

Quelle que soit la brillance d'une phrase de nom, une fois qu'elle est affichée dans SJIS puis enregistrée au format UTF8, elle peut être rapidement transformée en une apparence horrible. Je ne peux m'empêcher de ressentir l'immuabilité de ce monde.

Que choisir pour une longue phrase, mais ici, je vais essayer d'utiliser ce que vous savez probablement. Comptons chacun des "Kokoro" de Soseki Natsume dans les manuels de lycée et "Run Meros" d'Osamu Osamu dans les manuels de lycée. Le principal est "Kokoro", et le classement du court "Run Meros" sera introduit en bonus.

Étant donné que le texte se trouve dans l'Aozora Bunko, je l'ai copié à partir de là pour créer les données.

Natsume Soseki "Kokoro" Osamu Osamu "Run Meros"

Le programme a écrit du code python qui n'était pas particulièrement intéressant.

import re


with open('./source.txt', encoding="utf-8") as f:
    s: str = f.read()
    
    #Comptez les caractères qui apparaissent et utilisez les résultats comme dictionnaire
    #À ce stade, les caractères autres que Kanji sont exclus. En d'autres termes, il repousse "yo" et "ka".
    count_dic = {}
    for char in s:
        result = re.search('[un-鿐]', char)
        if result is None:
            #Ce n'est pas un kanji, alors saute-le
            continue
        if char in count_dic:
            count_dic[char] += 1
        else:
            count_dic[char] = 1

    #Sortie par ordre croissant
    for k, v in sorted(count_dic.items(), key=lambda x: x[1]):
        print(str(k) + ": " + str(v))

Annonce des résultats de la section "Kokoro"

20e place

Apparence numéro 1049 fois $ \ Énorme {Long} $ Hanken 1ère année

Un kanji difficile qui me brise soudainement le cœur est sorti du meilleur frappeur. Connaissez-vous le classement de "Kokoro"? rencontrer. Ce sera. C'est un kanji appelé "Meguriai". Meguri Au peut également être écrit comme "Meguri Ryo", et Encounter peut également être écrit comme "Meguri Ryo". Si vous écrivez un tel personnage à l'époque moderne, vous ne serez probablement pas aimé.

19e place

Nombre d'apparitions 1112 fois $ \ Énorme {dai} $ Hanken 8e année

Le "dai" de "Masashi Tashiro". Pas de stimulants.

18e place

Apparence 1190 fois $ \ Énorme {荳} $ Hanken 1ère année

C'est un personnage qui représente le haricot d'une plante. Il semble certainement que les haricots soient devenus difficiles. Il semble que la princesse de l'empereur successeur, la princesse Sasage, soit venue vers le 6ème siècle.

On ne sait pas si cela a quelque chose à voir avec cela, mais le haricot appelé Sasage est une plante annuelle du genre Sasage qui est consommée au Japon depuis longtemps. Actuellement, Azuki est utilisé pour la plupart du riz rouge pour la célébration, mais dans le passé, Sasage était particulièrement préféré et utilisé. À cette époque, à l'époque d'Edo, Azuki était facilement déchiré lorsqu'il était bouilli et était détesté par les samouraïs comme «les haricots qui ont faim mènent à la faim». Par conséquent, on dit que la sauge à peau épaisse a été utilisée pour le riz rouge. Même maintenant, il semble que certains principes du riz rouge prétendent encore que le riz rouge de Sasage est le vrai riz rouge.

...... Ceci est un article de programmation. Ça va. J'ai écrit le code Python ci-dessus. Donc, il ne devrait pas être effacé.

17e place

Nombre d'apparitions 1201 fois $ \ Énorme {莠} $ Hanken 1ère année

Lisez "Hagusa" dans la lecture de la leçon. C'est semblable au riz, mais c'est une mauvaise herbe qui ne pousse que dans les feuilles et ne porte pas de fruits. Par exemple, Enokorogusa, qui est célèbre comme écureuil chat. Cela ressemble à du riz, mais il ne porte pas de fruits. À son tour, il semble être utilisé comme une analogie pour les mauvaises choses. Donc Yugen est un mot nuisible et laid. Eh bien, je n'utilise pas ce mot composé ...

16e place

Apparence 1401 fois $ \ Énorme {subaru} $ Hanken 1ère année

C'est déroutant, mais ce n'est pas «l'excitation» de «l'excitation». «Subaru» est lu comme «subaru». C'est une star. À l'époque Heian, la dynastie Qing a fait l'éloge de Subaru en disant: «Les étoiles sont des subaru. Hikoboshi. Yufuzutsu. Subaru dans le vent, la galaxie dans le sable, là où tout le monde est allé, sans être vu ...

15e place

Apparence 1493 fois $ \ Énorme {峨} $ Inspection Han niveau 1

Si vous avez choisi l'histoire du Japon dans les arts libéraux, vous devriez avoir vu le mot Gosagatenno. Même si ce n'est pas le cas, vous pouvez voir ce kanji dans votre nom. Le mot 峨 représente une haute montagne et un état accidenté.

14e place

Apparence numéro 1512 fois $ \ Énorme {翫} $ Inspection Han niveau 1

Il peut être lu comme «jouer», «jouer» et «jouer». Shikanjima est un modèle de kimono qui était populaire à l'époque Edo. C'était un motif qui combinait la forme de quatre bandes verticales et une épée (un anneau en métal), et il était sémantiquement correct d'écrire "quatre épées", mais c'était la troisième génération d'acteurs Kabuki. Il semble que ce kanji ait été nommé d'après le haïku "Shiba" d'Utaemon Nakamura.

13e place

Apparence 1553 fois $ \ Énorme {médecine} $ Hanken 8e année

Avez-vous un médecin parmi nos clients? ??

12ème place

Apparu 1555 fois $ \ Énorme {ci-dessus} $ Hanken 10e année

Y a-t-il une entreprise qui accepte l'adresse du reçu?

11e place

Nombre d'apparitions 1625 fois $ \ Énorme {suke} $ Inspection Han niveau 1

Bien qu'il apparaisse souvent par le nom d'une personne, il est étonnamment traité comme Hanken quasi 1ère année. Le mot "suke" qui apparaît dans le problème de lecture de la première année du test de Hanken est lu comme "hohitsu". La condoléance est de conseiller ce qui devrait ou devrait être fait comme un acte de l'empereur.

10e place

Apparu 1794 fois $ \ Énorme {Saka} $ Hanken 2e année

Il existe deux types de Saka, "Slope" et "Saka". Il semble y avoir diverses théories quant au pourquoi, mais selon "Seiyo Ochihoshu" publié en 1808, lorsque la pente est décomposée, elle est divisée en "sol" et "anti" et peut être lue comme "retour au sol". On dit qu'il y avait des gens qui détestaient utiliser "Saka" si ce n'était pas bon. Si vous écrivez Osaka depuis Saya, c'est Akan. Je ne sais pas.

9ème place

Nombre d'apparitions 2215 fois $ \ Énorme {吶} $ Hanken 1ère année

C'est un kanji qui apparaît parfois dans les romans. J'écris que c'est 吶. Il a commencé à me parler. Parler de manière humoristique, c'est parler de manière étouffée. La chose non décorée et silencieuse s'appelle «je». Il y a un "訥" biaisé par les mots et un "吶" biaisé par la bouche, mais ils semblent avoir la même signification.

8ème place

Nombre d'apparitions 2482 fois $ \ Énorme {Nagi} $ Hanken quasi 1ère année

Il est traité comme Hanken niveau 1 mais aucune explication n'est nécessaire. Les trois types de trésors sacrés, «Hachibashi Kagami», «Tenso Unken (également connu sous le nom de Kusanagi Ken)» et «Hachishaku Gourd», sont l'enseignement obligatoire pour l'otaku.

7e place

Apparu 3147 fois $ \ Énorme {après} $ Hanken 9e année

À partir de là, le nombre d'apparitions augmentera.

6ème place

Nombre d'apparitions 4078 fois $ \ Énorme {溘} $ Hanken 1ère année

Le mot «溘» signifie instantanément. "Mourir comme un fantôme" est, grosso modo, "mort subite !!!".

5ème place

Apparu 4718 fois $ \ Énorme {encouragement} $ Hanken 3e année

C'est encourageant d'aimer Qiita. Veuillez appuyer sur.

4e place

Nombre d'apparitions 5831 fois $ \ Énorme {neuf} $ Hanken 10e année

4ème place bien qu'il soit neuf. À partir de maintenant, je suis un artilleur biaisé que je vois souvent avec des personnages déformés.

3ème place

Apparu 6656 fois $ \ Énorme {縲} $ Hanken 1ère année

Cercle en spirale! !! !! Ce n'est pas. Ce n'est pas un biais de bogue mais un biais de thread. "縲" est un kanji assez niche qui représente une corde qui lie les pécheurs. Il semble qu'il soit principalement utilisé comme un ensemble avec "Setsu", comme il dit, "Plutôt que d'être humilié par Ruisetsu, je ne m'engagerai pas gracieusement pour le moment" <Ryukei / Keikoku Bidan>. Le 絏 semble vouloir presser.

Avant l'ère Showa, il n'y avait pas de serrure à main en métal, donc le pécheur était ligoté avec une corde. À l'époque d'Edo, la capture à la corde (Hojojutsu / Torinawajutsu) était largement utilisée dans le cadre de l'opération de capture (Toritejutsu, un art martial qui capture les ennemis sans les tuer à mains nues). Il y a "Haya-nawa" qui retient rapidement l'ennemi capturé, "Hon-nawa" qui est utilisé formellement et cérémonieusement, et "Torture-nawa" qui est utilisé pour torturer en liant. Il semble que différentes méthodes de liage aient été préparées. La pêche à la corde est un art martial bien établi, et il y avait 150 écoles à l'époque d'Edo ... C'est incroyable.

2ème place

Nombre d'apparitions 12928 fois $ \ Énorme {vente} $ Hanken 1ère année

Le nombre d'apparitions a été largement séparé de la 3e place et a presque doublé. Ce kanji haineux que vous auriez revu encore et encore à cause de caractères déformés même si vous n'étiez pas ingénieur ...

Il y a un mot «ungen». Pour le dire simplement, c'est une ancienne gradation. Introduit de l'ouest de la Chine, il était utilisé pour les peintures bouddhistes des époques Nara et Heian, la décoration des temples, la teinture et le tissage. Et il y a un terme de couleur appelé "ungensai-shiki". Vous pouvez le voir en regardant l'image concrète. Il semble qu'il apparaîtra dans les tests de couleur, alors peut-être que certains concepteurs Web le savent. Référence: Quelle est la signification de la couleur? Il y a un trésor de Shokurain, un tableau mince en laque d'or (Urushikin Pakue no Ban), et voici une couleur facile à comprendre. (Source: site Web de l'Agence Miyauchi http://shosoin.kunaicho.go.jp/ja-JP/Treasure?id=0000014245) Si vous regardez de près, vous pouvez voir que les couleurs du même type se chevauchent dans les calques au lieu de flouter et de se chevaucher. C'est la couleur du produit. À titre d'exemple familier, le logo Vue peut également être considéré comme coloré.

La première place

Apparence numéro 60693 fois $ \ Énorme {縺} $ Hanken 1ère année

Avec un nombre impressionnant d'apparitions de 60 000 fois, il a obtenu un score inégalé. Le champion du monde brouillé de UTF8 → SJIS est le kanji le plus fort des trois hommes armés, "縺"!

J'entends souvent des kanji qui signifient «enchevêtrement», comme «enchevêtrement de luxure». L'enchevêtrement est un enchevêtrement. On dit qu'il "dénoue le fil". Confusément, il y a deux mots, «effilochage» et «emmêlement». Lorsque les caractères kanji respectifs "démêler" et "enchevêtrer" le désignent, Le démêlage et l'intrication sont entrelacés, donc le sens est exactement le contraire. Faisons attention.

La langue emmêlée signifie que vous ne pouvez rien dire même si votre langue est emmêlée. Pour être précis, les ingénieurs de retrait comme moi sont souvent empêtrés lorsqu'ils parlent à des personnes qui se rencontrent pour la première fois. Les cheveux emmêlés sont des cheveux emmêlés. Ce sont des cheveux en désordre. Plus précisément, c'est la coiffure d'un ingénieur généraliste. Le kanji adapté à un ingénieur a remporté la première place! !! !! (Bruyant)

Annonce des résultats Section "Run meros"

Si vous vous retrouvez avec seulement «cœur», le résultat ci-dessus ne fonctionnera que pour «cœur», non? ?? ?? Le résultat n'est-il pas complètement différent avec d'autres phrases? ?? ?? Il est facile de penser que, donc juste au cas où, j'ai essayé de classer d'autres phrases également. Les classements ont un peu changé, mais les résultats sont généralement similaires à quelques exceptions près. Puisque Melos est un court roman, la quantité de texte est faible.

41e place: 20 fois (non classé) 32e place: 24 fois (non classé) 22e place 莠: 48 fois (non classé) ――――――――――――――― 20e place: 54 fois nouveau! (Adventure Tan) 19e place: 56 fois Reconnaissance de la 18e place: 57 fois nouveau! 17e place: 59 fois 16e place: 63 fois 15e place: 76 fois 14e place: 80 fois 13e place: 92 fois 12ème top: 98 fois 11e place Osaka: 98 fois 10ème place médecin: 111 fois 9ème place Nagi: 117 fois 8e place Encouragement: 149 fois ** 7e place: 156 fois nouveau! (Pour ceux qui ne sont pas géniaux) ** 6ème place: 222 fois Après la 5e place: 224 fois 4e place 9: 290 fois 3e place: 753 fois 2ème place: 933 fois 1ère place: 2944 fois

Le point à noter est que ** "", qui est le partenaire de la 2ème place "", est classé à la 7ème place **. En fait, "Kokoro" a eu un résultat de combustion incomplet de la 78e place, qui est apparu 172 fois dans "Kokoro", mais à Meros, il a montré sa capacité sans regret. "Sho" a également une expression joyeuse sur le saut du partenaire.

En fait, le caractère de "" est également collé dans un autre article "[Si vous déformez UTF-8 en SJIS, le kanji du biais de thread apparaît souvent](https://qiita.com/kaityo256/items/ Il est également introduit dans "878cbe35d4c8444b045a)", mais lorsque les caractères de "Dachidizutsudetodonaninune nohabapahibipifubupuhebepehobopomamemiyayuyoyorarirurero wawa ヱ onvuka" sont brouillés sortir. Donc, si vous rendez "Meros" brouillé, le caractère "" apparaîtra deux fois comme "", mais "Kokoro" a une proportion plus élevée de katakana que la phrase actuelle. Puisqu'il y en a pas mal, je ne peux nier le sentiment d'avoir été contraint de me battre un peu désavantageux pour le joueur "Sho". Si les trois hommes armés polarisés par fil devenaient les quatre rois célestes biaisés par le fil, leur position la plus faible serait certainement le joueur "".

en conclusion

Ceci est un article de programmation ... C'est une douleur ...

J'espère que vous pouvez dire que c'était étonnamment intéressant quand j'ai regardé les kanji quelque peu effrayants qui sont sortis à la suite des caractères déformés. Le kanji mystérieux que je déteste est aussi un kanji vivant avec un fond de littérature et d'histoire, alors ne m'intimide pas trop.

Recommended Posts

Classement Kanji BEST20 (UTF8 → SJIS) apparaissant avec des caractères déformés