introduction

Il y aura un certain nombre de situations dans lesquelles des gens ordinaires recevront des fichiers créés avec Excel ou Word sur une machine Windows et traiteront des informations sous Linux. J'ai résumé les bases de la procédure de conversion de données qui sera nécessaire à ce moment-là.

Apportez des fichiers de noms japonais de Windows à Linux

Ici, le fichier de noms japonais est un fichier dans lequel des caractères dits pleine largeur sont utilisés dans le nom de fichier.

Extraire le fichier zip créé sous environnement Windows sous environnement Linux

unzip -O cp932 Archive contenant des fichiers de noms japonais.zip

cp932 est une norme de code de caractère étendue par Microsoft pour déplacer JIS.

référence: En fait pas effrayant CP932

Convertir les noms de fichiers écrits en Shift JIS en UTF-8

convmv -f cp932 -t utf-8 * --notest

Dans le cas d'ubuntu, la commande convmv n'est pas installée par défaut, vous devez donc ʻapt installer convmv` à l'avance.

Si un fichier avec un nom japonais est extrait de zip sous Linux par la procédure "standard", il semble qu'il sera converti en UTF-8 avec des caractères déformés de manière inappropriée, et même si vous essayez de convmv après cela, " «Il a été traité» est simplement refusé. Il n'y a pas d'autre choix que d'abandonner et de ré-extraire du fichier zip d'origine selon la procédure ci-dessus.

Convertir le code de caractère et le saut de ligne (shift jis → UTF-8 et CRLF → LF)

Convertit le texte shift jis en UTF-8, convertit en outre le code de saut de ligne du standard Windows CR / LF en LF et écrit le résultat dans un nouveau fichier.

iconv -f cp932 -t utf-8 Nom du fichier cible| sed 's/\r//g' >Nom du fichier de destination de sortie

J'ai également envisagé une méthode pour traiter tous les fichiers du répertoire actuel à la fois. Écrivons le contenu converti en créant un fichier avec le même nom dans le sous-répertoire ʻutf8`. Utilisez le traitement en boucle bash.

#!/bin/bash
[ -d utf8 ] || mkdir utf8
for a in *
  do iconv -f cp932 -t utf-8 $a | sed 's/\r//g' > utf8/$a
done

Windows → Linux Conseils pour importer des données

introduction

Apportez des fichiers de noms japonais de Windows à Linux

Extraire le fichier zip créé sous environnement Windows sous environnement Linux

Convertir les noms de fichiers écrits en Shift JIS en UTF-8

Convertir le code de caractère et le saut de ligne (shift jis → UTF-8 et CRLF → LF)