Windows → Linux Conseils pour importer des données

introduction

Il y aura un certain nombre de situations dans lesquelles des gens ordinaires recevront des fichiers créés avec Excel ou Word sur une machine Windows et traiteront des informations sous Linux. J'ai résumé les bases de la procédure de conversion de données qui sera nécessaire à ce moment-là.

Apportez des fichiers de noms japonais de Windows à Linux

Ici, le fichier de noms japonais est un fichier dans lequel des caractères dits pleine largeur sont utilisés dans le nom de fichier.

Extraire le fichier zip créé sous environnement Windows sous environnement Linux

unzip -O cp932 Archive contenant des fichiers de noms japonais.zip

cp932 est une norme de code de caractère étendue par Microsoft pour déplacer JIS.

référence: En fait pas effrayant CP932

Convertir les noms de fichiers écrits en Shift JIS en UTF-8

convmv -f cp932 -t utf-8 * --notest

Dans le cas d'ubuntu, la commande convmv n'est pas installée par défaut, vous devez donc ʻapt installer convmv` à l'avance.

Si un fichier avec un nom japonais est extrait de zip sous Linux par la procédure "standard", il semble qu'il sera converti en UTF-8 avec des caractères déformés de manière inappropriée, et même si vous essayez de convmv après cela, " «Il a été traité» est simplement refusé. Il n'y a pas d'autre choix que d'abandonner et de ré-extraire du fichier zip d'origine selon la procédure ci-dessus.

Convertir le code de caractère et le saut de ligne (shift jis → UTF-8 et CRLF → LF)

Convertit le texte shift jis en UTF-8, convertit en outre le code de saut de ligne du standard Windows CR / LF en LF et écrit le résultat dans un nouveau fichier.

iconv -f cp932 -t utf-8 Nom du fichier cible| sed 's/\r//g' >Nom du fichier de destination de sortie

J'ai également envisagé une méthode pour traiter tous les fichiers du répertoire actuel à la fois. Écrivons le contenu converti en créant un fichier avec le même nom dans le sous-répertoire ʻutf8`. Utilisez le traitement en boucle bash.

#!/bin/bash
[ -d utf8 ] || mkdir utf8
for a in *
  do iconv -f cp932 -t utf-8 $a | sed 's/\r//g' > utf8/$a
done  

Recommended Posts

Windows → Linux Conseils pour importer des données
Conseils et précautions lors de l'analyse des données
pykintone sur le sous-système Windows pour Linux
Le sous-système Windows pour Linux ne s'affiche pas
Conseils pour gérer les binaires en Python
Procédure d'installation de WSL2 (sous-système Windows pour Linux)
Comment installer le sous-système Windows pour Linux
Conseils pour créer de grandes applications avec Flask
Conseils pour créer de petits outils avec python
Conseils pour utiliser Realsense SR300 sur MacBook en 2020
Conseils pour accéder à l'API ATND avec Python
Afficher la bougie de données FX (forex) en Python
pyenv pour linux
Conseils pour utiliser Elastic Search de manière efficace
Créez votre propre Big Data en Python pour validation
Résumé des conseils utiles pour le terminal Linux ☆ Mis à jour quotidiennement
«Apprenez Linux en 5 jours» (Téléchargez des ebooks Linux ici! Gratuitement)
Environ 200 données de latitude et de longitude pour les hôpitaux de Tokyo
Arrêtez de penser à une utilisation dans les concours d'analyse de données
Outil de création de données d'entraînement pour la détection d'objets OpenCV
Bibliothèque de mesure du temps d'exécution dans les applications Linux C
Environnement de développement croisé (développement de programmes pour Windows sous Linux)
Autorisations Linux sur Java
Échantillonnage dans des données déséquilibrées
Linux (WSL) sous Windows
[Pour mémoire] Linux Partie 2
Linux, paramètres de proxy Windows
virtualenvwrapper dans l'environnement Windows
À quoi sert Linux?
Votre propre Koredake est une commande Linux
Seurat sous Linux (installation)
Installez Python (pour Windows)
Conseils pour gérer les entrées de longueur variable dans le cadre d'apprentissage en profondeur
Comment configurer Ubuntu pour le sous-système Windows pour Linux 2 (WSL2)
[Linux] Copie des données de Linux vers Windows avec un script shell
Comment mettre en œuvre 100 coups de science des données pour les débutants en science des données (pour Windows 10 Home)
Conseils pour coder courts et faciles à lire en Python
[Comprendre au plus court] Principes de base de Python pour l'analyse des données
Structures de données de type liste et leurs opérations dans le noyau Linux
Comment implémenter Python EXE pour Windows avec le conteneur Docker
Obtenir son propre nom de processus lors de l'exécution en C / C ++ (pour Linux)
LaTeX confortable avec sous-système Windows pour Linux et VS Code
[PowerShell] Comment rechercher des lignes comme grep sous Linux (Windows)