Windows → Linux Tipps zum Einbringen von Daten

Einführung

Es wird einige Situationen geben, in denen normale Benutzer von Excel oder Word auf einem Windows-Computer erstellte Dateien erhalten und Informationen unter Linux verarbeiten. Ich habe die Grundlagen des Datenkonvertierungsverfahrens zusammengefasst, die zu diesem Zeitpunkt erforderlich sein werden.

Bringen Sie japanische Namensdateien von Windows nach Linux

Hierbei handelt es sich bei der japanischen Namensdatei um eine Datei, in der im Dateinamen sogenannte Zeichen voller Breite verwendet werden.

Extrahieren Sie die unter Windows-Umgebung erstellte Zip-Datei unter Linux

unzip -O cp932 Archiv mit japanischen Namensdateien.zip

cp932 ist ein von Microsoft erweiterter Zeichencode-Standard, um JIS zu verschieben.

Referenz: Eigentlich nicht beängstigend CP932

Konvertieren Sie in Shift JIS geschriebene Dateinamen in UTF-8

convmv -f cp932 -t utf-8 * --notest

Für Ubuntu ist der Befehl "convmv" nicht standardmäßig installiert, daher müssen Sie "apt install convmv" im Voraus ausführen.

Wenn eine Datei mit einem japanischen Namen unter dem "Standard" -Verfahren aus zip unter Linux extrahiert wird, wird sie anscheinend mit unangemessen verstümmelten Zeichen in UTF-8 konvertiert, und selbst wenn Sie danach versuchen, eine Konvmv durchzuführen. " "Es wurde verarbeitet" wird einfach abgelehnt. Es bleibt keine andere Wahl, als die ursprüngliche Zip-Datei gemäß dem obigen Verfahren aufzugeben und erneut zu extrahieren.

Konvertieren Sie Zeichencode und Zeilenvorschub (Shift jis → UTF-8 und CRLF → LF)

Konvertiert den Shift-Jis-Text in UTF-8, konvertiert den Zeilenvorschubcode vom Windows-Standard CR / LF weiter in LF und schreibt das Ergebnis in eine neue Datei.

iconv -f cp932 -t utf-8 Zieldateiname| sed 's/\r//g' >Name der Ausgabezieldatei

Ich habe auch eine Methode in Betracht gezogen, um alle Dateien im aktuellen Verzeichnis gleichzeitig zu verarbeiten. Schreiben wir den konvertierten Inhalt aus, indem wir eine gleichnamige Datei im Unterverzeichnis utf8 erstellen. Verwenden Sie die Bash-Loop-Verarbeitung.

#!/bin/bash
[ -d utf8 ] || mkdir utf8
for a in *
  do iconv -f cp932 -t utf-8 $a | sed 's/\r//g' > utf8/$a
done  

Recommended Posts

Windows → Linux Tipps zum Einbringen von Daten
Tipps und Vorsichtsmaßnahmen bei der Datenanalyse
pykintone unter Windows Subsystem für Linux
Windows Subsystem für Linux wird nicht angezeigt
Tipps zum Umgang mit Binärdateien in Python
Installationsverfahren für WSL2 (Windows Subsystem für Linux)
So installieren Sie das Windows-Subsystem für Linux
Tipps zum Erstellen großer Anwendungen mit Flask
Tipps zum Erstellen kleiner Werkzeuge mit Python
Tipps zur Verwendung von Realsense SR300 auf einem MacBook im Jahr 2020
Tipps zum Erreichen der ATND-API mit Python
Zeigen Sie FX (Forex) Daten Candle Stick in Python an
pyenv für Linux
Tipps für eine gute Verwendung von Elastic Search
Erstellen Sie Ihre eigenen Big Data in Python zur Validierung
Zusammenfassung nützlicher Tipps für das Linux-Terminal ☆ Täglich aktualisiert
"Linux in 5 Tagen lernen" (Linux Ebooks hier herunterladen! Kostenlos)
Ungefähr 200 Breiten- und Längengraddaten für Krankenhäuser in Tokio
LightGBM, der erste Schritt, um das Denken in Datenanalyse-Wettbewerben zu beenden
Tool zum Erstellen von Trainingsdaten für die OpenCV-Objekterkennung
Bibliothek zum Messen der Ausführungszeit in Linux C-Anwendungen
Entwicklungsübergreifende Umgebung (Entwicklung von Programmen für Windows unter Linux)
Linux-Berechtigungen für Java
Abtastung in unausgeglichenen Daten
Linux (WSL) unter Windows
[Für Memo] Linux Teil 2
Linux, Windows Proxy-Einstellungen
virtualenvwrapper in der Windows-Umgebung
Wofür ist Linux?
Ihr eigener Koredake ist ein Linux-Befehl
Seurat unter Linux (Installation)
Installieren Sie Python (für Windows)
Tipps zum Umgang mit Eingaben variabler Länge im Deep Learning Framework
So richten Sie Ubuntu für Windows Subsystem für Linux 2 (WSL2) ein
[Linux] Kopieren Sie Daten mit einem Shell-Skript von Linux nach Windows
Implementieren von 100 Data Science-Schlägen für Anfänger in Data Science (für Windows 10 Home)
Tipps zum Codieren kurz und einfach in Python zu lesen
[In kürzester Zeit verstehen] Python-Grundlagen für die Datenanalyse
Datenstrukturen vom Listentyp und ihre Operationen im Linux-Kernel
So implementieren Sie Python EXE für Windows mit Docker-Container
Eigenen Prozessnamen zur Laufzeit in C / C ++ (für Linux) abrufen
Komfortables LaTeX mit Windows-Subsystem für Linux und VS-Code
[PowerShell] So suchen Sie unter Linux (Windows) nach Zeilen wie grep