[Linux-Befehl] Petit-Datenanalyse mit dem Befehl grep / awk / sort

Einführung

Das ist, KPI Punkt A:" Gewöhnen Sie sich an Terminalbefehle "Punkt A:" Gewöhnen Sie sich an Terminalbefehle " Es ist ein Ausgabeartikel von.

Hauptgeschichte

Dieses Mal habe ich grep awk sort verwendet, um die Daten auf dem Linux-Server zu verarbeiten.

Vorbereitung

Dieses Mal haben wir zur Durchführung der Suche und Textverarbeitung ein Beispiel-CSV aus dem Folgenden erhalten. Es ist ein Datensatz, der die öffentlichen Statistiken nach Regionen zusammenfasst. Dieses Mal habe ich den Header-Teil gelöscht, nur den Datenteil extrahiert und auf dem Linux-Server abgelegt.

Das Datenformat ist wie folgt.

Postleitzahl Präfekturen Gemeinde Gesamtbevölkerung 123 Stück(Unterlassung) Anzahl der Kinder in Kindergärten usw.
R01100 Hokkaido Sapporo 1952356 ・ ・ ・ 25742

Beziehen Sie sich für den ausgelassenen Teil auf die nachstehende Erläuterung.

Extrahieren Sie nur die angegebenen Präfekturdaten

Wenn Sie nur die Daten (Zeilen) einer bestimmten Präfektur extrahieren möchten, verwenden Sie den Befehl grep. Der Grep-Befehl ist ein Befehl, der ** Zeilen ** anzeigt, die die angegebene Zeichenfolge oder das angegebene Muster enthalten.

Lassen Sie uns nur die Daten der "Präfektur Wakayama" extrahieren.

# grep "Zu suchende Zeichenfolge"Datei
grep "Präfektur Wakayama" data/ssdse-2019a.csv

[test@srv1 testAwk]$ grep "Präfektur Wakayama" data/ssdse-2019a.csv
R30201 Wakayama City, Präfektur Wakayama 364154 171215 192939 360592 169798 190794 44519 22757 21762 211753 102859 108894 105954 44446 61508 50822 19092 31730 2466 2727 4449 7627 7938 153089 152798 355502 37389 329 658 1751 1435 618 1554 108 1378 159 21 2628 14298 177281 326 10259 25874 1139 2240 11469 34092 5855 4467 4079 15176 6481 10411 25096 882 11457 7907 392 36138 140751 2173 1478 95.6 11.6 152643733 63453773 151658392 65642801 20551722 13750658 0 28 3665 54 1131 17614 25 688 10313 14 12329 162655 90595 72060 8131 5266 2865 132002 43765 88237 3023 37094 114600 1 2 373593 43481 3094 1519 55 34 443 235 1616 335 1172 58 6830
(Unten weggelassen)

Extrahieren Sie nur einige Daten

Verwenden Sie den zuvor ausgeführten Befehl zur Umleitung. Dieses Mal werde ich versuchen, das Einzugsverhältnis aus den Informationen der Auszugsperson und der Einzugsperson zu ermitteln.

Ich möchte nur die Informationen der ausziehenden Person und der einziehenden Person (GJ2017) extrahieren, daher verwende ich den Befehl awk. Der Befehl awk ist ein Befehl, der die durch das angegebene Trennzeichen geteilten Daten formatiert.

Standardmäßig wird ein Leerzeichen ("") als Trennzeichen aufgeteilt. Zum Zeitpunkt der Ausgabe ist es möglich, ein bestimmtes Element wie "{print $ 1}" und die Ausgabe anzugeben.

Diesmal sind die auszugebenden Informationen die Anzahl der Zuwanderer, die Anzahl der Auswanderer und die Anzahl der Zuwanderer - die Anzahl der Auswanderer. Die dritte Ausgabe gibt das Ergebnis der Differenzberechnung aus.

Ausgangsnummer Nummer der Datenspalte Artikelname oder Formel Bemerkungen
1 3 Kommunaler Name
2 25 Anzahl der Erwerber
3 26 Anzahl der Auswanderer
4 - Anzahl der Erwerber-Anzahl der Auswanderer 正数:Anzahl der Auswanderer以上のAnzahl der Erwerber
負数:Anzahl der Erwerber以上のAnzahl der Auswanderer
# awk -F'[Trennzeichen(Mehrere)]' '{awk Befehl}' file
[test@srv1 testAwk]$ grep "Präfektur Wakayama" data/ssdse-2019a.csv | awk '{print $3,$25,$26,$25-$26}'
Wakayama City 7627 7938-311
Hainan City 1042 1324-282
Hashimoto City 1260 1560-300
Arita City 469 713-244
Gobo City 632 787-155
Tanabe City 1691 2216-525
Shingu City 815 1068-253
Kinokawa City 1278 1689-411
Iwade City 1720 1753-33
Kimino Town 154 225-71
Katsuragi Town 360 430-70
Kudoyama Town 91 112-21
Takano Town 88 168-80
Yuasa Town 223 313-90
Hirokawa Town 142 202-60
Arita River Town 611 593 18
Mihama Town 275 289-14
Stadt Hidaka 260 239 21
Yura Town 99 169-70
Innancho 157 204-47
Minabe Town 196 345-149
Hidakagawa Town 270 289-19
Shirahama Town 691 749-58
Uetomi Tamachi 636 510 126
Susami Town 101 123-22
Nachi Katsuura Stadt 319 527-208
Taichicho 107 127-20
Kozagawacho 74 66 8
Kitayama Village 24 18 6
Kushimotocho 430 584-154

Sortieren Sie die Ausgabe

Es verwendet auch den zuvor ausgeführten Befehl für Weiterleitungen.

Verwenden Sie zum Sortieren den Befehl sort. Der Befehl sort ist ein Befehl zum Sortieren der Daten geteilt durch das angegebene Trennzeichen. Stellen Sie diesmal die folgenden Optionen ein.

Möglichkeit Streit Erläuterung
-k 4 Artikelnummer als Sortierstandard
-n Vergleichen Sie die Sortierkriterien als Zahlen
-r Anzeige in absteigender Reihenfolge
[test@srv1 testAwk]$ grep "Präfektur Wakayama" data/ssdse-2019a.csv | awk '{print $3,$25,$26,$25-$26}' | sort  -k 4 -n -r
Uetomi Tamachi 636 510 126
Stadt Hidaka 260 239 21
Arita River Town 611 593 18
Kozagawacho 74 66 8
Kitayama Village 24 18 6
Mihama Town 275 289-14
Hidakagawa Town 270 289-19
Taichicho 107 127-20
Kudoyama Town 91 112-21
Susami Town 101 123-22
Iwade City 1720 1753-33
Innancho 157 204-47
Shirahama Town 691 749-58
Hirokawa Town 142 202-60
Yura Town 99 169-70
Katsuragi Town 360 430-70
Kimino Town 154 225-71
Takano Town 88 168-80
Yuasa Town 223 313-90
Minabe Town 196 345-149
Kushimotocho 430 584-154
Gobo City 632 787-155
Nachi Katsuura Stadt 319 527-208
Arita City 469 713-244
Shingu City 815 1068-253
Hainan City 1042 1324-282
Hashimoto City 1260 1560-300
Wakayama City 7627 7938-311
Kinokawa City 1278 1689-411
Tanabe City 1691 2216-525

Ergebnis

Ich konnte einfache Daten auf dem Linux-Server verarbeiten. Es gibt mehr Auswanderer als ich erwartet hatte. Ich würde gerne wissen, warum Uetomi Tamachi bei weitem zunimmt.

Recommended Posts

[Linux-Befehl] Petit-Datenanalyse mit dem Befehl grep / awk / sort
Datenanalyse mit Python 2
Datenanalyse mit Python
[Linux] Betriebssystemwiederherstellung mit Wiederherstellungsbefehl
Analysieren Sie pcap-Daten mit dem Befehl tshark
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
Linux-Befehl Nr. 4
Linux-Befehl Nr. 3
Linux-Befehl Nr. 5
grep Befehl
Datenanalyse zur Verbesserung von POG 2 ~ Analyse mit Jupiter-Notebook ~
Passen Sie die Dateiberechtigungen mit dem Linux-Befehl chmod an
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
[Linux] eQTL-Analyse mit der genetischen Statistiksoftware PLINK
[Einführung zur Minimierung] Datenanalyse mit SEIR-Modell ♬
Komprimieren Sie mit dem Linux-Zip-Befehl auf der Java-Seite
[Sprachanalyse] Sammeln Sie Vogellieddaten mit Xeno-Canto
[Linux] Anzeigen der CPU-Auslastung mit dem Befehl ps, Anzeigen des Headers und nicht Anzeigen des Grep-Prozesses