Zweck

Ich habe ein Python-Diagramm mit den Daten neuer Coronavirus (COVID-19) -positiver Patienten gezeichnet, die von der Tokyo Metropolitan Government veröffentlicht wurden.

Es wurde mit dem minimal erforderlichen Code geschrieben, daher hoffe ich, dass es für diejenigen hilfreich ist, die von nun an daran denken, Datenanalysen mit Python durchzuführen.

Da die öffentlichen Daten im CSV-Format, die täglich von der Regierung der Metropole Tokio aktualisiert werden, direkt gelesen werden, müssen die CSV-Dateien nicht einzeln heruntergeladen werden.

Wenn Sie den folgenden Python-Code in Ihre eigene Ausführungsumgebung (Jupyter Notebook usw.) kopieren, können Sie jedes Mal das neueste Informationsdiagramm zeichnen.

Außerdem habe ich später in diesem Artikel einen Link zur nationalen japanischen Version von CSV-Daten hinzugefügt, sodass ich denke, dass es für Sie einfacher sein wird, Fähigkeiten zu erwerben, wenn Sie die Verwendung üben.

Python-Ausführungsumgebung

Der Python-Code in diesem Artikel wurde mit Jupyter Lab auf einem Windows 10-Computer mit installiertem Anaconda getestet.

Datenquelle

CSV-Daten

Die diesmal grafisch dargestellten Daten sind die folgenden CSV-Daten. Die Ergebnisse bis zum Vortag werden täglich aktualisiert. Tokyo _ New Corona Virus Positive Patient Announcement Details (CSV-Format)

Startseite

Das Folgende ist die Homepage mit Links zu CSV-Daten. Details zur Ankündigung eines neuen Patienten mit positivem Corona-Virus in Tokio

Grafik mit Python

Zeichnen wir nun ein Diagramm in Python mit CSV-Daten.

Lesen Sie zuerst die Daten

Verwenden Sie zunächst den folgenden Python-Code, um eine Verbindung zur Tokio-Homepage herzustellen, die neuesten Daten (CSV-Format) abzurufen und in Pandas DataFlame zu konvertieren.

Der Punkt hier ist, dass die CSV-Datei nicht im lokalen Ordner gespeichert, sondern direkt in Pandas DataFlame (df) konvertiert wird. Dies erspart Ihnen die Mühe, einen Browser zu öffnen und die neueste tägliche CSV-Datei herunterzuladen, indem Sie einfach den folgenden Code ausführen.

import requests
import pandas as pd
import io

#Importieren Sie CSV direkt in den Pandas-Datenrahmen
url = 'https://stopcovid19.metro.tokyo.lg.jp/data/130001_tokyo_covid19_patients.csv'
r = requests.get(url).content
df = pd.read_csv(io.StringIO(r.decode('utf-8')))
df

Wenn die Daten erfolgreich geladen wurden, sollte der Inhalt von DataFrame (df) angezeigt werden.

Übergangsdiagramm neu infizierter Personen

Ich werde ein Diagramm mit dem oben gelesenen DataFrame (df) zeichnen. Erstens ist die horizontale Achse das Datum und die vertikale Achse das Balkendiagramm der Anzahl infizierter Personen. Lassen Sie uns den folgenden Code weiter ausführen.

((5/15 postscript)) Da die Reihenfolge der ursprünglichen CSV-Daten nicht mehr in chronologischer Reihenfolge ist, habe ich eine Codezeile hinzugefügt, um die Daten in der Reihenfolge von Veröffentlichungsdatum nahe der Mitte des Codes unten zu sortieren.

#Matplotlib zum Zeichnen von Grafiken.Pyplot und Seaborn importieren
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#Schreiben Sie eine Grafik
plt.figure(figsize=(13,7))                   #Definieren Sie die Größe des Diagramms

sns.set(font='Yu Gothic', font_scale = 1.2)  #Geben Sie die Schriftart an, da japanische Zeichen verstümmelt sind

df = df.sort_values('Veröffentlicht_Datum')           #Veröffentlicht_Datumの順番にデータを並び替える（5/15 Nachschrift)

sns.countplot(data=df, x='Veröffentlicht_Datum')      #Erstellen Sie ein aggregiertes Diagramm der Anzahl infizierter Personen mit Seaborn.

plt.title('COVID-19 Änderungen in der Anzahl der neu infizierten Personen in Tokio')
plt.xticks(rotation=90, fontsize=10)         #Da sich Datum und Uhrzeit der x-Achse überlappen, wird sie um 90 ° gedreht und angezeigt.
plt.ylabel('Anzahl der infizierten Personen(Mann)')                   #y-Achsenbeschriftung'Anzahl der infizierten Personen'Angezeigt als

Haben Sie eine Grafik wie die folgende gezeichnet? Es fühlt sich an, als wäre es konvergiert, aber ich frage mich, was in Zukunft passieren wird. .. ..

Diagramm der Anzahl infizierter Personen pro Tag

Übrigens: Verwenden Sie dasselbe Balkendiagramm, wenn Sie versuchen, die horizontale Achse nach Tag zu teilen.

#Zeichnen Sie ein Diagramm der Anzahl infizierter Personen pro Tag
sns.countplot(data=df, x="Tag")            #Zeichnen Sie ein Diagramm
plt.title('Anzahl der neu infizierten Personen pro Tag in Tokio')    #Diagrammtitel anzeigen
plt.ylabel('Anzahl der infizierten Personen(Mann)')                  #Titel auf vertikaler Achse anzeigen

Es war leicht zu zeichnen, aber die Reihenfolge der Tage ist seltsam.

Versuchen Sie, die Tage wie folgt neu zu schreiben.

#Ordnen Sie die horizontale Achse des Diagramms neu an und zeichnen Sie das Diagramm erneut
list_weekday = ['Mond','Feuer','Wasser','Holz','Geld','Boden','Tag']     #Erstellen Sie eine Liste mit der Reihenfolge der horizontalen Achse
sns.countplot(data=df, x="Tag",order=list_weekday)     #Zeichnen Sie ein Diagramm
plt.title('Anzahl der neu infizierten Personen pro Tag in Tokio')    #Diagrammtitel anzeigen
plt.ylabel('Anzahl der infizierten Personen(Mann)')                  #Titel auf vertikaler Achse anzeigen

Es wurde sicher in der Reihenfolge des Tages sortiert. Es scheint, dass die Anzahl der Freitage und Samstage am Wochenende hoch und die Anzahl der Sonntage und Montage niedrig ist.

Diagramm der Anzahl infizierter Männer und Frauen

Als nächstes ist das Geschlechterverhältnis ...

#Zeichnen Sie ein Diagramm der Anzahl infizierter Personen nach Geschlecht
sns.countplot(data=df, x="geduldig_Sex")      #Zeichnen Sie ein Diagramm
plt.title('Anzahl der neu infizierten Personen nach Geschlecht @ Tokio')    #Diagrammtitel anzeigen
plt.ylabel('Anzahl der infizierten Personen(Mann)')                 #Titel auf vertikaler Achse anzeigen

Wie jeden Tag berichtet, gibt es hier mehr Männer, aber ... Es wurde festgestellt, dass die Daten neben "männlich" und "weiblich" auch "untersuchte" und "unbekannte" Elemente enthielten. Diese unerwarteten Entdeckungen sind in der Datenanalyse häufig. Für alle Fälle aggregieren wir die patient_gender-Daten mit pivot_table. Es kann aus den Originaldaten in der folgenden Zeile zusammengefasst werden.

#geduldig_Aggregierte Geschlechtsdaten
df.pivot_table(index='geduldig_Sex',aggfunc='size').sort_values(ascending=False)

Ich denke, dass die folgenden Tabellenergebnisse (Nummer jedes Elements) angezeigt werden.

Mit anderen Worten, im Element patient_gender, Zusätzlich zu "männlich" und "weiblich" scheinen sechs "unbekannte" und eine "untersuchte" gemischt zu sein.

Es ist eine verbreitete Geschichte, dass unerwartete Elemente bei der Analyse von Daten berücksichtigt werden Es ist sehr wichtig, nicht nur die Grafikvisualisierung, sondern auch die Datenaggregation und Vorverarbeitungstechniken zu berücksichtigen.

Grafik der Anzahl der Infizierten nach Alter

Als nächstes nach Altersgruppen ...

list_age = ['Unter 10 Jahren','10er','20er Jahre','30er Jahre','Vierziger Jahre','50er Jahre','60er Jahre','70er Jahre','80er Jahre','90er Jahre','100 Jahre und älter','Unbekannt']
sns.countplot(data=df, x="geduldig_Alter", order=list_age)
plt.xticks(rotation=90)
plt.ylabel('Anzahl der infizierten Personen(Mann)')

So betrachtet scheint die Zahl der Infizierten in den Zwanzigern und Dreißigern für die Bevölkerung groß zu sein, ganz zu schweigen vom Anteil älterer Menschen in den Sechzigern und darüber. (Es ist vielleicht besser auszudrücken, dass das Verhältnis der Menschen in den Vierzigern und Fünfzigern für die Bevölkerung gering ist.)

Bevölkerungsdiagramm nach Altersgruppen in Tokio (Referenz)

Als Referenz ist die Grafik [^ 1] der Bevölkerung Tokios nach Altersgruppen (Stand 1. Januar, 2. Jahr von Reiwa) unten dargestellt. [^ 1]: Aus Tokios Haushalten und Bevölkerung (nach Stadt und Alter) basierend auf dem Basic Resident Register

Alter	Gesamtbevölkerung	Männliche Bevölkerung	Weibliche Bevölkerung
Unter 10 Jahren	1,048,921	536,920	512,001
10er	1,029,680	526,065	503,615
20er Jahre	1,557,966	779,053	778,913
30er Jahre	1,842,086	939,710	902,376
Vierziger Jahre	2,177,935	1,108,561	1,069,374
50er Jahre	1,832,946	946,158	886,788
60er Jahre	1,373,395	688,654	684,741
70er Jahre	1,414,012	645,774	768,238
80er Jahre	794,805	304,309	490,496
90er und älter	185,849	47,609	138,240
Unbekannt	1	0	1

Anzahl der Infizierten pro Bevölkerung nach Altersgruppen (insgesamt für Männer und Frauen)

In der folgenden Grafik wird die Anzahl der Infizierten pro 100.000 Personen verglichen, indem die Anzahl der Infizierten nach Altersgruppen durch die Bevölkerung nach Altersgruppen geteilt wird. Ich war ein wenig überrascht. .. .. Es scheint, dass Menschen in den 90ern und darüber überwältigend sind, gefolgt von Menschen in den 20ern, 30ern und 40ern bis 80ern.

Anzahl der Infizierten pro Bevölkerung nach Altersgruppe (nach Geschlecht)

Und wenn Sie es in Männer und Frauen teilen.

:boy_tone1:	:girl_tone1:

Dies ist auch ein überraschendes Ergebnis. Ich habe mich gefragt, ob es in den Zwanzigern viele Infizierte gibt, aber es waren Frauen, die in den Zwanzigern und Dreißigern tendenziell mehr Infizierte haben. Ich kenne die Ursache nicht, aber es ist ein wenig besorgniserregendes Ergebnis.

Heatmap nach Alter und Datum

Und wenn Sie sich die Heatmap nach Alter und Datum ansehen, ...

#Veröffentlicht_Datum und Patient_Erstellen Sie eine Pivot-Tabelle mit Altersspalten
df_pivot = df[['Veröffentlicht_Datum','geduldig_Alter']].pivot_table(index='Veröffentlicht_Datum',columns='geduldig_Alter',aggfunc='size')

#geduldig_Listen Sie jedes Element des Alters auf (wird auf der vertikalen Achse der Wärmekarte verwendet).
list_age = ['Unter 10 Jahren','10er','20er Jahre','30er Jahre','Vierziger Jahre','50er Jahre','60er Jahre','70er Jahre','80er Jahre','90er Jahre','100 Jahre und älter','Unbekannt']

plt.figure(figsize=(6,16))                         #Definieren Sie die Größe des Diagramms
plt.yticks(fontsize = 10)                          #Definieren Sie die Schriftgröße der y-Achse

sns.heatmap(df_pivot[list_age], annot = True, annot_kws={"size": 10}, linewidth = .1)    #Zeichnen Sie eine Heatmap

Es sieht so aus, aber es fühlt sich an wie "deshalb". .. .. (-_-;) Da anscheinend andere Informationen extrahiert werden können, werde ich die Analyse nach und nach fortsetzen.

Informationen zum Trimmen von Daten

Übrigens habe ich den Inhalt der Rohdaten (csv) überhaupt nicht überprüft, aber da die csv-Daten zu Beginn im Code in DataFrame (df) konvertiert wurden, zeigen wir den Inhalt der Daten mit dem folgenden Befehl erneut an. Machen wir das.

df

Es gibt 4.883 Datenzeilen (Stand: 12. Mai 2020), aber es scheint, dass es viele Nans gibt, die Leerzeichen anzeigen. Schauen wir uns zur Sicherheit die eindeutigen Werte in jeder Spalte an. Versuchen Sie, den folgenden Code auszuführen.

#Datenrahmen mit CSV-Daten(df)Extrahieren Sie den Spaltennamen und den eindeutigen Wert, der in jeder Spalte gespeichert ist.
for i in df.columns:                                       #Wiederholen Sie dies für jede Spalte
    print('Spaltenname:' + i)                                    #Drucken Sie den Namen der Spalte
    print('Anzahl der eindeutigen Werte:' + str(len(df[i].unique())))    #Zählen Sie die Anzahl der eindeutigen Werte in jeder Spalte
    print('Einzigartiger Wert:' + str(df[i].unique()))             #Extrahieren Sie eindeutige Werte für jede Spalte
    print('///////////////////////////////////////////')   #Separator

Da das Ergebnis lang ist, habe ich es unten gefaltet und aufbewahrt.

Ausführungsergebnis (Klick) Spaltenname: Nein Anzahl eindeutiger Werte: 4987 Eindeutiger Wert: [1 2 3 ... 10109 10110 10111] /////////////////////////////////////////// Spaltenname: Nationaler lokaler Regierungscode Anzahl der eindeutigen Werte: 1 Eindeutiger Wert: [130001] /////////////////////////////////////////// Spaltenname: Präfekturname Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: ['Tokyo'] /////////////////////////////////////////// Spaltenname: Name der Stadt Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Published_Date Anzahl der eindeutigen Werte: 84 Einzigartiger Wert: ['2020-01-24' '2020-01-25' '2020-01-30' '2020-02-13' '2020-02-14' '2020-02-15' '2020-02-16' '2020-02-18' '2020-02-19' '2020-02-21' '2020-02-22' '2020-02-24' '2020-02-26' '2020-02-27' '2020-02-29' '2020-03-01' '2020-03-03' '2020-03-04' '2020-03-05' '2020-03-06' '2020-03-07' '2020-03-10' '2020-03-11' '2020-03-12' '2020-03-13' '2020-03-14' '2020-03-15' '2020-03-17' '2020-03-18' '2020-03-19' '2020-03-20' '2020-03-21' '2020-03-22' '2020-03-23' '2020-03-24' '2020-03-25' '2020-03-26' '2020-03-27' '2020-03-28' '2020-03-29' '2020-03-30' '2020-03-31' '2020-04-01' '2020-04-02' '2020-04-03' '2020-04-04' '2020-04-05' '2020-04-06' '2020-04-07' '2020-04-08' '2020-04-09' '2020-04-10' '2020-04-11' '2020-04-12' '2020-04-13' '2020-04-14' '2020-04-15' '2020-04-16' '2020-04-17' '2020-04-18' '2020-04-19' '2020-04-20' '2020-04-21' '2020-04-22' '2020-04-23' '2020-04-24' '2020-04-25' '2020-04-26' '2020-04-27' '2020-04-28' '2020-04-29' '2020-04-30' '2020-05-01' '2020-05-02' '2020-05-03' '2020-05-04' '2020-05-05' '2020-05-06' '2020-05-07' '2020-05-08' '2020-05-09' '2020-05-10' '2020-05-11' '2020-05-12'] /////////////////////////////////////////// Spaltenname: Tag Anzahl der eindeutigen Werte: 7 Einzigartige Werte: ['Fr', 'Sa', 'Do', 'So', 'Di', 'Mi', 'Mo'] /////////////////////////////////////////// Spaltenname: Onset_date Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Patient_Residence Anzahl der eindeutigen Werte: 7 Einzigartiger Wert: ['Wuhan City, Provinz Hubei', 'Changsha City, Provinz Hunan', 'In Tokio', 'Außerhalb von Tokio' nan'Under Untersuchung '' '-' /////////////////////////////////////////// Spaltenname: Patient_age Anzahl der eindeutigen Werte: 13 Einzigartige Werte: ['40s' '30s' '70s' '50s' '80s' '60s' '20s''under 10s' '90s''teens' '100s and over' 'Unbekannt''-'] /////////////////////////////////////////// Spaltenname: Patient_Gender Anzahl der eindeutigen Werte: 4 Einzigartiger Wert: ['Men''Women' 'In Untersuchung' 'Unknown'] /////////////////////////////////////////// Spaltenname: Patient_attribute Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Patient_Status Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Patient_Symptoms Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Patient_ Reiseverlaufsflag Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Anmerkungen Anzahl der eindeutigen Werte: 1 Einzigartiger Wert: [nan] /////////////////////////////////////////// Spaltenname: Entladene Flagge Anzahl der eindeutigen Werte: 2 Einzigartiger Wert: [1. nan] ///////////////////////////////////////////

Zumindest für die folgenden Spalten scheint alles leer zu sein (nan).

"Stadtname"
"Onset_date"
"Patient_attribute"
"Patient_state"
"Patient_symptom"
"Patient_travel-Verlaufsflag"
"Bemerkungen"

Darüber hinaus haben der "nationale Kommunalverwaltungscode" und der "Präfekturname" alle den gleichen Wert, was bei der Datenanalyse keinen Sinn ergibt. Es ist wünschenswert, solche unnötigen Daten im Voraus aus den Daten zu entfernen. Erstellen Sie einen neuen Datenrahmen (df_extract), indem Sie nur die erforderlichen Elemente extrahieren. Führen Sie den folgenden Code aus.

#Nicht benötigte Spalten kürzen (nur erforderliche Spalten extrahieren)
df_extract = df[['No','Veröffentlicht_Datum','Tag','geduldig_Residenz','geduldig_Alter','geduldig_Sex','Entladene Flagge']]
df_extract = df_extract.set_index('No')     #Setzen Sie die Spalte "Nein" auf Index.
df_extract

Das ist ziemlich erfrischend. Ich denke, dass das Zuschneiden, bei dem unnötige Daten bei der Datenanalyse richtig beurteilt und ausgeschlossen werden, ebenfalls eine sehr wichtige Fähigkeit ist.

Übungsdaten

Diesmal waren es Daten aus Tokio, Jag Japan Co., Ltd. hat die nationale Version von CSV-Daten veröffentlicht. https://dl.dropboxusercontent.com/s/6mztoeb6xf78g5w/COVID-19.csv Es gibt viele Daten und ich denke, es ist genau richtig, um die Datenanalyse mit Python zu üben. Das Verfahren ist fast das gleiche. Wenn Sie also interessiert sind, warum probieren Sie es nicht selbst aus?

Bonus

In der Tat können Sie fast das gleiche mit Excel tun (und relativ einfach)

Unten sehen Sie ein Pivot-Diagramm, das in Excel mit denselben Daten erstellt wurde. Tatsächlich können Sie mit Excel problemlos fast dasselbe tun, einschließlich der in diesem Artikel vorgestellten Heatmap. Ich liebe auch Python und ich habe viele Gefühle, wenn ich etwas mit Python mache, aber wenn ich darüber nachdenke, wofür Datenanalyse ist und für wen Datenanalyse, kann Excel das, was Excel kann, was Excel kann. Jeden Tag denke ich, dass der grundlegende Stil nicht in Python gemacht werden sollte.

Übergangsdiagramm neu infizierter Personen in Excel gezeichnet

Wärmekarte in Excel gezeichnet (Modoki)

Vielen Dank für das Lesen bis zum Ende.

Ich werde es weiterhin aktualisieren, um meine Fähigkeiten zu verbessern.

Ich habe ein Python-Diagramm mit öffentlichen Daten zur Anzahl der neuen Coronavirus (COVID-19) -positiven Patienten in Tokio + mit einem Link zur nationalen Version der Praxisdaten gezeichnet