[PYTHON] Zum ersten Mal versuchte ein Programmieranfänger eine einfache Datenanalyse mit Programmierung

Entschuldigung, ich habe nicht aktualisiert

Das Update wurde verzögert. Es gibt viele Gründe (oder Ausreden), aber ich denke, die meiste Zeit habe ich nicht viel Code geschrieben. Zu Beginn des neuen Jahres hat sich die Anzahl der Klassen und Aufgaben ein wenig beruhigt, und gleichzeitig bin ich in Gedanken herumgewandert und habe über meine Abschlussarbeit und meinen Karriereweg nach dem Abschluss nachgedacht, sodass ich mich nicht viel bewegt habe. Also habe ich meinen Blog jeden Tag aktualisiert, aber mein ehrlicher Eindruck war, dass es nicht genug Inhalte gab, um in Qiita zu schreiben. Ich bin immer noch ein wenig verloren, aber vorerst ist meine Abschlussarbeit entschieden und ich arbeite hart daran, es zu schaffen.

Ich habe im Unterricht ein wenig Python gelernt

Während des Unterrichts habe ich mit einigen Daten in der Cloud gespielt. Ich habe auch von einer erstaunlichen Seite namens Kaggle erfahren. Dies ist das erste Mal, dass ich es ausprobiert habe, während ich nach dem Unterricht selbst Daten von Kaggle genommen und überprüft habe.

Holen Sie sich Daten von kaggle

https://www.kaggle.com/unsdsn/world-happiness#2019.csv Ich dachte, ich könnte verschiedene Zusammenhänge erkennen, also entschied ich mich dafür.

Mount von Google Drive

from google.colab import drive
drive.mount('/content/drive')

Laden Sie die erforderliche CSV im Voraus auf Google Drive hoch

Import und Datenerfassung von Bibliotheken, die möglicherweise erforderlich sind

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("/content/drive/My Drive/2019.csv")

Ich war beeindruckt, dass es so viele andere Bibliotheken gibt!

Überprüfen Sie die Anzahl der Daten und das Vorhandensein fehlender Werte

df.count()
Overall rank 156
Country or region 156
Score 156
GDP per capita 156
Social support 156
Healthy life expectancy 156
Freedom to make life choices 156
Generosity 156
Perceptions of corruption 156
Healthy life expectancy 156

Anzahl der Daten 156, keine fehlenden Werte Wenn ich das nicht mache, weiß ich nicht, ob ich alle oder nur die ersten Daten anzeigen soll, also habe ich es versucht. Ich wollte auch Daten mit vielen fehlenden Werten vermeiden, da dies verwirrend schien. (Ich denke, wir müssen uns in Zukunft der Herausforderung stellen, aber vorerst ist dies das erste Mal.)

Versuchen Sie, nur die ersten 20 anzuzeigen

df.head(20)
Overall rank Country or region Score GDP per capita Social support Healthy life expectancy Freedom to make life choices Generosity Perceptions of corruption
1 Finland 7.769 1.340 1.587 0.986 0.596 0.153 0.393
2 Denmark 7.600 1.383 1.573 0.996 0.592 0.252 0.410
3 Norway 7.554 1.488 1.582 1.028 0.603 0.271 0.341
4 Iceland 7.494 1.380 1.624 1.026 0.591 0.354 0.118
5 Netherlands 7.488 1.396 1.522 0.999 0.557 0.322 0.298
6 Switzerland 7.480 1.452 1.526 1.052 0.572 0.263 0.343
7 Sweden 7.343 1.387 1.487 1.009 0.574 0.267 0.373
8 New Zealand 7.307 1.303 1.557 1.026 0.585 0.330 0.380
9 Canada 7.278 1.365 1.505 1.039 0.584 0.285 0.308
10 Austria 7.246 1.376 1.475 1.016 0.532 0.244 0.226
11 Australia 7.228 1.372 1.548 1.036 0.557 0.332 0.290
12 Costa Rica 7.167 1.034 1.441 0.963 0.558 0.144
13 Israel 7.139 1.276 1.455 1.029 0.371 0.261 0.082
14 Luxembourg 7.090 1.609 1.479 1.012 0.526 0.194 0.316
15 United Kingdom 7.054 1.333 1.538 0.996 0.450 0.348 0.278
16 Ireland 7.021 1.499 1.553 0.999 0.516 0.298 0.310
17 Germany 6.985 1.373 1.454 0.987 0.473 0.160 0.210
19 United States 6.892 1.433 1.457 0.874 0.454 0.280
20 Czech Republic 6.852 1.269 1.487 0.920 0.457 0.046 0.036

Japan ist nicht enthalten

Lassen Sie uns grob zeigen, was notwendig erscheint

df.describe()
Overall rank Score GDP per capita Social support Healthy life expectancy Freedom to make life choices Generosity Perceptions of corruption
count 156.000000 156.000000 156.000000 156.000000 156.000000 156.000000 156.000000
mean 78.500000 5.407096 0.905147 1.208814 0.725244 0.392571 0.184846
std 45.177428 1.113120 0.398389 0.299191 0.242124 0.143289 0.095254
min 1.000000 2.853000 0.000000 0.000000 0.000000 0.000000 0.000000
25% 39.750000 4.544500 0.602750 1.055750 0.547750 0.308000 0.108750
50% 78.500000 5.379500 0.960000 1.271500 0.789000 0.417000 0.177500
75% 117.250000 6.184500 1.232500 1.452500 0.881750 0.507250 0.248250
max 156.000000 7.769000 1.684000 1.624000 1.141000 0.631000 0.566000

Ist das nur die Art der Daten? Ich kann verstehen wie.

Versuchen Sie, den Korrelationskoeffizienten zwischen Punktzahl (Glück) und sozialer Unterstützung (soziale Wohlfahrt) zu finden.


#Bibliotheksvorbereitung
import numpy as np
import pandas as pd

#Datensatzvorbereitung

##Glück zu ordnen
happy = df["Score"]

##Soziale Wohlfahrt arrangieren
social = df["Social support"]

#Holen Sie sich den Korrelationskoeffizienten!
correlation = np.corrcoef(social, happy)
print(correlation)

[[1. 0.77705779] [0.77705779 1. ]]

Es kam heraus ~~ Da der Korrelationskoeffizient 0,7 beträgt, korreliert die soziale Wohlfahrt stark mit dem Glück! !!

Ich werde eine Heatmap herausbringen


#Bibliotheksvorbereitung
import pandas as pd
import numpy as np

#Sie sollten in der Lage sein, den Korrelationskoeffizienten zwischen Spalten zu erhalten!
corr_df =df.corr()
print(corr_df)

Overall rank ... Perceptions of corruption Overall rank 1.000000 ... -0.351959 Score -0.989096 ... 0.385613 GDP per capita -0.801947 ... 0.298920 Social support -0.767465 ... 0.181899 Healthy life expectancy -0.787411 ... 0.295283 Freedom to make life choices -0.546606 ... 0.438843 Generosity -0.047993 ... 0.326538 Perceptions of corruption -0.351959 ... 1.000000

[8 rows x 8 columns]

Es tut mir leid, dass es schwer zu sehen ist, ich bin vorerst draußen!

#Bibliotheksvorbereitung
import seaborn as sns
sns.heatmap(corr_df, cmap= sns.color_palette('cool', 5), annot=True,fmt='.2f', vmin = -1, vmax = 1)
スクリーンショット 2020-02-07 0.46.40.jpeg

Ich habe vergessen, den Gesamtrang komplett zu überholen, aber ich habe es geschafft!

Ich werde in Zukunft für mich selbst lernen

Eindrücke der Klasse

Ich habe mich schon immer für Python interessiert. Obwohl die Anzahl der Lektionen insgesamt auf das Vierfache begrenzt war, war es interessant, verschiedene Dinge über "Daten" zu lernen, nicht nur über Python. Der Rest hat Spaß gemacht. Ich erinnere mich, dass ich als Doktorand ein wenig Statistik bei SPSS gemacht habe. Ich habe in meiner Masterarbeit keine Statistiken verwendet, deshalb habe ich sie nur ein wenig angesprochen, aber es war auch zu dieser Zeit rein interessant. Ich erinnerte mich an diese Zeit, als ich jung war lol

Es gibt viele Dinge, die ich ausprobieren möchte

Vorerst war dies mein erstes Mal, also habe ich es grob versucht, ohne über tiefe Dinge nachzudenken. Anstatt über strenge Statistiken nachzudenken, versuchen Sie einfach, dies herauszufinden oder zu visualisieren. Wenn Sie sich die Spezialisten ansehen, denke ich, dass es eine Menge zu tun gibt. Es gibt viele Dinge, die ich mit Python machen möchte, wie z. B. Faktoranalyse, Hauptkomponentenanalyse und logistische Analyse, die ich früher mit SPSS gemacht habe. Ich konnte es wegen Zeit- und Wissensmangels während des Unterrichts überhaupt nicht tun ...

Versuchen Sie es stetig

Der Unterricht selbst ist vorbei, aber gleichzeitig spürte ich das Potenzial des maschinellen Lernens und gleichzeitig wurde mir klar, dass ich das schwache Gefühl hatte, in dieser Branche zu sein: "Ich werde in Zukunft eine wesentliche Sprache haben!" Ich bin mir sicher, dass es nicht nur Spaß macht oder interessante Dinge während des Studiums sind, sondern dass ich in Zukunft so viel wie möglich lernen möchte. Ich habe nicht vor, maschinelles Lernen in das Produkt aufzunehmen, das ich gerade herstelle. Wie viel kann ich also in einem anderen Rahmen als der gesamten Abschlussarbeit tun? Es scheint, dass es eine endliche Nichtausführung sein wird, und ich mache mir bereits Sorgen, aber ich habe Qiita geschrieben, um mich zu warnen, also würde ich es gerne nach und nach versuchen. Ich hoffe, solche Inhalte in Zukunft nach und nach beschreiben zu können.

Recommended Posts

Zum ersten Mal versuchte ein Programmieranfänger eine einfache Datenanalyse mit Programmierung
Ich habe zum ersten Mal versucht, Python zu programmieren.
Ein Python-Anfänger hat in den letzten 10 Jahren zunächst versucht, die Wetterdaten schnell und einfach zu analysieren.
Ein Programmieranfänger versuchte, die Ausführungszeit des Sortierens usw. zu überprüfen.
[Erste Datenwissenschaft ⑤] Ich habe versucht, meinem Freund zu helfen, die erste Eigenschaft durch Datenanalyse zu finden
Erste Satellitendatenanalyse von Tellus
Eine einfache Datenanalyse von Bitcoin, die von CoinMetrics in Python bereitgestellt wird
Bereiten Sie eine Hochgeschwindigkeitsanalyseumgebung vor, indem Sie in der Datenanalyseumgebung auf MySQL klicken
SE, ein Anfänger in der Datenanalyse, lernt mit dem Data Science Team Vol.1
Bereiten Sie eine Programmiersprachenumgebung für die Datenanalyse vor
Ich habe zuerst die SARS-Analyse vor dem Corona-Virus versucht
Ich habe Mind Meld zum ersten Mal ausprobiert
Geschichte rund um die Datenanalyse durch maschinelles Lernen
Lassen Sie uns eine einfache Vorlage anzeigen, die ideal für den ersten Django ist
Ich habe Python zum ersten Mal auf dem Mac ausprobiert.
Registrieren Sie zum ersten Mal eine Aufgabe in cron
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
Ich habe Python zum ersten Mal mit Heroku ausprobiert
Ich habe versucht, die Anzahl durch Programmieren zu erhöhen oder zu verringern
AI Gaming Ich habe es zum ersten Mal versucht
Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ②
Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ①
Ich habe die Google Cloud Vision-API zum ersten Mal ausprobiert
Erster Kaggle (Kaggle ①)
Kaguru zum ersten Mal
[Erstes Scraping] Ich habe versucht, einen VIP-Charakter für Smash Bra [Beautiful Soup] zu erstellen. [Zusätzlich Datenanalyse]
Verarbeiten Sie die aus einem bestimmten Kassensystem entnommenen Daten, um eine Übersichtstabelle nach Produkt und Zeit zu erstellen
Was ich durch das Schreiben einer Python Pull-Anfrage zum ersten Mal in meinem Leben gelernt habe
Wenn Sie neu in der Programmierung sind, warum machen Sie nicht vorerst ein "Spiel"? Die Geschichte
Ich habe versucht, einen einfachen Kredit-Score mit logistischer Regression zu erstellen.
[Unerwartet bekannt? ] Einführung eines echten Tages in der Datenanalyse
Ein Anfänger, der seit 2 Monaten programmiert, versuchte, das reale BIP Japans in Zeitreihen mit dem SARIMA-Modell zu analysieren.
Ich habe versucht, die Befehle zusammenzufassen, die Anfängeringenieure heute verwenden
Raspberry Pi --1 - Zum ersten Mal (Schließen Sie einen Temperatursensor an, um die Temperatur anzuzeigen)
Erste einfache Regressionsanalyse in Python
Siehe Python zum ersten Mal
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Starten Sie Django zum ersten Mal
Spielen wir mit dem von TIS erstellten Unternehmensanalysedatensatz "CoARiJ"
Juli, eine bestimmte, M5 ~ Kaggle Anfänger Zeitreihen Datenwettbewerb Fehlergeschichte ~
Rückblick auf die 10 Monate, bevor ein Programmieranfänger ein Kaggle-Experte wird
Veranschaulichen Sie sofort die vorherrschende Periode in Zeitreihendaten mithilfe der Spektralanalyse
Ich habe eine fraktale Dimensionsanalyse mit der Box-Count-Methode in 3 Dimensionen versucht
Ich habe versucht, die Linux-Befehle zusammenzufassen, die heute von Anfängeringenieuren verwendet werden - Teil 1-
Ich habe versucht, eine Clusteranalyse von Kunden anhand von Kaufdaten durchzuführen
Ein nützlicher Hinweis, wenn Sie Python nach langer Zeit verwenden
Spielen wir mit dem von TIS erstellten Unternehmensanalysedatensatz "CoARiJ"
Ich habe versucht, das Ergebnis des A / B-Tests mit dem Chi-Quadrat-Test zu überprüfen
Da ich frei bin, hat der Front-End-Ingenieur Python (v3.7.5) zum ersten Mal ausprobiert
Bis Sie die Silbermedaille (Top 3%) in dem Wettbewerb gewinnen, an dem Sie innerhalb eines Monats zum ersten Mal in der Datenwissenschaft teilgenommen haben!
(Erhaltene Version: von Zeit zu Zeit aktualisiert) Eine Sammlung nützlicher Tutorials für Datenanalyse-Hackathons von Team AI