Das Update wurde verzögert. Es gibt viele Gründe (oder Ausreden), aber ich denke, die meiste Zeit habe ich nicht viel Code geschrieben. Zu Beginn des neuen Jahres hat sich die Anzahl der Klassen und Aufgaben ein wenig beruhigt, und gleichzeitig bin ich in Gedanken herumgewandert und habe über meine Abschlussarbeit und meinen Karriereweg nach dem Abschluss nachgedacht, sodass ich mich nicht viel bewegt habe. Also habe ich meinen Blog jeden Tag aktualisiert, aber mein ehrlicher Eindruck war, dass es nicht genug Inhalte gab, um in Qiita zu schreiben. Ich bin immer noch ein wenig verloren, aber vorerst ist meine Abschlussarbeit entschieden und ich arbeite hart daran, es zu schaffen.
Während des Unterrichts habe ich mit einigen Daten in der Cloud gespielt. Ich habe auch von einer erstaunlichen Seite namens Kaggle erfahren. Dies ist das erste Mal, dass ich es ausprobiert habe, während ich nach dem Unterricht selbst Daten von Kaggle genommen und überprüft habe.
https://www.kaggle.com/unsdsn/world-happiness#2019.csv Ich dachte, ich könnte verschiedene Zusammenhänge erkennen, also entschied ich mich dafür.
from google.colab import drive
drive.mount('/content/drive')
Laden Sie die erforderliche CSV im Voraus auf Google Drive hoch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("/content/drive/My Drive/2019.csv")
Ich war beeindruckt, dass es so viele andere Bibliotheken gibt!
df.count()
Overall rank | 156 |
---|---|
Country or region | 156 |
Score | 156 |
GDP per capita | 156 |
Social support | 156 |
Healthy life expectancy | 156 |
Freedom to make life choices | 156 |
Generosity | 156 |
Perceptions of corruption | 156 |
Healthy life expectancy | 156 |
Anzahl der Daten 156, keine fehlenden Werte Wenn ich das nicht mache, weiß ich nicht, ob ich alle oder nur die ersten Daten anzeigen soll, also habe ich es versucht. Ich wollte auch Daten mit vielen fehlenden Werten vermeiden, da dies verwirrend schien. (Ich denke, wir müssen uns in Zukunft der Herausforderung stellen, aber vorerst ist dies das erste Mal.)
df.head(20)
Overall rank | Country or region | Score | GDP per capita | Social support | Healthy life expectancy | Freedom to make life choices | Generosity | Perceptions of corruption |
---|---|---|---|---|---|---|---|---|
1 | Finland | 7.769 | 1.340 | 1.587 | 0.986 | 0.596 | 0.153 | 0.393 |
2 | Denmark | 7.600 | 1.383 | 1.573 | 0.996 | 0.592 | 0.252 | 0.410 |
3 | Norway | 7.554 | 1.488 | 1.582 | 1.028 | 0.603 | 0.271 | 0.341 |
4 | Iceland | 7.494 | 1.380 | 1.624 | 1.026 | 0.591 | 0.354 | 0.118 |
5 | Netherlands | 7.488 | 1.396 | 1.522 | 0.999 | 0.557 | 0.322 | 0.298 |
6 | Switzerland | 7.480 | 1.452 | 1.526 | 1.052 | 0.572 | 0.263 | 0.343 |
7 | Sweden | 7.343 | 1.387 | 1.487 | 1.009 | 0.574 | 0.267 | 0.373 |
8 | New Zealand | 7.307 | 1.303 | 1.557 | 1.026 | 0.585 | 0.330 | 0.380 |
9 | Canada | 7.278 | 1.365 | 1.505 | 1.039 | 0.584 | 0.285 | 0.308 |
10 | Austria | 7.246 | 1.376 | 1.475 | 1.016 | 0.532 | 0.244 | 0.226 |
11 | Australia | 7.228 | 1.372 | 1.548 | 1.036 | 0.557 | 0.332 | 0.290 |
12 | Costa Rica | 7.167 | 1.034 | 1.441 | 0.963 | 0.558 | 0.144 | |
13 | Israel | 7.139 | 1.276 | 1.455 | 1.029 | 0.371 | 0.261 | 0.082 |
14 | Luxembourg | 7.090 | 1.609 | 1.479 | 1.012 | 0.526 | 0.194 | 0.316 |
15 | United Kingdom | 7.054 | 1.333 | 1.538 | 0.996 | 0.450 | 0.348 | 0.278 |
16 | Ireland | 7.021 | 1.499 | 1.553 | 0.999 | 0.516 | 0.298 | 0.310 |
17 | Germany | 6.985 | 1.373 | 1.454 | 0.987 | 0.473 | 0.160 | 0.210 |
19 | United | States | 6.892 | 1.433 | 1.457 | 0.874 | 0.454 | 0.280 |
20 | Czech Republic | 6.852 | 1.269 | 1.487 | 0.920 | 0.457 | 0.046 | 0.036 |
Japan ist nicht enthalten
df.describe()
Overall rank | Score | GDP per capita | Social support | Healthy life expectancy | Freedom to make life choices | Generosity | Perceptions of corruption |
---|---|---|---|---|---|---|---|
count | 156.000000 | 156.000000 | 156.000000 | 156.000000 | 156.000000 | 156.000000 | 156.000000 |
mean | 78.500000 | 5.407096 | 0.905147 | 1.208814 | 0.725244 | 0.392571 | 0.184846 |
std | 45.177428 | 1.113120 | 0.398389 | 0.299191 | 0.242124 | 0.143289 | 0.095254 |
min | 1.000000 | 2.853000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 |
25% | 39.750000 | 4.544500 | 0.602750 | 1.055750 | 0.547750 | 0.308000 | 0.108750 |
50% | 78.500000 | 5.379500 | 0.960000 | 1.271500 | 0.789000 | 0.417000 | 0.177500 |
75% | 117.250000 | 6.184500 | 1.232500 | 1.452500 | 0.881750 | 0.507250 | 0.248250 |
max | 156.000000 | 7.769000 | 1.684000 | 1.624000 | 1.141000 | 0.631000 | 0.566000 |
Ist das nur die Art der Daten? Ich kann verstehen wie.
#Bibliotheksvorbereitung
import numpy as np
import pandas as pd
#Datensatzvorbereitung
##Glück zu ordnen
happy = df["Score"]
##Soziale Wohlfahrt arrangieren
social = df["Social support"]
#Holen Sie sich den Korrelationskoeffizienten!
correlation = np.corrcoef(social, happy)
print(correlation)
[[1. 0.77705779] [0.77705779 1. ]]
Es kam heraus ~~ Da der Korrelationskoeffizient 0,7 beträgt, korreliert die soziale Wohlfahrt stark mit dem Glück! !!
#Bibliotheksvorbereitung
import pandas as pd
import numpy as np
#Sie sollten in der Lage sein, den Korrelationskoeffizienten zwischen Spalten zu erhalten!
corr_df =df.corr()
print(corr_df)
Overall rank ... Perceptions of corruption Overall rank 1.000000 ... -0.351959 Score -0.989096 ... 0.385613 GDP per capita -0.801947 ... 0.298920 Social support -0.767465 ... 0.181899 Healthy life expectancy -0.787411 ... 0.295283 Freedom to make life choices -0.546606 ... 0.438843 Generosity -0.047993 ... 0.326538 Perceptions of corruption -0.351959 ... 1.000000
[8 rows x 8 columns]
Es tut mir leid, dass es schwer zu sehen ist, ich bin vorerst draußen!
#Bibliotheksvorbereitung
import seaborn as sns
sns.heatmap(corr_df, cmap= sns.color_palette('cool', 5), annot=True,fmt='.2f', vmin = -1, vmax = 1)
Ich habe vergessen, den Gesamtrang komplett zu überholen, aber ich habe es geschafft!
Ich habe mich schon immer für Python interessiert. Obwohl die Anzahl der Lektionen insgesamt auf das Vierfache begrenzt war, war es interessant, verschiedene Dinge über "Daten" zu lernen, nicht nur über Python. Der Rest hat Spaß gemacht. Ich erinnere mich, dass ich als Doktorand ein wenig Statistik bei SPSS gemacht habe. Ich habe in meiner Masterarbeit keine Statistiken verwendet, deshalb habe ich sie nur ein wenig angesprochen, aber es war auch zu dieser Zeit rein interessant. Ich erinnerte mich an diese Zeit, als ich jung war lol
Vorerst war dies mein erstes Mal, also habe ich es grob versucht, ohne über tiefe Dinge nachzudenken. Anstatt über strenge Statistiken nachzudenken, versuchen Sie einfach, dies herauszufinden oder zu visualisieren. Wenn Sie sich die Spezialisten ansehen, denke ich, dass es eine Menge zu tun gibt. Es gibt viele Dinge, die ich mit Python machen möchte, wie z. B. Faktoranalyse, Hauptkomponentenanalyse und logistische Analyse, die ich früher mit SPSS gemacht habe. Ich konnte es wegen Zeit- und Wissensmangels während des Unterrichts überhaupt nicht tun ...
Der Unterricht selbst ist vorbei, aber gleichzeitig spürte ich das Potenzial des maschinellen Lernens und gleichzeitig wurde mir klar, dass ich das schwache Gefühl hatte, in dieser Branche zu sein: "Ich werde in Zukunft eine wesentliche Sprache haben!" Ich bin mir sicher, dass es nicht nur Spaß macht oder interessante Dinge während des Studiums sind, sondern dass ich in Zukunft so viel wie möglich lernen möchte. Ich habe nicht vor, maschinelles Lernen in das Produkt aufzunehmen, das ich gerade herstelle. Wie viel kann ich also in einem anderen Rahmen als der gesamten Abschlussarbeit tun? Es scheint, dass es eine endliche Nichtausführung sein wird, und ich mache mir bereits Sorgen, aber ich habe Qiita geschrieben, um mich zu warnen, also würde ich es gerne nach und nach versuchen. Ich hoffe, solche Inhalte in Zukunft nach und nach beschreiben zu können.
Recommended Posts