Auf den Straßen werden mehrere Dienste als Werkzeug für die Datenanalyse bereitgestellt. Ich arbeite in der Fertigungsindustrie, höre aber hauptsächlich die folgenden zwei Methoden zur Datenanalyse und -visualisierung.
--Umgebung ① Datenanalyse mit Python + Numpy + Pandas + α --Umwelt (2) Datenanalyse mit BI-Tools (Business Intelligence-Tools)
Beim Vergleichen und Untersuchen der Unterschiede zwischen diesen beiden Werkzeugen habe ich es tatsächlich versucht, basierend auf der Idee, dass "ich die gleiche Analyse mit den beiden Werkzeugen versuchen sollte".
Verwendetes PC-Betriebssystem: Microsoft Windows10 Pro 64bit Verwendeter Browser: Microsoft Edge
・ Nutzungsumgebung: kaggle notebook Da es sich um einen Cloud-Dienst handelt, kann die Version nicht bestätigt werden und ist ab dem 24. August 2020 verfügbar.
kaggle ist eine Community- und Wettbewerbswebsite für Datenanalysten. Es gibt auch Wettbewerbe mit Preisen, und es scheint, dass Ingenieure um die Genauigkeit der Datenanalyse konkurrieren. Die Details sind unter dem folgenden Link leicht zu verstehen. Kaggle-Tutorial, das ich nicht mehr hören kann Teil 1 Was ist Kaggle? Was bedeutet es teilzunehmen? Außerdem habe ich ein Konto eröffnet, indem ich auf den folgenden Link verwiesen habe. Wenn Sie ein Konto haben, können Sie Datenanalyse-bezogene Dienste einschließlich kaggle notebook kostenlos nutzen. Kaggle Introductory Edition für Anfänger! Von der Kontoeröffnung bis zur Übermittlung der Titanic
-Verwendungsumgebung: Microsoft Power BI Desktop Version 2.84.802.0 64-Bit Sie können PowerBI Desktop aus dem Microsoft Store herunterladen. Die meisten Funktionen einschließlich dieser Arbeit können kostenlos genutzt werden.
Der Fluss der Datenanalyse entlehnte einen Teil von Udemys datenwissenschaftlichem Kurs. Die folgenden Kurse decken alles von den Grundlagen bis zur einfachen praktischen Ausbildung ab und werden für diejenigen empfohlen, die systematisch Data Science lernen möchten. [180.000 Menschen auf der Welt] Praktische Python-Datenwissenschaft
Ich übernehme den obigen Lehrplan in udemy und werde die folgende Analyse in Bezug auf das berühmte "Titanic-Sinken" als ersten Schritt der Datenanalyse mit zwei Methoden durchführen.
・ Was für Leute waren die Passagiere der Titanic? (Geschlecht, Alter usw.) ・ Kausaler Zusammenhang zwischen den oben genannten Merkmalen und ihrem komplexen Zusammenhang und ihrer Überlebensrate
In diesem Artikel beschreiben wir die Verarbeitung, die den beiden Werkzeugen gemeinsam ist, und die Operationsergebnisse mit dem Werkzeug "Python + numpy + pandas + α". Die Ergebnisse der "Datenanalyse mit BI-Tools" werden im nächsten Artikel beschrieben.
Wenn Sie die tatsächlichen Kundendaten in Excel öffnen, sieht es so aus.
Bringen Sie lokale Daten in die Umgebung und zeigen Sie eine Zusammenfassung an Nur die ersten 5 Daten werden extrahiert, um die Daten aus der Vogelperspektive zu betrachten.
Vier. Überprüfen Sie das Verhältnis von Männern und Frauen für jede Raumklasse Die Klasse P gibt die Note des Raumes an. Sie können sehen, dass es in den Gästezimmern der dritten Klasse viele Männer gibt.
Es ist auch möglich, die Achse leicht umzukehren.
Fünf. Erstellen Sie Elemente (Person) wie "männlich", "weiblich" und "Kind (unter 16 Jahren)" mit den Elementen Alter (Alter) und Geschlecht (Geschlecht).
Erstellen Sie zunächst eine Personenspalte.
Überprüfen Sie dann die Verteilung der Personen nach Klassen. Ist das erstklassige Zimmer teuer? Es gibt nur wenige Kinder. Darüber hinaus ist zu erkennen, dass der Anteil männlicher erwachsener Männer in den Gästezimmern der dritten Klasse hoch ist. Da der Anteil der Kinder hoch ist, waren meines Erachtens viele alleinstehende Männer und Familien in den Zimmern der dritten Klasse. Ich kann mir vorstellen.
Das Obige ist ein einfacher Analysefluss. Tatsächlich wird es von nun an ein Fluss sein, die oben genannten Merkmale und Umgebungsmerkmale sowie den Kausalzusammenhang der Überlebenden aus der Vogelperspektive zu betrachten, aber nur die erste Stufe wird extrahiert und beschrieben.
Während ich die obige Arbeit mache, ist mein Eindruck
Ich hatte das Gefühl, dass der Vorteil von Python-basierten Notizbüchern wie Kaggle darin besteht, dass es möglich ist, mit der Analyse fortzufahren, während eine große Datenmenge auf verschiedenen Achsen "erfasst" wird. (Natürlich, natürlich ...)
Im nächsten Artikel werde ich dieselbe Aufgabe mit dem Bi-Tool Microsoft PowerBI versuchen.
Recommended Posts