Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ①

Hintergrund

Auf den Straßen werden mehrere Dienste als Werkzeug für die Datenanalyse bereitgestellt. Ich arbeite in der Fertigungsindustrie, höre aber hauptsächlich die folgenden zwei Methoden zur Datenanalyse und -visualisierung.

--Umgebung ① Datenanalyse mit Python + Numpy + Pandas + α --Umwelt (2) Datenanalyse mit BI-Tools (Business Intelligence-Tools)

Beim Vergleichen und Untersuchen der Unterschiede zwischen diesen beiden Werkzeugen habe ich es tatsächlich versucht, basierend auf der Idee, dass "ich die gleiche Analyse mit den beiden Werkzeugen versuchen sollte".

Systemkonfiguration

Gemeinsame Umgebung

Verwendetes PC-Betriebssystem: Microsoft Windows10 Pro 64bit Verwendeter Browser: Microsoft Edge

Umgebung ① "Datenanalyse mit Python + Numpy + Pandas + α" Betriebsumgebung

・ Nutzungsumgebung: kaggle notebook Da es sich um einen Cloud-Dienst handelt, kann die Version nicht bestätigt werden und ist ab dem 24. August 2020 verfügbar.

kaggle ist eine Community- und Wettbewerbswebsite für Datenanalysten. Es gibt auch Wettbewerbe mit Preisen, und es scheint, dass Ingenieure um die Genauigkeit der Datenanalyse konkurrieren. Die Details sind unter dem folgenden Link leicht zu verstehen. Kaggle-Tutorial, das ich nicht mehr hören kann Teil 1 Was ist Kaggle? Was bedeutet es teilzunehmen? Außerdem habe ich ein Konto eröffnet, indem ich auf den folgenden Link verwiesen habe. Wenn Sie ein Konto haben, können Sie Datenanalyse-bezogene Dienste einschließlich kaggle notebook kostenlos nutzen. Kaggle Introductory Edition für Anfänger! Von der Kontoeröffnung bis zur Übermittlung der Titanic

Umgebung ② "Datenanalyse mit BI-Tool" Betriebsumgebung

-Verwendungsumgebung: Microsoft Power BI Desktop Version 2.84.802.0 64-Bit Sie können PowerBI Desktop aus dem Microsoft Store herunterladen. Die meisten Funktionen einschließlich dieser Arbeit können kostenlos genutzt werden. image.png

Was ich getan habe (Zusammenfassung)

Der Fluss der Datenanalyse entlehnte einen Teil von Udemys datenwissenschaftlichem Kurs. Die folgenden Kurse decken alles von den Grundlagen bis zur einfachen praktischen Ausbildung ab und werden für diejenigen empfohlen, die systematisch Data Science lernen möchten. [180.000 Menschen auf der Welt] Praktische Python-Datenwissenschaft

Ich übernehme den obigen Lehrplan in udemy und werde die folgende Analyse in Bezug auf das berühmte "Titanic-Sinken" als ersten Schritt der Datenanalyse mit zwei Methoden durchführen.

・ Was für Leute waren die Passagiere der Titanic? (Geschlecht, Alter usw.) ・ Kausaler Zusammenhang zwischen den oben genannten Merkmalen und ihrem komplexen Zusammenhang und ihrer Überlebensrate

Was ich getan habe (Details) * Python + Numpy + Pandas + α Edition *

In diesem Artikel beschreiben wir die Verarbeitung, die den beiden Werkzeugen gemeinsam ist, und die Operationsergebnisse mit dem Werkzeug "Python + numpy + pandas + α". Die Ergebnisse der "Datenanalyse mit BI-Tools" werden im nächsten Artikel beschrieben.

    1. Daten lokal abrufen (eigener PC) Erfassen Sie Kundendaten zum Zeitpunkt des Untergangs der Titanic als CSV-Daten von kaggle.

image.png

Wenn Sie die tatsächlichen Kundendaten in Excel öffnen, sieht es so aus. image.png

  1. Bringen Sie lokale Daten in die Umgebung und zeigen Sie eine Zusammenfassung an Nur die ersten 5 Daten werden extrahiert, um die Daten aus der Vogelperspektive zu betrachten. image.png

    1. Überprüfen Sie das Verhältnis von Männern und Frauen image.png

Vier. Überprüfen Sie das Verhältnis von Männern und Frauen für jede Raumklasse Die Klasse P gibt die Note des Raumes an. Sie können sehen, dass es in den Gästezimmern der dritten Klasse viele Männer gibt. image.png

Es ist auch möglich, die Achse leicht umzukehren. image.png

Fünf. Erstellen Sie Elemente (Person) wie "männlich", "weiblich" und "Kind (unter 16 Jahren)" mit den Elementen Alter (Alter) und Geschlecht (Geschlecht).

Erstellen Sie zunächst eine Personenspalte. image.png

Überprüfen Sie dann die Verteilung der Personen nach Klassen. Ist das erstklassige Zimmer teuer? Es gibt nur wenige Kinder. Darüber hinaus ist zu erkennen, dass der Anteil männlicher erwachsener Männer in den Gästezimmern der dritten Klasse hoch ist. Da der Anteil der Kinder hoch ist, waren meines Erachtens viele alleinstehende Männer und Familien in den Zimmern der dritten Klasse. Ich kann mir vorstellen. image.png

Das Obige ist ein einfacher Analysefluss. Tatsächlich wird es von nun an ein Fluss sein, die oben genannten Merkmale und Umgebungsmerkmale sowie den Kausalzusammenhang der Überlebenden aus der Vogelperspektive zu betrachten, aber nur die erste Stufe wird extrahiert und beschrieben.

Zusammenfassung (Eindruck)

Während ich die obige Arbeit mache, ist mein Eindruck

Ich hatte das Gefühl, dass der Vorteil von Python-basierten Notizbüchern wie Kaggle darin besteht, dass es möglich ist, mit der Analyse fortzufahren, während eine große Datenmenge auf verschiedenen Achsen "erfasst" wird. (Natürlich, natürlich ...)

Im nächsten Artikel werde ich dieselbe Aufgabe mit dem Bi-Tool Microsoft PowerBI versuchen.

Recommended Posts

Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ②
Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ①
Zeichnen Sie mit Pythons Matplotlib mehrere Karten und Daten gleichzeitig
Visualisieren Sie Daten und erfassen Sie gleichzeitig die Korrelation
Ich habe versucht, zum Zeitpunkt der Bereitstellung mit Fabric und ChatWork Api automatisch in ChatWork zu posten
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Ich habe versucht, fMRI-Daten mit Python zu analysieren (Einführung in die Dekodierung von Gehirninformationen)
Ich habe versucht, die statistischen Daten der neuen Corona mit Python abzurufen und zu analysieren: Daten der Johns Hopkins University
Ich habe versucht, das Bild mit Python + OpenCV zu "glätten"
Ich habe versucht, das Bild mit Python + OpenCV zu "differenzieren"
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
Ich habe Jacobian und teilweise Differenzierung mit Python versucht
Ich habe versucht, CloudWatch-Daten mit Python abzurufen
Ich habe Funktionssynthese und Curry mit Python versucht
Ich habe versucht, das Bild mit Python + OpenCV zu "binarisieren"
Ich möchte gleichzeitig einen Musik-Player erstellen und Musik ablegen
Drehen Sie in Python mehrere Listen mit for-Anweisung gleichzeitig
[Python] Ich habe die gleiche Berechnung versucht wie die Vorhersage von LSTM von Grund auf [Keras]
Datenanalyse mit Python 2
Datenanalyse mit Python
Ich habe Python zum ersten Mal auf dem Mac ausprobiert.
Ich habe versucht, eine CSV-Datei mit Python zu berühren
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
[OpenCV / Python] Ich habe versucht, Bilder mit OpenCV zu analysieren
Ich habe versucht, Soma Cube mit Python zu lösen
Ich habe Python zum ersten Mal mit Heroku ausprobiert
Diesmal habe ich Python I und II bei Progate gelernt.
Ich habe versucht, das Problem mit Python Vol.1 zu lösen
Ich habe versucht, die API mit dem Python-Client von echonest zu erreichen
[New Corona] Ist der nächste Höhepunkt im Dezember? Ich habe die Trendanalyse mit Python versucht!
[Herausforderer suchen] Das schnellste Laden und Erweitern von Daten (Kaggle-Notizbuch), denke ich
Ich habe mit Python verschiedene Dinge ausprobiert: Schaben (Beautiful Soup + Selenium + PhantomJS) und morphologische Analyse
Ich wollte nur die Daten des gewünschten Datums und der gewünschten Uhrzeit mit Django extrahieren
Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen
Ich habe versucht, Überlebende der Titanic mit Kaggle vorherzusagen und einzureichen
Ich habe versucht, die Entropie des Bildes mit Python zu finden
Ich habe versucht, mit Python zu kratzen
Ich habe versucht, das Bild mit Python + OpenCV "gammakorrektur" zu machen
Ich habe versucht zu simulieren, wie sich die Infektion mit Python ausbreitet
Ich habe versucht, mit Python faker verschiedene "Dummy-Daten" zu erstellen
Ich habe versucht, das Problem von F02 zu lösen, wie man mit Python offline in Echtzeit schreibt
"Zeitreihenanalyse von Wirtschafts- und Finanzdaten messen" Das Problem am Ende des Kapitels mit Python lösen
[In kürzester Zeit verstehen] Python-Grundlagen für die Datenanalyse
Löse das Spiralbuch (Algorithmus und Datenstruktur) mit Python!
Ich habe versucht, die Zeit und die Zeit der C-Sprache zu veranschaulichen
Ich habe versucht, den Chi-Quadrat-Test in Python und Java zu programmieren.
Ich habe versucht, die Uhrzeit und das heutige Wetter anzuzeigen
Ich habe auch versucht, die Funktionsmonade und die Zustandsmonade mit dem Generator in Python nachzuahmen
[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln
Ich habe versucht, die Unterschiede zwischen Java und Python aufzuzählen
Ich habe gRPC mit Python ausprobiert
Ich habe den Python-Datenanalysetest bestanden und die Punkte zusammengefasst
Ich habe versucht, mit Python zu kratzen
Ich habe versucht, die Benutzeroberfläche neben Python und Tkinter dreiäugig zu gestalten
Diesmal habe ich mit Prorate Python III und IV gelernt