[PYTHON] Verwendung von Datenanalysetools für Anfänger

Zweck dieses Artikels ・ Zielgruppe

Es gibt viele Tools für die Datenanalyse. Zu den Datenanalysetools gehören Excel, Programmierung, Dashboard-Tools, BI-Tools usw.

In diesem Artikel erklären wir, welche Art von Analysetool in welcher Situation für Anfänger der Datenanalyse und diejenigen, die Daten analysieren werden, verwendet werden sollte.

Der Hauptgrund, warum welche Art von Analysewerkzeug in welcher Situation verwendet wird, ist, dass die Datenanalyse mit dem richtigen Werkzeug effizient durchgeführt werden kann. Wenn Sie keine Programmierung benötigen, müssen Sie diese möglicherweise nicht erzwingen. In einigen Situationen sind nützliche BI-Tools nutzlos und erfordern möglicherweise Programmier- und SQL-Kenntnisse.

Außerdem werden sich diejenigen, die Daten analysieren wollen, fragen, wie viel Wissen sie für die gewünschte Analyse haben sollten (oder mit der sie betraut sind). Wenn Sie zu diesem Zeitpunkt irgendwie wissen, welche Art von Analysewerkzeug in welcher Situation verwendet werden soll, können Sie vorhersagen, wie viel Wissen Sie benötigen.

Die Analysewerkzeuge, auf die dieser Artikel abzielt, und ihre Eigenschaften

Klassifizierung der Datenanalyse

Es gibt zwei Haupttypen der Datenanalyse: "** Ad-hoc-Analyse **" und "regelmäßige Analyse".

Unternehmen und Forschungsunternehmen, die keine solide Grundlage für die Datenanalyse haben und nicht automatisiert sind, müssen die Daten jedes Mal manuell analysieren, wenn sie benötigt werden. Dies wird als ** Ad-hoc-Analyse ** im Sinne einer Ad-hoc-Analyse bezeichnet.

** Ad-Hock-Analyse ** verwendet ein interaktives Analysetool, mit dem Sie Abfragen und Datenumwandlungs- / Aggregationsverarbeitung ausführen und die Ergebnisse sofort überprüfen können.

Wenn Sie jedoch regelmäßig Berichte erstellen müssen, anstatt jedes Mal manuell zu analysieren, wird ein Dashboard-Tool verwendet, das die Daten automatisch aggregiert und anzeigt.

Hier, ・ Excel · Programmiersprache ・ BI-Tool ・ Dashboard-Tool

Werfen wir einen Blick auf jede Funktion und jedes spezifische Produkt von und sehen, welche Art von Werkzeug in welcher Situation verwendet wird.

Excel Zuallererst der Excel-Lehrer, den jeder kennt! Ich bin mit der Ausbildung aufgewachsen, Daten durch Programmieren ohne Excel zu analysieren, daher bin ich in Excel eigentlich nicht so gut wie Python ...

Tatsächlich reicht Excel für eine einfache Analyse aus.

Schwenktisch

Lassen Sie uns zunächst lernen, wie Sie die Pivot-Tabelle verwenden. Dies liegt daran, dass Kreuztabellen mit Pivot-Tabellen die Grundlage jeder Datenanalyse bilden.

l_bit201809181254004717.jpg

Die Idee der Kreuztabelle selbst ist sowohl in Excel als auch in der Programmierung gleich. Wenn Sie diese Idee also nicht kennen, können Sie nicht darüber sprechen.

Was Excel nicht kann

Excel ist ein sehr nützliches Werkzeug, aber der Datenintegration sind Grenzen gesetzt. Das Erhöhen der Anzahl der Spalten in horizontaler Richtung ist ein Excel-ähnlicher Vorgang, der jedoch nicht gut zur Integration von Daten in vertikaler Richtung geeignet ist.

Betrachten Sie beispielsweise den Fall der Verarbeitung von Zeitreihendaten eines Sensors. (In der Abstraktion ist Google Analytics wie ein Sensor, nicht wahr?)

Angenommen, Sensor ① zeichnet jede Sekunde Daten auf und Sensor ② zeichnet alle 10 Sekunden Daten auf. Bei der Aggregation und Integration dieser Daten müssen die Daten des Sensors ① alle 10 Sekunden gemittelt oder der repräsentative Wert abgerufen und kombiniert werden.

Das Ausführen dieser Prozesse in Excel ist mühsam, und wenn die Anzahl der Daten Hunderttausende oder Millionen von Zeilen beträgt, wird die Berechnung in Excel langsam.

Obwohl, Wenn Sie sich beispielsweise mit Verwaltungsindikatoren befassen, reicht Excel aus. Bestenfalls diskutieren wir nur anhand der aggregierten Ergebnisse für jede Woche oder jeden Monat. Daher erkennen Beratungsunternehmen und Wirtschaftsprüfungsunternehmen immer noch an, dass die Verwendung von Excel als wichtige Fähigkeit eine der wichtigsten Fähigkeiten ist.

Programmiersprache (Python)

Hier nehmen wir Python als Programmiersprache. Es ist keine Übertreibung zu sagen, dass Python in den letzten Jahren die Welt als Programmiersprache für die Datenanalyse dominiert hat und über zahlreiche Bibliotheken für die Datenanalyse verfügt.

Jupyter Notebook labpreview.png (Von Offizielle Homepage)

Jupyter Notebook ist ein Open Source-Tool zur interaktiven Skriptausführung. Neben Python können auch Programmiersprachen wie Ruby und R ausgeführt werden.

Sie können die Ergebnisse für jeden Verarbeitungsprozess visualisieren. Sie können auch Erklärungen im Markdown-Format schreiben, sodass sie gut als Bericht für andere geeignet sind.

Die bekannteste Bibliothek zum Erstellen von Diagrammen in Python ist matplotlib. Es ist möglich, eine modische Grafik wie das Bild von der obigen offiziellen Website zu erstellen.

Die folgenden Bücher sind hilfreich für die Datenanalyse und -visualisierung mit Python.

Python-Grenzen

Natürlich ist es nicht einfach, Python für die Datenanalyse zu beherrschen. Für Programmieranfänger sind die Lernkosten hoch.

In dem Sinne, dass Nicht-Ingenieure die Daten nicht analysieren können, sind sie nicht wirklich demokratisiert.

BI-Tools

Daher sind BI-Tools in den letzten Jahren als Datenanalysetools populär geworden. Sie haben wahrscheinlich den Namen des Tools Tableau gehört.

In den letzten Jahren habe ich gehört, dass Beratungsunternehmen Tableau zunehmend zur Analyse verwenden.

Als ich für ein Beratungsunternehmen arbeitete, herrschte eine Atmosphäre, in der Tableau jetzt jünger und trendiger als Excel war. server_dashboard_overview_3x3.png

(Von Tableau Official Homepage)

Es ist für Teammitglieder geeignet, mit der Analyse fortzufahren, während Diagramme erstellt werden. In Bezug auf die Verwendung zielen die unten beschriebenen Dashboard-Tools auf die Automatisierung der Analyse ab, während BI-Tools für eine explorativere Datenanalyse verwendet werden.

Was BI-Tools nicht können

BI-Tools sind großartig und sehr wertvoll, da sie zur Demokratisierung Ihrer Daten beitragen.

Obwohl BI-Tools integrierte Daten verarbeiten können, ist die Integrationsarbeit selbst nicht gut (kann durchgeführt werden). Bevor Sie BI-Tools verwenden können, müssen Sie Ihre eigenen SQL-Abfragen für die Datenaggregation und -integration schreiben.

Letztendlich benötigen Sie für eine aussagekräftige Analyse ein Datenvorverarbeitungsteam, das die Daten integriert und das Lesen für BI-Tools erleichtert.

Dashboard-Tool

Im Gegensatz zur Ad-hoc-Analyse werden Dashboard-Tools zum regelmäßigen Abfragen verwendet, um Berichte zu erstellen und Diagramme anzuzeigen.

Einige der bekanntesten sind Redash.

https___qiita-image-store.s3.amazonaws.com_0_112537_63ce8ef8-422d-bd17-5e35-f6e6e8520726.jpeg

Bis Sie den Docker-basierten Redash auf AWS EC2 von Grund auf neu eingerichtet und gestartet haben

Die Dashboard-Tools konzentrieren sich auf die Automatisierung der Analyse von Daten, damit diese regelmäßig überprüft werden können.

Es gibt jedoch viele Dashboard-Tools, die das Erstellen interaktiver Dashboards wie BI-Tools nicht unterstützen. Bis zuletzt ist es optimiert, um die neuesten Informationen regelmäßig zu visualisieren.

Einschränkungen der Dashboard-Tools

Um das Dashboard verwenden zu können, müssen Sie eine Programmiersprache oder SQL ausführen. (Natürlich ist eine Vorbehandlung auch separat erforderlich.)

Tatsächlich lauten die Visualisierungstools, die behaupten, fortgeschrittene Aufgaben ausführen zu können, "Sie können Python-Code intern schreiben und ausführen".

Die Geschichte des Data Science-Teams und des analytischen Ökosystems von Mercari Nach diesem Artikel

Bei Mercari gibt es viele Leute, die SQL auch für Jobs ohne Analysten schreiben und selbst einfache Analysen durchführen können. In letzter Zeit gibt es Gerüchte, dass sogar die Finanzabteilung, die Buchhaltungsabteilung, die Rechtsabteilung und die Designer studieren. (Es ist eine Tatsache)

Und das. Jeder lernt hart, weil er SQL ausführen muss, um es zu analysieren.

In einem normalen Unternehmen besteht das Problem darin, wer die SQL schreibt.

Für Unternehmen mit einem festen Geschäftsverbesserungsfluss und konstanten Indikatoren ist es eine gute Idee, einen angemessenen Betrag für die Vorbereitung einer Datenanalyseplattform und die Einführung von Dashboard-Tools auszugeben.

Normalerweise ändern sich die Indikatoren und Daten, die Sie sehen möchten, jedoch schnell, sodass Sie die SQL ändern müssen.

Zusammenfassung

Für Unternehmen, die über eine gut etablierte Datenanalyse-Infrastruktur verfügen und es sich leisten können, Daten ordnungsgemäß zu aggregieren und zu integrieren, ist es ratsam, BI-Tools und Visualisierungstools einzuführen. Wenn andere Mitglieder als Ingenieure ebenfalls Daten analysieren und in täglichen Diskussionen verwenden möchten, bleibt keine andere Wahl, als BI-Tools und Visualisierungstools einzuführen.

Wenn Sie sich jedoch nicht für den KPI entschieden haben, den Sie anzeigen möchten, oder wenn Sie sich nicht entschieden haben, was zu berücksichtigen ist, ist es eine gute Idee, BI-Tools zu verwenden, um ihn mit allen zu diskutieren.

Für Unternehmen, in denen der Betrachtungsfluss aus der Datenanalyse bereits standardisiert wurde, ist es besser, Visualisierungstools zu verwenden, um die Analyse zu automatisieren.

Wenn die Datenanalyse-Infrastruktur noch nicht vorhanden ist und Sie die Daten vorerst nur speichern möchten, verwenden Sie eine Programmiersprache für die Ad-hoc-Analyse. Eine ordnungsgemäße Ad-hoc-Analyse zeigt, welche KPIs für das Unternehmen wichtig sind und was Sie unter Verwendung der Daten berücksichtigen möchten. Dies ist ein sehr wichtiges Verfahren.

Selbst wenn Sie die Analyse plötzlich automatisieren, kann die Analyse möglicherweise veraltet sein. Das Einrichten einer Datenanalyseplattform kostet Zeit und Geld. Daher ist es definitiv nicht gut, mit dem Aufbau einer Analyseplattform zu beginnen, ohne tief darüber nachzudenken.

Schließlich

Ich habe diesen Artikel als Artikel zum 24. Tag des Adventskalenders einer Studiengruppe namens StudyCo geschrieben, die ich seit vielen Jahren mit meinen Freunden mache. Ich bin.

Ich wäre Ihnen dankbar, wenn Sie sich auf die anderen Artikel beziehen könnten, die ich bisher geschrieben habe!

Ich hoffe, es wird ein Weihnachtsgeschenk für alle, die von nun an an der Datenanalyse arbeiten werden!

Heilige Nacht ist auch eine Nacht, in der mit Daten gesprochen wird! Fröhliche Weihnachten!

Referenz

Recommended Posts

Verwendung von Datenanalysetools für Anfänger
[Für Anfänger] So studieren Sie den Python3-Datenanalysetest
Verwendung von "deque" für Python-Daten
[Für Anfänger] Wie man den Befehl say mit Python benutzt!
[Für Anfänger] Verwendung der for-Anweisung unter Linux (Variablen usw.)
Implementieren von 100 Data Science-Schlägen für Anfänger in Data Science (für Windows 10 Home)
[Python] Organisieren der Verwendung für Anweisungen
Verwendung der Fingerabdruckauthentifizierung für KDE
Verwendung von xml.etree.ElementTree
Verwendung von virtualenv
So verwenden Sie MkDocs zum ersten Mal
Wie benutzt man Seaboan?
So erstellen Sie ein Spigot-Plug-In (für Java-Anfänger)
Verwendung von Image-Match
Wie man Shogun benutzt
Verwendung von Pandas 2
Verwendung von Virtualenv
Verwendung von numpy.vectorize
Verwendung von Template Engine für Network Engineer
Verwendung von pytest_report_header
Wie man teilweise verwendet
Verwendung von SymPy
Wie man x-means benutzt
Verwendung von WikiExtractor.py
Verwendung von IPython
Verwendung von virtualenv
Wie benutzt man Matplotlib?
Verwendung von iptables
Wie benutzt man numpy?
Verwendung von TokyoTechFes2015
Wie benutzt man venv
Verwendung des Wörterbuchs {}
Wie benutzt man Pyenv?
Verwendung der Liste []
Wie man Python-Kabusapi benutzt
Verwendung von OptParse
Verwendung von return
Wie man Python für Anfänger schneller macht [numpy]
[Für Anfänger] Wie man Programmierung studiert Private Memo
Wie man Imutils benutzt
[BigQuery] Verwendung der BigQuery-API für die Python-Tabellenerstellung-
So konvertieren Sie den Python # -Typ für Super-Anfänger von Python: str
Anfänger! Grundlegende Linux-Befehle und Verwendung!
LightGBM, der erste Schritt, um das Denken in Datenanalyse-Wettbewerben zu beenden
Python # So überprüfen Sie Typ und Typ für Super-Anfänger
Verwendung der Suche sortiert
[gensim] Verwendung von Doc2Vec
Verstehen Sie, wie man Django-Filter verwendet
Python für die Datenanalyse Kapitel 4
Verwendung des Generators
[Python] Verwendung von Liste 1
Verwendung von FastAPI ③ OpenAPI
Wie benutzt man Python Argparse?
Verwendung von IPython Notebook
Wie man Pandas Rolling benutzt