[PYTHON] [Unerwartet bekannt? ] Einführung eines echten Tages in der Datenanalyse

Einführung

Dieser Artikel richtet sich an Personen, die als Datenanalyst oder Datenwissenschaftler arbeiten möchten, insbesondere in der Datenabteilung eines Unternehmens. Viele Leute, die nicht wissen, ** welchen Tag die Leute in der Datenabteilung des Unternehmens verbringen **. Ich denke, dass die sogenannte Datenabteilung aufgrund der Art der Arbeit im Unternehmen oft unauffällig ist. Ich würde mich freuen, wenn Sie diese Gelegenheit nutzen könnten, um mehr darüber zu erfahren. スクリーンショット 2020-06-19 13.54.12.png

Was Sie aus diesem Artikel erhalten können

** ① Sie können den tatsächlichen Tag einer Person kennen, die ihren Lebensunterhalt mit Datenanalyse verdient ** ** ② Sie können mit den Sorgen der Mitarbeiter der Datenabteilung des Unternehmens sympathisieren.

Warum diesen Artikel schreiben?

Bevor ich dreißig Jahre alt war, wechselte ich von einer Nicht-IT-Branche zu einem Datenanalysten, aber bis ich meinen Job wechselte, wusste ich nicht viel über die spezifische Arbeit und die täglichen Routinen der Datenverarbeitungsarbeit.

Wenn Sie googeln, sehen Sie natürlich Artikel wie "Ich arbeite so. Der Tagesplan sieht so aus" als Modellfall für Datenanalysten. Ich wollte "den spezifischen Arbeitsinhalt und die Arbeitsweise der Person" wissen, aber dem Modellfall fehlte die Realität, daher war er nicht sehr hilfreich.

Dann kam mir die Idee, dass ein aktiver Datenanalyst, der ein reales Leben beschreibt, jemandem helfen könnte.

Lesen wir jetzt weiter!

Was ist ein Datenanalyst überhaupt?

Ein Datenanalyst ist ein Beruf, der sich auf Phasen wie Datenverarbeitung und Statusanalyse spezialisiert hat. Wir analysieren die gesammelten Big Data, um das Nutzerverhalten, die Regelmäßigkeit, zukünftige Anforderungen usw. herauszufinden. Danach besteht die Hauptaufgabe des Datenanalysten darin, eine Hypothese aufzustellen, ein Mittel zur Lösung des Problems vorzuschlagen und es zur Verbesserung der bereitgestellten Dienste zu verwenden. Es ist auch die Aufgabe der Datenabteilung, das gesamte Unternehmen auf den Wert der Datennutzung aufmerksam zu machen und eine datengesteuerte Kultur zu schaffen.

In der Praxis gibt es Tage, an denen wir nur aggregieren, an manchen Tagen nur Dashboards erstellen und manchmal maschinelles Lernen modellieren.

Was für einen Tag verbringst du eigentlich? Ich möchte einen Tag eines bestimmten Datenanalysten vorstellen.

Ein Tag eines bestimmten Datenanalysten

08:30 Pendeln

Wenn Sie sich wohl fühlen, ist es Zeit zu lesen. An Tagen, an denen ich es mir nicht leisten kann, gehe ich zur Arbeit, während ich Musik höre. Die SNS-Prüfung ist das erforderliche Minimum. Wenn Sie hier viele Informationen in Ihren Kopf setzen, wird Ihre Arbeit am Morgen ineffizient. Seien Sie also vorsichtig.

09:00 Slack-Benachrichtigungsbestätigung

Suchen Sie nach Aktualisierungen der Tabellen, die BigQuery täglich importiert. Jeden Tag wird der Erfolg oder Misserfolg der Tabellenaktualisierung durch Slack benachrichtigt, und wenn dies fehlschlägt, wird die Erwähnung fliegen. "Keine Anomalie heute!" In dem unwahrscheinlichen Fall, dass die Tabellenaktualisierung fehlschlägt, werden wir die Ursache sofort untersuchen. In diesem Fall ändert sich der Zeitplan für den Tag, daher bin ich begeistert. Daher ist es meine tägliche Routine, dies zu überprüfen, bevor ich zur Arbeit gehe.

10:00 Überprüfen Sie das SLO-Dashboard

Das ist der Job, den ich morgens mache. Überprüfen Sie das Slo-Dashboard. スクリーンショット 2020-06-18 13.34.42.png

SLO bezieht sich auf die Begründung / den Zielwert, dass ein Dienstanbieter einem Benutzer tatsächlich einen Dienst bereitstellen kann.

Heute war die Erfolgsquote eines Dienstes extrem niedrig, deshalb habe ich mich entschlossen, dies zu untersuchen.

"Irgendwie ist die Erfolgsquote heute sehr niedrig, warum ?!"

11:00 Morgenparty

Da mein Team 3 Personen hat, überprüfen die üblichen 3 Personen die Aufgaben des Teams an einem Tag. Teilen Sie zunächst mit, dass das Dashboard einen abnormalen Wert enthält. Der Teamleiter berichtet an den aktuellen Manager. Der heutige Geschäftsinhalt ist übrigens ①Dashboard-Ausreißeruntersuchung (2) Erstellen eines Datensatzes zur Analyse (heutige Hauptaufgabe) ③ Brustbesprechung für die Politikplanung "Ich muss die hohe Priorität ① so schnell wie möglich beenden. Da der Datensatz für die Analyse derjenige ist, der die Abfrage schreibt, machen wir es am Nachmittag."

11:30 Dashboard-Ausreißeruntersuchung

Untersuchen Sie, warum Ausreißer im Dashboard auftreten. Ich werde nachforschen, indem ich die Anfrage ernsthaft treffe. Nach etwa 30-minütiger Untersuchung stellte sich heraus, dass die Nummer nur für eine bestimmte Version eines bestimmten Dienstes 0 war. Unmittelbar nach Bestätigung durch die zuständige Abteilung wurde festgestellt, dass sich die Spezifikationen der Protokolldaten kürzlich geändert haben. Da die Ursache identifiziert wurde, haben wir die Antwortrichtlinie zusammengefasst und dem Manager gemeldet. "Ich bin erleichtert, weil die Ursache identifiziert werden kann und die Aussicht auf eine Genesung am Nachmittag besteht."

Wenn Sie diese Art der Wartung nicht durchführen und die falschen Nummern angezeigt werden, verlieren Sie möglicherweise das Vertrauen in das Dashboard und die Mitglieder des Unternehmens können es nach und nach nicht mehr sehen. Daher ist auf die Wartung und den Betrieb des Armaturenbretts zu achten.

12:30 Erstellen Sie einen Datensatz für die Analyse

Datensatzerstellung, die heutige Hauptaufgabe. スクリーンショット 2020-06-18 13.44.26.png Der diesmal erstellte Analysedatensatz aggregiert den Nutzungsstatus eines bestimmten Dienstes und ist nützlich für Verbesserungen.

Der Arbeitsinhalt ist nur eine SQL-Aggregation von BigQuery, aber es ist eine sehr schwere Aufgabe, da es ungefähr 20 Aggregationselemente gibt. Wenn Sie in dieser Tabelle einen Fehler machen, wirkt sich dies auf die nachfolgende Analyse aus. Gehen Sie daher vorsichtig vor. Es gibt viele Dinge zu beachten, wenn es darum geht, die Verwendung zu tabellieren. Was ist die Definition der Verwendung? Ist die Aggregation pro Benutzer? Geräteeinheit? Zeitlimit? Was ist, wenn ich es in der Mitte zurücksetze?

Nachdem wir jeden Gegenstand sorgfältig geprüft und einen Plan zum Zählen erstellt hatten, machten wir eine Mittagspause.

14:00 Uhr

15:00 Besprechung zur Datenrichtlinienplanung

Ein Treffen innerhalb des Datenteams, um Maßnahmen zur Verbesserung der Dienstnutzung zu erwägen. スクリーンショット 2020-06-18 13.39.56.png

Diskutieren Sie die Hypothese und das Bild der Maßnahmen. ・ Identifizierung von Benutzergruppen, deren Nutzungsstatus nicht gut ist ・ Identifizierung von Timing und Faktoren, die die Nutzung erheblich reduzieren ・ Organisieren Sie die Machbarkeit, Probleme und Zeitpläne von Verbesserungsmaßnahmen

Ich werde die Zusammenfassung nächste Woche der Geschäftsseite vorschlagen.

16:00 Datensatz zur Analyse erstellen

Ich habe am Morgen einen Aggregationsplan erstellt, also schreibe ich einfach SQL. スクリーンショット 2020-06-18 13.47.19.png

Je komplizierter der Aggregationsinhalt ist, desto sorgfältiger muss er einzeln ausgeführt werden, z. B. ob die Aggregationslogik angemessen ist, ob die aggregierten numerischen Werte korrekt sind und ob die Überprüfungsmethode Auslassungen aufweist.

18:00 Datensatzüberprüfung

Wir planen, dass der Teamleiter dies überprüft. Wenn keine Probleme auftreten, planen wir, den aggregierten Nutzungsstatus mithilfe von BI-Tools auf einem Dashboard zu visualisieren. Dieses Mal habe ich an einer Stelle eine Lücke in der Aggregationslogik gefunden und diese sofort korrigiert. Als ich das Rohprotokoll überprüfte, lag es daran, dass ich das unregelmäßige Muster nicht berücksichtigen konnte. Selbst wenn es sich um eine Überprüfung handelt, ist dies eine Superreflexion für den Tabulator, da er nicht angezeigt wird, wenn er nicht korrekt tabelliert ist. .. .. Es ist das gleiche, wie der Restaurantkoch es nicht nach dem Rezept macht. Wenn Sie den Fall einer tödlichen Fehlzählung mit dem Kochen vergleichen, sage ich meinem Herzen, dass der Ort, an dem Zucker hinzugefügt werden sollte, um Süßigkeiten herzustellen, auf dem gleichen Niveau liegt wie das versehentliche Hinzufügen von Salz (ehrlich gesagt, das war's). Ich habe nicht).

19:00 Aktualisiertes Task-Management-Tool für den Geschäftsfortschritt.

Der Fortschritt der Arbeit wird mithilfe des Task-Management-Tools visualisiert, sodass er im Team geteilt werden kann. Für Leute wie mich aus anderen Branchen ist es ein sehr epochales System. Als ich vor drei Jahren noch in der Bildungsbranche war, vermisse ich es, sie mit einem riesigen Whiteboard zu verwalten.

19:15 Geschäftsende

Morgen plane ich, es mit Python und Pandas basierend auf dem heute erstellten Datensatz zu analysieren.

Zusammenfassung

Wenn ich einen Tag wie diesen ausschneide, bin ich oft von der Arbeit vor mir überwältigt, aber in meinem Fall wird die Datenabteilung vom Unternehmen benötigt. ** ① Verwenden Sie Daten, um Wert zu schaffen ** ** ② Förderung einer datengetriebenen Kultur ** Ich glaube, es ist.

Wenn Sie das Bild haben, dort Spaß zu finden, können Sie meiner Meinung nach zufrieden in der Datenabteilung arbeiten.

Wie oben erwähnt, hoffe ich, dass es für diejenigen hilfreich sein wird, die versuchen, Datenanalyst zu werden.

Recommended Posts

[Unerwartet bekannt? ] Einführung eines echten Tages in der Datenanalyse
SE, ein Anfänger in der Datenanalyse, lernt mit dem Data Science Team Vol.1
Datenanalyse in Python: Ein Hinweis zu line_profiler
Aufgezeichnete Umgebung für die Datenanalyse mit Python
Darstellung der Verteilung der Bakterienzusammensetzung aus Qiime2-Analysedaten in einem Box-Whisker-Diagramm
[In kürzester Zeit verstehen] Python-Grundlagen für die Datenanalyse
Finden Sie die Eigenwerte einer reellen symmetrischen Matrix in Python
Eine einfache Datenanalyse von Bitcoin, die von CoinMetrics in Python bereitgestellt wird
Zum ersten Mal versuchte ein Programmieranfänger eine einfache Datenanalyse mit Programmierung
Bereiten Sie eine Hochgeschwindigkeitsanalyseumgebung vor, indem Sie in der Datenanalyseumgebung auf MySQL klicken
Tensor verstehen (3): Daten aus der realen Welt
Überprüfen Sie die Datenzusammenfassung in CASTable
Veranschaulichen Sie sofort die vorherrschende Periode in Zeitreihendaten mithilfe der Spektralanalyse
Holen Sie sich zu jeder Tageszeit eine Datums- / Uhrzeitinstanz in Python