[PYTHON] Es ist Zeit, ernsthaft über die Definition und die Fähigkeiten von Datenwissenschaftlern nachzudenken

Was ist ein Datenwissenschaftler?

Lassen Sie uns, wie der Titel schon sagt, über den Beruf des Datenwissenschaftlers nachdenken, der heutzutage vielfältig sein soll. Selbst in der Industrie ist die Definition dieses Berufs nicht eindeutig und es gibt keine einheitliche Sichtweise.

Um ehrlich zu sein, ist es eine Geschichte, die "eine Person, die sich Datenwissenschaftler nennen möchte, sich selbst nennen sollte", aber da es eine große Sache ist, werde ich in dieser Zeit meine persönlichen Gedanken schreiben.

Darüber hinaus gibt es möglicherweise nichts Neues für diejenigen, die regelmäßig an Datenwissenschaftler denken.

Wenn überhaupt, ist es ein Artikel, den die Leute sehen sollen: "Wie kann ich Datenwissenschaftler werden?" Oder "Ich möchte einen trendigen Datenwissenschaftler einstellen, aber welche Art von Person sollte ich einstellen?" Bitte verstehe

Schauen Sie sich die Ansichten der Öffentlichkeit an

Schauen wir uns zunächst einige der bekannten Definitionen von Mythen an, die es bereits auf der Welt gibt.

"Data Scientist’ is a Data Analyst who lives in California"

"A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician."

Beide scheinen gute Dinge zu sagen, und ich habe das Gefühl, dass sie weder ein ehemaliges noch ein Kind haben.

Es gibt auch so eine berühmte Figur

"THE DATA SCIENCE VENN DIAGRAM" http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram     Für Details lesen Sie bitte den obigen Link, aber der Punkt ist, dass Datenwissenschaftler die drei "Hacking-Fähigkeiten", "Mathematik und Statistik" und "einzigartige Stärken" haben.

Alternativ hat ein japanischer Berufsverband offiziell die für Datenwissenschaftler erforderlichen Fähigkeiten angekündigt.

** Data Scientist Definition / Skill Set / Skill Level ** http://www.datascientist.or.jp/news/2014/pdf/1210.pdf   Der Wortlaut ist etwas anders, aber dem obigen Ben-Diagramm sehr ähnlich.      image

Ich möchte eine verständlichere und strukturellere Definition

Ich verstehe die oben genannten Definitionen, bin jedoch der Meinung, dass keine davon ausreicht. Es gibt zwei Gründe

** ① Nicht strukturell. ** ** ** Die Wertschöpfungskette der analytischen Arbeit in Unternehmen wird nicht dargestellt, und es ist schwer zu verstehen, wann und wie die einzelnen Fähigkeiten erforderlich sind.

** ② Es ist eine doppelte Theorie, ob die Fähigkeit "Ja" oder "Nein" ist ** Um ehrlich zu sein, ist es sehr schwierig, die drei im obigen Ben-Diagramm gezeigten Fähigkeiten auf einem umfassenden und perfekten Niveau zu erwerben. Tatsächlich weiß ich nicht, auf welcher Ebene ich es bekommen soll.

In diesem Artikel möchte ich die Fähigkeiten des Datenwissenschaftlers so strukturieren, dass diese beiden Probleme gelöst werden. Speziell für (2) möchte ich die notwendigen Fähigkeiten diskutieren, nachdem ich das Konzept eingeführt habe, dass es zwei Fähigkeitsstufen gibt, "Lesen" und "Schreiben".

Data Scientist = "Mehrsprachige" Theorie

Ich habe mich immer gefragt, ob das Konzept eines Datenwissenschaftlers einem "mehrsprachigen Übersetzer" etwas näher kommen könnte. Datenwissenschaftler müssen in der Lage sein, mehrere verschiedene Sprachen zu manipulieren und zwischen Sprachen zu übersetzen.

Die hier erwähnte "Sprache" ist

· Geschäftssprache ・ Nummer / KPI ・ Statistik / mathematische Formeln · Programmiersprache

Und so weiter. Ich möchte, dass du darüber nachdenkst.

Manager und Planungsabteilungen sprechen häufig in Geschäftssprachen und verstehen andere Sprachen nicht. "Ziel ist es, den Umsatz im Jahresvergleich zu steigern" wird nicht als konkrete Formel oder Algorithmus erwähnt.    Statistiker können gut mit schwierigen Formeln umgehen, aber manchmal sind sie nicht gut darin, sie mit realen Geschäftsereignissen zu vergleichen. Selbst wenn Sie eine Liste mit Formeln und Zahlen ausgeben, werden Sie von Personen in anderen Berufen nicht angesehen.    Ingenieure sind nicht immer zahlenmäßig stark.    Computer verstehen auch nichts anderes als Programmiersprachen.

Selbst wenn alle Spieler (außer Computer) die Bedeutung der Datenanalyse und der Datensteuerung verstehen, sind die oben genannten Situationen häufig. "Ich spreche auf dem gleichen Japanisch, also kann ich verstehen! Denk das nicht. Von verschiedenen Positionen aus sind die verwendeten Wörter und die Bedeutung dahinter völlig unterschiedlich.

** Es gibt einen "Datenwissenschaftler", der diese Situation überwinden kann **. Dies ist das Bild des Datenwissenschaftlers, das ich in diesem Artikel diskutieren möchte. Sie müssen frei sein, um zwischen verschiedenen Sprachen zu wechseln, bei Bedarf Übersetzer zu werden und ein Handwerker zu sein, der eine Reihe von Wertschöpfungsketten für die Datenanalyse durchläuft.

Analyse Wertschöpfungskette und "Lesen" und "Schreiben"

Die Personen, die an der Wertschöpfungskette des Analyseprozesses in Unternehmen beteiligt sind, sind grob wie folgt strukturiert. Und diese Wertschöpfungskette wird durch den Round-Trip-Prozess des "Schreibens" und "Lesens" einen V-förmigen Fluss bilden. ** Lassen Sie uns eins nach dem anderen erklären. ** ** **

image

Der größte Teil des Analyseprozesses beginnt mit Worten wie "Unsere Vertriebsstruktur, machen Sie sie besser sichtbar" für Geschäftsmanager (Manager, Produktmanager, Geschäftsmanager usw.) und mehrere Personen dazwischen. Letztendlich wird es die Computerressourcen über die beteiligten Parteien erreichen. (Allerdings ist nicht jede Person geteilt und geteilt, und es ist sehr wahrscheinlich, dass eine Person mehrere Bereiche abdeckt.)

Dies ist der ** "Schreib" -Prozess **.

Grob gesagt geschieht bei jedem Schritt dieses Prozesses Folgendes: Die Linien jedes Spielers sind wahrscheinlich symbolisch (und voreingenommen), und ich glaube nicht, dass jeder Prinz normalerweise alle diese Wörter spricht ...

Es besteht jedoch kein Zweifel, dass wir während der Arbeit hauptsächlich in der hier beschriebenen Sprache sprechen (es kann dasselbe Japanisch sein, aber wenn Sie diese Sprache nicht richtig verstehen, wird das Gespräch nicht hergestellt).

[Abbildung einfügen]Bild

Es erfordert sehr starke Fähigkeiten, um diesen Prozess nach unten zu bringen. Im Allgemeinen ** ist der "Schreib" -Prozess oft viel schwieriger als das "Lesen" **.

** Planungs- und Managementperson **

Wir müssen all unser Geschäftswissen und unsere Logik mobilisieren, um aussagekräftige, überzeugende und kalkulierbare KPIs zu entwerfen. Es ist auch wichtig, dass der Inhalt den Erwartungen der Geschäftsführer entspricht.

** Analytische / statistische Person **

Es müssen bestimmte Maßnahmen zur Analyse und Quantifizierung des gewünschten KPI in Betracht gezogen werden. Es ist notwendig, die Daten, die verwendet werden können, zu überprüfen, den tatsächlich verwendeten Datenbereich zu bestimmen (ausgenommen Daten, die schlechte Dinge bewirken), über die Granularität nachzudenken und gegebenenfalls ein statistisches Modell zu entwerfen. Sie müssen auch darüber nachdenken, in welcher Art von Diagramm die Ergebnisse angezeigt werden.

** Ingenieur Person **

Implementieren Sie die Berechnungslogik, die der Analyst denkt. Es ist notwendig, ein Allzweckdesign zu erstellen, das berücksichtigt, wann sich der Datenbereich und die Korngröße ändern, und auf die Verarbeitungsgeschwindigkeit zu achten. In einigen Fällen sind auch Kenntnisse über statistische Modellverpackungen erforderlich. Es ist auch wünschenswert, das Ausgabeformat zu berücksichtigen und gegebenenfalls mit Methoden wie der Visualisierung vertraut zu sein.

** Computerinfrastruktur **

Abhängig von der Datenmenge kann es erforderlich sein, Personal mit Kenntnissen der Infrastrukturingenieure zu haben, um die Rechenressourcen und die Parallelisierung zu optimieren.

Grundsätzlich ist es schrecklich oder fast unmöglich, eine Person nach all diesen Fähigkeiten zu fragen. Wenn eine Person, die über einen vollständigen Stapel von "Schreibfähigkeiten" verfügt, als "Datenwissenschaftler" definiert ist, wird dieser Beruf ** schnell verstopft **.

"Schreiben" und "Lesen" haben unterschiedliche Schwierigkeitsgrade

Ob Englisch oder Libanesisch, Lesen ist einfacher als Schreiben. In Japans Englisch-Lernkurs besteht das Problem oft darin, dass das Lesen stärker wird, aber das Schreiben und Sprechen sich nicht entwickelt, aber ich persönlich denke, dass es sehr sinnvoll ist, nur lesen (oder lesen) zu können. Ich hoffe ich kann es mir auch anhören)

Abgesehen davon ist der Prozess des "Schreibens" des Geschäftsprozesses, dh des Analysierens und "Lesens" der Ergebnisse, wichtig und interessant. Würde es wie folgt aussehen, wenn es auf die gleiche Weise wie zuvor geschrieben würde?

image

Selbst wenn Sie nicht schreiben können und lesen können, können Sie in diesem Prozess uneingeschränkt an der Konversation teilnehmen und einen Beitrag leisten, indem Sie Ihre Meinung abgeben.

Auch wenn Sie selbst kein statistisches Modell erstellen können, müssen Sie nur die Struktur der Eingabedaten und das Lesen der Modellergebnisse kennen.

Selbst wenn es eine halbe Person ist, KPIs zu entwerfen, ist es nur erforderlich, die numerischen Werte jedes KPIs lesen und Geschäftsinterpretationen und -hypothesen formulieren zu können.   Auch wenn Sie den Code nicht selbst kratzen können, kann es nützlich sein, wenn Sie über die Fähigkeiten verfügen, einen Teil des Codes einer Person zu reparieren und wiederzuverwenden.

In diesem Fall ist die Hürde beim Lernen viel geringer als beim "Schreiben", aber es gibt viele Szenen, die für Unternehmen auf dieser Ebene nützlich sind.

Versuchen Sie zusammenzufassen, was Sie brauchen

Ich denke, dies ist eine grobe Zusammenfassung dessen, was bisher diskutiert wurde. Wenn in dieser Tabelle "Schreiben" ungefähr zwei Stärken hat und "Lesen" möglich ist, denke ich, dass es ** stark genug für eine Person ist, die am Datenanalyseprozess beteiligt ist **.

Mit anderen Worten, wenn Sie sich ** nennen möchten, können Sie sich selbst als Datenwissenschaftler bezeichnen, oder? ** Das sage ich.

image

Was ich hervorheben möchte, ist    ** 1. Sie müssen nicht alle Felder "schreiben" ** Wenn du kannst, ist es besser, aber es ist praktisch schwierig. In einigen Fällen ist es vorteilhafter, die bereits zu schreibenden Felder weiter zu spezialisieren und zu vertiefen, als sich zu bemühen, die Abdeckung des "Schreibens" zu erhöhen.

** 2. Wenn Sie eine Sprache "lesen" können, die Sie nicht "schreiben" können (・ ∀ ・) Gut !! ** Wie ich bereits erwähnt habe, ist Lesen einfacher als Schreiben, egal ob auf Englisch oder Libanesisch. Und je nachdem, was Sie tun, kann das ausreichen. Das erste ist, lesen / hören zu können, ohne zwangsweise zum Schreiben / Sprechen zu gehen.

Das ist es. Das Wichtigste ist ** "Sie können an Gesprächen in jeder Sprache teilnehmen" **. Und wenn Sie über eine "Sprache, die Sie schreiben können" sprechen, sollten Sie mehr Initiative ergreifen, um an der Konversation teilzunehmen.

Am Ende

Ich habe es schwer geschrieben, aber was ich sagen möchte, ist

"Verzweiflung, die ich für perfekt quattro lingual halte, ist unmöglich. Aber wenn es zweisprachig ist + Sie in zwei Sprachen lesen und hören können, ist das so ziemlich alles, aber es ist immer noch sehr nützlich, also lasst uns unser Bestes geben.

Das ist.

"Mit Ph.D. können ** Spark, Hadoop, SQL für ** verwendet werden, und Python kann nicht nur für die Analyse, sondern auch für die ** Konstruktionsstufe von Algorithmen angewendet werden, die in Produkte **, ** statistisches Modell und maschinelles Lernen integriert werden sollen. Ich hoffe, dass es keine lächerliche Rekrutierung von Datenwissenschaftlern wie "Rekrutierung von ** Personen mit reichlich Wissen **, ausreichender ** Geschäftserfahrung **, gutem Teammanagement und ** hoher Kommunikation" geben wird.

Enjoy!

Dieser Artikel auch

Wenn Sie sich für Datenwissenschaftler interessieren, schauen Sie sich zuerst hier um, eine Zusammenfassung der Literatur und Videos http://qiita.com/hik0107/items/ef5e044d2f47940ba712

Recommended Posts

Es ist Zeit, ernsthaft über die Definition und die Fähigkeiten von Datenwissenschaftlern nachzudenken
Ich wollte nur die Daten des gewünschten Datums und der gewünschten Uhrzeit mit Django extrahieren
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und Klassen
Über Boxplot und Violinplot, die die Variation unabhängiger Daten visualisieren
Überlegen Sie ernsthaft, welche Sprache in der Programmierausbildung und in der Programmierausbildung verwendet werden soll.
[Einführung in Data Scientists] Grundlagen von Python ♬ Bedingte Verzweigung und Schleifen
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und anonyme Funktionen usw.
Ford-Falkerson-Methode und ihre Anwendungen-Ergänzung zu Kapitel 8 der Algorithmus-Kurzreferenz-
[Einführung in Datenwissenschaftler] Grundlagen der Wahrscheinlichkeit und Statistik ♬ Wahrscheinlichkeits- / Wahrscheinlichkeitsvariable und Wahrscheinlichkeitsverteilung
Stellen Sie die Zeitzone auf japanische Standardzeit ein
So stellen Sie die Serverzeit auf japanische Zeit ein
So machen Sie VS Code auf die venv-Umgebung und ihre Vorteile aufmerksam
Stellen Sie sicher, dass die Vorverarbeitung zum Zeitpunkt der Erstellung und Vorhersage des Vorhersagemodells ausgerichtet ist
[Überprüfung] Nimmt levelDB Zeit zum Registrieren von Daten, wenn die Datenmenge zunimmt? ??
[Python] Denken Sie ernsthaft über die M-1-Gewinnmethode nach.
Die Geschichte von Airflows Webserver und DAG, deren Laden lange dauert
Ich habe die Berechnungszeit von "X in Liste" (lineare Suche / dichotome Suche) und "X in Menge" untersucht.
[Herausforderer suchen] Das schnellste Laden und Erweitern von Daten (Kaggle-Notizbuch), denke ich
Analyse von Finanzdaten durch Pandas und deren Visualisierung (2)
Liste der Python-Bibliotheken für Datenwissenschaftler und Dateningenieure
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
Visualisieren Sie Daten und erfassen Sie gleichzeitig die Korrelation
Über die Ineffizienz der Datenübertragung im luigi on-memory
[Blender] So legen Sie die Auswahlelemente von EnumProperty dynamisch fest
Setzen Sie die angegebene Spalte von QTableWidget auf ReadOnly StyledItemDelegate
Persönliche Hinweise zur Integration von vscode und anaconda
Überblick über die Verarbeitung natürlicher Sprache und ihre Datenvorverarbeitung
Ich habe versucht, zum Zeitpunkt der Bereitstellung mit Fabric und ChatWork Api automatisch in ChatWork zu posten
[Einführung in das SIR-Modell] Prognostizieren Sie die Endzeit jedes Landes mit der COVID-19-Datenanpassung ♬
[Einführung in das logarithmische Diagramm] Prognostizieren Sie die Endzeit jedes Landes anhand des logarithmischen Diagramms der Infektionszahldaten ♬
Geben Sie die Bilddaten mit Flask of Python zurück und zeichnen Sie sie in das Canvas-Element von HTML
So berechnen Sie die Summe oder den Durchschnitt von Zeitreihen-CSV-Daten in einem Augenblick