[PYTHON] Wie die Abteilung Informationssysteme (Anfänger) mit der Datenwissenschaft beginnen kann

Kapitel 1 Einleitung

Zweck des Artikels

In der Welt fliegen große Wörter wie "Digital Trust Formation (DX)", "Data Driven Management" und "AI Utilization" herum und von den großartigen Leuten des Unternehmens, die die leicht aufregenden Presseartikel von Wettbewerbern gesehen haben. Es gibt viele Leute in der Abteilung für Informationssysteme, die in Schwierigkeiten sind, weil sie angewiesen werden, daran zu arbeiten. Als Berater für solche Leute spreche ich manchmal über Dinge wie den Titel, deshalb habe ich den Inhalt kurz zusammengefasst. Natürlich können Sie von Anfang an Geld ausgeben, um eine Bestellung bei einem Anbieter aufzugeben oder einen Datenwissenschaftler einzustellen, aber die emotionale Person ist bis zu einem gewissen Grad hungrig nach Datenwissenschaft, probieren Sie es eine Weile aus und lagern Sie es dann aus. Es wird persönlich empfohlen, die Richtung wie zu bestimmen.

Grundsätzlich habe ich vor, es klar zu schreiben, aber ich hoffe, dass Sie die Wörter und Begriffe, die Sie nicht verstehen, bei jeder Überprüfung lesen können.

Zielfall

Das Ziel dieses Artikels sind Organisationen, die überhaupt keine Datenwissenschaft betreiben. (Mit Ausnahme von Organisationen, die bereits Modelle selbst erstellt oder ausgelagert haben oder Auto-ML-Tools wie DataRobot verwenden.) Es wurden verschiedene Empfehlungen abgegeben, BI-Tools eingeführt und die Visualisierung abgeschlossen. Oder stellen Sie sich eine Organisation mit einem Level vor, das Sie gekauft und ausprobiert haben, aber nicht gut machen konnten. Darüber hinaus sind die Zieldaten strukturierte Daten. (Unstrukturierte Daten wie Dokumente und Fotos werden nicht erfasst.)

Welche Art von Aktivität ist sinnvoll?

Einige Leute haben vielleicht gedacht. Aus meiner Sicht hat jedes Unternehmen eine angemessene Menge an Daten, wenn nicht sogar sauber. Das Sammeln von Daten ist für die Datenwissenschaft von wesentlicher Bedeutung, aber glücklicherweise ist der Umgang mit internen Systemdaten ein Spezialgebiet und kann in vielen Fällen gut durchgeführt werden. Sobald Sie die Daten haben, können Sie häufig einige wertvolle Anwendungsfälle einrichten und Ergebnisse erzielen. Es lohnt sich auch, die Datenwissenschaft besser zu verstehen, auch wenn die Ergebnisse nicht gut sind.

Aktueller Standort der Datennutzung durch japanische Unternehmen

Was ist mit anderen Unternehmen? Viele Leute dachten das. Die meisten meiner Hauptkunden werden hergestellt und vertrieben, aber in Bezug auf das Hautgefühl haben mehr als 300 Milliarden Kunden begonnen zu arbeiten. Ich denke, dass 100 bis 300 Milliarden in der Nähe des Unternehmens liegen, und wenn es weniger ist, ist es oft außer Kontrolle geraten. In der Branche ist das Vertriebssystem weit verbreiteter, und ich habe den Eindruck, dass die Fertigung hinterherhinkt. Insgesamt gibt es auch einen großen Temperaturunterschied zwischen Unternehmen, die sich viel Mühe geben, und Unternehmen, die dies überhaupt nicht tun. image.png Es ist wichtig, es zuerst zu versuchen!

Kapitel 2: Notwendiges Wissen

Zunächst ist es notwendig, das notwendige Wissen zu erwerben. Das erforderliche Wissen ist grob in vier Kategorien unterteilt: "Überblick und Anwendungsfälle der Datenwissenschaft", "Domänenwissen", "IT-Wissen" und "Statistisches Wissen".

Data Science Überblick und Anwendungsfälle

Zunächst ist es notwendig, das Gesamtgefühl zu erfassen. Irgendwie wird es mit AI gelöst! Dann werde ich nicht reden. Zunächst muss man verstehen, was getan werden kann. Es gibt viele Dinge, die getan werden können, aber angesichts von "leicht zu verstehen (leicht anzuhängen)" und "Nützlichkeit" ist es notwendig, die Umrisse von "Klassifizierung" und "Rückgabe" und die Anwendungsfälle zu verstehen. Lassen Sie uns dieses Wissen nachholen und Anwendungsfälle im Internet usw. anwenden. Außerdem kann die Analyse von Daten, die sich im Laufe der Zeit ändern, verschoben werden, da sich der Schwierigkeitsgrad erhöht.

Domen Wissen

Es ist Teil des branchenüblichen sogenannten Themen- und Geschäftswissens. Ich denke nicht, dass es notwendig ist, diesen Punkt zu studieren, weil es unsere eigene Geschichte ist. (Natürlich denke ich, dass es notwendig sein wird, die Site später für eine eingehende Analyse zu interviewen.)

IT Wissen

Es ist grob in "harter Typ" und "weicher Typ" unterteilt. "Hartes System" ist das Wissen, um die Umgebung vorzubereiten. Sie können eine lokale Umgebung auf Ihrem eigenen PC erstellen, einen Server in der Cloud einrichten oder auf einem SaaS-Dienst ausführen. (Ich denke, dass Aufholjagd für allgemeine Menschen nicht notwendig ist.) In "soft" ist das Grundprinzip Python. (R kann verwendet werden, wenn Sie möchten.) Für die Datenerfassung und -verarbeitung sind außerdem SQL-Kenntnisse erforderlich. Die Ausführungsmethode besteht im Wesentlichen darin, den Quellcode in Jupter Notebook zu schreiben. In letzter Zeit kann jedoch Software, die visuell auf der Benutzeroberfläche implementiert ist (Sagemaker Studio, Watson Stuio usw.), kostenlos oder kostengünstig verwendet werden, sodass ich allergisch gegen den Code bin. Ich denke, das ist gut für einige Leute. Insbesondere die erste Hälfte von "Python Practical Data Analysis 100 Knock" und "[Kaggle Start Book Starting with Python](https :: //www.amazon.co.jp/dp/4065190061/ref=cm_sw_em_r_mt_dp_U_PWniFb0KVRHC6) ”usw., und ich denke, es ist eine gute Idee, dem Beispiel ein Bild hinzuzufügen. Wenn Sie mit einer großen Datenmenge arbeiten, sind auch Kenntnisse wie verteilte Verarbeitung erforderlich. Beginnen wir jedoch mit Daten auf kleiner Ebene von Zehntausenden bis Hunderttausenden.

Statistisches Wissen

Dies ist die höchste Hürde, und wenn Sie von hier aus eintreten, werden Sie frustriert sein. Auto ML ist jetzt verallgemeinert, z. B. "Amazon SageMaker Autopilot" und "[IBM Watson Studio Auto AI](https: // www. Es gibt eine Möglichkeit, Data Science ohne Kenntnis von Statistiken wie "ibm.com/jp-ja/cloud/watson-studio/autoai)" auszuprobieren. Dieses Mal gehen wir davon aus, dass es verwendet wird. Da es einen freien Rahmen gibt, verschieben wir ihn zuerst, indem wir uns auf Qiitas Artikel usw. beziehen. Während der Implementierung der oben genannten Bücher und von AutoML halte ich es für gut, Ihr Wissen zu erweitern, indem Sie nach Wörtern suchen, die Sie nicht verstehen.

Zusammenfassung

Bevor wir uns mit dem Fall Ihres Unternehmens befassen, sollten wir zunächst untersuchen, bis Sie sich mit dem oben genannten Wissen hungrig fühlen. Ich denke, es ist okay, wenn es ungefähr 30 Stunden sind.

image.png

Es wird zu einem beruflichen Aufstieg führen, also tu dein Bestes, um zu studieren!

Trainieren

Sie sollten etwas Wissen haben, also kommt als nächstes Übung. Die allgemeinen Arbeitsschritte für die Datenwissenschaft sind:

image.png

Anwendungsfalldefinition

Lassen Sie uns zunächst einen kurzen Blick auf die Daten Ihres Unternehmens werfen. Erinnern Sie sich dann an die Probleme, die Sie bei der Suche nach Anwendungsfällen in der Welt und beim Gespräch mit Ihrer internen Geschäftsabteilung gehört haben. Darin werden wir eine Anwendungsfallhypothese aufstellen, dass dies möglich sein könnte. Es tut mir leid, wenn ich hier stecken bleibe, aber es muss etwas geben. Bitte geben Sie Ihr Bestes und denken Sie darüber nach.

Datenaufbereitung, Bereinigung

Die Datenvorbereitung ist im Grunde ein Bild des Sammelns von Daten von verschiedenen Orten, um eine einzelne Tabelle zu erstellen. Wie Sie verstehen werden, bereiten Sie vor, wenn Sie mit dem Studium von Kapitel 2 fortfahren, was Sie vorhersagen möchten (objektive Variable) und was wahrscheinlich an der Entscheidung beteiligt ist (erklärende Variable). Angenommen, Sie möchten kostengünstig eine E-Mail mit einer EC-Site-Promotion senden. Die übergeordneten Daten zu diesem Zeitpunkt sind der E-Mail-Übertragungsverlauf. Die Zielvariable ist "ein Flag, das angibt, ob der Kauf innerhalb eines Monats auf der EG-Website getätigt wurde oder nicht, und die Anzahl der Käufe". Ich denke, dass die erklärenden Variablen das Alter, das Geschlecht und den vergangenen kumulierten Kaufbetrag der zu sendenden Person umfassen. Stellen Sie sich diese vor und sammeln Sie, was Sie sammeln können.

Solange Sie den Anwendungsfall festlegen können, denke ich nicht, dass die Hürde für diese Arbeit so hoch ist.

Modellieren

Dies ist die höchste Hürde. Normalerweise sind spezielle Kenntnisse wie Feature-Quantity-Design, Modellauswahl / Ensemble und Hyper-Parameter-Tuning erforderlich. Dieses Mal gehen wir jedoch von Auto ML aus. Sie müssen also nur die Daten eingeben und warten. !! Da es sich im Grunde genommen um einen Cloud-Dienst handelt, sollten wir persönliche und vertrauliche Informationen bereinigen, bevor wir sie einwerfen! Anhand des obigen Beispiels erstellen wir hier ein Modell, das vorhersagt, ob aus den Attributen der zu sendenden Person gekauft werden soll oder nicht.

Auswertung

Dies erfordert einige statistische Kenntnisse. Verstehen Sie die Ergebnisse, die Auto ML zurückgibt, indem Sie nach technischen Begriffen suchen. Wenn das Ergebnis tatsächlich gut ist, versuchen Sie, die Zukunft anhand der tatsächlichen Daten vorherzusagen. Wenn Sie sich gut fühlen, teilen Sie es Ihrem Chef oder Ihrer Geschäftsabteilung mit. Nur wenige Leute sagen einheimische Dinge, und ich denke, dies ist der erste Schritt zur Wurzelbildung in der Datenwissenschaft.

image.png

Zusammenfassung

Der Inhalt ist ein wenig abstrakt geworden, aber ich glaube, ich habe irgendwie ein Bild davon, was zu tun ist. Von nun an wird die IT das Schicksal des Unternehmens bestimmen, und die Position der Informationen ändert sich. Auf der anderen Seite sehen wir viele Organisationen, die der Systemwartungseinheit nicht entkommen können und eine Lücke zum gesellschaftlichen Fluss haben. (Es ist auch ein Gefühl der Herausforderung als Berater.) Ich hoffe, dass es jemanden gibt, der durch das Lesen dieses Artikels Maßnahmen ergreifen kann. Wenn Sie Fragen haben, beantworten wir auch Ihre Fragen.

Schließlich

Ich habe angefangen, Qiita zu veröffentlichen, um mein eigenes Wissen über maschinelles Lernen zu organisieren, aber diesmal habe ich versucht, zusammenzufassen, worüber ich mit der DX-Beratung spreche. Wenn es einen guten Ruf hat, werde ich es weiterhin schreiben. Wenn Sie es nützlich finden, verwenden Sie bitte LGTM oder folgen Sie mir. Als nächstes werde ich etwas tiefer in die Anwendungsfallstudie eintauchen. Mein zusammenfassender Artikel ist ↓ Zusammenfassung der für die Implementierung des maschinellen Lernens in Python erforderlichen Kenntnisse

Recommended Posts

Wie die Abteilung Informationssysteme (Anfänger) mit der Datenwissenschaft beginnen kann
Starten Sie Data Science in der Cloud
Implementieren von 100 Data Science-Schlägen für Anfänger in Data Science (für Windows 10 Home)
So starten Sie die erste Projektion