[PYTHON] In 100 Tagen sind Sie Ingenieur. ――Tag 77 ――Programmieren ――Über maschinelles Lernen 2

Klicken Sie hier bis gestern

Diese Zeit ist eine Fortsetzung der Geschichte über maschinelles Lernen.

Über den Fluss des maschinellen Lernens

Seit ich das letzte Mal gemacht habe, habe ich ungefähr getan, was ich tun konnte und was ich tun konnte. Heute möchte ich das tun, was ich konkret tun soll.

Lassen Sie uns zunächst über den Fluss des maschinellen Lernens sprechen. Ich werde erklären, welche Art von Verfahren für maschinelles Lernen in Unternehmen verwendet wird.

Der Arbeitsfluss beim Einbeziehen von maschinellem Lernen ist wie folgt.

Bestimmen Sie den Zweck
Datenerfassung
Datenverständnis / Auswahl / Verarbeitung
Erstellung des Data Mart (Datensatz)
Modellerstellung
Überprüfung der Genauigkeit
Systemimplementierung

Schauen wir uns den spezifischen Inhalt an.

0. Bestimmen Sie den Zweck

Ich denke, es ist der wichtigste Ort. Wofür lernst du maschinell und was willst du tun? Entscheide den Zweck.

Das einzige, was Sie mit maschinellem Lernen tun können, ist "Vorhersage".

Diese Vorhersage Return: Numerische Werte vorhersagen Kategorie: Prognostizieren Sie Kategorien wie Männer und Frauen Clustering: Teilen Sie sich in gute Gefühle

Sie können nur drei Dinge tun.

Zunächst müssen wir entscheiden, was für den Zweck des maschinellen Lernens vorhergesagt werden soll.

Ein gutes Beispiel ist: Ich möchte die Benutzerabhebungsrate reduzieren, daher möchte ich die "Benutzerabhebungsrate" vorhersagen. Ich möchte den Umsatz steigern, also möchte ich vorhersagen, ob der Benutzer kaufen wird.

Sagen Sie das "XX" voraus, das zu "〇〇" führt Ich denke, das wäre der richtige Weg, um maschinelles Lernen einzuführen.

Grundsätzlich "Umsatz" und "Gewinn" Ich denke, ob es hier direkt verbunden ist.

Ich weiß nicht, ob es hier zu etwas führen wird, das schwer zu beurteilen ist Es bedeutet, dass es keine gute Idee ist, maschinelles Lernen zuzulassen.

Erstens erfordert die Arbeit danach beim maschinellen Lernen viel Arbeit. Es ist teuer.

Die Entwicklungskosten werden auf 30 Millionen Yen geschätzt, aber es gibt fast keinen Gewinn zu generieren. Wenn ja, ist es ratsam, sich dagegen zu entscheiden, weil es sinnlos ist, dies zu tun.

Ich möchte überprüfen, wie genau es sein wird, wenn ich maschinelles Lernen mache. Das ist in Ordnung.

Ob das Experiment funktioniert oder nicht, bis zur Überprüfung als POC Wenn der Zweck lose ist, können Sie das Überprüfungsergebnis als Ergebnis verwenden. Ich denke, es kann zum Zweck der Überprüfung sein.

Meistens wirfst du einfach dein Geld weg.

1. Datenerfassung

Sobald der Zweck festgelegt ist, müssen die Daten entsprechend erstellt werden.

Wenn Sie die Daten bereits erfasst haben und verwenden möchten, senden und empfangen Sie sie einfach Sehr wenige Worte.

Es sind jedoch noch keine Daten vorhanden, und es wird von nun an schwierig sein, mit der Datenerfassung zu beginnen. Stellen Sie sicher, dass Sie die Daten so gestalten, dass Sie sehen, welche Art von Daten funktionieren. Wir müssen zunächst einen Mechanismus schaffen, mit dem wir Daten in nur proportionalem Verhältnis erfassen können.

Sie müssen lediglich überprüfen, ob Ihre Kunden und sich selbst über die richtigen Daten verfügen, und in diesem Fall entscheiden, wie die Daten gesendet und empfangen werden sollen. Wenn keine Daten vorhanden sind, handelt es sich um die Entwurfsprüfung der Datenerfassung.

Das Senden und Empfangen von Daten können Sie auf Festplatte oder SSD oder über Cloud-Speicher empfangen. Ich denke, es ist heutzutage meistens über Cloud-Speicher.

2. Datenverständnis / Auswahl / Verarbeitung

Dies ist der Vorprozess der sogenannten "Datenvorverarbeitung".

Welche Art von Daten haben Sie, welche Art von Datenzusammensetzungsverhältnis und wie viel gibt es? Wir führen grundlegende Aggregationsverarbeitungen durch und analysieren und visualisieren die Daten.

Dann werden wir Daten auswählen, die verwendet werden können.

Wenn es um große Datenmengen geht, dauert es viele Tage, um die Daten zu erfassen. Wenn Sie die Eigenschaften der Daten hier nicht richtig verstehen, geht die Arbeit hin und her.

3. Erstellung des Data Mart (Datensatz)

Jetzt erstellen wir von hier aus Daten für maschinelles Lernen. Nachdem wir die Datenkandidaten eingegrenzt haben, die bis zu einem gewissen Grad verwendet werden können, werden wir die Daten für maschinelles Lernen nutzbar machen.

Was für maschinelles Lernen verwendet werden kann, muss ein Satz tabellarischer Daten sein.

Überwachtes maschinelles Lernen erfordert Daten für die "erklärende Variable", die zum Lernen verwendet werden soll, und das "richtige Antwortetikett", um die richtige Antwort darzustellen.

Es ist notwendig, den Teil, der sagt, was Sie vorhersagen möchten, in eine Spalte mit "richtigen Antwortetiketten" zu verarbeiten.

Außerdem müssen alle als "erklärende Variablen" verwendeten Daten in numerische Werte umgewandelt werden.

Die Arbeit hier ist der Prozess der Datenvorverarbeitung.

Es gibt nur wenige maschinelle Lernprojekte mit ziemlich sauberen Daten. Es gibt nur wenige Daten, die fast keine Vorverarbeitung erfordern Es sei denn, es ist so konzipiert, dass Daten in der Phase der Datenerfassung sauber erfasst werden Zeit wird für die Verarbeitung der Daten aufgewendet.

Beim maschinellen Lernen werden wir die Daten in einem Tabellenformat kombinieren. Wenn es viele Arten von Daten gibt, müssen Wege gefunden werden, um sie zusammenzusetzen.

Normalerweise erhalten Sie Tausende bis Zehntausende von Datenspalten.

Die Anzahl der Leitungen variiert je nach Geschäftsart und Datenerfassungsmechanismus erheblich. Mach dir nicht zu viele Sorgen, aber wenn du eine kleine Anzahl von Zeilen hast Dies kann die Genauigkeit beeinträchtigen.

Aufgrund der Vorverarbeitung gibt es 2 Millionen Zeilen, die für 20 Zeilen verwendet werden können Dann gibt es einen Unterschied in der Genauigkeit.

4. Modellerstellung

Das Erstellen eines Modells erfordert im Grunde nicht so viel Aufwand. Selbst wenn Sie viele Modelle herstellen, werden nicht alle Modelle verwendet.

Sie müssen lediglich ein Modell erstellen, das genau und verwendbar ist.

Sie müssen viele Techniken ausprobieren, um ein Modell zu erstellen Wenn Sie dies bis zu einem gewissen Grad tun, wird entschieden, dass diese Methode gut ist, und wenn Sie die Methode mechanisch auswählen, müssen Sie nur 10 Arten von Methoden gleichzeitig ausprobieren und auf das Ergebnis warten, was viel Aufwand erfordert. nicht.

Für Dienste wie "DataRobot", wenn Sie die Daten zur Hand haben Mit diesen Daten werden automatisch verschiedene Modelle erstellt.

Das Erstellen eines Modells ist jetzt sehr einfach und nicht mehr zeitaufwändig Dies ist ein relativ kleiner Teil des maschinellen Lernaufwands.

5. Überprüfung der Genauigkeit

Es wird als Set mit Modellerstellung erstellt, aber wir werden es erstellen, während wir überprüfen, wie genau es nach dem Erstellen eines Modells ist.

Es gibt verschiedene Methoden zur Überprüfung der Genauigkeit, aber im Allgemeinen werden wir untersuchen, wie viel "Fehler" aufgetreten sind.

Da "das mit weniger Fehlern" ein gutes Modell sein soll, denke ich, dass die Modelle in der Reihenfolge weniger Fehler angeordnet werden und schließlich eines der Modelle mit höherer Genauigkeit übernommen wird.

Bis ein guter Fluss des maschinellen Lernens erreicht ist

Datenverständnis / Auswahl / Verarbeitung
Erstellung des Data Mart (Datensatz)
Modellerstellung
Überprüfung der Genauigkeit

Wird wiederholt, und wenn die Genauigkeit noch zufriedenstellend ist

Datenerfassung

Möglicherweise müssen Sie von vorne beginnen.

Ein gutes Modell kann nur aus guten Daten stammen. Mülldaten sind nichts anderes als Müll.

Es ist ziemlich selten, dass eine Schatzkammer in den Mülldaten gemischt ist.

6. Systemimplementierung

Wenn die Daten vorbereitet wurden und festgestellt wurde, dass die Genauigkeit angemessen ist, werden wir das Modell endgültig in das System integrieren.

Wenn es sich um einen WEB-Dienst handelt, wird er im Allgemeinen so integriert, dass er als Teil der Funktion auf der Back-End-Seite bereitgestellt wird.

Es wird eine Form des Aufbaus eines Systems sein, während überlegt wird, wie es zu betreiben ist und wie viel es kosten wird, zusammen mit den Systemanforderungen.

Es ist ein maschineller Lerndienst für AWS Sagemaker. Einige von ihnen sind sofort als Endpunkte verfügbar. Durch die Verwendung eines solchen Dienstes wird die Anzahl der Einheiten auf der Montageseite verringert.

Zusammenfassung

Nachdem Sie gelernt haben, was Sie mit maschinellem Lernen tun können, ist es eine gute Idee, zu lernen, was zu tun ist, um maschinelles Lernen durchzuführen.

Der allgemeine Ablauf ist der gleiche, daher denke ich, dass es am besten ist, sich auf die Methoden verschiedener Unternehmen zu beziehen.

23 Tage, bis Sie Ingenieur werden

Informationen zum Autor

HP von Otsu py: http://www.otupy.net/

Youtube： https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter： https://twitter.com/otupython