[PYTHON] Indem ich den Unterschied zwischen "Statistik" und "maschinellem Lernen" anordne, kann ich den Grund erkennen, warum "maschinelles Lernen" in vielen Unternehmen nicht verwendet werden kann!

Was ist schließlich der Unterschied zwischen Statistik und maschinellem Lernen? Warum kann ich mit maschinellem Lernen von heute an kein Geld verdienen?

Vielleicht wundert sich jeder, wenn er anfängt, maschinelles Lernen zu studieren. Und warum können viele Betreiberunternehmen es ab heute nicht mehr in ihrer täglichen Arbeit einsetzen? Die Frage stellt sich auch. Es gibt verschiedene Dokumente, aber ich hatte Schwierigkeiten, sie zu verstehen, und habe sie auf meine eigene Weise neu organisiert. Ich habe viel Selbstdiskussion geführt, indem ich Informationen kombiniert habe. This article explains why many companies cannot use machine learning approaches to drive business starting today...

Zunächst habe ich versucht, den Unterschied zwischen Statistik und maschinellem Lernen, Denken und Orientieren in einer Tabelle zusammenzufassen

統計か機械学習かVer2.png

Obwohl viele es erwähnt haben und miteinander verwandt sind, haben sie unterschiedliche Endziele. ** "Maschinelles Lernen" macht Vorhersagen und Urteile, aber der Grund, warum es passiert ist, ist im Allgemeinen eine Black Box. Für Vorhersagen und Beurteilungen in "Statistiken" ist es wichtig zu begründen, warum eine solche Schlussfolgerung gezogen wurde (es handelt sich um eine Argumentationsstudie), und der Grund ist eine weiße Box. ** ** **

Warum können so viele Betreiberunternehmen "den Ansatz des maschinellen Lernens nicht anwenden"?

** "Statistik", die sich auf die Organisation von Faktoren konzentrieren soll, eignet sich zur Lösung sozialwissenschaftlicher Probleme, und "Maschinelles Lernen" eignet sich zur Vorhersage der Naturwissenschaften und zur automatischen Verarbeitung durch Roboter. *, ich bin gekommen, um über das Arrangement-Ergebnis nachzudenken, und die Realität ist das. Wenn es ein Thema gibt, wie das Identifizieren der Faktoren, die im Umsatz schwanken, und das Nachdenken über Maßnahmen zur Steigerung des Umsatzes für die Faktoren, dann ist dies die Geschichte der "Statistik" (Lösung sozialwissenschaftlicher Probleme), die den Grad des Einflusses und des "maschinellen Lernens" aussortiert. Es ist keine solche Geschichte. (Darüber hinaus gibt es eine Auswirkungsanalysefunktion, die als AI-Funktion von BI bereitgestellt wird. Hierfür müssen jedoch die Elemente angegeben werden, die möglicherweise betroffen sind, und die zugehörige Berechnung lautet "Statistik". Dies ist ein Bereich. Die empfohlene Produktanzeige auf der EC-Website zeigt häufig nur Kombinationen an, die andere Personen gekauft haben, und sollte eher einer einfachen Abfrage als einer Vorhersage des maschinellen Lernens ähneln.) Auf der anderen Seite sind Roboterverarbeitung wie Taifunverlaufsvorhersage, Erdbebenvorhersage (obwohl ich denke, dass dies immer noch unmöglich ist), Bilderkennung und Spracherkennung maschinelle Lernansätze. Zum Beispiel kann die Vorhersage des Verlaufs / der Intensität eines Taifuns durch Temperatur, Meerwassertemperatur, Luftstrom usw. beeinflusst werden, solange der Verlauf / die Stärke korrekt ist, unabhängig davon, ob das Modell statistisch schön ist oder nicht (nicht gemocht). Da Temperatur und Meerwassertemperatur durch Multikollinearität und Multikollinearität miteinander verzahnt sind, ist es im statistischen Modell vorzuziehen, nicht beide gleichzeitig zu verwenden.) Wenn die Ergebnisse korrekt sind, ist dies für die Menschen nicht relevant und nicht von Interesse. ** Viele Betreiberunternehmen interessieren sich für "Sozialwissenschaften" in Bereichen wie Vertrieb, Marketing, Finanzen und Personal und oft nicht für "Naturwissenschaften" oder "Roboter". ( Marketing-Automatisierung berücksichtigt Automatisierung, daher kann dieser Bereich als Roboter bezeichnet werden. Er ist begrenzt.) **

Warum können so viele Betreiberunternehmen "keine Statistiken oder kein maschinelles Lernen verwenden"?

● ** Es sind keine Daten vorhanden. ** Das ist alles. Ein allgemeines Unternehmen verfügt nicht über einen sauberen Datensatz wie die Kaggle-Konkurrenz. ** (1) Es gibt keine Attributinformationsdaten, die der Hauptfaktor sein sollten. ** ** ** Beispielsweise gibt es keine vergangenen, neuesten oder zukünftigen Attributinformationen für Kunden, die Waren oder Dienstleistungen kaufen. Attributinformationen schwanken, vergangene Attribute in der Vergangenheit, aktuelle Attribute in der Gegenwart. Als Beispiel für ein Kreditkartenunternehmen ist es relativ einfach, Kredite zu automatisieren, um die neuesten Kundeninformationen zu erhalten, aber es ist fast unmöglich vorherzusagen, was in 10 Jahren passieren wird. Die Situation des akademischen Hintergrunds, der Familienstruktur und des jährlichen Einkommens ändert sich, aber die neuesten Attributinformationen werden nicht immer korrekt verwaltet. Daher wird verwendet, wer die Kreditkarte verwendet (wer ist das Attribut). Über Kreditkartenunternehmen ist wenig bekannt (selbst Unternehmen mit einer großen Menge an persönlichen Informationen mit vielen Attributen). Ich habe immer die neuesten Informationen, die sich nicht ändern, wie Geschlecht und Alter, sobald ich sie erhalte, aber sie sind angesichts der Kundenattribute zu begrenzt. In einem solchen Zustand ist es unmöglich, vergangene, gegenwärtige und zukünftige Konsumtrends miteinander zu verbinden.

** (2) Transaktionsdaten und Stammdaten sind nicht verknüpft. ** ** ** Änderungen der Stammdaten (Produktnummer usw.) und Vergangenheit, Gegenwart und Zukunft sind nicht miteinander verbunden.

** (3) Selbst interne Informationen können (alle) Strategien und Maßnahmen nicht umfassend in Daten für Statistiken und maschinelles Lernen umwandeln. ** ** ** Es ist die Geschichte von Atarimae, dass Unternehmensstrategien und -maßnahmen (z. B. Werbung, Kampagnen usw.) Käufe und Verkäufe beeinflussen, aber es ist fast unmöglich, Daten für Statistiken und maschinelles Lernen zu übertragen. Selbst wenn es möglich ist, eine individuelle Analyse durchzuführen, um festzustellen, ob die Maßnahmen mit der Lokalisierung erfolgreich waren oder nicht, ist es für das gesamte Unternehmen unmöglich, darüber zu sprechen. Aber Manager wollen es.

Fazit

● Menschen, die sich nicht für Naturwissenschaften oder Roboterverarbeitung / Verarbeitungsautomatisierung interessieren, scheint das Unternehmen keinen großen Vorteil beim Einstieg in das "maschinelle Lernen" zu haben (es sei denn, jeder nutzt das Zerkleinern in diese Richtung). ● Wenn keine geeigneten Daten für die Analyse vorhanden sind, sind sowohl "Statistiken" als auch "maschinelles Lernen" bedeutungslos und verschwenderischer Aufwand beim Schwenken der Flagge. ● Wenn die für die Analyse erforderlichen Daten nicht vorbereitet wurden, müssen sie aus der Datenerfassung / -pflege eingegeben werden. ● Die Zukunft von Datenwissenschaftlern, die die Grundlagen und das Wesentliche nicht verstehen, ist in Gefahr! Ergebnisse ohne Ergebnisse ...

Recommended Posts

Indem ich den Unterschied zwischen "Statistik" und "maschinellem Lernen" anordne, kann ich den Grund erkennen, warum "maschinelles Lernen" in vielen Unternehmen nicht verwendet werden kann!
Ich habe versucht, die beim maschinellen Lernen verwendeten Bewertungsindizes zu organisieren (Regressionsmodell).
Über den Unterschied zwischen "==" und "is" in Python
Ich habe "Lobe" ausprobiert, mit dem das von Microsoft veröffentlichte Modell des maschinellen Lernens problemlos trainiert werden kann.
Einfache Statistiken, mit denen die Auswirkungen von Maßnahmen auf EG-Standorte und Codes analysiert werden können, die in Jupyter-Notebooks verwendet werden können