[PYTHON] En arrangeant la différence entre «statistiques» et «apprentissage automatique», je peux voir la raison pour laquelle «l'apprentissage automatique» ne peut pas être utilisé dans de nombreuses entreprises!

Quelle est la différence entre les statistiques et l'apprentissage automatique après tout? Pourquoi ne puis-je pas gagner de l'argent en prédisant avec l'apprentissage automatique à partir d'aujourd'hui?

Peut-être que tout le monde se demande quand ils commencent à étudier l'apprentissage automatique. Et pourquoi de nombreuses sociétés d'exploitation ne peuvent-elles pas l'utiliser dans leur travail quotidien à partir d'aujourd'hui? La question se pose également. Il existe différents documents, mais j'avais du mal à les comprendre, alors je les ai réorganisés à ma manière. Je mets beaucoup d'auto-discussion en combinant des informations. This article explains why many companies cannot use machine learning approaches to drive business starting today...

Tout d'abord, j'ai essayé de résumer la différence entre les statistiques et la pensée et l'orientation de l'apprentissage automatique dans un tableau

統計か機械学習かVer2.png

Bien que beaucoup l'aient mentionné et soient liés les uns aux autres, ils ont des objectifs finaux différents. ** "L'apprentissage automatique" fait des prédictions et des jugements, mais la raison pour laquelle cela s'est produit est généralement une boîte noire. Pour les prédictions et les jugements faits en «statistiques», il est important de justifier pourquoi une telle conclusion a été tirée (c'est une étude de raisonnement), et la raison en est une boîte blanche. ** **

Pourquoi tant d'entreprises d'exploitation "ne peuvent-elles pas utiliser l'approche d'apprentissage automatique"?

** "Statistiques", qui vise à se concentrer sur les facteurs d'organisation, convient à la résolution de problèmes de sciences sociales, et "L'apprentissage automatique" convient à la prédiction des sciences naturelles et au traitement automatique par des robots. *, je suis venu à penser du résultat de l'arrangement, et la réalité est que. S'il y a un thème tel que l'identification des facteurs qui fluctuent dans les ventes et la réflexion sur les mesures pour augmenter les ventes pour les facteurs, c'est l'histoire des «statistiques» (résolution de problèmes de sciences sociales) qui trie le degré d'influence et «l'apprentissage automatique». Ce n'est pas une histoire comme celle-là. (En outre, il existe une fonction d'analyse d'impact fournie en tant que fonction AI de BI, mais cela nécessite de spécifier les éléments qui peuvent avoir une incidence, et le calcul associé est «statistique». C'est une zone. L'affichage du produit recommandé sur le site EC n'affiche souvent que les combinaisons achetées par d'autres personnes, et cela devrait ressembler davantage à une simple requête qu'à une prédiction d'apprentissage automatique.) D'un autre côté, le traitement par robot tel que la prédiction du parcours des typhons, la prédiction des tremblements de terre (même si je pense que c'est toujours impossible), la reconnaissance d'image et la reconnaissance vocale sont des approches d'apprentissage automatique. Par exemple, la prédiction du cap / de l'intensité d'un typhon peut être affectée par la température, la température de l'eau de mer, le flux d'air du jet, etc. tant que le cap / la force est correct, que le modèle soit statistiquement beau ou non (détesté). Étant donné que la température et la température de l'eau de mer sont liées par la multicolinéarité et la multicollinéarité, il est préférable de ne pas utiliser les deux en même temps en termes de modèle statistique.) Si les résultats sont corrects, cela n'est pas pertinent pour les gens et n'est pas intéressant. ** De nombreuses sociétés d'exploitation s'intéressent aux «sciences sociales» dans des domaines tels que les ventes, le marketing, les finances et le personnel, et souvent pas aux «sciences naturelles» ou aux «robots». ( Étant donné que l'automatisation du marketing considère l'automatisation, ce domaine peut être appelé un robot. Il est limité.) **

En outre, pourquoi tant de sociétés d'exploitation "ne peuvent-elles pas utiliser les statistiques ou l'apprentissage automatique"?

● ** Il n'y a pas de données. ** C'est tout. Une entreprise commerciale générale ne dispose pas d'un ensemble de données propres comme la concurrence Kaggle. ** (1) Il n'y a aucune donnée d'information sur les attributs qui devrait être le facteur principal. ** ** Par exemple, il n'y a pas d'informations d'attribut passées, récentes ou futures pour les clients qui achètent des biens ou des services. Les informations sur les attributs sont fluctuantes, les attributs passés au passé, les attributs actuels au présent. À titre d'exemple d'une société de cartes de crédit, il est relativement facile d'automatiser le crédit pour obtenir les dernières informations client, mais il est presque impossible de prédire ce qui se passera dans 10 ans. La situation des antécédents scolaires, de la structure familiale et du revenu annuel change, mais les dernières informations sur les attributs ne sont pas toujours gérées correctement, par conséquent, qui utilise la carte de crédit (qui est l'attribut) On sait peu de choses sur les sociétés de cartes de crédit (même les sociétés qui ont une grande quantité d'informations personnelles avec de nombreux attributs). J'ai toujours les dernières informations qui ne changent pas, comme le sexe et l'âge, une fois que je les reçois, mais elles sont trop limitées compte tenu des attributs du client. Il est impossible de relier les tendances de consommation passées, présentes et futures dans un tel état.

** (2) Les données de transaction et les données de base ne sont pas liées. ** ** Les modifications des données de base (numéro de produit, etc.) et le passé, le présent et le futur ne sont pas liés.

** (3) Même les informations internes ne peuvent pas convertir de manière complète (toutes) les stratégies et mesures en données pour les statistiques et l'apprentissage automatique. ** ** C'est l'histoire d'Atarimae que les stratégies et mesures d'entreprise (par exemple, publicités, campagnes, etc.) affectent les achats et les ventes, mais il est presque impossible de transférer des données pour les statistiques et l'apprentissage automatique. Même s'il est possible d'effectuer une analyse individuelle pour savoir si les mesures ont réussi ou non avec le repérage, il est impossible pour toute l'entreprise d'en parler. Mais les managers le veulent.

Conclusion

● Les personnes qui ne sont pas intéressées par les sciences naturelles ou l'automatisation du traitement / traitement par robot, l'entreprise ne semble pas avoir un grand avantage à se lancer dans le "machine learning" (à moins que chacun n'utilise le concassage dans cette direction) ● S'il n'y a pas de données appropriées à utiliser pour l'analyse, les «statistiques» et «l'apprentissage automatique» sont inutiles et inutiles lors de l'agitation du drapeau. ● Si les données préalables à l'analyse n'ont pas été préparées, il est nécessaire de les saisir à partir de l'acquisition / maintenance des données. ● L'avenir des data scientists qui ne comprennent pas les bases et l'essence est en péril! Des résultats sans résultats ...

Recommended Posts

En arrangeant la différence entre «statistiques» et «apprentissage automatique», je peux voir la raison pour laquelle «l'apprentissage automatique» ne peut pas être utilisé dans de nombreuses entreprises!
J'ai essayé d'organiser les index d'évaluation utilisés en machine learning (modèle de régression)
À propos de la différence entre "==" et "is" en python
J'ai essayé "Lobe" qui peut facilement entraîner le modèle d'apprentissage automatique publié par Microsoft.
Statistiques simples qui peuvent être utilisées pour analyser l'effet des mesures sur les sites EC et les codes qui peuvent être utilisés dans le notebook jupyter