[PYTHON] Comment la Direction des Systèmes d'Information (débutants) peut démarrer la science des données

Chapitre 1 Introduction

Objet de l'article

Dans le monde, de grands mots tels que «Digital Trust Formation (DX)», «Data Driven Management» et «AI Utilization» volent partout, et de la part des gens formidables de l'entreprise qui ont vu les articles de presse légèrement passionnants des concurrents. Il y a beaucoup de personnes au service des systèmes d'information qui sont en difficulté parce qu'on leur dit de travailler dessus. En tant que consultant auprès de ces personnes, je parle parfois de choses comme le titre, alors j'ai résumé brièvement le contenu. Bien sûr, vous pouvez dépenser de l'argent dès le début pour passer une commande auprès d'un fournisseur ou embaucher un data scientist, mais la personne émotionnelle a dans une certaine mesure faim de science des données, essayez-la pendant un moment, puis sous-traitez-la. Il est personnellement recommandé de décider de la direction telle que.

En gros, j'ai l'intention de l'écrire clairement, mais j'espère que vous pourrez lire les mots et les termes que vous ne comprenez pas en vérifiant à chaque fois.

Cas cible

La cible de cet article est les organisations qui ne font pas du tout de science des données. (Sauf pour les organisations qui ont déjà créé des modèles par elles-mêmes ou sous-traités, ou qui utilisent des outils Auto ML tels que DataRobot.) Diverses recommandations ont été formulées, et des outils BI ont été introduits et la visualisation est terminée. Ou, imaginez une organisation avec un niveau de niveau que vous avez acheté et essayé mais qui ne pouvait pas bien faire. De plus, les données cibles sont des données structurées. (Il ne couvre pas les données non structurées telles que les documents et les photographies.)

Quel genre d'activité est significatif?

Certaines personnes ont peut-être pensé. De mon point de vue, chaque entreprise dispose d'une bonne quantité de données, sinon belles. La collecte de données est essentielle pour la science des données, mais heureusement, le traitement des données système internes est un domaine spécialisé et, dans de nombreux cas, cela peut être bien fait. Une fois que vous avez les données, vous pouvez souvent mettre en place des cas d'utilisation précieux et obtenir des résultats. Cela vaut également la peine d'avoir une meilleure compréhension de la science des données, même si les résultats ne sont pas bons.

Localisation actuelle de l'utilisation des données par les entreprises japonaises

Et les autres entreprises? Beaucoup de gens pensaient cela. La plupart de mes principaux clients sont fabriqués et distribués, mais en termes de sensation cutanée, plus de 300 milliards de clients ont commencé à travailler. Je pense que 100 à 300 milliards sont proches de l'entreprise, et si c'est moins que cela, c'est souvent hors de contrôle. Quant à l'industrie, le système de distribution est plus omniprésent et j'ai l'impression que la fabrication est à la traîne. De plus, dans l'ensemble, il y a une grande différence de température entre les entreprises qui y consacrent beaucoup d'efforts et celles qui ne le font pas du tout. image.png Il est important de l'essayer en premier!

Chapitre 2: Connaissances nécessaires

Tout d'abord, il est nécessaire d'acquérir les connaissances nécessaires. Les connaissances nécessaires sont globalement divisées en quatre catégories: «Aperçu et cas d'utilisation de la science des données», «Connaissance du domaine», «Connaissance informatique» et «Connaissance statistique».

Présentation de la science des données et cas d'utilisation

Tout d'abord, il est nécessaire de saisir le sentiment général. D'une manière ou d'une autre, il sera résolu en utilisant l'IA! Alors je ne parlerai pas. Tout d'abord, il est nécessaire de comprendre ce qui peut être fait. Il y a beaucoup de choses qui peuvent être faites, mais considérant «facile à comprendre (facile à joindre)» et «utilité», il est nécessaire de comprendre les grandes lignes de «classification» et de «retour» et les cas d'utilisation. Rattrapons ces connaissances et cas d'utilisation sur le net, etc. En outre, l'analyse des données qui changent avec le temps peut être reportée car elle augmente le niveau de difficulté.

Connaissances Domen

Cela fait partie du soi-disant thème et des connaissances commerciales propres à l'industrie. Je ne pense pas qu'il soit nécessaire d'étudier ce point car c'est notre propre histoire. (Bien sûr, je pense qu'il sera nécessaire d'interviewer le site pour une analyse approfondie plus tard.)

Connaissance informatique

Il est grossièrement divisé en «type dur» et «type souple». «Système dur» est la connaissance pour préparer l'environnement. Vous pouvez créer un environnement local sur votre propre PC, configurer un serveur sur le cloud ou l'exécuter sur un service SaaS. (Je pense que le rattrapage n'est pas nécessaire pour les gens en général.) Dans le "système logiciel", la base est Python. (R peut être utilisé si vous le souhaitez.) De plus, la connaissance de SQL est requise pour la collecte et le traitement des données. La méthode d'exécution consiste essentiellement à écrire le code source dans Jupter Notebook, mais récemment, les logiciels visibles sur l'interface utilisateur (Sagemaker Studio, Watson Stuio, etc.) peuvent être utilisés gratuitement ou à faible coût, je suis donc allergique au code. Je pense que c'est bien pour certaines personnes. Plus précisément, la première moitié de "Python Practical Data Analysis 100 Knock" et "[Kaggle Start Book Starting with Python](https :: //www.amazon.co.jp/dp/4065190061/ref=cm_sw_em_r_mt_dp_U_PWniFb0KVRHC6) »et ainsi de suite, je pense que c'est une bonne idée d'ajouter une image à l'exemple. Lorsqu'il s'agit d'une grande quantité de données, des connaissances telles que le traitement distribué sont également nécessaires, mais commençons par des données de petit niveau allant de dizaines de milliers à des centaines de milliers.

Connaissances statistiques

C'est l'obstacle le plus élevé, et si vous entrez d'ici, vous serez frustré. Auto ML est maintenant généralisé, comme "Amazon SageMaker Autopilot" et "[IBM Watson Studio Auto AI](https: // www. Il existe un moyen d'essayer la science des données sans connaître les statistiques telles que "ibm.com/jp-ja/cloud/watson-studio/autoai)", donc cette fois nous supposerons qu'elle sera utilisée. Puisqu'il y a un cadre libre, déplaçons-le d'abord en se référant à l'article de Qiita etc. Lors de la mise en œuvre des livres ci-dessus et d'AutoML, je pense qu'il est bon d'augmenter vos connaissances en recherchant des mots que vous ne comprenez pas.

Résumé

Tout d'abord, avant de considérer le cas de votre entreprise, étudions jusqu'à ce que vous ayez faim avec les connaissances ci-dessus. Je pense que ça va si c'est environ 30 heures.

image.png

Cela mènera à l'avancement de carrière, alors faites de votre mieux pour étudier!

Entraine toi

Vous devriez avoir quelques connaissances, donc la prochaine est la pratique. Les étapes de travail générales pour la science des données sont:

image.png

Définition de cas d'utilisation

Tout d'abord, examinons rapidement ce que contiennent les données de votre entreprise. Ensuite, rappelez-vous les défis que vous avez entendus en recherchant des cas d'utilisation dans le monde et en discutant avec votre service commercial interne. En cela, nous ferons une hypothèse de cas d'utilisation selon laquelle cela peut être possible. Je suis désolé si je reste coincé ici, mais il doit y avoir quelque chose. Faites de votre mieux et pensez-y.

Préparation des données, nettoyage

La préparation des données est essentiellement une image de la collecte de données à différents endroits pour créer une seule table. Comme vous le comprendrez, si vous poursuivez l'étude du chapitre 2, préparez ce que vous voulez prédire (variable objective) et ce qui est susceptible d'être impliqué dans la décision (variable explicative). À titre d'exemple, disons que vous souhaitez envoyer des courriels de promotion de site EC de manière économique. Les données parentes à ce moment-là sont l'historique de transmission du courrier. La variable objective est "un indicateur indiquant si l'achat a été effectué ou non sur le site de la CE dans un délai d'un mois et le nombre d'achats". Je pense que les variables explicatives incluent l'âge, le sexe et le montant d'achat cumulé passé de la personne à envoyer, alors imaginez-les et collectez ce que vous pouvez collecter.

Tant que vous pouvez définir le cas d'utilisation, je ne pense pas que l'obstacle à ce travail soit si élevé.

La modélisation

C'est le plus grand obstacle. Normalement, des connaissances spécialisées telles que la conception de la quantité de caractéristiques, la sélection / ensemble de modèles et le réglage des hyper paramètres sont nécessaires. Cependant, cette fois, nous supposerons Auto ML, donc tout ce que vous avez à faire est de jeter les données et d'attendre. !! Puisqu'il s'agit essentiellement d'un service cloud, nettoyons les informations personnelles et les informations confidentielles avant de les jeter! En prenant l'exemple ci-dessus, nous allons créer ici un modèle qui prédit s'il faut ou non acheter à partir des attributs de la personne à envoyer.

Évaluation

Cela nécessite une certaine connaissance des statistiques. Comprenez les résultats renvoyés par Auto ML en recherchant des termes techniques. Si le résultat est vraiment bon, essayez de prédire l'avenir en utilisant des données réelles. Si vous vous sentez bien, partagez-le avec votre patron ou votre service commercial. Peu de gens disent des choses natives et je pense que c'est la première étape de l'enracinement de la science des données.

image.png

Résumé

Le contenu est devenu un peu abstrait, mais je pense avoir une idée de ce qu'il faut faire. Désormais, l'IT retiendra le sort de l'entreprise et la position de l'information évolue. D'autre part, nous voyons de nombreuses organisations qui ne peuvent pas échapper à l'unité de maintenance du système et ont un écart avec le flux de la société. (C'est aussi un sentiment de défi en tant que consultant.) J'espère qu'il y a quelqu'un qui peut agir en lisant cet article. Si vous avez des questions, nous répondrons également à vos questions.

finalement

J'ai commencé à publier Qiita pour organiser ma propre connaissance du code d'apprentissage automatique, mais cette fois, j'ai essayé de résumer ce dont je parle avec la consultation DX. S'il a une bonne réputation, je continuerai à l'écrire, donc si vous le trouvez utile, veuillez utiliser LGTM ou suivez-moi. Ensuite, je vais approfondir un peu l'étude de cas d'utilisation. Mon article de synthèse est ↓ Résumé des connaissances requises pour la mise en œuvre de l'apprentissage automatique en Python

Recommended Posts

Comment la Direction des Systèmes d'Information (débutants) peut démarrer la science des données
Démarrez la science des données dans le cloud
Comment mettre en œuvre 100 coups de science des données pour les débutants en science des données (pour Windows 10 Home)
Comment démarrer la première projection