Il existe de nombreux outils d'analyse des données. Ici, les outils d'analyse de données incluent Excel, la programmation, les outils de tableau de bord, les outils BI, etc.
Dans cet article, nous expliquerons quel type d'outil d'analyse doit être utilisé dans quel type de situation pour les débutants en analyse de données et ceux qui vont analyser les données.
La principale raison pour laquelle quel type d'outil d'analyse est utilisé dans quel type de situation est que l'analyse des données peut être effectuée efficacement en utilisant le bon outil. Là où vous n'avez pas besoin de programmation, vous n'aurez peut-être pas à la forcer, Dans certaines situations, les outils BI utiles sont inutiles et peuvent nécessiter des connaissances en programmation et SQL.
De plus, ceux qui vont analyser les données se demanderont quelle quantité de connaissances ils devraient avoir pour l'analyse qu'ils veulent (ou qui leur est confiée). À ce moment-là, si vous savez d'une manière ou d'une autre quel type d'outil d'analyse utiliser dans quel type de situation, vous pouvez prédire la quantité de connaissances dont vous avez besoin.
Il existe deux principaux types d'analyse des données: «** analyse ad hoc **» et «analyse régulière».
Les entreprises et les chercheurs qui ne disposent pas d'une base d'analyse de données bien développée et non automatisée devront analyser manuellement les données chaque fois que cela est nécessaire. C'est ce qu'on appelle ** analyse ad hoc ** dans le sens d'analyse ad hoc.
** Ad Hock Analysis ** utilise un outil d'analyse interactif qui vous permet d'exécuter des requêtes et un traitement de transformation / agrégation de données et de vérifier les résultats immédiatement.
En revanche, si vous devez générer des rapports régulièrement au lieu d'analyser manuellement à chaque fois, un outil de tableau de bord qui agrège et affiche automatiquement les données est utilisé.
ici, ・ Excel · Langage de programmation ・ Outil BI ・ Outil de tableau de bord
Jetons un coup d'œil à chaque fonctionnalité et produit spécifique de, et voyons quel type d'outil est utilisé dans quel type de situation.
Excel Tout d'abord, le professeur Excel que tout le monde connaît! J'ai grandi en apprenant à analyser les données par programmation sans utiliser Excel, donc je ne suis pas aussi bon en Excel que Python ...
En fait, Excel est suffisant pour une analyse simple.
Tout d'abord, apprenons à utiliser le tableau croisé dynamique. En effet, les tableaux croisés avec des tableaux croisés dynamiques constituent la base de toute analyse de données.
L'idée des tableaux croisés est la même qu'il s'agisse d'Excel ou de programmation, donc si vous ne connaissez pas cette idée, vous ne pouvez pas en parler.
Excel est un outil très utile, mais il y a des limites à l'intégration des données. L'augmentation du nombre de colonnes dans le sens horizontal est un processus semblable à Excel, mais il n'est pas bon pour intégrer des données dans le sens vertical.
Par exemple, considérons le cas de la gestion des données chronologiques d'un capteur. (En abstraction, Google Analytics est comme un capteur, n'est-ce pas?)
Supposons que le capteur ① enregistre les données toutes les secondes et que le capteur ② enregistre les données toutes les 10 secondes. Lors de l'agrégation et de l'intégration de ces données, les données du capteur ① doivent être moyennées toutes les 10 secondes ou la valeur représentative doit être extraite et combinée.
L'exécution de ces processus dans Excel est un problème, et lorsque le nombre de données est de centaines de milliers ou de millions de lignes, le calcul devient lent dans Excel.
Bien que, Par exemple, lorsqu'il s'agit d'indicateurs de gestion, Excel suffira. Au mieux, nous ne discutons qu'en regardant les résultats agrégés pour chaque semaine ou mois. Par conséquent, les sociétés de conseil et les cabinets comptables reconnaissent toujours que l'utilisation d'Excel en tant que compétence importante est l'une des compétences importantes.
Ici, nous prendrons Python comme langage de programmation. Il n'est pas exagéré de dire que Python a dominé le monde en tant que langage de programmation pour l'analyse de données ces dernières années, et qu'il dispose d'abondantes bibliothèques pour l'analyse de données, et l'outil interactif Jupyter Notebook, qui sera décrit plus tard, est populaire.
Jupyter Notebook (Depuis Site officiel)
Jupyter Notebook est un outil d'exécution de script interactif open source. En plus de Python, des langages de programmation tels que Ruby et R peuvent également être exécutés.
Vous pouvez visualiser les résultats de chaque processus de traitement. Vous pouvez également rédiger des explications au format Markdown, ce qui fonctionne bien comme un rapport à montrer aux autres.
La bibliothèque la plus connue pour créer des graphiques en Python est matplotlib. Il est possible de créer un graphique à la mode comme l'image prise sur le site officiel ci-dessus.
Les livres suivants seront utiles pour l'analyse et la visualisation des données à l'aide de Python.
Bien sûr, maîtriser Python pour l'analyse des données n'est pas facile. Pour les débutants en programmation, les coûts d'apprentissage sont élevés.
Donc, dans le sens où les non-ingénieurs ne peuvent pas analyser les données, ce n'est pas vraiment démocratisé.
Par conséquent, les outils BI sont devenus populaires en tant qu'outils d'analyse de données ces dernières années. Vous avez probablement entendu le nom de l'outil Tableau.
Ces dernières années, j'ai entendu dire que les sociétés de conseil utilisent de plus en plus Tableau pour l'analyse.
Lorsque je travaillais pour une société de conseil, il y avait une atmosphère dans laquelle Tableau était maintenant, plus jeune et plus tendance qu'Excel.
(Depuis Site Web officiel de Tableau)
Il convient aux membres de l'équipe de procéder à l'analyse tout en créant des graphiques. En termes d'utilisation, les outils de tableau de bord décrits ci-dessous visent à automatiser l'analyse, tandis que les outils BI sont utilisés pour une analyse de données plus exploratoire.
Les outils de BI sont excellents et très précieux car ils aident à démocratiser vos données.
Cependant, bien que les outils de BI puissent gérer des données intégrées, le travail d'intégration lui-même n'est pas bon (peut être effectué). Avant d'utiliser les outils BI, vous devez écrire vos propres requêtes SQL pour l'agrégation et l'intégration des données.
Donc, en fin de compte, pour une analyse significative, vous avez besoin d'une équipe de prétraitement des données qui intègre les données et facilite la lecture des outils de BI.
Contrairement à l'analyse ad hoc, les outils de tableau de bord sont utilisés dans le but d'interroger périodiquement pour créer des rapports et afficher des graphiques.
Certains des plus connus sont Redash.
Les outils de tableau de bord se concentrent sur l'automatisation de l'analyse des données afin qu'elles puissent être revues régulièrement.
Cependant, il existe de nombreux outils de tableau de bord qui ne prennent pas en charge la création de tableaux de bord interactifs tels que les outils BI. Jusqu'au dernier, il est optimisé pour visualiser régulièrement les dernières informations.
Pour utiliser le tableau de bord, vous devez exécuter un langage de programmation ou SQL. (Bien sûr, un prétraitement est également nécessaire séparément.)
En fait, les outils de visualisation qui prétendent être capables de faire des choses avancées sont, en fait, «vous pouvez écrire et exécuter du code Python en interne».
L'histoire de l'équipe de science des données et de l'écosystème analytique de Mercari D'après cet article
Chez Mercari, de nombreuses personnes peuvent écrire du SQL même pour des emplois non analystes et effectuer elles-mêmes des analyses simples. Récemment, il y a des rumeurs selon lesquelles même le service financier, le service comptable, le service juridique et les concepteurs étudient. (C'est un fait)
Et cela. Tout le monde étudie dur car il doit exécuter SQL pour l'analyser.
Dans une entreprise normale, le problème est de savoir qui écrit le SQL.
Pour les entreprises qui ont un flux d'amélioration des affaires fixe et qui ont des indicateurs constants à suivre, c'est une bonne idée de dépenser un montant raisonnable pour préparer une plateforme d'analyse de données et introduire des outils de tableau de bord.
Cependant, généralement, les indicateurs et les données que vous souhaitez voir changent rapidement, vous devez donc changer le SQL.
Pour les entreprises qui disposent d'une infrastructure d'analyse de données bien établie et peuvent se permettre d'agréger et d'intégrer correctement les données, il est conseillé d'introduire des outils de BI et des outils de visualisation. Si des membres autres que des ingénieurs souhaitent également analyser des données et les utiliser dans les discussions quotidiennes, il n'y a pas d'autre choix que d'introduire des outils de BI et des outils de visualisation.
Cependant, si vous n'avez pas décidé du KPI que vous souhaitez voir, ou si vous n'avez pas décidé de ce qu'il faut considérer, c'est une bonne idée d'utiliser les outils de BI pour en discuter avec tout le monde.
Pour les entreprises où le flux de prise en compte de l'analyse des données a déjà été standardisé, il serait préférable d'utiliser des outils de visualisation pour automatiser l'analyse.
Si l'infrastructure d'analyse des données n'est pas encore en place et que vous souhaitez simplement stocker les données pour le moment, utilisez un langage de programmation pour l'analyse ad hoc. Une analyse ad hoc appropriée révélera ici quels KPI sont importants pour l'entreprise et ce que vous souhaitez envisager d'utiliser les données. C'est une procédure très importante.
Même si vous automatisez soudainement l'analyse, l'analyse peut éventuellement devenir obsolète. Il faut du temps et de l'argent pour mettre en place une plateforme d'analyse de données, il n'est donc certainement pas bon de commencer à construire une plateforme d'analyse sans réfléchir profondément.
J'ai écrit cet article comme l'article du 24ème jour du Calendrier de l'Avent d'un groupe d'étude appelé StudyCo que je fais avec mes amis depuis de nombreuses années. Je suis.
Je vous serais reconnaissant de bien vouloir vous référer aux autres articles que j'ai écrits jusqu'à présent!
J'espère que ce sera un cadeau de Noël pour tous ceux qui vont désormais travailler sur l'analyse des données!
La nuit sainte est aussi une nuit discutée avec des données! Joyeux Noël!
Recommended Posts