[PYTHON] Comment utiliser les outils d'analyse de données pour les débutants

Objectif de cet article ・ Public cible

Il existe de nombreux outils d'analyse des données. Ici, les outils d'analyse de données incluent Excel, la programmation, les outils de tableau de bord, les outils BI, etc.

Dans cet article, nous expliquerons quel type d'outil d'analyse doit être utilisé dans quel type de situation pour les débutants en analyse de données et ceux qui vont analyser les données.

La principale raison pour laquelle quel type d'outil d'analyse est utilisé dans quel type de situation est que l'analyse des données peut être effectuée efficacement en utilisant le bon outil. Là où vous n'avez pas besoin de programmation, vous n'aurez peut-être pas à la forcer, Dans certaines situations, les outils BI utiles sont inutiles et peuvent nécessiter des connaissances en programmation et SQL.

De plus, ceux qui vont analyser les données se demanderont quelle quantité de connaissances ils devraient avoir pour l'analyse qu'ils veulent (ou qui leur est confiée). À ce moment-là, si vous savez d'une manière ou d'une autre quel type d'outil d'analyse utiliser dans quel type de situation, vous pouvez prédire la quantité de connaissances dont vous avez besoin.

Les outils d'analyse ciblés par cet article et leurs caractéristiques

Classification de l'analyse des données

Il existe deux principaux types d'analyse des données: «** analyse ad hoc **» et «analyse régulière».

Les entreprises et les chercheurs qui ne disposent pas d'une base d'analyse de données bien développée et non automatisée devront analyser manuellement les données chaque fois que cela est nécessaire. C'est ce qu'on appelle ** analyse ad hoc ** dans le sens d'analyse ad hoc.

** Ad Hock Analysis ** utilise un outil d'analyse interactif qui vous permet d'exécuter des requêtes et un traitement de transformation / agrégation de données et de vérifier les résultats immédiatement.

En revanche, si vous devez générer des rapports régulièrement au lieu d'analyser manuellement à chaque fois, un outil de tableau de bord qui agrège et affiche automatiquement les données est utilisé.

ici, ・ Excel · Langage de programmation ・ Outil BI ・ Outil de tableau de bord

Jetons un coup d'œil à chaque fonctionnalité et produit spécifique de, et voyons quel type d'outil est utilisé dans quel type de situation.

Excel Tout d'abord, le professeur Excel que tout le monde connaît! J'ai grandi en apprenant à analyser les données par programmation sans utiliser Excel, donc je ne suis pas aussi bon en Excel que Python ...

En fait, Excel est suffisant pour une analyse simple.

Tableau croisé dynamique

Tout d'abord, apprenons à utiliser le tableau croisé dynamique. En effet, les tableaux croisés avec des tableaux croisés dynamiques constituent la base de toute analyse de données.

l_bit201809181254004717.jpg

L'idée des tableaux croisés est la même qu'il s'agisse d'Excel ou de programmation, donc si vous ne connaissez pas cette idée, vous ne pouvez pas en parler.

Ce à quoi Excel n'est pas bon

Excel est un outil très utile, mais il y a des limites à l'intégration des données. L'augmentation du nombre de colonnes dans le sens horizontal est un processus semblable à Excel, mais il n'est pas bon pour intégrer des données dans le sens vertical.

Par exemple, considérons le cas de la gestion des données chronologiques d'un capteur. (En abstraction, Google Analytics est comme un capteur, n'est-ce pas?)

Supposons que le capteur ① enregistre les données toutes les secondes et que le capteur ② enregistre les données toutes les 10 secondes. Lors de l'agrégation et de l'intégration de ces données, les données du capteur ① doivent être moyennées toutes les 10 secondes ou la valeur représentative doit être extraite et combinée.

L'exécution de ces processus dans Excel est un problème, et lorsque le nombre de données est de centaines de milliers ou de millions de lignes, le calcul devient lent dans Excel.

Bien que, Par exemple, lorsqu'il s'agit d'indicateurs de gestion, Excel suffira. Au mieux, nous ne discutons qu'en regardant les résultats agrégés pour chaque semaine ou mois. Par conséquent, les sociétés de conseil et les cabinets comptables reconnaissent toujours que l'utilisation d'Excel en tant que compétence importante est l'une des compétences importantes.

Langage de programmation (Python)

Ici, nous prendrons Python comme langage de programmation. Il n'est pas exagéré de dire que Python a dominé le monde en tant que langage de programmation pour l'analyse de données ces dernières années, et qu'il dispose d'abondantes bibliothèques pour l'analyse de données, et l'outil interactif Jupyter Notebook, qui sera décrit plus tard, est populaire.

Jupyter Notebook labpreview.png (Depuis Site officiel)

Jupyter Notebook est un outil d'exécution de script interactif open source. En plus de Python, des langages de programmation tels que Ruby et R peuvent également être exécutés.

Vous pouvez visualiser les résultats de chaque processus de traitement. Vous pouvez également rédiger des explications au format Markdown, ce qui fonctionne bien comme un rapport à montrer aux autres.

La bibliothèque la plus connue pour créer des graphiques en Python est matplotlib. Il est possible de créer un graphique à la mode comme l'image prise sur le site officiel ci-dessus.

Les livres suivants seront utiles pour l'analyse et la visualisation des données à l'aide de Python.

Limites de Python

Bien sûr, maîtriser Python pour l'analyse des données n'est pas facile. Pour les débutants en programmation, les coûts d'apprentissage sont élevés.

Donc, dans le sens où les non-ingénieurs ne peuvent pas analyser les données, ce n'est pas vraiment démocratisé.

Outils BI

Par conséquent, les outils BI sont devenus populaires en tant qu'outils d'analyse de données ces dernières années. Vous avez probablement entendu le nom de l'outil Tableau.

Ces dernières années, j'ai entendu dire que les sociétés de conseil utilisent de plus en plus Tableau pour l'analyse.

Lorsque je travaillais pour une société de conseil, il y avait une atmosphère dans laquelle Tableau était maintenant, plus jeune et plus tendance qu'Excel. server_dashboard_overview_3x3.png

(Depuis Site Web officiel de Tableau)

Il convient aux membres de l'équipe de procéder à l'analyse tout en créant des graphiques. En termes d'utilisation, les outils de tableau de bord décrits ci-dessous visent à automatiser l'analyse, tandis que les outils BI sont utilisés pour une analyse de données plus exploratoire.

Ce que les outils de BI ne peuvent pas faire

Les outils de BI sont excellents et très précieux car ils aident à démocratiser vos données.

Cependant, bien que les outils de BI puissent gérer des données intégrées, le travail d'intégration lui-même n'est pas bon (peut être effectué). Avant d'utiliser les outils BI, vous devez écrire vos propres requêtes SQL pour l'agrégation et l'intégration des données.

Donc, en fin de compte, pour une analyse significative, vous avez besoin d'une équipe de prétraitement des données qui intègre les données et facilite la lecture des outils de BI.

Outil de tableau de bord

Contrairement à l'analyse ad hoc, les outils de tableau de bord sont utilisés dans le but d'interroger périodiquement pour créer des rapports et afficher des graphiques.

Certains des plus connus sont Redash.

https___qiita-image-store.s3.amazonaws.com_0_112537_63ce8ef8-422d-bd17-5e35-f6e6e8520726.jpeg

Jusqu'à ce que vous configuriez le redash basé sur docker sur AWS EC2 à partir de zéro et que vous le démarriez

Les outils de tableau de bord se concentrent sur l'automatisation de l'analyse des données afin qu'elles puissent être revues régulièrement.

Cependant, il existe de nombreux outils de tableau de bord qui ne prennent pas en charge la création de tableaux de bord interactifs tels que les outils BI. Jusqu'au dernier, il est optimisé pour visualiser régulièrement les dernières informations.

Limitations des outils de tableau de bord

Pour utiliser le tableau de bord, vous devez exécuter un langage de programmation ou SQL. (Bien sûr, un prétraitement est également nécessaire séparément.)

En fait, les outils de visualisation qui prétendent être capables de faire des choses avancées sont, en fait, «vous pouvez écrire et exécuter du code Python en interne».

L'histoire de l'équipe de science des données et de l'écosystème analytique de Mercari D'après cet article

Chez Mercari, de nombreuses personnes peuvent écrire du SQL même pour des emplois non analystes et effectuer elles-mêmes des analyses simples. Récemment, il y a des rumeurs selon lesquelles même le service financier, le service comptable, le service juridique et les concepteurs étudient. (C'est un fait)

Et cela. Tout le monde étudie dur car il doit exécuter SQL pour l'analyser.

Dans une entreprise normale, le problème est de savoir qui écrit le SQL.

Pour les entreprises qui ont un flux d'amélioration des affaires fixe et qui ont des indicateurs constants à suivre, c'est une bonne idée de dépenser un montant raisonnable pour préparer une plateforme d'analyse de données et introduire des outils de tableau de bord.

Cependant, généralement, les indicateurs et les données que vous souhaitez voir changent rapidement, vous devez donc changer le SQL.

Résumé

Pour les entreprises qui disposent d'une infrastructure d'analyse de données bien établie et peuvent se permettre d'agréger et d'intégrer correctement les données, il est conseillé d'introduire des outils de BI et des outils de visualisation. Si des membres autres que des ingénieurs souhaitent également analyser des données et les utiliser dans les discussions quotidiennes, il n'y a pas d'autre choix que d'introduire des outils de BI et des outils de visualisation.

Cependant, si vous n'avez pas décidé du KPI que vous souhaitez voir, ou si vous n'avez pas décidé de ce qu'il faut considérer, c'est une bonne idée d'utiliser les outils de BI pour en discuter avec tout le monde.

Pour les entreprises où le flux de prise en compte de l'analyse des données a déjà été standardisé, il serait préférable d'utiliser des outils de visualisation pour automatiser l'analyse.

Si l'infrastructure d'analyse des données n'est pas encore en place et que vous souhaitez simplement stocker les données pour le moment, utilisez un langage de programmation pour l'analyse ad hoc. Une analyse ad hoc appropriée révélera ici quels KPI sont importants pour l'entreprise et ce que vous souhaitez envisager d'utiliser les données. C'est une procédure très importante.

Même si vous automatisez soudainement l'analyse, l'analyse peut éventuellement devenir obsolète. Il faut du temps et de l'argent pour mettre en place une plateforme d'analyse de données, il n'est donc certainement pas bon de commencer à construire une plateforme d'analyse sans réfléchir profondément.

finalement

J'ai écrit cet article comme l'article du 24ème jour du Calendrier de l'Avent d'un groupe d'étude appelé StudyCo que je fais avec mes amis depuis de nombreuses années. Je suis.

Je vous serais reconnaissant de bien vouloir vous référer aux autres articles que j'ai écrits jusqu'à présent!

J'espère que ce sera un cadeau de Noël pour tous ceux qui vont désormais travailler sur l'analyse des données!

La nuit sainte est aussi une nuit discutée avec des données! Joyeux Noël!

référence

Recommended Posts

Comment utiliser les outils d'analyse de données pour les débutants
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Comment utiliser "deque" pour les données Python
[Pour les débutants] Comment utiliser la commande say avec python!
[Pour les débutants] Comment utiliser l'instruction for sous Linux (variables, etc.)
Comment mettre en œuvre 100 coups de science des données pour les débutants en science des données (pour Windows 10 Home)
[Python] Organisation de l'utilisation des instructions
Comment utiliser l'authentification par empreinte digitale pour KDE
Comment utiliser xml.etree.ElementTree
Comment utiliser virtualenv
Comment utiliser MkDocs pour la première fois
Comment utiliser Seaboan
Comment créer un plug-in Spigot (pour les débutants Java)
Comment utiliser la correspondance d'image
Comment utiliser le shogun
Comment utiliser Pandas 2
Comment utiliser Virtualenv
Comment utiliser numpy.vectorize
Comment utiliser Template Engine pour Network Engineer
Comment utiliser pytest_report_header
Comment utiliser partiel
Comment utiliser SymPy
Comment utiliser x-means
Comment utiliser WikiExtractor.py
Comment utiliser IPython
Comment utiliser virtualenv
Comment utiliser Matplotlib
Comment utiliser iptables
Comment utiliser numpy
Comment utiliser TokyoTechFes2015
Comment utiliser venv
Comment utiliser le dictionnaire {}
Comment utiliser Pyenv
Comment utiliser la liste []
Comment utiliser python-kabusapi
Comment utiliser OptParse
Comment utiliser le retour
Comment rendre le Python des débutants plus rapide [numpy]
[Pour les débutants] Comment étudier la programmation Mémo privé
Comment utiliser pyenv-virtualenv
Comment utiliser imutils
[BigQuery] Comment utiliser l'API de BigQuery pour Python -Création de table-
Comment convertir le type Python # pour les super débutants de Python: str
Débutants! Commandes et utilisation de base de Linux!
Arrêtez de penser à une utilisation dans les concours d'analyse de données
Python # Comment vérifier le type et le type pour les super débutants
Comment utiliser la recherche triée
[gensim] Comment utiliser Doc2Vec
Comprendre comment utiliser django-filter
Python pour l'analyse des données Chapitre 4
Comment utiliser le générateur
[Python] Comment utiliser la liste 1
Comment utiliser FastAPI ③ OpenAPI
Comment utiliser Python Argparse
Comment utiliser IPython Notebook
Comment utiliser Pandas Rolling