De multiples services sont fournis dans les rues comme outil d'analyse des données. Je travaille dans l'industrie manufacturière, mais j'entends principalement les deux méthodes suivantes d'analyse et de visualisation des données.
--Environnement ① Analyse des données à l'aide de Python + Numpy + Pandas + α --Environnement (2) Analyse de données à l'aide d'outils BI (outils de Business Intelligence)
En comparant et en examinant les différences entre ces deux outils, je l'ai en fait essayé sur la base de l'idée que «je devrais essayer la même analyse avec les deux outils».
Système d'exploitation PC utilisé: Microsoft Windows10 Pro 64 bits Navigateur utilisé: Microsoft Edge
・ Environnement d'utilisation: kaggle notebook Puisqu'il s'agit d'un service cloud, la version ne peut pas être confirmée et ce sera à compter du 24 août 2020.
kaggle est un site Web communautaire et de compétition pour les analystes de données. Il y a aussi des concours avec des prix, et il semble que les ingénieurs se disputent l'exactitude de l'analyse des données. Les détails sont faciles à comprendre grâce au lien ci-dessous. Tutoriel Kaggle que je n'entends plus Partie 1 Qu'est-ce que Kaggle? Que signifie participer? Aussi, j'ai ouvert un compte en me référant au lien ci-dessous. Si vous avez un compte, vous pouvez utiliser gratuitement les services liés à l'analyse de données, y compris Kaggle Notebook. Édition de lancement de Kaggle pour les débutants! De l'ouverture d'un compte à la soumission de Titanic
-Environnement d'utilisation: Microsoft Power BI Desktop Ver 2.84.802.0 64 bits Vous pouvez obtenir PowerBI Desktop sur le Microsoft Store. La plupart des fonctions, y compris ce travail, peuvent être utilisées gratuitement.
Le flux d'analyse des données a emprunté une partie du cours de science des données d'Udemy. Les cours suivants couvrent tout, des bases à la simple formation pratique, et sont recommandés pour ceux qui souhaitent apprendre systématiquement la science des données. [180 000 personnes dans le monde] Science des données Python pratique
Reprenant le programme ci-dessus dans udemy, j'effectuerai l'analyse suivante liée au célèbre «naufrage du Titanic» comme première étape de l'analyse des données par deux méthodes.
・ Quel genre de personnes étaient les passagers du Titanic? (Sexe, âge, etc.) ・ Relation causale entre les caractéristiques susmentionnées et leur relation complexe et leur taux de survie
Dans cet article, nous décrirons les traitements communs aux deux outils et les résultats de l'opération avec l'outil "Python + numpy + pandas + α". Les résultats de "Analyse des données avec des outils BI" seront décrits dans l'article suivant.
Lorsque vous ouvrez les données client réelles dans Excel, cela ressemble à ceci.
Apportez des données locales dans l'environnement et affichez un résumé Seules les 5 premières données sont extraites pour donner une vue d'ensemble des données.
Quatre. Vérifiez le ratio hommes / femmes pour chaque classe de chambre La classe d'item P indique le grade de la salle. Vous pouvez voir qu'il y a beaucoup d'hommes dans les chambres d'hôtes de troisième classe.
Il est également possible d'inverser facilement l'axe.
Cinq. Créez des éléments (Personne) tels que "homme", "femme" et "enfant (moins de 16 ans)" en utilisant les éléments d'âge (âge) et de sexe (sexe).
Commencez par créer une colonne Personne.
Ensuite, vérifiez la répartition des personnes par grade. La chambre de première classe est chère? Il y a peu d'enfants. De plus, on constate que le ratio d'hommes adultes de sexe masculin est élevé dans les chambres de troisième classe. De plus, comme le taux d'enfants est élevé, je pense qu'il y avait beaucoup d'hommes célibataires et de familles dans les chambres de troisième classe. Je peux imaginer.
Ce qui précède est un simple flux d'analyse. En fait, à partir de maintenant, ce sera un flux pour prendre une vue d'ensemble des caractéristiques ci-dessus et des caractéristiques environnantes et de la relation causale des survivants, mais seule la première étape est extraite et décrite.
En faisant le travail ci-dessus, mon impression est
J'ai senti que l'avantage des notebooks basés sur python tels que kaggle est qu'il est possible de procéder à l'analyse tout en "saisissant" d'énormes quantités de données sur différents axes. (Bien sûr bien sûr ...)
Dans le prochain article, j'essaierai la même tâche avec l'outil Bi Microsoft PowerBI.
Recommended Posts