J'ai essayé la même analyse de données avec kaggle notebook (python) et PowerBI en même temps ①

Contexte

De multiples services sont fournis dans les rues comme outil d'analyse des données. Je travaille dans l'industrie manufacturière, mais j'entends principalement les deux méthodes suivantes d'analyse et de visualisation des données.

--Environnement ① Analyse des données à l'aide de Python + Numpy + Pandas + α --Environnement (2) Analyse de données à l'aide d'outils BI (outils de Business Intelligence)

En comparant et en examinant les différences entre ces deux outils, je l'ai en fait essayé sur la base de l'idée que «je devrais essayer la même analyse avec les deux outils».

Configuration du système

Environnement commun

Système d'exploitation PC utilisé: Microsoft Windows10 Pro 64 bits Navigateur utilisé: Microsoft Edge

Environnement ① "Analyse des données avec Python + Numpy + Pandas + α" Environnement d'exploitation

・ Environnement d'utilisation: kaggle notebook Puisqu'il s'agit d'un service cloud, la version ne peut pas être confirmée et ce sera à compter du 24 août 2020.

kaggle est un site Web communautaire et de compétition pour les analystes de données. Il y a aussi des concours avec des prix, et il semble que les ingénieurs se disputent l'exactitude de l'analyse des données. Les détails sont faciles à comprendre grâce au lien ci-dessous. Tutoriel Kaggle que je n'entends plus Partie 1 Qu'est-ce que Kaggle? Que signifie participer? Aussi, j'ai ouvert un compte en me référant au lien ci-dessous. Si vous avez un compte, vous pouvez utiliser gratuitement les services liés à l'analyse de données, y compris Kaggle Notebook. Édition de lancement de Kaggle pour les débutants! De l'ouverture d'un compte à la soumission de Titanic

Environnement ② "Analyse des données par l'outil BI" Environnement d'exploitation

-Environnement d'utilisation: Microsoft Power BI Desktop Ver 2.84.802.0 64 bits Vous pouvez obtenir PowerBI Desktop sur le Microsoft Store. La plupart des fonctions, y compris ce travail, peuvent être utilisées gratuitement. image.png

Ce que j'ai fait (résumé)

Le flux d'analyse des données a emprunté une partie du cours de science des données d'Udemy. Les cours suivants couvrent tout, des bases à la simple formation pratique, et sont recommandés pour ceux qui souhaitent apprendre systématiquement la science des données. [180 000 personnes dans le monde] Science des données Python pratique

Reprenant le programme ci-dessus dans udemy, j'effectuerai l'analyse suivante liée au célèbre «naufrage du Titanic» comme première étape de l'analyse des données par deux méthodes.

・ Quel genre de personnes étaient les passagers du Titanic? (Sexe, âge, etc.) ・ Relation causale entre les caractéristiques susmentionnées et leur relation complexe et leur taux de survie

Ce que j'ai fait (détails) * Python + Numpy + Pandas + α edition *

Dans cet article, nous décrirons les traitements communs aux deux outils et les résultats de l'opération avec l'outil "Python + numpy + pandas + α". Les résultats de "Analyse des données avec des outils BI" seront décrits dans l'article suivant.

  1. Obtenir des données localement (propre PC) Acquérir des données client au moment du naufrage du Titanic sous forme de données CSV auprès de kaggle.

image.png

Lorsque vous ouvrez les données client réelles dans Excel, cela ressemble à ceci. image.png

  1. Apportez des données locales dans l'environnement et affichez un résumé Seules les 5 premières données sont extraites pour donner une vue d'ensemble des données. image.png

    1. Vérifiez le ratio hommes / femmes image.png

Quatre. Vérifiez le ratio hommes / femmes pour chaque classe de chambre La classe d'item P indique le grade de la salle. Vous pouvez voir qu'il y a beaucoup d'hommes dans les chambres d'hôtes de troisième classe. image.png

Il est également possible d'inverser facilement l'axe. image.png

Cinq. Créez des éléments (Personne) tels que "homme", "femme" et "enfant (moins de 16 ans)" en utilisant les éléments d'âge (âge) et de sexe (sexe).

Commencez par créer une colonne Personne. image.png

Ensuite, vérifiez la répartition des personnes par grade. La chambre de première classe est chère? Il y a peu d'enfants. De plus, on constate que le ratio d'hommes adultes de sexe masculin est élevé dans les chambres de troisième classe. De plus, comme le taux d'enfants est élevé, je pense qu'il y avait beaucoup d'hommes célibataires et de familles dans les chambres de troisième classe. Je peux imaginer. image.png

Ce qui précède est un simple flux d'analyse. En fait, à partir de maintenant, ce sera un flux pour prendre une vue d'ensemble des caractéristiques ci-dessus et des caractéristiques environnantes et de la relation causale des survivants, mais seule la première étape est extraite et décrite.

Résumé (impression)

En faisant le travail ci-dessus, mon impression est

J'ai senti que l'avantage des notebooks basés sur python tels que kaggle est qu'il est possible de procéder à l'analyse tout en "saisissant" d'énormes quantités de données sur différents axes. (Bien sûr bien sûr ...)

Dans le prochain article, j'essaierai la même tâche avec l'outil Bi Microsoft PowerBI.

Recommended Posts

J'ai essayé la même analyse de données avec kaggle notebook (python) et PowerBI en même temps ②
J'ai essayé la même analyse de données avec kaggle notebook (python) et PowerBI en même temps ①
Tracez plusieurs cartes et données en même temps avec matplotlib de Python
Visualisez les données et saisissez la corrélation en même temps
J'ai essayé de publier automatiquement sur ChatWork au moment du déploiement avec Fabric et ChatWork Api
J'ai essayé l'analyse factorielle avec des données Titanic!
J'ai essayé l'analyse de données IRMf avec python (Introduction au décodage des informations cérébrales)
J'ai essayé d'obtenir et d'analyser les données statistiques de la nouvelle Corona avec Python: données de l'Université John's Hopkins
J'ai essayé de "lisser" l'image avec Python + OpenCV
J'ai essayé de "différencier" l'image avec Python + OpenCV
J'ai essayé de sauvegarder les données avec discorde
J'ai essayé d'analyser les principaux composants avec les données du Titanic!
J'ai essayé la différenciation jacobienne et partielle avec python
J'ai essayé d'obtenir des données CloudWatch avec Python
J'ai essayé la synthèse de fonctions et le curry avec python
J'ai essayé de "binariser" l'image avec Python + OpenCV
Je veux créer un lecteur de musique et enregistrer de la musique en même temps
Transformez plusieurs listes avec l'instruction for en même temps en Python
[Python] J'ai essayé le même calcul que la prédiction de LSTM à partir de zéro [Keras]
Analyse de données avec python 2
Analyse de données avec Python
J'ai essayé Python sur Mac pour la première fois.
J'ai essayé de toucher un fichier CSV avec Python
J'ai essayé de prédire le match de la J League (analyse des données)
[OpenCV / Python] J'ai essayé l'analyse d'image de cellules avec OpenCV
J'ai essayé de résoudre Soma Cube avec python
J'ai essayé python pour la première fois avec heroku
Cette fois, j'ai appris Python I et II à Progate.
J'ai essayé de résoudre le problème avec Python Vol.1
J'ai essayé de frapper l'API avec le client python d'echonest
[New Corona] Le prochain pic est-il en décembre? J'ai essayé l'analyse des tendances avec Python!
[Challenger à la recherche] Le chargement et l'augmentation des données les plus rapides (bloc-notes Kaggle) je pense
J'ai essayé différentes choses avec Python: le grattage (Beautiful Soup + Selenium + PhantomJS) et l'analyse morphologique
Je voulais juste extraire les données de la date et de l'heure souhaitées avec Django
J'ai essayé de comparer la vitesse de traitement avec dplyr de R et pandas de Python
J'ai essayé de prédire et de soumettre les survivants du Titanic avec Kaggle
J'ai essayé de trouver l'entropie de l'image avec python
J'ai essayé de gratter avec Python
J'ai essayé la "correction gamma" de l'image avec Python + OpenCV
J'ai essayé de simuler la propagation de l'infection avec Python
J'ai essayé de créer diverses "données factices" avec Python faker
J'ai essayé de résoudre le problème de F02 comment écrire en temps réel hors ligne avec Python
"Analyse des séries chronologiques de mesure des données économiques et financières" Résolution du problème de fin de chapitre avec Python
[Comprendre au plus court] Principes de base de Python pour l'analyse des données
Résolvez le livre en spirale (algorithme et structure de données) avec python!
J'ai essayé d'illustrer le temps et le temps du langage C
J'ai essayé de programmer le test du chi carré en Python et Java.
J'ai essayé d'afficher l'heure et la météo d'aujourd'hui w
J'ai aussi essayé d'imiter la fonction monade et la monade d'état avec le générateur en Python
[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
J'ai essayé d'énumérer les différences entre java et python
J'ai essayé gRPC avec Python
J'ai réussi le test d'analyse de données Python, j'ai donc résumé les points
J'ai essayé de gratter avec du python
J'ai essayé de créer une interface graphique à trois yeux côte à côte avec Python et Tkinter
Cette fois, j'ai appris python III et IV avec Prorate