Résumé des outils nécessaires pour analyser les données en Python

À propos de cet article

Voici une configuration pour vous aider à analyser vos données en Python.

Si vous êtes intéressé par l'analyse des données, veuillez également vérifier ici Si vous êtes intéressé par les data scientists, regardez d'abord ici, un résumé de la littérature et des vidéos (ajoutées si nécessaire) --Qiita

Environnement d'exécution

Jupyter (anciennement iPython Notebook)

http://jupyter.org/ Environnement pour l'exécution de code interactif Il est très approprié pour l'analyse de données, et une fois que vous vous y serez habitué, vous ne pourrez plus l'analyser avec d'autres IDE.

En plus de pouvoir exécuter chaque bloc de code qui est divisé arbitrairement et d'afficher le résultat à chaque fois, ・ Affichage en ligne du graphique ・ Description de la formule (Latex) ・ Description du texte de la méthode de démarquage

Il est très adapté aux travaux d'analyse tout en explorant, partageant et stockant les résultats, etc. Il est également largement utilisé dans l'industrie de l'art scientifique car il peut être écrit dans un format semblable à du papier en dessinant des phrases et des graphiques avec iPython.

image

Il existe également un produit appelé jupyterhub destiné à plusieurs personnes. https://github.com/jupyter/jupyterhub

Autres options

Google Cloud Datalab https://cloud.google.com/datalab/?hl=ja Interface d'exploration de données Google Cloud basée sur Jupyter Référence: intégration BigQuery pour les utilisateurs Python --Qiita

beaker notebook http://beakernotebook.com/

Apache Zeppelin https://zeppelin.incubator.apache.org/

Bibliothèque

Calcul numérique, manipulation de données

Numpy http://www.numpy.org/ Comparé à la liste intégrée de Python, il peut être utilisé pour des opérations entre des tableaux et des tableaux multidimensionnels (calcul matriciel). Une bibliothèque qui fournit de bons objets Une collection de tableaux Numpy devient l'objet de trame de données Pandas présenté ci-dessous.

En savoir plus sur l'utilisation de Numpy et Pandas dans ce livre

Introduction à l'analyse de données avec Python-Traitement des données avec NumPy et pandas http://www.oreilly.co.jp/books/9784873116556/

Pandas http://pandas.pydata.org/ Une bibliothèque pour gérer des données sous forme de type RDB (trame de données) en Python Il est devenu la norme pour l'analyse des données, y compris Sciki learn et Matplotlib. La coordination avec les objets Pandas est fluide

image

Article de commentaire

Un résumé rudimentaire de la manipulation des données dans Python Pandas http://qiita.com/hik0107/items/d991cc44c2d1778bb82e

Scipy http://docs.scipy.org/doc/scipy/reference/ Bibliothèque de calculs scientifiques et techniques Comprend diverses techniques telles que des fonctions spéciales, l'optimisation, le traitement statistique (assez nombreux)

Exemple de scipy.optimize pour l'approximation de fonction (article de qiita)

Modélisation de fonctions non linéaires en Python http://qiita.com/hik0107/items/9bdc236600635a0e61e8

Liaison de données

csv http://docs.python.jp/2/library/csv.html#module-csv Une bibliothèque pratique pour le chargement, le traitement et l'exploitation de csv Fournir un lecteur ou un rédacteur pour les fichiers csv

connexion db

Il existe des bibliothèques pour se connecter à diverses bases de données telles que MySQL, PostgreSQL, BigQuery et SQLite.

MySQL : MySQL-Connector-Python https://pypi.python.org/pypi/mysql-connector-python/

PostgreSQL : Pycopg2 http://initd.org/psycopg/download/

BigQuery : BigQuery-Python https://github.com/tylertreat/BigQuery-Python

Ou voyez ici comment utiliser les pandas http://qiita.com/hik0107/items/3944ccea04371331c3b4

SQLite: SQLite3 (l'installation n'est pas requise car elle est intégrée) http://docs.python.jp/2/library/sqlite3.html

Analyse simple

pivottablejs https://pypi.python.org/pypi/pivottablejs Une bibliothèque qui accepte les objets Pandas et permet des opérations telles que les tableaux croisés dynamiques Excel Utile lorsque vous souhaitez effectuer une agrégation simple et vérifier les données

image

collections (fonctions intégrées)

http://docs.python.jp/2/library/collections.html Un module qui contient des fonctions telles que "Counter" qui peuvent être utilisées comme Count Distinct et "named tuple" qui peuvent concevoir des objets simplifiés de trames de données 

Modélisation (apprentissage automatique)

scikitlearn http://scikit-learn.org/ Package d'apprentissage automatique contenant des modèles de classification et de prédiction C'est aussi presque la position de facto dans l'analyse de données en Python.

image

Dessin graphique

matplotlib (+ seaborn) http://matplotlib.org/ http://stanford.edu/~mwaskom/software/seaborn/ matplotlib est en fait l'outil de facto pour la visualisation de données Python. seaborn est un wrapper comme celui-là, ce qui facilite la création de beaux graphiques.

Il existe différents graphiques ainsi que des graphiques linéaires, des graphiques à barres, des histogrammes, des diagrammes de dispersion, etc.

Article Qiita

Un beau dessin graphique avec python -seaborn facilite l'analyse et la visualisation des données http://qiita.com/hik0107/items/3dc541158fceb3156ee0

image

Autres options

Tous sont des outils graphiques haute performance Si vous n'aimez pas matplotlib, n'en êtes pas satisfait ou si vous êtes un ancien utilisateur de R, veuillez le vérifier.

・ Bokeh http://bokeh.pydata.org/en/latest/ ・ Ggplot (version Python de la bibliothèque ggplogt2 de R) http://ggplot.yhathq.com/ ・ Plotly https://plot.ly/

Autre

Calcul accéléré: Cython

http://cython.org/ Compilez du code Python en code C pour une exécution rapide Utile lorsque la quantité de calcul est importante et que la vitesse devient un goulot d'étranglement

Calcul des symboles: sympy

http://www.sympy.org/en/index.html

Manipulation et calcul des dates: datetime

http://docs.python.jp/2/library/datetime.html

Cet article aussi

Il est temps de réfléchir sérieusement à la définition et à l'ensemble des compétences des data scientists http://qiita.com/hik0107/items/f9bf14a7575d5c885a16

Recommended Posts

Résumé des outils nécessaires pour analyser les données en Python
Résumé de la façon d'importer des fichiers dans Python 3
Résumé de l'utilisation de MNIST avec Python
Analyse des données en Python Résumé des sources que les débutants devraient d'abord consulter
Résumé de base des opérations de données dans Python Pandas - Deuxième moitié: agrégation de données
[Python] Résumé de l'utilisation des pandas
Résumé de diverses instructions for en Python
[Python2.7] Résumé de l'utilisation d'unittest
Résumé des méthodes intégrées, etc. de la liste Python
Résumé de l'utilisation de la liste Python
[Python2.7] Résumé de l'utilisation du sous-processus
[Introduction au Data Scientist] Bases de Python ♬
Comment envoyer une image visualisée des données créées en Python à Typetalk
Résumé des outils et bibliothèques OSS créés en 2016
Visualisation en temps réel des données thermographiques AMG8833 en Python
Résumé des outils utilisés dans la ligne de commande vol.8
Résumé des outils utilisés dans la ligne de commande vol.5
L'histoire de la lecture des données HSPICE en Python
Résumé de l'étude de Python pour utiliser AWS Lambda
Environnement enregistré pour l'analyse des données avec Python
Résumé des opérations Excel utilisant OpenPyXL en Python
Résumé des arguments Python
Résumé de la lecture des données numériques avec python [CSV, NetCDF, Fortran binary]
Organiser les outils Python pour accélérer le mouvement initial des compétitions d'analyse de données
Traitement pleine largeur et demi-largeur des données CSV en Python
Comment obtenir le nombre de chiffres en Python
Récapitulatif des outils d'exploitation de l'interface graphique Windows avec Python
Récapitulatif des méthodes Pandas utilisées lors de l'extraction de données [Python]
Ne pas être conscient du contenu des données en python
Liste du code Python utilisé dans l'analyse de Big Data
Utilisons les données ouvertes de "Mamebus" en Python
[Python] Résumé de la façon de spécifier la couleur de la figure
Pour faire l'équivalent de Ruby ObjectSpace._id2ref en Python
Récapitulatif du traitement de la date en Python (datetime et dateutil)
Résumé des méthodes d'analyse de données statistiques utilisant Python qui peuvent être utilisées en entreprise
[Introduction à Python] Résumé des fonctions et méthodes qui apparaissent fréquemment en Python [Format du problème]
Pour vider stdout en Python
résumé lié à l'opération de fichier python
Résumé des opérations de liste Python3
Nouveautés de Python 3.10 (Résumé)
Afficher les données UTM-30LX en Python
Connectez-vous au site Web en Python
Jugement d'équivalence d'objet en Python
Mémo récapitulatif des types de données Python
Parler avec Python [synthèse vocale]
Résumé de la détection de visage en Python
Comment développer en Python
Implémentation du tri rapide en Python
Nouveautés de Python 3.9 (Résumé)
Publier sur Slack en Python
Essayez de gratter les données COVID-19 Tokyo avec Python
Je veux pouvoir analyser des données avec Python (partie 3)
Autoriser l'installation des outils de ligne de commande en Python
[python] Résumé de la récupération des listes et des éléments du dictionnaire
Je veux pouvoir analyser des données avec Python (partie 1)
traitement python3 qui semble utilisable dans paiza
[Mis à jour de temps en temps] Résumé des modèles de conception en Java
[Pour les débutants] Résumé de l'entrée standard en Python (avec explication)