Voici une configuration pour vous aider à analyser vos données en Python.
Si vous êtes intéressé par l'analyse des données, veuillez également vérifier ici Si vous êtes intéressé par les data scientists, regardez d'abord ici, un résumé de la littérature et des vidéos (ajoutées si nécessaire) --Qiita
http://jupyter.org/ Environnement pour l'exécution de code interactif Il est très approprié pour l'analyse de données, et une fois que vous vous y serez habitué, vous ne pourrez plus l'analyser avec d'autres IDE.
En plus de pouvoir exécuter chaque bloc de code qui est divisé arbitrairement et d'afficher le résultat à chaque fois, ・ Affichage en ligne du graphique ・ Description de la formule (Latex) ・ Description du texte de la méthode de démarquage
Il est très adapté aux travaux d'analyse tout en explorant, partageant et stockant les résultats, etc. Il est également largement utilisé dans l'industrie de l'art scientifique car il peut être écrit dans un format semblable à du papier en dessinant des phrases et des graphiques avec iPython.
Il existe également un produit appelé jupyterhub destiné à plusieurs personnes. https://github.com/jupyter/jupyterhub
Google Cloud Datalab https://cloud.google.com/datalab/?hl=ja Interface d'exploration de données Google Cloud basée sur Jupyter Référence: intégration BigQuery pour les utilisateurs Python --Qiita
beaker notebook http://beakernotebook.com/
Apache Zeppelin https://zeppelin.incubator.apache.org/
Numpy http://www.numpy.org/ Comparé à la liste intégrée de Python, il peut être utilisé pour des opérations entre des tableaux et des tableaux multidimensionnels (calcul matriciel). Une bibliothèque qui fournit de bons objets Une collection de tableaux Numpy devient l'objet de trame de données Pandas présenté ci-dessous.
En savoir plus sur l'utilisation de Numpy et Pandas dans ce livre
Introduction à l'analyse de données avec Python-Traitement des données avec NumPy et pandas http://www.oreilly.co.jp/books/9784873116556/
Pandas http://pandas.pydata.org/ Une bibliothèque pour gérer des données sous forme de type RDB (trame de données) en Python Il est devenu la norme pour l'analyse des données, y compris Sciki learn et Matplotlib. La coordination avec les objets Pandas est fluide
Article de commentaire
Un résumé rudimentaire de la manipulation des données dans Python Pandas http://qiita.com/hik0107/items/d991cc44c2d1778bb82e
Scipy http://docs.scipy.org/doc/scipy/reference/ Bibliothèque de calculs scientifiques et techniques Comprend diverses techniques telles que des fonctions spéciales, l'optimisation, le traitement statistique (assez nombreux)
Exemple de scipy.optimize pour l'approximation de fonction (article de qiita)
Modélisation de fonctions non linéaires en Python http://qiita.com/hik0107/items/9bdc236600635a0e61e8
csv http://docs.python.jp/2/library/csv.html#module-csv Une bibliothèque pratique pour le chargement, le traitement et l'exploitation de csv Fournir un lecteur ou un rédacteur pour les fichiers csv
Il existe des bibliothèques pour se connecter à diverses bases de données telles que MySQL, PostgreSQL, BigQuery et SQLite.
MySQL : MySQL-Connector-Python https://pypi.python.org/pypi/mysql-connector-python/
PostgreSQL : Pycopg2 http://initd.org/psycopg/download/
BigQuery : BigQuery-Python https://github.com/tylertreat/BigQuery-Python
Ou voyez ici comment utiliser les pandas http://qiita.com/hik0107/items/3944ccea04371331c3b4
SQLite: SQLite3 (l'installation n'est pas requise car elle est intégrée) http://docs.python.jp/2/library/sqlite3.html
pivottablejs https://pypi.python.org/pypi/pivottablejs Une bibliothèque qui accepte les objets Pandas et permet des opérations telles que les tableaux croisés dynamiques Excel Utile lorsque vous souhaitez effectuer une agrégation simple et vérifier les données
http://docs.python.jp/2/library/collections.html Un module qui contient des fonctions telles que "Counter" qui peuvent être utilisées comme Count Distinct et "named tuple" qui peuvent concevoir des objets simplifiés de trames de données
scikitlearn http://scikit-learn.org/ Package d'apprentissage automatique contenant des modèles de classification et de prédiction C'est aussi presque la position de facto dans l'analyse de données en Python.
matplotlib (+ seaborn) http://matplotlib.org/ http://stanford.edu/~mwaskom/software/seaborn/ matplotlib est en fait l'outil de facto pour la visualisation de données Python. seaborn est un wrapper comme celui-là, ce qui facilite la création de beaux graphiques.
Il existe différents graphiques ainsi que des graphiques linéaires, des graphiques à barres, des histogrammes, des diagrammes de dispersion, etc.
Article Qiita
Un beau dessin graphique avec python -seaborn facilite l'analyse et la visualisation des données http://qiita.com/hik0107/items/3dc541158fceb3156ee0
Tous sont des outils graphiques haute performance Si vous n'aimez pas matplotlib, n'en êtes pas satisfait ou si vous êtes un ancien utilisateur de R, veuillez le vérifier.
・ Bokeh http://bokeh.pydata.org/en/latest/ ・ Ggplot (version Python de la bibliothèque ggplogt2 de R) http://ggplot.yhathq.com/ ・ Plotly https://plot.ly/
http://cython.org/ Compilez du code Python en code C pour une exécution rapide Utile lorsque la quantité de calcul est importante et que la vitesse devient un goulot d'étranglement
http://www.sympy.org/en/index.html
http://docs.python.jp/2/library/datetime.html
Il est temps de réfléchir sérieusement à la définition et à l'ensemble des compétences des data scientists http://qiita.com/hik0107/items/f9bf14a7575d5c885a16