[PYTHON] J'ai participé au PyData Tokyo Meetup # 2
J'ai participé au PyData Tokyo Meetup # 2-New Data Analysis Infrastructure!
Ce qui suit est un mémo que j'ai résumé en écoutant, donc il n'est pas particulièrement organisé.
- Pour PyData Tokyo lui-même, veuillez vous référer à la page suivante.
http://pydatatokyo.connpass.com/
Contenu
Introduction et utilisation d'Amazon Kinesis
Amazon Kinesis est un service entièrement géré qui peut traiter des données continues à volume élevé en temps réel.
- Cas d'utilisation
--Capture de l'état des services et des systèmes en temps réel
--Détection d'anomalies (par exemple, détection d'accès non autorisé)
- Amélioration du service (par exemple, service en temps réel utilisant des données sociales, recommandation basée sur des actions récentes)
- Constitution
--Créer un flux, qui se compose d'un ou plusieurs fragments
--Shard a une capacité de 1 Mo / s, 1000 TPS du côté de l'entrée de données et 2 Mo / s, 5 TPS du côté du traitement des données.
- Les données peuvent être saisies avec l'API PutRecord (** Python ** peut bien sûr être utilisé (boto))
- Comme il est distribué à Shard en fonction de la clé de partition, la conception de la clé de partition est importante pour le partage.
--Kinesis attribue un numéro de séquence unique dans le flux, afin que vous puissiez obtenir des données autant de fois que vous le souhaitez avec le numéro de séquence (dans les 24 heures → vous pourrez peut-être régler l'heure de manière plus flexible à l'avenir)
--GetShardIteator API pour obtenir des données dans Shard et GetRecords API pour entrer des données
La bibliothèque cliente Kinesis (KCL) prend désormais en charge ** Python **
- Kinesis Client Library for Python
- En utilisant KCL pour Java'MultiLangDeamon'en tant que processus résident, vous pouvez écrire la logique principale du traitement des données en Python.
- Le traitement des données est lancé en tant que sous-processus
- La communication de données entre "MultiLangDaemon" et les sous-processus se fait en utilisant STDIN / STDOUT avec le protocole défini.
L'histoire d'AWS + Jubatus était personnellement intéressante.
Chez AWS re: Invent, il n'y avait pas beaucoup de discussions sur l'apprentissage automatique, ce discours a donc considérablement augmenté mes attentes.
Faits saillants de PyData NYC
C'est une histoire que je suis allée à PyData NYC 2014.
――Comment gérez-vous le Big Data en utilisant Python?
――Il semble que PySpark était très chaud
- Données et opérations séparées
- Interface unifiée avec DB
--Mettez les données extraites de Mongo dans Spark
- Advanced Scikit-Learn: un tutoriel assez épais
- Beaker Notebook: Notebook qui peut utiliser plusieurs langues en même temps (s'exécute localement)
--Python → Vous pouvez passer des variables avec JavaScript
L'histoire de SymPy était assez intéressante. Existe-t-il une demande pour Python → Fortran?
En fait, je ne l'ai pas encore utilisé, mais Caffe semble être très intéressant. Utilisons-le.
Impressions
C'était la première fois que je participais, mais j'ai vraiment aimé PyData, donc c'était amusant \ (^ o ^) /
Il y a beaucoup d'histoires que je peux utiliser dans mon travail, je vais donc essayer différentes choses.
Et PyData NYC, je veux y aller un jour.
J'aimerais aussi participer aux événements suivants et suivants mm Merci!
Maintenant que c'est un rassemblement social, vous pouvez boire!