[PYTHON] Ich habe am PyData Tokyo Meetup # 2 teilgenommen
Ich habe an PyData Tokyo Meetup # 2 - Neue Datenanalyse-Infrastruktur teilgenommen!
Das Folgende ist ein Memo, das ich beim Hören zusammengefasst habe, daher ist es nicht besonders organisiert.
- Informationen zu PyData Tokyo selbst finden Sie auf der folgenden Seite.
http://pydatatokyo.connpass.com/
Inhalt
Einführung und Verwendung von Amazon Kinesis
Amazon Kinesis ist ein vollständig verwalteter Dienst, der kontinuierliche Daten mit hohem Datenvolumen in Echtzeit verarbeiten kann.
- Anwendungsfall
- Echtzeit-Statuserfassung von Diensten und Systemen
--Abnormalitätserkennung (z. B. Erkennung nicht autorisierten Zugriffs)
- Verbesserung des Dienstes (z. B. Echtzeitdienst unter Verwendung sozialer Daten, Empfehlung basierend auf den jüngsten Maßnahmen)
- Verfassung
--Erstelle einen Stream, der aus einem oder mehreren Shards besteht
- Hard hat eine Kapazität von 1 MB / s, 1000 TPS auf der Dateneingabeseite und 2 MB / s, 5 TPS auf der Datenverarbeitungsseite.
--Daten können mit der PutRecord API eingegeben werden (** Python ** kann natürlich verwendet werden (boto))
- Da es basierend auf dem Partitionsschlüssel an Shard verteilt wird, ist das Design des Partitionsschlüssels für Sharding wichtig.
--Kinesis weist dem Stream eine eindeutige Sequenznummer zu, sodass Sie mit der Sequenznummer so oft Daten abrufen können, wie Sie möchten (innerhalb von 24 Stunden → können Sie die Zeit möglicherweise in Zukunft flexibler einstellen).
- GetShardIteator-API zum Abrufen von Daten in Shard und GetRecords-API zum Eingeben von Daten
Die Kinesis Client Library (KCL) unterstützt jetzt ** Python **
- Kinesis Client Library for Python
- Mit KCL für Java'MultiLangDeamon'as residenten Prozess können Sie die Hauptlogik der Datenverarbeitung in Python schreiben.
--Datenverarbeitung wird als Unterprozess gestartet
--Die Datenkommunikation zwischen 'MultiLangDaemon' und Unterprozessen erfolgt über STDIN / STDOUT mit dem definierten Protokoll.
Die Geschichte von AWS + Jubatus war persönlich interessant.
Bei AWS re: Invent wurde nicht viel über maschinelles Lernen gesprochen, daher hat dieses Gespräch meine Erwartungen erheblich geweckt.
Highlights von PyData NYC
Dies ist eine Geschichte, die ich zu PyData NYC 2014 gegangen bin.
――Wie man mit Big Data mit Python umgeht
»Es scheint, dass PySpark sehr heiß war
- Separate Daten und Operationen
- Einheitliche Schnittstelle zur DB
--Geben Sie die von Mongo übernommenen Daten in Spark ein
- Advanced Scikit-Learn: Ein ziemlich umfangreiches Tutorial
- Beaker Notebook: Notebook, das gleichzeitig verschiedene Sprachen verwenden kann (wird lokal ausgeführt)
--Python → Sie können Variablen mit JavaScript übergeben
Die Geschichte von SymPy war sehr interessant. Gibt es eine Nachfrage nach Python → Fortran?
Eigentlich habe ich es noch nicht benutzt, aber Caffe scheint sehr interessant zu sein. Lass es uns benutzen.
Impressionen
Ich habe zum ersten Mal teilgenommen, aber PyData hat mir sehr gut gefallen, also hat es Spaß gemacht \ (^ o ^) /
Es gibt viele Geschichten, die ich in meiner Arbeit verwenden kann, also werde ich verschiedene Dinge ausprobieren.
Und PyData NYC, ich möchte eines Tages gehen.
Ich möchte auch an den nächsten und nachfolgenden Veranstaltungen teilnehmen mm Danke!
Jetzt, wo es ein geselliges Beisammensein ist, können Sie trinken!