http://connpass.com/event/34680/
Wie üblich habe ich mitten in der Sitzung teilgenommen, also habe ich das & macbook vergessen und ab der Mitte der ersten Ankündigung Notizen auf meinem iPhone gemacht, sodass ich der Meinung bin, dass Japanisch unpraktisch ist.
Herr Yasuaki Ariga (@chezou) von Cloudera
http://www.slideshare.net/Cloudera_jp/ibis-pandas-summerds
Demo mit Jupyter Notebook
Scikit-learn wird nach dem Erstellen von Lehrerdaten veröffentlicht
spark-sklearn
pip install ibis-framework Kann mit installiert werden
Wenn Sie Impala verwenden möchten, sollten Sie Clouderas Direktor verwenden.
Herr Haruka Naito, Cyber Agent
Die folgenden drei Arten von Empfehlungssystemen werden in Ameba verwendet
Item to Item collaborative filtering
Basierend auf der Bewertung von Benutzern, die nahe beieinander liegen
Basierend auf der Benutzerbewertung basierend auf dem Abstand zwischen Elementen Die Genauigkeit kann auch dann erreicht werden, wenn der Artikel weniger bewertet wird
Teilen Sie die Anzahl der gleichzeitigen Vorkommen (Anzahl der doppelten Benutzer) durch die Summe der Quadratwurzeln der Elemente
Ordnen Sie jedem Mitarbeiter eine Broadcast-Variable zu. Dadurch sind keine komplizierten Verknüpfungen mehr erforderlich
Erstellen Sie im Voraus einen Objektsatz (Filter) und filtern Sie die Ergebnisse
Herr Nagato Kasaki, DMM.com Lab
Operationsgeschichte nach dem Erstellen
Funkenauslastung ab Februar 2015.
13 bis 168 Fälle mit 3 Ingenieuren Ich konnte damit umgehen, weil es automatisiert war
Ressourcen sind ungefähr 1,5 mal 230 CPUs / 580 GB bis 360 CPUs / 900 GB
Zeit von 3h bis 4h
Da es viele Dienste gibt, ist es einfach, neue Dienste zu verwenden.
Da das Verhältnis der Anzahl der Benutzer und der Anzahl der Elemente je nach Dienst stark variiert, ist auch eine individuelle Abstimmung erforderlich.
Der Skalensinn beträgt 1 Million Benutzer oder 4 Millionen Produkte
Wir haben eine Artikelmatrix für alle Dienstleistungen → Empfehlungen zwischen Diensten sind ebenfalls möglich
Zwei Arten von Algorithmen werden ordnungsgemäß verwendet
Das Rezept definiert die Parametereinstellungen für Hive, Spark und Sqoop in JSON.
Präzisionsabstimmung wird tatsächlich eingegeben und A / B getestet (es gibt akademische Bewertungsformeln, aber es gibt einige Dinge, die nicht verstanden werden können, ohne es zu versuchen). Die Leistung ist leicht zu verstehen und problematisch. Stellen Sie sie daher im Voraus ein
Die Datenaufteilung schlägt manchmal aufgrund des Gesetzes von 20:80 fehl (in vielen Fällen ist sie voreingenommen, selbst wenn sie geteilt wird). Wenn Sie es gut teilen können, wird es von 3 Stunden auf 3 Minuten verkürzt
(Bearbeitung unten)
LT Rahmen
Funkenanfänger waren süchtig nach Empfehlungen
Festplattenentleerung beim Senden alle 15 Minuten Glas wird kopiert Senden, während der Cluster neu erstellt wird
Kleine Anzahl von Partitionen beim Laden aus BigQuery Executor kann nicht aufgebraucht werden Die Neupartitionierung ist wichtig
Nicht empfohlen Es gibt zu viele Benutzer, um direkte Produkte zu erhalten Zusammen in einem Benutzersatz verarbeitet
Empfehlung Optimierung der Motorleistung mit Spark
dag visualisation Mal sehen
Wenn nicht verteilt, verteilen Mischen Sie nicht mit einer großen Datenmenge
Mehrfach verwendetes Rdd wird zwischengespeichert
Option, bei CPU-Engpass nicht zu serialisieren
KryoSerializer ist doppelt so schnell
Recommended Posts