Wir sind eine Gruppe von Freiwilligen, die sich zum Ziel gesetzt haben, mit der ** eingebetteten SW-Optimierungstechnologie ** als Kernkompetenz zu beginnen, um die HW-Leistung der ** Multi-Core-CPU ** und ** SIMD-Architektur ** herauszustellen.
Ich frage mich, wie viel Deep Learning mit ** nur CPU ** von Raspberry Pi 3/4 beschleunigt werden kann.
Früher haben wir Frameworks wie Chainer und Darknet ins Visier genommen, jetzt versuchen wir, die ONNX-Laufzeit zu beschleunigen.
Die Ergebnisse zu diesem Zeitpunkt sind wie folgt.
@onnxruntime on RPi4(CPU Only)
— Project-RAIZIN (@ProjectRaizin) September 8, 2020
MobileNetV3(Image clasification)
MobileNetV2-SSDLite(Image detection)
Original vs. Accelerated#RaspberryPi #Python #DeepLearninghttps://t.co/wvBLn9Tfes
Ursprünglich bewerben Microsoft und Facebook das Projekt, daher ist es schwierig, es mehrmals zu beschleunigen, aber ich habe es geschafft, die Leistung durch Optimierung von im2col, gemm, Aktivierungsfunktion usw. zu verdoppeln.
Darüber hinaus haben wir Demo-Videos verschiedener Modelle veröffentlicht. Youtube-Kanal
Der Beschleunigungsansatz ist wie unten gezeigt üblich.
Ich denke, dass es ein Merkmal von uns ist, dass es keine andere Einstellung gibt, um die leeren Lumpen zu quetschen, während man ein Profil macht und ** ein bisschen schneller und ein bisschen schneller **.
Dieses Mal habe ich nur die Ergebnisse vorgestellt, möchte aber technisches Material für jeden Artikel als Memorandum sammeln und bei Bedarf veröffentlichen.
Recommended Posts