Ich habe versucht, BING mit OpenCV als Vorverarbeitung von CNN zu verwenden [Ich habe versucht, die selektive Suche als R-CNN zu verwenden] (http://qiita.com/Almond/items/7850cf81903fbe2a2c6c)
Bisher habe ich R-CNN mit BING und Selective Search durchgeführt. Wenn Sie jedoch CNN (Faltungsprozess) ausführen, möchten Sie zu diesem Zeitpunkt einen objektähnlichen Teil finden? Seien Sie versichert, Sie können es tun! Dieses Mal werden wir also die Position mit CNN schätzen. (* GitHub von Sklearn-theano beschreibt die Schätzung der Lokalisierung - Position, daher werde ich diesen Ausdruck unten verwenden.)
Sklearn-theano ist eine Bibliothek, die tiefes Lernen erleichtert, indem sie Theano abstrahiert, einen Rahmen für tiefes Lernen. Ein ähnliches ist Keras. Das ist beliebt und sieht ziemlich gut aus, aber dieses Mal ist es unbenannt? Ich werde versuchen, Sklearn-theano zu verwenden.
Wie oben erwähnt, kann Sklearn-theano sowohl Bilder als auch Positionsschätzungen leicht klassifizieren und schätzen. Darüber hinaus können Sie ganz einfach die Bibliotheken berühmter Orte wie OverFeat, AlexNet, VGGNet und GoogLeNet ausprobieren. Ich möchte praktische Probleme mit verschiedenen trainierten Modellen lösen. Warum versuchen Sie es nicht mit Sklearn-theano?
https://github.com/sklearn-theano/sklearn-theano Klonen Sie das obige Repository und installieren Sie es mit dem Befehl python setup.py install. Außerdem ist dieses Paket erforderlich. Wenn Sie es nicht installiert haben, installieren Sie es zuerst. ・ Numpy ・ Scipy ・ Theano ・ Scikit-lernen ・ Pilow
Diesmal habe ich versucht, plot_single_localization.py in Sample zu verwenden. Die Position des Tieres wird im letzten Frame geschätzt. Um es ziemlich grob zu erklären, schätzen wir zuerst die Punkte, bei denen es sich wahrscheinlich um Objekte im Bereich des gelben Quadrats handelt, und erkennen dann die gesammelte Punktgruppe als endgültiges Objekt. Auf dieser Seite finden Sie den detaillierten Erkennungsprozess.
Die Bearbeitungszeit beträgt übrigens ca. 310 Sekunden .... ca. 5 Minuten! !! !! !! lange. .. .. Die offizielle Aussage sagt 352,80 Sekunden, also scheint es keinen Fehler zu geben.
Dieses Mal habe ich eine kleine Bibliothek namens Sklearn-theano verwendet, um die Position mit CNN zu schätzen. Wenn es Ihnen nichts ausmacht, sich etwas Zeit zu nehmen, können Sie es versuchen. Ich denke jedoch, dass es schwierig ist, wenn Geschwindigkeit erforderlich ist. ** Wenn jemand eine allgemeine Objekterkennungsmethode kennt, die Echtzeit standhält, lassen Sie es mich bitte wissen **
Recommended Posts