[PYTHON] Grundprinzipien der Bilderkennungstechnologie (für Anfänger)

Was ist Bilderkennungstechnologie?

Texterkennung, Gesichtserkennung usw. sind alle Anwendungen der Bilderkennungstechnologie. Dies alles ist jedoch eine grundlegende Anwendung der Bilderkennungstechnologie. Nach dem Stand der Technik kann bereits erkannt werden, ob es sich um ein Hundebild oder ein Katzenbild handelt. Wie hast du das gemacht? Bei der Forschung von Experten betrachten Menschen die Umrisse eines Objekts, bevor sie entscheiden, was es ist. Die Bilderkennungstechnologie ist dieselbe, und der Umriss des Bildes wird zuerst erkannt.

c3.png

Adit Deshpande, ein Student an der University of California, schrieb einen Artikel mit dem Titel "Ein Leitfaden für Anfänger zum Verständnis von Faltungs-Neuronalen Netzen". Darin haben wir den Bilderkennungsalgorithmus und die grundlegenden Ursachen für Anfänger leicht verständlich vorgestellt.

Computer konvertieren Bilder in numerische Arrays, daher ist "Bilderkennung" die Analyse numerischer Arrays. Im Allgemeinen können Sie das Bild verkleinern (49 x 49 Pixel) und die Farbinformationen für jedes Pixel in einen Grauwert konvertieren, um eine 49 x 49-Matrix zu erhalten, die zusätzliche Informationen ausschließt. Nehmen Sie als nächstes die kleinen Blöcke nacheinander von oben links heraus und berechnen Sie. c5.png

Beispiel 1: c6.png

Die Abbildung rechts ist eine Kurve, und die Abbildung links ist eine graue 7 x 7-Kurvenmatrix. Der Kantengrauwert ist an der Kurve hoch und alles andere ist "0".

Die Bilderkennung wird von nun an durchgeführt. Unten ist ein Bild einer Maus. c7.png

c8.png

Nehmen Sie den Block in der oberen linken Ecke, konvertieren Sie ihn in eine graue Matrix, multiplizieren Sie die Zahlen an den Überlappungen der Matrix und addieren Sie sie zu 6600. Es ist eine ziemlich große Zahl, aber was können Sie erklären? c9.png

Das Matrixieren des Rattenkopfes ergibt einen Wert von 0.

Fazit: Es wurde gefolgert, dass es viele Bildanpassungsteile gibt, wenn der Wert des Berechnungsergebnisses groß ist. Normalerweise werden viele Modi im Voraus vorbereitet, der optimale Modus wird für jeden Block berechnet und schließlich wird das Ganze beurteilt.

Recommended Posts

Grundprinzipien der Bilderkennungstechnologie (für Anfänger)
Implementierung eines Deep Learning-Modells zur Bilderkennung
Grundlegende Geschichte der Vererbung in Python (für Anfänger)
CNN (1) zur Bildklassifizierung (für Anfänger)
Anwendung der CNN2-Bilderkennung
Grundlegende Python-Grammatik für Anfänger
[Muss für Anfänger] Grundlagen von Linux
Bilderkennung von Früchten mit VGG16
Python: Grundlagen der Bilderkennung mit CNN
[Python] Protokoll des Studientreffens für Anfänger (7/15)
Python: Anwendung der Bilderkennung mit CNN
Linux-Betrieb für Anfänger Grundlegende Befehlsübersicht
Bilderkennung
Für SageMaker Anfänger-Material Links-
[Erklärung für Anfänger] Grundlegende Syntax und Konzept von TensorFlow
Ich habe versucht, Bilder mit CIFAR-10 mit Keras-Learning- zu erkennen.
Ich habe versucht, Bilder von CIFAR-10 mit Keras-Bilderkennung zu erkennen.
Lesen und implementieren Sie Deep Residual Learning für die Bilderkennung
Bildverarbeitung? Die Geschichte, Python für zu starten
Einfaches Verständnis von Python für & Arrays (für Super-Anfänger)
Praktisches Tool für Anfänger (unter Berücksichtigung von Ideen)
Pandas-Grundlagen für Anfänger ② Übersicht über die Daten
Bild der Schließung
Ich habe das MNIST-Tutorial von tensorflow für Anfänger ausprobiert.
Zusammenfassung der Vorverarbeitungsmethoden für Python-Anfänger (Pandas-Datenrahmen)
Python-Übung für Anfänger # 1 [Grundlegende Datentypen / If-Anweisungen]
Ungefähre Suche nach dem nächsten Nachbarn für eine ähnliche Bildanalyse (für Anfänger) (1)
[Für Anfänger] Lernen Sie in 5 Stunden kostenlos die grundlegende Python-Grammatik!
[Für Anfänger] Quantifizieren Sie die Ähnlichkeit von Sätzen mit TF-IDF