Ich beschäftige mich an der Universität mit ** Videorahmeninterpolation durch tiefes Lernen ** und werde die Implementierung ausgeben, die ich in diesem Prozess versuche. Ich werde weiterhin die Fortsetzung der Implementierung der Frame-Interpolation für Videos veröffentlichen. Folgen Sie also bitte LGTM und folgen Sie mir, wenn Sie möchten.
Was ich dieses Mal getan habe, ist ein Netzwerk aufzubauen, das tatsächliche Videobilder verwendet, um 1 Zwischenbild aus 6 Bildern vorher und nachher zu erzeugen.
Google Colab https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja
** Deep Learning, das aus dem vorderen und hinteren Rahmen (3 vordere und 3 hintere) einen Zwischenrahmen erzeugt. ** Das Netzwerk ist DnCNN [1]. Ich habe dieses Netzwerk zur Hand, also benutze ich es. ([1] Kai Zhang, Wangmeng Zuo, Yunjin Chen, Deyu Meng, and Lei Zhang, “Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising”, https://arxiv.org/abs/1608.03981)
Das Netzwerk von DnCNN ist wie folgt. Ursprünglich sollte es Lärm entfernen. Für die Eingabe beträgt die Bildgröße 160 * 90 und die Anzahl der Kanäle 18 Kanäle (6 Bilder * RBG). Für die Ausgabe ist die Bildgröße ähnlich und die Anzahl der Kanäle beträgt 3.
Ich habe mit den Parametern der blauen Mittelschicht herumgespielt. Es hat 15 Schichten, eine Kernelgröße von 3 * 3 und 72 Kanäle.
Ich habe MOT17 verwendet, um die Stadt zu fotografieren. https://motchallenge.net/ Die Anzahl der Sätze ist Zug 1320, Test 1285.
Das erste Bild sind die vorderen 2 Bilder, das erzeugte Zwischenbild und die hinteren 2 Bilder von oben. Eigentlich gibt es für jeden Frame eine andere Eingabe, aber ich habe sie weggelassen, weil das Bild klein wird.
Das folgende Bild ist ein Vergleich mit dem richtigen mittleren Rahmen.
Es ist ein Ergebnis, von dem nicht gesagt werden kann, dass es überhaupt interpoliert ist, wie z. B. Hin- und Herziehen und Farbwechsel.
Klicken Sie hier, um ein Diagramm der Generalisierungsleistung anzuzeigen. Da die Werte nahe beieinander liegen, scheint hier kein Problem zu bestehen. Klicken Sie hier für numerische Daten wie Verlustwerte.
Der Zahlenwert ist nicht so schlecht. Es liegt nahe am Verlustwert und dem durchschnittlichen PSNR, wenn zuvor ein Bild getrimmt und eine Pseudo-Frame-Interpolation durchgeführt wurde. Dies scheint jedoch darauf zurückzuführen zu sein, dass die Vorder- und Rückseite fast dasselbe Bild sind. Die Mid-Top-Rate ist niedrig, daher müssen Sie sie hier erhöhen.
Der Grund, warum es nicht interpoliert werden konnte ・ Kleine Anzahl von Datensätzen ・ Eingabe 6 Frames funktionieren nicht gut ・ Netzwerkprobleme (DnCNN) Ich denke, es gibt drei Punkte.
Es gibt ungefähr 1300 Sätze von Trainings- und Testdaten. Die ursprüngliche Anzahl von Bildern ist groß, aber es ist schwierig, den Betrag zu verdienen, da ein Satz 7 Bilder verbraucht. Ich bin gerade dabei, meinen eigenen Datensatz zu erstellen, daher möchte ich die Anzahl der Datensätze im Auge behalten.
Was ist mit 6 Eingaberahmen? .. Jedes Papier betrachtet die Interpolation in 2 Frames vorher und nachher, daher mache ich mir Sorgen, ob es in 6 Frames weiter funktioniert. Ich begann zu überlegen, ob ich zum Vergleich auf 2 Frames zurückgreifen sollte.
-Erhöhen Sie die Anzahl der Sätze mit Ihrem eigenen Datensatz.
Vielen Dank für das Lesen bis zum Ende. Bitte zögern Sie nicht, auf Verbesserungen hinzuweisen. Ich werde dieses System weiterhin veröffentlichen. Bitte folgen Sie LGTM und folgen Sie mir, wenn Sie möchten!
Recommended Posts