Erklärung von Noise2Noise (So lernen Sie das Rauschunterdrückungsnetzwerk nur mit Bildern mit Rauschen)

Ich möchte das Papier zur Rauschunterdrückung Rauschen2 Rauschen: Lernen der Bildwiederherstellung ohne saubere Daten erläutern und zusammenfassen. Da es sich um ein Papier aus dem Jahr 2018 handelte und große Auswirkungen hatte, scheint es alt zu sein, einen Einführungsartikel zu schreiben, aber Qiita hatte einen Artikel über die Implementierung, aber es gab keinen Artikel, der den Inhalt erklärte, also ein Memorandum Ich werde es als belassen. Grundsätzlich ist es mit Schwerpunkt auf Verständlichkeit geschrieben, damit jeder es lesen kann.

Überblick

In den letzten Jahren war der Ansatz, das richtige Signal aus dem beschädigten Signal (hohe Auflösung, De-JEPG, Kolorierung usw.) durch tiefes Lernen wiederherzustellen, sehr erfolgreich. Wenn Sie diese Ansätze wählen, benötigen Sie jedoch ein Dataset, das mit sauberen und beschädigten Daten übereinstimmt. Wenn dies auf einfache Weise konvertiert werden kann, z. B. "Farbbild in Schwarzweißbild" oder "Bild mit hoher Auflösung in Bild mit niedriger Auflösung", ist es einfach, einen Datensatz vorzubereiten, aber für viele Aufgaben ist dies der Fall. Ist nicht. Selbst wenn Sie daran denken, saubere Bilder zu sammeln, erfüllen alle Daten möglicherweise weiterhin die Bedingungen wie Langzeitbelichtung und Motiv. Selbst wenn Sie sich ImageNet usw. ansehen, können Sie beim Aufnehmen von Bildern Bilder sehen, die Rauschen enthalten.

Formulierung

In diesem Dokument wird beschrieben, wie Sie die Probleme dieser Datensätze lösen, indem Sie ein Netzwerk lernen, um das richtige Signal aus dem beschädigten Signal zu dekodieren, wenn nur der beschädigte Signaldatensatz angegeben wird. Ich werde.

Formulieren Sie zunächst das Problem. Die folgende Formel ist ein Eingangssignal, bei dem $ \ hat {x} _i $ beschädigt ist, und wenn es sich um ein Bild handelt, handelt es sich um ein Rauschbild. Wenn $ y_i $ eine saubere Ausgabe ist, ein Bild, zeigt dies ein Bild ohne Rauschen an.

\underset{\theta}{argmin} \displaystyle \sum_i L(f_\theta(\hat{x}_i),y_i)

Grundsätzlich möchten Sie die Funktion $ f \ _ {\ theta} $ lernen, die den Parameter $ \ theta $ anpasst, um $ \ hat {x} _i $ in $ y \ _i $ umzuwandeln. Einstellung des Rauschunterdrückungsproblems. Zu diesem Zeitpunkt muss die beschädigte Eingabe $ \ hat {x} $ eine stochastische Variable sein, die gemäß einem sauberen Ziel generiert wird ($ \ hat {x} \ thicksim p (\ hat {x} | y \ _i) $).

Der Punkt

Die charakteristischen Punkte des Papiers sind die folgenden drei

Erfahren Sie, wie Sie ein Rauschbild nur mit dem Rauschbilddatensatz (beschädigtes Signal) in ein sauberes Bild konvertieren
Kann Ergebnisse liefern, die ungefähr gleich oder besser sind als die Verwendung eines Datensatzes mit Rauschen und sauberen Bildern.
Das Erlernen der Konvertierung von Rauschbildern in Rauschbilder (Noise2Noise) entspricht dem Erlernen der Konvertierung von Rauschbildern in saubere Bilder (Noise2Clearn).

Ich habe das Gefühl, dass ich es wirklich schaffen kann. Besonders am Ende möchte ich sagen, dass dein Kopf in Ordnung ist. Wie der Titel des Papiers andeutet, ist Lärm zu Lärm die Schlüsselidee dieses Papiers.

Theoretischer Hintergrund

Lassen Sie uns zunächst über das Regressionsmodell (Regressor) nachdenken. In dieser theoretischen Hintergrunderklärung gehen alle Modelle und Klassifikationen von Regressoren aus, und Klassifikationsmodelle (Klassifikationen) werden nicht berücksichtigt.

Beginnen wir daher mit einem sehr einfachen Beispiel für Regression.

Nehmen Sie zunächst einen unzuverlässigen Raumtemperatur-Datensatz mit Messungen an {$ \ {y \ _1, y_2, y_3 } $} Mit anderen Worten, Sie können sich mehrere Temperaturmessungen vorstellen, die an mehreren Stellen im Raum durchgeführt werden. Ich weiß jedoch nicht, ob die Messung schlecht ist oder das Thermometer selbst schlecht ist, aber ich gehe davon aus, dass zwischen der tatsächlichen Raumtemperatur und dem gemessenen Wert ein Fehler vorliegt.

Zu diesem Zeitpunkt besteht die häufigste Strategie zur Schätzung der unbekannten wahren Raumtemperatur darin, den Fehler aus dem gemessenen Wert basierend auf einer Verlustfunktion = $ z $ mit der minimalen durchschnittlichen Abweichung zu minimieren. Ist zu fragen.

\underset{z}{argmin} \mathbb{E}_y\{L(z, y)\}

Dies ist beispielsweise der Fall, wenn Sie versuchen, den L2-Verlust (z-y) ^ 2 zu minimieren, z ist ein einfacher arithmetischer Durchschnitt.

z = \mathbb{E}_y\{y\}.

Ich denke, das ist intuitiv leicht zu verstehen

In ähnlicher Weise wird bei Verwendung des L1-Verlusts der Medianwert des Beobachtungsdatensatzes als optimale Lösung erhalten.

Das Training mit einem neuronalen Regressor kann als Verallgemeinerung der obigen Methode angesehen werden. Hier ist eine Formalisierung der Trainingsaufgabe mit Eingabe- und Zielpaaren wie folgt.

\underset{\theta}{argmin} \mathbb{E}_{(x,y)} \{ L(f_\theta(x),y) \}

Diese Formeln sind übliche DNN-Formeln, können jedoch auf die folgenden bedingten Wahrscheinlichkeiten umgeschrieben werden.

\underset{\theta}{argmin} \mathbb{E}_x \{\mathbb{E}_{y|x} \{ L(f_\theta(x),y) \}\}

Es gibt wichtige Punkte, die der neuronale Regressor vor diesen Gleichungen verbirgt.

Mit anderen Worten, das Regressor-Lernen scheint die Umwandlung von x nach y mit einer 1: 1-Entsprechung zu lernen, aber in Wirklichkeit gibt es mehrere ys, die x entsprechen, so dass man sagen kann, dass es sich um eine 1: n-Abbildung handelt.

Es ist leicht, ein konkretes Beispiel dafür zu sehen, aber für hochauflösende Aufgaben wird das hochauflösende Ausgabebild $ (zumindest Menschen denken, dass es eine höhere Auflösung als x hat) für das niedrigauflösende Eingabebild $ x $ verwendet Es kann gesagt werden, dass es mehrere y $ gibt.

In ähnlicher Weise kann bei der automatischen Farbaufgabe gesagt werden, dass es mehrere Ausgabefarbbilder für das eingegebene Schwarzweißbild gibt.

Daher scheinen viele Aufgaben, die den neuronalen Regressor verwenden, Punkte zu verbinden, aber in Wirklichkeit wird angenommen, dass sie lernen, Punkte zu verbinden.

Wenn diese Ausgaben auf L2-Verlust trainiert würden, wie weiter oben im Raumtemperatur-Datensatz erläutert, würde die Ausgabe schließlich lernen, den Durchschnitt aller plausiblen Erklärungen auszugeben.

Infolgedessen enthält die Ausgabe der Inferenz von NN räumliche Unschärfe.

Diese Unschärfe hat Forscher bei vielen Aufgaben geplagt. Beispielsweise besteht das Problem, dass hochauflösende Bilder und GAN-Generierungsergebnisse mit geglätteten Bildern wie Gauß-Filtern ausgegeben werden, und Forscher arbeiten an dieser Verbesserung.

Es kann jedoch gesagt werden, dass das durch diese Unschärfe verursachte Problem in diesem Fall ein unerwartetes Nebenprodukt erzeugt.

Mit anderen Worten, selbst wenn das Ziel während des Trainings mit einheitlichen Zufallszahlen (z. B. Gaußsches Rauschen und Salz und Pfeffer) kontaminiert ist, bewirkt diese Mittelungsfähigkeit, dass das trainierte Netzwerk dieselbe Ausgabe ausgibt wie das Ergebnis des Trainings mit einem sauberen Ziel. .. Daher kann gesagt werden, dass das erhaltene $ f_ \ theta $ eine äquivalente Funktion ist, wenn es im Ausdruck 1 und im folgenden Ausdruck optimiert wird.

\underset{\theta}{argmin} \sum_i L(f_{\theta}(\hat{x}_i),\hat{y}_i)

Diese Formel eliminiert das saubere Ziel $ \ hat {x} $, das wir zuvor benötigt haben.

Diese Theorie ist die wichtigste und grundlegendste Theorie in Noise2Noise.

Bisher werde ich die Theorie vorerst erklären und dann zur experimentellen Phase übergehen.

Experiment

coming soon...