Original

See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/

Was für ein Papier?

Ich habe ein Paar Bild und Bildunterschrift trainiert. Als Ergebnis wurde festgestellt, dass selbst für unbekannte Bilder die Beziehung zwischen Ton und Text, die sich quantitativ gut anfühlte, gelernt werden konnte. CNN für Text, Ton und Bild. Der Spaß ist, dass die unteren Schichten keine Gewichte teilen, sondern nur die oberen Schichten Gewichte teilen.

Wie lernst du?

Ich habe ein Paar Bilder und Töne oder Bilder und Texte so trainiert, dass sie zur selben Gruppe gehören (KL-Divergenz).

Welche Sache?

Ich habe Audio-, Text- und Bilddaten eingegeben. Zum Lernen gibt es zwei Paare aus Bild + Text und Bild + Audio. Infolgedessen konnten wir jedoch auch Sprach- und Textpaare lernen. (Man kann sagen, dass Sie ein Paar lernen, indem Sie das Bild als Brücke verwenden.)

Was ist erstaunlich im Vergleich zu früheren Forschungen?

Der Punkt ist, die Gelegenheit zu nutzen, um Anerkennung zu lernen, die drei multimodale Dinge umfasst: Bilder, Musik und Text. Der Punkt, eine sehr menschliche Wahrnehmung zu lernen. Ich denke, dies ist das erste Mal, dass ich mich einem so großen Maßstab und drei Sinnen und Modalitäten nähere. Infolgedessen wird das Ton / Text-Paar nicht trainiert, es ist jedoch möglich, das Bild als Brücke zu verwenden. Mit anderen Worten, wenn Sie vom Englischen in eine andere Sprache übersetzen, ist es, als würden Sie die Brückensprache durchlaufen (ein eiserner englischsprachiger Ansatz). Englisch → Bild Bild → Französisch Englisch ist Ton oder Text. Französisch ist Text oder Ton Wo ist das Herzstück von Technologie und Methoden? Alle CNNs wurden mit Audio, Bild und Text erstellt. Der Punkt zum Erstellen eines neuen Netzwerks, das alle oberen Schichten verbindet.

Wie haben Sie überprüft, ob es gültig ist?

Wir haben die Ergebnisse der modalübergreifenden Suche verglichen. Die modalübergreifende Suche ist beispielsweise, wenn Sie Daten des Modals (Text, Bild oder Ton) wünschen, das Sie sich vorgestellt haben, können Sie per Abfrage von einem anderen Modal aus suchen, um festzustellen, ob Sie die gewünschten Daten erhalten können.

Schreiben von Notizen

Ton und Sprache Sprachsuche. Es ist ziemlich häufig. Wahrscheinlichkeitsmodell Sprache und Vision Es unterscheidet sich von der automatischen Generierung von Bild → Textbeschriftung. In diesem Experiment wird nur die Beziehung zwischen dem Bild und dem Ton oder Text gelernt. Außerdem verwenden neue Geschäfte CNN anstelle von RNN für Text.

[PYTHON] Ich habe durch die Integration von Sehen und Hören gelernt! These (Original: Sehen, Hören und Lesen: Tief ausgerichtete Darstellungen)