See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/
Ich habe ein Paar Bild und Bildunterschrift trainiert. Als Ergebnis wurde festgestellt, dass selbst für unbekannte Bilder die Beziehung zwischen Ton und Text, die sich quantitativ gut anfühlte, gelernt werden konnte. CNN für Text, Ton und Bild. Der Spaß ist, dass die unteren Schichten keine Gewichte teilen, sondern nur die oberen Schichten Gewichte teilen.
Ich habe ein Paar Bilder und Töne oder Bilder und Texte so trainiert, dass sie zur selben Gruppe gehören (KL-Divergenz).
Ich habe Audio-, Text- und Bilddaten eingegeben. Zum Lernen gibt es zwei Paare aus Bild + Text und Bild + Audio. Infolgedessen konnten wir jedoch auch Sprach- und Textpaare lernen. (Man kann sagen, dass Sie ein Paar lernen, indem Sie das Bild als Brücke verwenden.)
Der Punkt ist, die Gelegenheit zu nutzen, um Anerkennung zu lernen, die drei multimodale Dinge umfasst: Bilder, Musik und Text. Der Punkt, eine sehr menschliche Wahrnehmung zu lernen. Ich denke, dies ist das erste Mal, dass ich mich einem so großen Maßstab und drei Sinnen und Modalitäten nähere. Infolgedessen wird das Ton / Text-Paar nicht trainiert, es ist jedoch möglich, das Bild als Brücke zu verwenden. Mit anderen Worten, wenn Sie vom Englischen in eine andere Sprache übersetzen, ist es, als würden Sie die Brückensprache durchlaufen (ein eiserner englischsprachiger Ansatz). Englisch → Bild Bild → Französisch Englisch ist Ton oder Text. Französisch ist Text oder Ton Wo ist das Herzstück von Technologie und Methoden? Alle CNNs wurden mit Audio, Bild und Text erstellt. Der Punkt zum Erstellen eines neuen Netzwerks, das alle oberen Schichten verbindet.
Wir haben die Ergebnisse der modalübergreifenden Suche verglichen. Die modalübergreifende Suche ist beispielsweise, wenn Sie Daten des Modals (Text, Bild oder Ton) wünschen, das Sie sich vorgestellt haben, können Sie per Abfrage von einem anderen Modal aus suchen, um festzustellen, ob Sie die gewünschten Daten erhalten können.
Ton und Sprache Sprachsuche. Es ist ziemlich häufig. Wahrscheinlichkeitsmodell Sprache und Vision Es unterscheidet sich von der automatischen Generierung von Bild → Textbeschriftung. In diesem Experiment wird nur die Beziehung zwischen dem Bild und dem Ton oder Text gelernt. Außerdem verwenden neue Geschäfte CNN anstelle von RNN für Text.