[PYTHON] J'ai appris en intégrant la vue et l'ouïe! Thèse (Original: voir, entendre et lire: représentations profondément alignées)

Original

See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/

Quel genre de papier?

J'ai formé une paire d'image et de légende. En conséquence, il a été constaté que même pour des images inconnues, la relation entre le son et le texte qui se sentait bien quantitativement pouvait être apprise. CNN pour le texte, les sons et les images. Le plaisir est que les couches inférieures ne partagent pas de poids, mais seules les couches supérieures partagent des poids.

Comment apprends-tu?

J'ai formé une paire d'images et de sons, ou d'images et de textes, pour qu'ils appartiennent au même groupe (divergence KL).

Quelle chose?

J'ai alimenté des données audio, texte et image. Pour l'apprentissage, il existe deux paires image + texte et image + audio. Cependant, en conséquence, nous avons également pu apprendre des paires de voix et de texte. (On peut dire que vous apprenez une paire en utilisant l'image comme un pont)

Qu'est-ce qui est étonnant par rapport aux recherches précédentes?

Le but est de profiter de l'occasion pour apprendre la reconnaissance qui couvre trois choses multimodales: les images, la musique et le texte. Le point d'apprendre une perception très humaine. Je pense que c'est la première fois pour moi d'aborder une telle échelle et trois sens et modal. En conséquence, la paire son / texte n'est pas entraînée, mais c'est possible en utilisant l'image comme un pont. En d'autres termes, lors de la traduction de l'anglais vers n'importe quelle langue, c'est comme passer par la langue du pont (une approche de langue anglaise à toute épreuve) Anglais → image image → français L'anglais est un son ou du texte. Le français est un texte ou un son Où est le cœur de la technologie et des méthodes? Tous les CNN ont été réalisés sur audio, image et texte. Le point de créer un nouveau réseau qui relie toutes les couches supérieures.

Comment avez-vous vérifié sa validité?

Nous avons comparé les scores des recherches multimodales. La recherche cross-modale est, par exemple, lorsque vous voulez des données du modal (texte, image ou son) que vous avez imaginé, vous pouvez rechercher par requête à partir d'un autre modal pour voir si vous pouvez obtenir les données souhaitées.

Rédaction de notes

Son et langage Recherche vocale. C'est assez courant. Modèle de probabilité Langue et vision Il est différent de la génération automatique d'image → légende de texte. Dans cette expérience, seule la relation entre l'image et le son ou le texte est apprise. De plus, les nouveaux magasins utilisent CNN au lieu de RNN pour le texte.

Recommended Posts

J'ai appris en intégrant la vue et l'ouïe! Thèse (Original: voir, entendre et lire: représentations profondément alignées)
Chainer et deep learning appris par approximation de fonction