"Vous n'entendez que la dernière partie de mes mots."
En fait, cet article montre que non seulement les humains mais aussi les réseaux neuronaux étaient les mêmes.
Frustratingly Short Attention Spans in Neural Language Modeling
L'excuse est: «Parce que c'est suffisant pour prédire votre prochain mot», mais cela semble être la même chose dans les relations humaines et la recherche.
Dans ce volume, parallèlement à l’introduction des documents susmentionnés et d’autres documents connexes, je voudrais examiner le fait que seule la dernière personne est vraiment nécessaire et, si oui, pourquoi. ..
Les articles référencés sont gérés sur le GitHub suivant. Il est mis à jour quotidiennement, donc si vous êtes intéressé par les tendances de la recherche, veuillez faire Star & Watch! ..
L'attention est une méthode permettant de se concentrer sur des points importants du passé (= Attention) lorsqu'il s'agit de données continues. L'image est que lorsque vous répondez à une question, vous faites attention à un mot-clé spécifique dans la question de l'autre personne. Comme le montre cet exemple, il s'agit d'une méthode largement utilisée dans le traitement du langage naturel.
La figure ci-dessous montre que lors de la prédiction de la prochaine couche cachée $ h ^ * $ (boîte rouge), les 5 dernières couches cachées ($ h_2-h_6 $) sont référencées. $ A_1-a_5 $ écrit sur la flèche de chaque couche cachée dans le passé devient "Attention", et il devient "poids" quel point dans le passé est important.
From Figure 1: Memory-augmented neural language modelling architectures.
Maintenant, avec l'avènement de cette Attention, le rôle joué par la couche cachée dans RNN a augmenté. Outre le rôle originel de «prédire le mot suivant», il doit également jouer un rôle d'Attention, c'est-à-dire «d'informations utiles pour prédire l'avenir». De plus, l'attention elle-même est calculée à partir de la couche cachée, vous devez donc également avoir l'information "si ce sont des informations qui devraient être notées à l'avenir".
En d'autres termes, la couche masquée joue les trois rôles suivants dans le RNN qui a introduit Attention.
Une situation que l'on peut appeler une opération unique dans un réseau neuronal. Ne vaut-il pas mieux partager un peu le travail? C'est ce que propose ce document.
Orange joue le rôle de (p) 1, vert (k) joue le rôle de 2 et bleu (v) joue le rôle de 3. Ce sont simplement une combinaison de vecteurs, qui sont implémentés en tant que x3 300 dimensions si l'original était de 100 dimensions.
Lorsque j'ai vérifié cela avec le corpus de Wikipedia et le corpus de livres pour enfants appelé Children's Book Test, le résultat était que l'effet était généralement plus élevé que le modèle existant, mais il est devenu clair lors de la vérification. Il y avait un fait.
Cette figure montre le poids de l'attention au moment de la prédiction, échantillonné au hasard à partir du corpus Wikipédia utilisé dans l'expérience. De la droite, il est de -1 à -15, mais -1 est un avant, puis deux, trois, et ainsi de suite, et plus la couleur est foncée, plus elle est importante.
Si vous regardez cela, vous pouvez voir que -1, c'est-à-dire le plus récent, est très important et n'a guère été mentionné depuis.
C'est un diagramme plus détaillé, mais vous pouvez voir que les points avec des poids élevés sont concentrés autour de -1 à -5. En fait, la taille de la fenêtre d'Attention (à quelle distance elle regarde) était de 5.
Cela signifie t-il ...?
C'est un RNN qui utilise le n-gramme ordinaire (*), et si seuls les 5 derniers sont attirés de toute façon, les 5 dernières couches cachées peuvent être utilisées telles quelles pour la prédiction.
h^*_t = tanh \left(
W^N
\begin{bmatrix}
h^1_t \\
\vdots \\
h^{N-1}_{t-N+1}
\end{bmatrix}
\right)
Extrait de l'équation13
En conséquence, on dit que la précision dépasse le RNN élaboré et que la précision est plus mince que la méthode proposée dans cette étude.
(La valeur est la perplexité, le plus bas sera le mieux. Key-Value-Predict est la méthode proposée pour cette recherche, et 4 grammes est un modèle qui utilise simplement la couche cachée du passé)
Qu'est-ce que c'est!
depuis Shadow Hearts 2
Le rideau se ferme sous la forme de.
Tout d'abord, il y a deux problèmes possibles à cette fin.
Le problème avec la configuration du problème est que c'était une tâche qui ne nécessitait pas une longue dépendance au départ, c'était donc le résultat. C'était également le cas dans une étude précédemment signalée à Stanford par Deep Mind.
On dit que Deep Mind a réussi à créer mécaniquement un ensemble de données d'apprentissage à partir de CNN News, mais lorsque j'ai vérifié ces données ...
C'est une histoire que j'ai pu submerger le réseau neuronal avec un modèle simple. Quand je l'ai recherché, il y avait peu de problèmes qui nécessitaient une longue dépendance et une compréhension du contexte, et même un modèle simple était capable d'enregistrer une précision suffisante.
En d'autres termes, dans ce cas également, c'était une tâche à laquelle il était possible de répondre suffisamment même avec un modèle simple, il est donc possible qu'une haute précision puisse être enregistrée même avec un modèle simple, et l'attention se situait dans une courte distance. Pour aborder ce point, des ensembles de données nécessitant un degré élevé de compréhension ont été récemment développés. [SQuAD] de Stanford (https://rajpurkar.github.io/SQuAD-explorer/) et [WikiText] de Salesforce (https://metamind.io/research/the-wikitext-long-term-dependency-language) -Un grand nombre d'ensembles de données tels que model-dataset /) ont été publiés l'année dernière seulement (y a-t-il des données japonaises ...?).
L'autre point est que les longues dépendances peuvent ne pas être correctement capturées. Cela peut être dû en partie au manque de données qui nécessite de telles dépendances comme décrit ci-dessus, mais il semble y avoir place à prendre en compte en termes de configuration du réseau et d'autres facteurs.
Récemment, la tendance est d'avoir une mémoire externe.
Des tentatives sont également faites pour modifier la structure afin de pouvoir saisir les dépendances à plus long terme.
Il s'agit d'une étude de la voix, et dans le cas de la voix, la densité de données est assez élevée (la musique normale a près de 40 000 données par seconde). Par conséquent, il est plus nécessaire de saisir la dépendance à long terme. En ce sens, la structure qui convient pour capturer la dépendance à long terme peut sortir en premier dans la voix. (Au début de cet article, il y a une phrase telle que "WaveNet, mais je pense que CNN ne peut toujours pas attraper une dépendance à long terme", et je me sens chaud.)
Le réseau proposé a pour rôle d'empiler les RNN en forme de pyramide et de prendre en charge une dépendance plus longue dans la partie supérieure. L'image est que les rôles sont divisés en fonction de la longueur de la dépendance en charge.
Par ailleurs, une synthèse vocale utilisant ce modèle a également été proposée.
Des tentatives ont été faites pour explorer les structures cellulaires pour remplacer le LSTM, qui est souvent utilisé dans les RNN, mais des recherches ont montré que le LSTM, une version simplifiée de celui-ci, est assez bien fait et qu'il n'est pas facile de le dépasser. Il est montré.
Par conséquent, j'ai l'impression qu'il vaut mieux imaginer toute la configuration réseau, y compris l'externalisation de la mémoire.
De cette manière, des recherches sont toujours en cours à partir de différents points. Le développement au-delà de cette fin sera mis à jour régulièrement.
Recommended Posts