[PYTHON] Le modèle linéaire généralisé (GLM) et le réseau neuronal sont les mêmes (2)

Dans la continuité de la dernière fois, je comparerai le modèle linéaire généralisé (GLM) et le perceptron multicouche.

"Le modèle linéaire généralisé (GLM) et le réseau neuronal sont ensemble (1)"

Du point de vue de l'apprentissage automatique: Perceptron multicouche

Le réseau neuronal et le perceptron sont résumés ci-dessous de manière très simple à comprendre, veuillez donc vous y référer.

" 3e perceptron simple · Wiki Levelfour / machine-learning-2014 · GitHub " " 3ème Perceptron multicouche · Wiki Levelfour / machine-learning-2014 · GitHub "

Les paramètres de la fonction discriminante ne convergent que lorsque le perceptron simple est linéairement séparable, c'est-à-dire que les données peuvent être séparées par une ligne droite. Si vous donnez des données qui ne peuvent pas être séparées linéairement, c'est mignon car vous pouvez continuer à demander des paramètres.

Si vous mettez les données d'apprentissage comme [tex: x_1, x_2,…, xi…] et le coefficient de couplage comme [tex: w_1, w_2,…, wi…], Un perceptron simple est exprimé dans une formule mathématique comme suit.

  z = \sum_{i=0}^n w_i x_i =　W^{\mathrm{T}}X

Cependant, le monde n'est pas assez simple pour être séparé par une ligne droite. Après avoir réfléchi à la manière de gérer les événements linéairement inséparables, nous avons décidé de multiplier la couche cachée (couche intermédiaire) en la traitant avec une fonction sigmoïde. C'est une fonction sigmoïde qui semble être sortie soudainement, mais la raison de son utilisation ici est ・ Parce que c'est non linéaire. S'il est linéaire, même si vous augmentez la hiérarchie, vous pouvez compresser la hiérarchie sous la forme d'une somme linéaire. ・ Parce qu'il s'agit d'une augmentation monotone qui peut être différenciée par n'importe quelle variable explicative Donc, il semble que cela ne sert à rien à moins que ce ne soit strictement cela.

Le j-ème élément de sortie du calque masqué peut être exprimé par une formule mathématique.

  y = \frac{1}{1+exp(-\alpha (\sum_{i=0}^n w_{ji} x_{ji}))} = \frac{1}{1+exp(-\alpha W_j^{\mathrm{T}}X)}     (2)

Ce sera.

Dans l'apprentissage automatique, après cela, à propos de "couche d'entrée-> couche cachée-> couche de sortie" Estimer le coefficient de couplage (paramètre) en considérant la fonction discriminante.

C'est pareil après tout

Puisque les deux méthodes ont des utilisations différentes pour le modèle linéaire généralisé (GLM) et le perceptron multicouche, il existe naturellement des différences dans la procédure, et pour une compréhension approximative cette fois, Certaines parties manquent de rigueur, mais si vous comparez les équations (1) et (2), Je pense que vous pouvez comprendre intuitivement que vous faites quelque chose de similaire à "tracer une ligne dans les données disjointes".

Α dans le dénominateur de droite, qui est la différence entre les équations (1) et (2), est appelé gain et affecte le gradient proche de 0. Je suis désolé, je ne sais pas pourquoi cela est bloqué, veuillez me le faire savoir.