[PYTHON] Das verallgemeinerte lineare Modell (GLM) und das neuronale Netz sind gleich (2)

Ich werde das verallgemeinerte lineare Modell (GLM) und das mehrschichtige Perzeptron vergleichen.

"Generalisiertes lineares Modell (GLM) und neuronales Netz sind zusammen (1)"

Aus Sicht des maschinellen Lernens: Multilayer Perceptron

Das neuronale Netz und das Perzeptron sind nachstehend sehr leicht verständlich zusammengefasst. Bitte beziehen Sie sich auf sie.

<a href = "https://github.com/levelfour/machine-learning-2014/wiki/%E7%AC%AC3%E5%9B%9E ---% E5% 8D% 98% E7% B4% 94 % E3% 83% 91% E3% 83% BC% E3% 82% BB% E3% 83% 97% E3% 83% 88% E3% 83% AD% E3% 83% B3 3. einfaches Perzeptron · Levelfour / Machine-Learning-2014-Wiki · GitHub " <a href = "https://github.com/levelfour/machine-learning-2014/wiki/%E7%AC%AC3%E5%9B%9E ---% E5% A4% 9A% E5% B1% A4 % E3% 83% 91% E3% 83% BC% E3% 82% BB% E3% 83% 97% E3% 83% 88% E3% 83% AD% E3% 83% B3 3. Multilayer Perceptron · Levelfour / Machine-Learning-2014-Wiki · GitHub "

Die Parameter der Diskriminanzfunktion konvergieren nur, wenn das einfache Perzeptron linear getrennt werden kann, dh die Daten können durch eine gerade Linie getrennt werden. Wenn Sie Daten angeben, die nicht linear getrennt werden können, ist dies hilfreich, da Sie weiterhin nach Parametern fragen können.

Wenn Sie die Trainingsdaten als [tex: x_1, x_2,…, xi…] und den Kopplungskoeffizienten als [tex: w_1, w_2,…, wi…] eingeben, Ein einfaches Perzeptron wird in einer mathematischen Formel wie folgt ausgedrückt.

  z = \sum_{i=0}^n w_i x_i =　W^{\mathrm{T}}X

Die Welt ist jedoch nicht einfach genug, um durch eine gerade Linie getrennt zu werden. Nachdem wir uns überlegt hatten, wie linear untrennbare Ereignisse behandelt werden sollen, haben wir beschlossen, die verborgene Schicht (Zwischenschicht) durch Verarbeitung mit einer Sigmoid-Funktion mehrschichtig zu machen. Es ist eine Sigmoid-Funktion, die plötzlich herausgekommen zu sein scheint, aber der Grund für die Verwendung hier ist ・ Weil es nicht linear ist. Wenn es linear ist, können Sie die Hierarchie auch in Form einer linearen Summe komprimieren, selbst wenn Sie die Hierarchie erhöhen. ・ Weil es sich um eine monotone Zunahme handelt, die durch jede erklärende Variable unterschieden werden kann Es scheint also, dass es keinen Nutzen gibt, wenn es nicht genau dies ist.

Das j-te Ausgabeelement in der verborgenen Schicht kann durch eine mathematische Formel ausgedrückt werden.

  y = \frac{1}{1+exp(-\alpha (\sum_{i=0}^n w_{ji} x_{ji}))} = \frac{1}{1+exp(-\alpha W_j^{\mathrm{T}}X)}     (2)

Es wird sein.

Beim maschinellen Lernen danach über "Eingabeebene-> versteckte Ebene-> Ausgabeschicht" Schätzen Sie den Kopplungskoeffizienten (Parameter) unter Berücksichtigung der Diskriminanzfunktion.

Es ist doch dasselbe

Das generalisierte lineare Modell (GLM) und das mehrschichtige Perzeptron haben unterschiedliche Verwendungszwecke, daher gibt es natürlich einige Unterschiede in der Vorgehensweise, und diesmal für ein grobes Verständnis: Es gibt einige Teile, denen es an Strenge mangelt, aber wenn Sie die Gleichungen (1) und (2) vergleichen, Ich denke, Sie können intuitiv verstehen, dass Sie etwas Ähnliches tun, um "eine Linie in den unzusammenhängenden Daten zu ziehen".

Α im rechten Nenner, der die Differenz zwischen den Gleichungen (1) und (2) darstellt, wird als Verstärkung bezeichnet und beeinflusst den Gradienten nahe 0. Es tut mir leid, dass ich nicht weiß, warum das so ist. Bitte lassen Sie es mich wissen.