Diese Serie wird als mein persönliches Lernen und ihr Memorandum beschrieben, aber ich poste sie in der Hoffnung, dass ich das, was ich gelernt habe, mit Ihnen teilen kann. Wir organisieren hauptsächlich die Begriffe, die während des Studiums des maschinellen Lernens und des tiefen Lernens erscheinen. Dieses Mal werde ich den Umriss des Wahrscheinlichkeitsmodells und die wahrscheinlichste Schätzung zusammenfassen, die im Modell des maschinellen Lernens erscheinen.
Ein Wahrscheinlichkeitsmodell ist ein Modell, das annimmt, dass die Variable x aus einer Wahrscheinlichkeitsverteilung `P (x | θ)`
mit dem Parameter θ erzeugt wird.
Wahrscheinlichkeitsmodell
x ~ P(x|\theta)
Wenn x eine stetige Variable ist, handelt es sich um eine Normalverteilung.
Normalverteilung
N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} exp \begin{bmatrix} - \frac{(x-\mu)^2}{2\sigma^2} \end{bmatrix}
Diskrete Variablen, insbesondere solche, die 0 oder 1 annehmen, wie z. B. Liebeswurf, werden als Bernoulli-Verteilungen bezeichnet.
Bernoulli-Vertrieb
B(x|p) = p^x(1-p)^{1-x}
Wenn diese Daten X = (x0, x1, ...) unabhängig voneinander sind und das Produkt der Werte der stochastischen Funktionen jeder Daten eine Funktion von θ ist, dann ist dies die Wahrscheinlichkeit des Theta ( Es wird mehr wie (mehr) und heißt Wahrscheinlichkeit (Wahrscheinlichkeit).
Haftung
L(\theta) = \prod_{n}P(x_n|\theta)
Die Wahrscheinlichkeit ist die wichtigste Größe im stochastischen Modell, und das Finden des Parameters θ, der die Wahrscheinlichkeit maximiert, wird als Maximum Likelihood Optimization (MLE) bezeichnet. Normalerweise wird es wie unten gezeigt in Form einer logarithmischen Wahrscheinlichkeit behandelt, da es leicht zu berechnen ist.
Log-Wahrscheinlichkeit
lnL(\theta) = \sum_nlnP(x_n|\theta)
Es wird erhalten, indem die logarithmische Wahrscheinlichkeit in Bezug auf μ teilweise differenziert und die Gleichung gelöst wird, in der der Wert 0 wird (als Ergebnis ist die wahrscheinlichste Schätzung des Erwartungswertparameters μ der Durchschnittswert aller x).
Höchstwahrscheinlich Schätzung des Erwartungswertparameters μ der Normalverteilung
lnL(\theta) = - \frac{N}{2}ln2\pi\sigma^2 - \frac{1}{2\sigma^2}\sum_n(x_n-\mu)^2\\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{1}{\sigma^2}\sum_n(x_n - \mu) = 0 \\
\mu = \frac{1}{N}\sum_nx_n = \bar{x}
In ähnlicher Weise ergibt für die Bernoulli-Verteilung das Lösen der wahrscheinlichsten Schätzung von p Folgendes. Hier ist, wenn die Anzahl von x = 1 M ist
Höchstwahrscheinlich Schätzung der Bernoulli-Verteilung
\sum_nx_n = M \\
lnL(\theta) = \sum_nx_nlnp + (1 - x_n)ln (1 - p) \\
=Nlnp + (N - M)ln(1 - p) \\
\frac{\delta}{\delta_p}lnL(\theta) = - \frac{M}{p} + \frac{N -M}{1 -p} = 0 \\
p = \frac{M}{N}
Und p ergibt das Verhältnis der Häufigkeit, mit der x = 1 ist.
In dieser Serie werde ich versuchen, nur die notwendigen Teile mit einem so voluminösen Gefühl zu unterdrücken. Das nächste Mal werde ich die stochastische Gradientenabstiegsmethode zusammenfassen. Schauen Sie also auch dort nach. Vielen Dank für das Durchsuchen bis zum Ende.
Recommended Posts