[PYTHON] Bedeutung des maschinellen Lernens und des Mini-Batch-Lernens
Einführung
Dies ist ein Hinweis zum Mini-Batch-Lernen beim maschinellen Lernen. Es dient auch als intuitive Erklärung des maschinellen Lernens.
Was ist maschinelles Lernen?
Maschinelles Lernen ist ein Computergerät, das automatisch Regeln extrahiert, die einem bestimmten Datenelement inhärent sein sollen. Mit anderen Worten, wenn die Ausgabe $ \ boldsymbol {t} $ bereits für eine bestimmte Eingabemenge $ \ boldsymbol {x} $ erhalten wurde, wird eine neue Eingabemenge $ \ durch Extrahieren der dort vorhandenen Regeln extrahiert. Erwarten Sie $ \ boldsymbol {t} ^ {\ prime} $ entsprechend dem Boldsymbol {x} ^ {\ prime} .
Dies**Regeln**Was sein wird(Gewicht genannt)Im Allgemeinen eine MatrixWDann ist die obige Geschichte das Ergebnis des maschinellen Lernens\boldsymbol{y}(Im Idealfall\boldsymbol{t}Sollte passen)Zu$ \boldsymbol{y} = W \boldsymbol{x}\tag{1}$Wann\boldsymbol{y}Wann\boldsymbol{t}Verlustfunktion erhalten von$ L = \frac{1}{2}||\boldsymbol{y}(\boldsymbol{x},W)-\boldsymbol{t}||^{2}\tag{2}$Zu可能な限り小さくするようなW$Zu求めるWannいうこWannに置き換えられます。
Big Data und Mini-Batch-Lernen
Angenommen, Sie erhalten erneut die Big Data $ (\ boldsymbol {x} \ _ {n}, \ boldsymbol {t} \ _ {n}) $ ($ n = 1,2, \ cdots, N $). $ N $ ist groß genug). Extrahieren Sie das Gewicht $ W $ daraus und sagen Sie die Ausgabe $ \ boldsymbol {t} ^ {\ prime} $ voraus, die für die Eingabe $ \ boldsymbol {x} \ ^ {\ prime} $ geeignet ist, deren Ausgabe unbekannt ist. Daher ist die Summe der Quadrate ein Fehler für alle $ \ boldsymbol {x} \ _ {n} $
$\frac{1}{N} \sum_{n=1}^{N}\|\|\boldsymbol{y}\_{n}(\boldsymbol{x}\_{n},W)-\boldsymbol{t}_{n} \|\|^{2} \tag{3}Gerne zu minimierenW$Nachfragen. Zum Beispiel gibt es Methoden wie die Gradientenabstiegsmethode.
Das Ausmaß von Big Data, mit dem wir uns jetzt befassenN(\gg 1)Also auch wenn es ein Computer istWSuchenn=1VonNEs ist keine kluge Methode, da der Rechenaufwand enorm ist, wenn die Differentialberechnung ehrlich durchgeführt wird. DeshalbNVonM (\ll N)Nur ein Datenelement wird zufällig herausgenommen und dagegen$ \frac{1}{M} \sum_{m=1}^{M}\|\|\boldsymbol{y}\_{m}(\boldsymbol{x}\_{m},W)-\boldsymbol{t}_{m} \|\|^{2} \tag{4}Durch Minimieren(3)Überwiegend effizient in Bezug auf die Methode vonWKann bestimmt werden. Auf diese Weise erhaltenW$は、与えられた全てのデータVon求まったわけではありませんが、もとのデータのもつ規則の良い近似となっていることが多いです。このような学習手法をミニバッチ学習と呼びます。
- Lernen bedeutet, $ W $ zu bestimmen. Die spezifische Implementierung ist die nächste.