The Machine Learning Landscape
Why Use Machine Learning? Das Programmieren eines Spamfilters ist der nächste Schritt.
Ein Programm zum Erkennen von Spam-Mails ist schwierig zu warten, da es viele Regeln enthält. Wenn Sie jedoch einen Spam-Filter durch maschinelles Lernen erstellen, lässt sich das Programm leicht kurz halten. Und genauer.
Wenn der Spamer beim Schreiben eines Programms weiß, mit welchem Wort Spam erkannt wird, kann er den Spamfilter mit einem anderen Wort umgehen. Wenn Sie ein Programm schreiben, müssen Sie neue Regeln hinzufügen. Bei Spam-Filtern, die auf maschinellem Lernen basieren, kann dies jedoch automatisch erfolgen.
Types of Machine Learning Systems
Die Unterscheidung zwischen überwachtem und unbeaufsichtigtem Lernen, Batch-Lernen und Offline-Lernen sowie instanzbasiertem und modellbasiertem Lernen.
Supervised/Unsupervised Learning ・ Beim überwachten Lernen enthalten die Trainingsdaten ein Etikett. • Eine typische überwachte Lernaufgabe ist die Klassifizierung, z. B. ein Spamfilter. -Eine andere Aufgabe ist die Vorhersage, zum Beispiel die Vorhersage des Preises eines Autos.
Methode ・ K Nachbarschaftsmethode · Lineare Regression ・ Logistische Rendite ・ Vektormaschine unterstützen ・ Entscheidungsbaum und zufälliger Wald ·neurales Netzwerk
Unsupervised learning
Methodenclustering ・ K-Durchschnittsmethode ・ DBSCAN ・ Hierarchisches Clustering
-Visualisierung zielt darauf ab, Daten in einem zweidimensionalen oder dreidimensionalen Raum zu zeichnen, und das Löschen von Dimensionen zielt darauf ab, die Daten zu vereinfachen, ohne viele Informationen zu reduzieren.
Technikvisualisierung und Dimensionsentfernung ・ Hauptkomponentenanalyse (PCA) ・ Kernel PCA ・ Lokal-lineare Einbettung (LLE) ・ T-verteilte stochastische Nachbareinbettung (t-SNE)
Methode Erkennung von Anomalien und Erkennung von Neuheiten ・ SVM einer Klasse ・ Isolationswald
Methodenassoziationsregel lernen ・ Aprili ・ Eclat
Semisupervised learning ・ Halbüberwachtes Lernen ist ein Algorithmus, der Daten mit wenigen Bezeichnungen und Daten ohne viele Bezeichnungen verarbeitet. Beispielsweise wird festgestellt, ob das Gesicht mit dem Gesicht auf einem anderen Foto in einem Foto identisch ist oder nicht.
Reinforcement Learning ・ Intensivierungslernen lernt Richtlinien (Definition des Verhaltens in einer bestimmten Situation), indem die Umgebung beobachtet, Aktionen ausgewählt, Aktionen ausgeführt und Belohnungen erhalten werden. Wenn ein Roboter beispielsweise das Laufen lernt, wird er in AlphaGO verwendet.
Batch and Online Learning Batch learning ・ Wer nicht neu lernen kann, wird als Offline-Lernen bezeichnet.
Online learning
Instance-Based Versus Model-Based Learning Instance-based learning ・ Sofortbasiertes Lernen ist die Verallgemeinerung neuer Beispiele durch Vergleich der erlernten Beispiele mit neuen Beispielen auf der Grundlage eines Ähnlichkeitsmaßes. Zum Beispiel Junk-Mail-Filterung. (Es schien unbeaufsichtigt zu lernen, aber es beinhaltet auch die K-Nachbarschaftsmethode)
Model-based learning
Main Challenges of Machine Learning Wichtige Punkte beim maschinellen Lernen ・ Kleinkinder können "Äpfel" erkennen, indem sie einfach mit den Fingern zeigen und "Äpfel" sagen, maschinelles Lernen jedoch nicht. 1000, 1.000.000 Daten sind erforderlich. -Wenn die Stichprobe selbst für einen sehr großen Datensatz schlecht ist, handelt es sich nicht um typische Daten. -Wenn die Trainingsdaten mit Fehlern, Ausreißern und Rauschen überflutet sind, ist es für das System schwierig, das Muster zu erkennen, sodass eine Vorverarbeitung erforderlich ist. ・ Feature Quantity Engineering ist wichtig ・ Überanpassung ist gefährlich. Um eine Überanpassung zu vermeiden, vereinfachen Sie das Modell, um es regelmäßig zu machen, und passen Sie die Hyperparameter an. ・ Unteranpassung ist das Gegenteil von Überanpassung. Ursache dafür, dass das Modell zu einfach ist.
Testing and Validating
Data Mismatch -Obwohl Daten leicht abgerufen werden können, stellen sie möglicherweise nicht die in der Produktion verwendeten Daten dar.
End-to-End Machine Learning Project
Veröffentlichter Datensatz — UC Irvine Machine Learning Repository — Kaggle datasets — Amazon’s AWS datasets • Meta portals (they list open data repositories): — http://dataportals.org/ — http://opendatamonitor.eu/ — http://quandl.com/ • Other pages listing many popular open data repositories: — Wikipedia’s list of Machine Learning datasets — Quora.com question — Datasets subreddit
Bewertungsfunktion der Regressionsanalyse · Quadratwurzel des mittleren Quadratfehlers (RMSE) ・ Durchschnittlicher absoluter Fehler (RMSE)
Data Snooping Bias Wenn Sie die Eigenschaften von Daten übersehen, werden Sie eine überangepasste Hypothese erstellen. Daher ist es besser, den Algorithmus zu wählen, der in Maßen verwendet wird.
Recommended Posts