[PYTHON] [Lesehinweis] Praktisches maschinelles Lernen mit Scikit-Learn, Keras und TensorFlow Kapitel 1

The Machine Learning Landscape

Why Use Machine Learning? Das Programmieren eines Spamfilters ist der nächste Schritt.

Beachten Sie, dass die Spam-E-Mail eine bestimmte Sprache verwendet. Der Name des Absenders und die Zusammensetzung der E-Mails enthalten ein Muster.
Schreiben Sie ein Programm, das solche Muster erkennt. Wenn eine bestimmte Anzahl von Mustern erkannt wird, kennzeichnen Sie es als Spam-Mail.
Führen Sie das Programm aus und wiederholen Sie die Schritte 1 und 2.

Ein Programm zum Erkennen von Spam-Mails ist schwierig zu warten, da es viele Regeln enthält. Wenn Sie jedoch einen Spam-Filter durch maschinelles Lernen erstellen, lässt sich das Programm leicht kurz halten. Und genauer.

Wenn der Spamer beim Schreiben eines Programms weiß, mit welchem Wort Spam erkannt wird, kann er den Spamfilter mit einem anderen Wort umgehen. Wenn Sie ein Programm schreiben, müssen Sie neue Regeln hinzufügen. Bei Spam-Filtern, die auf maschinellem Lernen basieren, kann dies jedoch automatisch erfolgen.

Types of Machine Learning Systems

Die Unterscheidung zwischen überwachtem und unbeaufsichtigtem Lernen, Batch-Lernen und Offline-Lernen sowie instanzbasiertem und modellbasiertem Lernen.

Supervised/Unsupervised Learning ・ Beim überwachten Lernen enthalten die Trainingsdaten ein Etikett. • Eine typische überwachte Lernaufgabe ist die Klassifizierung, z. B. ein Spamfilter. -Eine andere Aufgabe ist die Vorhersage, zum Beispiel die Vorhersage des Preises eines Autos.

Methode ・ K Nachbarschaftsmethode · Lineare Regression ・ Logistische Rendite ・ Vektormaschine unterstützen ・ Entscheidungsbaum und zufälliger Wald ·neurales Netzwerk

Unsupervised learning

Beim unbeaufsichtigten Lernen enthalten die Trainingsdaten keine Etiketten. ・ Mithilfe von Clustering können Sie herausfinden, welche Art von Gruppe die Personen haben, die den Blog besuchen.

Methodenclustering ・ K-Durchschnittsmethode ・ DBSCAN ・ Hierarchisches Clustering

-Visualisierung zielt darauf ab, Daten in einem zweidimensionalen oder dreidimensionalen Raum zu zeichnen, und das Löschen von Dimensionen zielt darauf ab, die Daten zu vereinfachen, ohne viele Informationen zu reduzieren.

Technikvisualisierung und Dimensionsentfernung ・ Hauptkomponentenanalyse (PCA) ・ Kernel PCA ・ Lokal-lineare Einbettung (LLE) ・ T-verteilte stochastische Nachbareinbettung (t-SNE)

Die Erkennung von Anomalien ist beispielsweise die Erkennung einer ungewöhnlichen Verwendung einer Kreditkarte und ähnelt der Erkennung von Neuheiten.

Methode Erkennung von Anomalien und Erkennung von Neuheiten ・ SVM einer Klasse ・ Isolationswald

Das Lernen von Assoziationsregeln zielt darauf ab, interessante Beziehungen aus einer großen Datenmenge zu finden. Zum Beispiel neigen Leute, die Barbecue-Sauce und Kartoffelchips kaufen, dazu, Steak zu kaufen.

Methodenassoziationsregel lernen ・ Aprili ・ Eclat

Semisupervised learning ・ Halbüberwachtes Lernen ist ein Algorithmus, der Daten mit wenigen Bezeichnungen und Daten ohne viele Bezeichnungen verarbeitet. Beispielsweise wird festgestellt, ob das Gesicht mit dem Gesicht auf einem anderen Foto in einem Foto identisch ist oder nicht.

Reinforcement Learning ・ Intensivierungslernen lernt Richtlinien (Definition des Verhaltens in einer bestimmten Situation), indem die Umgebung beobachtet, Aktionen ausgewählt, Aktionen ausgeführt und Belohnungen erhalten werden. Wenn ein Roboter beispielsweise das Laufen lernt, wird er in AlphaGO verwendet.

Batch and Online Learning Batch learning ・ Wer nicht neu lernen kann, wird als Offline-Lernen bezeichnet.

Online learning

Beim Online-Lernen kann das System regelmäßig trainiert werden, indem die Daten in der richtigen Reihenfolge angegeben werden. Online-Lernen wird verwendet, wenn der Datensatz groß ist. ・ Der Name Online-Lernen ist irreführend, daher ist es besser, ihn als inkrementelles Lernen zu betrachten. -Das Problem ist, dass die Leistung des Systems abnimmt, wenn einem System schlechte Daten angezeigt werden. Daher ist es notwendig, das System zu überwachen.

Instance-Based Versus Model-Based Learning Instance-based learning ・ Sofortbasiertes Lernen ist die Verallgemeinerung neuer Beispiele durch Vergleich der erlernten Beispiele mit neuen Beispielen auf der Grundlage eines Ähnlichkeitsmaßes. Zum Beispiel Junk-Mail-Filterung. (Es schien unbeaufsichtigt zu lernen, aber es beinhaltet auch die K-Nachbarschaftsmethode)

Model-based learning

Die Verwendung eines Modells zur Erstellung von Vorhersagen durch Erstellung eines Datenmodells wird als modellbasiertes Lernen bezeichnet. Führen Sie beispielsweise eine Regressionsanalyse der Lebenszufriedenheit und des BIP in jedem Land durch, basierend auf der Hypothese, dass Geld Menschen glücklich macht.

Main Challenges of Machine Learning Wichtige Punkte beim maschinellen Lernen ・ Kleinkinder können "Äpfel" erkennen, indem sie einfach mit den Fingern zeigen und "Äpfel" sagen, maschinelles Lernen jedoch nicht. 1000, 1.000.000 Daten sind erforderlich. -Wenn die Stichprobe selbst für einen sehr großen Datensatz schlecht ist, handelt es sich nicht um typische Daten. -Wenn die Trainingsdaten mit Fehlern, Ausreißern und Rauschen überflutet sind, ist es für das System schwierig, das Muster zu erkennen, sodass eine Vorverarbeitung erforderlich ist. ・ Feature Quantity Engineering ist wichtig ・ Überanpassung ist gefährlich. Um eine Überanpassung zu vermeiden, vereinfachen Sie das Modell, um es regelmäßig zu machen, und passen Sie die Hyperparameter an. ・ Unteranpassung ist das Gegenteil von Überanpassung. Ursache dafür, dass das Modell zu einfach ist.

Testing and Validating

Teilen Sie die Daten zu 80% für das Training und zu 20% für das Testen auf, um festzustellen, ob das Modell funktioniert. • Trainieren und vergleichen Sie beide Modelle, um herauszufinden, was zu tun ist, wenn Sie zwischen zwei Modellen ratlos sind (z. B. lineare Regression oder K-Nachbarschaftsmethode). ・ Was soll ich tun, um Hyperparameter regelmäßig zu machen? Es gibt eine Möglichkeit zu sagen, dass 100 Modelle 100 verschiedene Hyperparameter verwenden. ・ Holdout-Überprüfung

Data Mismatch -Obwohl Daten leicht abgerufen werden können, stellen sie möglicherweise nicht die in der Produktion verwendeten Daten dar.

End-to-End Machine Learning Project

Veröffentlichter Datensatz — UC Irvine Machine Learning Repository — Kaggle datasets — Amazon’s AWS datasets • Meta portals (they list open data repositories): — http://dataportals.org/ — http://opendatamonitor.eu/ — http://quandl.com/ • Other pages listing many popular open data repositories: — Wikipedia’s list of Machine Learning datasets — Quora.com question — Datasets subreddit

Bewertungsfunktion der Regressionsanalyse · Quadratwurzel des mittleren Quadratfehlers (RMSE) ・ Durchschnittlicher absoluter Fehler (RMSE)

Data Snooping Bias Wenn Sie die Eigenschaften von Daten übersehen, werden Sie eine überangepasste Hypothese erstellen. Daher ist es besser, den Algorithmus zu wählen, der in Maßen verwendet wird.