Python Machine Learning Programming Kapitel 1 bietet Computern die Möglichkeit, aus der Datenzusammenfassung zu lernen
Einführung
--Maschinelles Lernen
- Anwendung und Wissenschaft von Algorithmen zum Verständnis der Bedeutung von Daten
- Ein Feld voller Aufregung in der Informatik
――Dieses Kapitel befasst sich mit den Hauptkonzepten des maschinellen Lernens und ihren Typen.
- Zu behandelnde Inhalte
--Allgemeines Konzept
――Drei Arten des Lernens und Grundbegriffe
--Komponenten für das Systemdesign
- Python-Setup
--Beispielcode
1.1 "Intelligente Maschine", die Daten in Wissen umwandelt
- Große Datenmenge
- Strukturierte Daten
- Unstrukturierte Daten
- Anwendungsbeispiele im täglichen Leben
- Mail-Spam-Filter
- Zeichen- / Spracherkennungssoftware
- Suchmaschine
- Wettbewerb mit dem Schwertkämpfer
1.2 3 Arten des maschinellen Lernens
- Lernen mit einem Lehrer
- Lernen ohne Lehrer
- Stärkung des Lernens
1.3 Zukunftsprognose durch "Lernen mit dem Lehrer"
- Ziel
- Lernen eines Modells aus Trainingsdaten, damit unbekannte und zukünftige Daten vorhergesagt werden können
- Gelehrte Daten
- Ein Satz von Samples, für die das gewünschte Ausgangssignal bereits bekannt ist
- Wenn es einen E-Mail-Spam-Filter gibt, ist es "Spam" oder "kein Spam"?
--Beispiel
--Kategorie: Hat diskrete Wertklassenbeschriftungen
--Return: Das Ausgangssignal hat einen kontinuierlichen Wert
1.3.1 Klassifizierung zur Vorhersage von Klassenbezeichnungen
- Zweck
- Vorhersage von Klassenbezeichnungen für neue Instanzen basierend auf früheren Beobachtungen
- Klassenetiketten sind diskrete und nicht in der richtigen Reihenfolge befindliche Werte (Zugehörigkeit)
- Zweiwertige Klassifizierung
- Mail-Spam-Filter
- Klassifizierung mehrerer Klassen
- Handschriftliche Zeichenerkennung
1.3.2 Regression zur Vorhersage kontinuierlicher Werte
- Zweck
- Untersuchen Sie anhand mehrerer Prädiktoren und kontinuierlicher Antwortvariablen die Beziehung zwischen diesen Variablen, damit Sie das Ergebnis vorhersagen können.
--Lineare Regression
1.4 Dialogprobleme durch verbessertes Lernen lösen
- Ziel
- Entwicklung eines Systems (Agenten), das die Leistung basierend auf der Interaktion mit der Umgebung verbessert
- Kann als ein Bereich angesehen werden, der mit überwachtem Lernen zusammenhängt
- Informationen über den aktuellen Zustand der Umgebung enthalten auch Belohnungssignale
――Dieses Feedback quantifiziert die Leistung der Aktion, die mit der Funktion "Belohnung" gemessen wird, nicht mit der richtigen Bezeichnung oder dem richtigen Wert.
- Maximierung der Belohnung
- Test- und Fehleransatz
- Verwenden Sie kein Modell
--Cram Schulplanung
--Verwenden Sie das Modell
--Beispiel
- Schachmotor
- Belohnung gewinnt oder verliert
1.5 Entdeckung verborgener Strukturen durch "Lernen ohne Lehrer"
- Lernen ohne Lehrer
- Umgang mit unbeschrifteten Daten oder Daten mit unbekannter Struktur
1.5.1 Gruppenerkennung durch Clustering
- Clustering (Klassifizierung ohne Lehrer)
- Explorative Datenanalyse, die eine große Menge an Informationen als sinnvolle Gruppe strukturieren kann
- Explorative Datenanalyse: Berechnen Sie Datenstatistiken und visualisieren Sie die Verteilung, um exploratives Wissen über die Daten abzuleiten.
--Beispiel
- Entdeckung von Kundengruppen im Marketing
1.5.2 Dimensionsreduzierung für die Datenkomprimierung
- (Kein Lehrer) Dimensionsreduktion
--Komprimieren Sie die Daten in unterdimensionale Unterräume, während die meisten relevanten Informationen erhalten bleiben
- Zweck
- Ich möchte vermeiden, eine große Anzahl von Werten zu verarbeiten, da der Speicherplatz und die Rechenleistung begrenzt sind.
--Datenvisualisierung
- Methodenbeispiel
--Unüberwachte Dimensionsreduktion
- Hauptkomponentenanalyse
- Kernel-Hauptkomponentenanalyse
- Mit Lehrer Dimensionsreduktion
- Diskriminierungsanalyse
1.6 Grundbegriffe und Notation
- Stichprobe
- Funktionswert
--Ziel
- Lineare Algebra
- Vektor
- Warteschlange
1.7 Fahrplan zum Aufbau eines maschinellen Lernsystems
- Allgemeiner Workflow bei Verwendung von maschinellem Lernen zur prädiktiven Modellierung
- Vorbehandlung
- Lernen
- Bewertung
- Prognose
1.8 Vorverarbeitung: Datenformung
- Vorverarbeitung
- Konvertieren Sie in das Format, das zur Optimierung der Leistung von Algorithmen für maschinelles Lernen erforderlich ist
- Gleiche Skala ausgewählter Funktionen
- Konvertieren Sie die Merkmalsmenge in den Bereich 0,1
- Auf Standardnormalverteilung mit Mittelwert 0 und Varianz 1 umstellen
- Abhängig von den extrahierten Merkmalen besteht ein hohes Maß an Korrelation und ständiger Duplizierung
- Dimensionsreduzierung
--Überprüfen Sie, ob es auf neue Datensätze angewendet (verallgemeinert) werden kann
- Teilen Sie den Datensatz in einen Trainingsdatensatz und einen Testdatensatz auf
1.8.1 Vorausschauendes Modelltraining und Auswahl
- Der Vergleich mehrerer Algorithmen ist wichtig, um ein gutes Modell zu trainieren und auszuwählen
- Indikator zur Leistungsmessung
- Richtige Antwortrate
- Schätzung der Modellverallgemeinerungsleistung
- Teilen Sie den Trainingsdatensatz für Training und Validierung sowie für die Kreuzvalidierung auf
- Optimierung der Hyperparameter
1.8.2 Modellbewertung und Vorhersage unbekannter Instanzen
- Bewertung des Generalisierungsfehlers
- Wenden Sie das Modell auf den Testdatensatz an und überprüfen Sie, wie gut es mit unbekannten Daten funktioniert
- Die Parameter des obigen Verfahrens wie Merkmalsskalierung und Dimensionsreduzierung werden nur im Trainingsdatensatz abgerufen.
1.9 Verwenden Sie Python zum maschinellen Lernen
1.9.1 Installation des Python-Pakets
- Numpy
- Mehrdimensionales Array
- Pandas
- Höheres Datenmanipulationswerkzeug
- matplotlib
--Visualisierung numerischer Daten
- scikit-learn
--Maschinelles Lernen
Nachschlagewerk
Vielen Dank.