[PYTHON] Lernrekord Nr. 10 (14. Tag)

Lernrekord (14. Tag)

Beginn des Studiums: Samstag, 7. Dezember

Unterrichtsmaterialien usw.: ・ Miyuki Oshige "Details! Python3 Introductory Note ”(Sotech, 2017): 19.12. (Donnerstag) Abgeschlossen ・ Progate Python-Kurs (insgesamt 5 Kurse): Endet am Samstag, den 21. Dezember ・ ** Andreas C. Müller, Sarah Guido "(japanischer Titel) Maschinelles Lernen ab Python" (O'Reilly Japan, 2017) **: Abgeschlossen am Samstag, 23. Dezember

Kapitel 3 Unüberwachtes Lernen und Vorverarbeiten

Unüberwachte Transformation: Erstellt eine verständlichere Datendarstellung für Menschen und andere Algorithmen für maschinelles Lernen. Am häufigsten ist die Dimensionsreduzierung. Oder Themenextraktion aus einer Reihe von Dokumentdaten. Letzteres ist nützlich für die Analyse von Themen in sozialen Medien. • Clustering-Algorithmen: Teilen Sie Daten in Gruppen ähnlicher Elemente auf. Es ist ein Mechanismus zum Trennen von Fotos auf SNS-Websites nach Personen anwendbar. ・ Nur so kann die Bedeutung von Daten ermittelt werden, wenn keine Lehrerinformationen vorhanden sind.

Schwierigkeiten beim Lernen ohne Lehrer

・ Da unbeaufsichtigtes Lernen Daten enthält, die keine Etiketteninformationen enthalten, müssen Menschen die Ergebnisse häufig bestätigen, um die Ergebnisse bewerten zu können. -Daher wird es oft explorativ verwendet, um die Daten besser zu verstehen.

Vorverarbeitung und Skalenkonvertierung

・ Neuronale Netze und SVMs für überwachtes Lernen reagieren sehr empfindlich auf Skalenumwandlung. -Standard Scaler: Konvertiert so, dass der Durchschnitt der Features 0 und die Varianz 1 beträgt. Robuster Skalierer: Verwendet Median und Quadranten anstelle der mittleren Varianz. Ignoriere den Outliner. -MinMax Scaler: Konvertiert Daten so, dass sie zwischen 0 und 1 liegen. -Normalizer: Projiziert Datenpunkte auf einen Kreis mit einem Radius von 1. Es wird verwendet, wenn nur die Richtung oder der Winkel und nicht die Länge des Merkmalsvektors von Bedeutung sind. -Konvertieren Sie den Testsatz und den Trainingssatz auf die gleiche Weise. ・ Lernen und berechnen Sie die Ergebnisse nach der Vorverarbeitung.

Dimensionsdrama, Merkmalsextraktion, Varietélernen

・ Motivation: Visualisierung, Datenkomprimierung, Ermittlung von Ausdrücken, die für die nachfolgende Verarbeitung geeignet sind usw.

Hauptkomponentenanalyse (PCA)

Der am häufigsten verwendete Algorithmus für alle oben genannten Motive ・ Eine Methode zum Drehen von Merkmalsgrößen, damit sie statistisch nicht miteinander in Beziehung stehen. ・ Setzen Sie die Verteilung mit Standard Scaler → PCA anwenden auf 1 ・ Erläuterung der Merkmalsextraktion mit beschrifteten Flächen in freier Wildbahn

Nicht negative Matrixfaktorisierung (NMF)

・ Unüberwachtes Lernen zum Extrahieren nützlicher Funktionen ähnlich wie bei PCA Diese Methode zum Zerlegen von Daten in nicht negativ gewichtete Summen ist besonders effektiv für Daten, die durch Überlagerung von Daten aus mehreren unabhängigen Quellen erstellt werden, z. B. Sprachdaten, die von mehreren Personen gesprochen werden.

t-SNE-Algorithmus

-Es wird als vielfältige Lernalgorithmen bezeichnet.

Clustering

k-bedeutet Clustering

Der einfachste und am weitesten verbreitete Clustering-Algorithmus -Finden Sie einen Cluster-Schwerpunkt, der einen Bereich mit Daten darstellt, und weisen Sie Datenpunkte zu. Setzen Sie dann den Schwerpunkt jedes Clusters weiter auf den Durchschnitt der Datenpunkte. Dies wird wiederholt und der Algorithmus endet, wenn keine Änderung vorliegt.

Agglomerative Clusterbildung

DBSCAN (Spatial Clustering mit Rauschen basierend auf der Dichte)

・ Abkürzung für dichtebasierte räumliche Clusterbildung von Anwendungen mit Rauschen -Finden Sie Punkte in Bereichen mit hoher Dichte im Feature-Space.

Kapitel 4 Datendarstellung und Feature Engineering

One-Hot-Codierung

Binning, Diskretisierung

Interaktionsmerkmal und Polynommerkmal

-Effektiv für lineare Modelle, kombiniert Originalmerkmale.

Kapitel 5 Modellbewertung und -verbesserung

-Kreuzvalidierung: Die Daten werden für jedes k (ungefähr 5-10) gefaltet und als Trainingssatz und Testsatz verwendet. Es gibt Shuffle-Divisionen und gruppierte Divisionen. • Rastersuche: Überprüfen Sie alle Parameterkombinationen. ・ Wenn wir tatsächlich maschinelles Lernen verwenden, sind wir nicht nur an genauen Vorhersagen interessiert, sondern verwenden diese Vorhersagen häufig bei größeren Entscheidungen. Es ist notwendig, das Modell im Standard mit einem anderen Modell zu vergleichen und die geschäftlichen Auswirkungen sorgfältig zu berücksichtigen. -Threshold: Ein Schwellenwert.

Kapitel 6 Algorithmuskette und Pipeline

Kapitel 7 Verarbeitung von Textdaten

・ Verarbeitung natürlicher Sprache (NLP), Informationsabruf (IR) -Der Datensatz in der Textanalyse wird als Korpus bezeichnet, und die einzelnen Datenpunkte, die als ein Text ausgedrückt werden, werden als Dokument bezeichnet.


"(Japanischer Titel) Maschinelles Lernen beginnend mit Python" lesen

Recommended Posts

Lernrekord Nr. 21 (25. Tag)
Lernrekord Nr. 10 (14. Tag)
Lernrekord Nr. 24 (28. Tag)
Lernrekord Nr. 23 (27. Tag)
Lernrekord Nr. 25 (29. Tag)
Lernrekord Nr. 26 (30. Tag)
Lernrekord Nr. 20 (24. Tag)
Lernrekord Nr. 14 (18. Tag) Kaggle4
Lernrekord Nr. 15 (19. Tag) Kaggle5
Lernrekord 4 (8. Tag)
Lernrekord 9 (13. Tag)
Lernrekord 3 (7. Tag)
Lernrekord 5 (9. Tag)
Lernrekord 6 (10. Tag)
Lernrekord 8 (12. Tag)
Lernrekord 1 (4. Tag)
Lernrekord 7 (11. Tag)
Lernrekord 2 (6. Tag)
Lernrekord 16 (20. Tag)
Lernrekord 22 (26. Tag)
Lernrekord 13 (17. Tag) Kaggle3
Lernrekord Nr. 17 (21. Tag)
Lernrekord 12 (16. Tag) Kaggle2
Lernrekord Nr. 18 (22. Tag)
Lernrekord Nr. 19 (23. Tag)
Lernrekord Nr. 29 (33. Tag)
Lernrekord Nr. 28 (32. Tag)
Lernrekord Nr. 27 (31. Tag)
Lernrekord 11 (15. Tag) Kaggle-Teilnahme
Programmieren des Lernprotokolls 2. Tag
Lernaufzeichnung
Lernrekord Nr. 3
Lernrekord Nr. 1
Lernrekord Nr. 2
Python-Lerntag 4
Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup
Lernaufzeichnung (4. Tag) #Wie man den absoluten Pfad vom relativen Pfad erhält
Bisherige Lernbilanz
Linux-Lernprotokoll ① Planen
Lernaufzeichnung (3. Tag) # CSS-Selektorbeschreibungsmethode #Scraping with BeautifulSoup
<Kurs> Tiefes Lernen: Tag 1 NN
Lerndatensatz (6. Tag) #Set-Typ #Dictionary-Typ #Mutuelle Konvertierung des Listen-Taple-Sets #ndarray-Typ #Pandas (DataFrame-Typ)
Themen> Deep Learning: Tag 3 RNN
Studiere gründlich Deep Learning [DW Tag 0]