Python Machine Learning Programming> Schlüsselwörter
Python Machine Learning Programming von Sebastian Raschka et al.
Ich habe angefangen zu lesen (29.10.2016)
Nimm nur Schlüsselwörter auf.
Kapitel 1 gibt Computern die Möglichkeit, aus Daten zu lernen
- Überwachtes Lernen (p2)
- Unüberwachtes Lernen (p2)
- Verstärkung lernen (p2)
- Gelehrtes Lernen, Regression, Output: kontinuierlicher Wert (p3)
- Negative Klasse (S. 4)
- Positive Klasse (p4)
- Entscheidungsgrenze (p4)
- Prädiktorvariable (p5)
- Antwortvariable (p5)
- Erklärende Variable (p5)
- Ergebnisvariable (Ergebnis) (p5)
- Verstärkung lernen, Ziel (S. 6)
- Umwelt (S. 6)
- Agent (S. 6)
- Belohnung (S. 6)
- Clustering (S. 7)
- Dimensionsreduzierung (p8)
- dimensionality reduction
- dimension reduction
- Unbeaufsichtigte Dimensionsreduzierung, Merkmalsmenge, Vorverarbeitung (S. 8)
- Iris-Datensatz (S. 9)
- $ X \ in R ^ {150 * 4} $: Menge reeller Zahlen, 150x4-Matrix (p9)
- $ x ^ i $: i-te Trainingsprobe (S. 10)
- $ x_j $: j-te Dimension des Trainingsdatensatzes (S. 10)
- $ x $: Vektor (unterer Fettdruck) (S. 10)
- $ X $: Matrix (Fettdruck in Großbuchstaben) (S. 10)
- $ \ it {x} $: Ein Element des Vektors oder der Matrix (schräg) (p10)
- Vorausschauende Modellierung (S. 10)
--Vorverarbeitung ist am meisten (S. 11)
―― Abhängig von der extrahierten Merkmalsmenge kann aufgrund der hohen Korrelation eine gewisse Überlappung beobachtet werden. In einem solchen Fall (S. 11)
- David Wolpert, "No Free Ranch Theorem" (S. 12)
--Um dieses Problem zu beheben (S. 12)
- Leistung der Modellverallgemeinerung (S. 12)
- Hyperparameteroptimierung (S. 12)
- Generalisierungsfehler (S. 13)
--NumPy, SciPy, Fortran, C, Implementierung (S. 13)
- Unterschiede zwischen Python 3.4 und Python 2.7, Zusammenfassung (S. 13)
- pandas (p14)
- matplotlib (p14)
Kapitel 2 Klassifizierungsprobleme - Training von Algorithmen für maschinelles Lernen
- ADALINE (Adaptive Linear Neuron) (p17)
- scikit-learn (p17)
- MCP-Neuron (McCulloch-Pitts-Neuron) (S. 17)
- Warren McCulloch
- Walter Pitts
- Frank Rosenblatt, Perceptron, Lernregel, Algorithmus (S. 18)
- Zwei Klassen (S. 18)
--1 (positive Klasse)
--- 1 (negative Klasse)
- Gesamteingabe (Nettoeingabe) (S. 18)
- $ \ theta $: Schwelle (S. 19)
- Einheitsschrittfunktion (S. 19)
--Heaviside Schrittfunktion
- $ \ hat {y} $: Ausgabewert (p21)
- $ \ eta $: Lernrate (Konstante größer als 0,0 und kleiner als 1,0) (p21)
--Fit-Methode (S. 24)
--Vorhersagemethode (S. 24)
- Unterstrich (zB
self.w_
): Gemäß Konvention ist das xxx-Attribut xxx (p24)
- Rückblick (S. 24)
- http://wiki.scipy.org/Tentative_NumPy_Tutorial
- http://pandas.pydata.org/pandas-docs/stable/tutorials.html
- http://matplotlib.org/users/beginner.html
for _ in range(self.n_iter):
(p24)
- (Ergänzung) Es scheint geschrieben zu sein, wenn keine Schleifenvariablen verwendet werden
- One-vs-All: OvA-Methode (S. 27)
--UCI Machine Learning Repository, Iris-Datensatz (S. 27)
plt, Streuung (weggelassen, weil es lang ist)
(p28)
markers = ('s', 'x' , 'o', '^', 'V')
(p30)
--Numpys Meshgrid-Funktion (S. 31)
--Perceptrons Lernregeln konvergieren (S. 32)
- Lineare Hyperebene (S. 32)
- ADALINE (ADAptive LInear NEuron) (p32)
- Bernard Widrow, Tedd Hoff
- Kann als xxx angesehen werden
- Der Hauptunterschied ist (p32)
--ADALINE Lernregeln
- Rosenblatts Perceptron
- Gleiche Funktion (p32)
- Widrow-Hoff-Regel (S. 32)
--Quantizer (S. 32)
- Objektive Funktion (S. 33)
- Kostenfunktion (S. 33)
--ADALINE, Kostenfunktion J (S. 33)
- Summe der quadratischen Fehler (SSE) (S. 33)
- Der Hauptvorteil der linearen Aktivierungsfunktion mit kontinuierlichem Wert ist (p33).
- Ein weiteres Merkmal dieser Kostenfunktion ist (S. 33)
- Einheitsschrittfunktion, Definitionsformel (p33)
- Partieller Differentialkoeffizient der Kostenfunktion der Summe der quadratischen Fehler für das j-te Gewicht, Gleichungstransformation (p34)
- Gradientenabstiegsmethode "Batch" (S. 35)
self.cost_ = []
(p35)
- (Ergänzung) ~~ Diese Bedeutung wurde nicht gelernt ~~
- (Ergänzung) Ich verstehe, dass ich eine leere Liste machen werde
--
self.w_ [1:] + = (weggelassen)
(p36)
- (Ergänzung) Verarbeitung nach Index 1
- Der Wert des Hyperparameters, der die Leistung des Klassifizierungsmodells optimiert, ist (S. 37).
- Zwei Arten von Problemen (S. 37)
- Skalierungsmethode, Standardisierung (S. 38)
――Was sind seine Eigenschaften?
- Gleichung (S. 39)
--Numpys mittlere Methode, Standardmethode (S. 39)
--Stochastischer Gradientenabstieg (S. 40)
--Iterativer Gradientenabstieg (S. 40)
- Online-Gradientenabstieg (S. 40)
- Die probabilistische Gradientenabstiegsmethode kann als xxx (p40) angesehen werden.
- Mischen Sie die Trainingsdaten, um eine Zirkulation zu vermeiden (S. 41).
- Adaptive Lernrate (S. 41)
- Ein weiterer Vorteil der stochastischen Gradientenabstiegsmethode (S. 41)
- Online-Lernen (S. 41)
- Dies ist besonders nützlich (S. 41)
--Auch du kannst xxx (p41)
- Da es xxx sein kann, kann die Berechnungseffizienz des Lernalgorithmus weiter verbessert werden (S. 41).
- Möglichkeit, Trainingsdaten vor jeder Epoche zu mischen (S. 41)
- Die im Adaline SGD-Klassifikator verwendete _shuffle-Methode erzeugt xxx (p42)
Kapitel 3 Klassifizierungsprobleme - Verwenden der Machine Learning Library scikit-learn
- Schulung von Algorithmen für maschinelles Lernen, 5 Hauptschritte (S. 48)
- (Ergänzung) Ist es eine Fehlübersetzung von "Algorithmus-Training"?
- Die Scikit-Lernbibliothek hat sowohl xxx als auch xxx (S. 48).
np.unique(y)
(p49)
--Verwenden der StandardScaler-Klasse des Vorverarbeitungsmoduls von scikit-learn (S. 50)
- Rufen Sie die Transformationsmethode auf (p50)
- Seien wir vorsichtig. Dies ist (p50)
- Dies kann xxx sein, da die Eins-zu-Viele-Methode (OvR) verwendet wird (p50).
- Verwendet den Parameter random_state, um xxx (p51) zuzulassen.
- Modellgenauigkeitsrate, Fehlerklassifizierungsrate (p51)
- Überlernen bedeutet xxx (p51)
- Beispiel für die Verwendung eines Numpy-Mesh-Gitters (S. 52)
- Für Datensätze, die keine perfekte lineare Trennung zulassen (S. 53)
- Auch wenn die Klassen nicht vollständig linear getrennt werden können (p53)
--Perceptrons Lernregeln, das größte Problem (S. 54)
- Logistische Regression (S. 54)
--Logistische Regression, hohe Leistung wird demonstriert (S. 54)
- Quotenverhältnis, Quotenverhältnis (p54)
- $ p $: Repräsentiert die Wahrscheinlichkeit eines positiven Ereignisses (p54)
- (Ergänzung) TODO: Definition von "positivem Ereignis". Untersuchen Sie andere als die folgende Erklärung
- Das positive Ereignis ist (p54)
--Logit-Funktion, Ausdruck (p54)
--Dialogquoten, Gleichung (p54)
- Logistikfunktion, Ausdruck (S. 55)
- Sigmoidfunktion (Sigmoid) (S. 55)
- Implementierung von ADALINE, Gleichheitsfunktion (S. 56)
- Ausgabe und Interpretation der Sigmoidfunktion (S. 57)
- Beleuchtbarkeit L (Yudo), Definition, Gleichung $ L (w) $ (p58)
- Tatsächlich ist xxx einfach (S. 58)
--Log Likelihood Funktion, Gleichung $ l (w) $ (p58)
- Das Anwenden logarithmischer Funktionen verringert die Wahrscheinlichkeit von xxx (p58)
- Kostenfunktion J (S. 58)
--Wenn Sie die logistische Regression unabhängig implementieren möchten (S. 59)
--sklearn.linear_model.LogisticRegression class (p59)
- "Was ist dieser mysteriöse Parameter C?" (P60)
--predict_proba Methode (p61)
- Die teilweise Differenzierung der logarithmischen Wahrscheinlichkeitsfunktion in Bezug auf das j-te Gewicht, Gleichung (p61)
- Die partielle Ableitung der Sigmoidfunktion (p61)
- "Hohe Varianz" (S. 62)
- Unteranpassung (S. 63)
- (Ergänzung) Ist es 7 von 9?
- "High Bias" (S. 63)
--Was ist Varianz (S. 63)
--Wenn die Varianz groß ist (p63)
- Was ist dagegen Voreingenommenheit (S. 63)?
- Als eine der Möglichkeiten, den Kompromiss zwischen Verzerrung und Varianz zu finden (p64)
- Regularisierung (S. 64)
- Kollinearität (S. 64)
--Was ist Co-Linearität? (P64)
- Die Idee hinter der Regularisierung ist (p64)
- Häufigste Regularisierung (S. 64)
- L2-Regularisierung (S. 64)
- L2 Schrumpfung
- Gewichtsverfall
- (Ergänzung) @ Deep Learning von Takayuki Okaya
- $ \ lambda $: Regularisierungsparameter (p64)
- Der Generalisierungsfehler des Modells wird wie folgt zerlegt (p64)
--Bias quantifiziert xxx (p64)
- Für die Regularisierung ist nur xxx erforderlich (S. 65).
- $ C $: Implementiert in der LogisticRegression-Klasse von scikit-learn (S. 65)
- Direkt verwandt mit dem Regularisierungsparameter $ \ lambda $, Ausdruck
- Inverser Regularisierungsparameter $ C $, um (p65) zu reduzieren
--Um die Stärke der Regularisierung zu visualisieren (S. 65)
- Support Vector Machine (SVM) (S. 66)
- (Ergänzung) Keine Trennung der variablen Methode
- Kann als SVM betrachtet werden, (S. 66)
- SVM, Zweck der Optimierung (S. 66)
- SVM, Margin, Definition (S. 66)
- Superebene (Entscheidungsgrenze) (S. 66)
- Unterstützungsvektor, illustriert (S. 67)
- Modelle mit kleinen Rändern fallen tendenziell in xxx (S. 67)
- Positive und negative Hyperebenen (S. 67)
- Superebene, Gleichung (p67)
- Vektorlänge, Gleichung (p67)
- Linke Seite des Ausdrucks, Interpretation (S. 68)
- Zwei Gleichungen (3.4.6) sind gezeigt (S. 68)
- Einfach ausgedrückt, Gleichung (3.4.7) (S. 68)
--xxx ist einfach (S. 68)
- Sekundäre Planungsmethode (S. 68)
- Von Vladimir Vapnik
- Das Papier von Christopher J. C. Burges
--Slack Variable $ \ xi $ (p68)
- 1995, Vladimir Vapnik
- Weiche Randklassifizierung
--Slack Variable, weil es benötigt wurde (p68)
-Wenn der Wert von $ C $ groß ist, bedeutet dies xxx, was xxx bedeutet (p69)
- $ C $, kann angepasst werden (S. 69)
-Wenn der Wert von $ \ lambda $ groß wird (p69)
--Logistische Regression versucht, xxx zu maximieren (p70)
- Daher wird es anfälliger für xxx
--scikit-learn, LogsiticRegression-Klasse, LIBLINEAR-Bibliothek (S. 71)
--scikit-learn, SVM-Training, SVC-Klasse, LIBSVM-Bibliothek (S. 71)
- Computerspeicher (S. 71)
--SGDClassifier-Klasse, alternative Implementierung (S. 71)
- SVM, Popularität, Grund (S. 71)
- Kernel-SVM (S. 71)
X_xor = np.random.randn(200, 2)
(p72)
- Projektionsfunktion $ φ (・) $, hohe Dimension, lineare Trennung (p73)
- Separate Klassen (S. 73)
- Projektionsmethode, Problem (S. 74)
- Kernel-Trick (S. 74)
- (Ergänzung) Zugehöriger Artikel
- Radial Basis Function Kernel (S. 74)
- (Ergänzung) Bezieht es sich auf Vector Spherical Harmonics?
- (Ergänzung) Erweitert in Vector Spherical Harmonics
- $ \ gamma $: Ausdruck, zu optimierende Hyperparameter (p74)
- Kernel, Interpretation (S. 74)
- Kernel, Minuszeichen (S. 74)
-1 (genau die gleiche Probe) (S. 74)
--0 (eine völlig andere Stichprobe) (S. 74)
- $ \ gamma $: Kernelfunktion, Cutoff (p75)
- (Ergänzung) Beachten Sie die Grenzfrequenz, die im Stromkreis angezeigt wird
- (Ergänzung) Artikel, 3dB
- Entscheidungsbaumklassifikator (S. 77)
- Interpretierbarkeit (S. 77)
- Kann als Entscheidungsbaum betrachtet werden, xxx (p77)
- Entscheidungsbaum, Informationsgewinn (S. 78)
- Informationsgewinn (Abnahme von xxx) (S. 78)
- Wurzel (Wurzel) (S. 78)
- Blatt (S. 78)
--Um Knoten durch Merkmale mit dem höchsten Informationsgewinn zu teilen (S. 78)
- Informationsgewinn, Gleichung $ IG (D_p, f) $ (p78)
- $ f $: Zu teilende Funktionen (S. 78)
- $ D_p $: Übergeordneter Datensatz (S. 78)
- $ D_j $: Datensatz des j-ten untergeordneten Knotens (p78)
- $ I $: Unrein (S. 79)
- $ N_p $: Gesamtzahl der übergeordneten Beispielknoten (p79)
- $ N_j $: Anzahl der Stichproben des j-ten untergeordneten Knotens (p79)
--Der Informationsgewinn beträgt also nur xxx (p79)
- D_{left}, D_{right} (p79)
- Dichotomie, unreiner Index oder Teilungszustand (S. 79)
- Gin-Verunreinigungen (S. 79)
--Entropie (S. 79)
- (Ergänzung) Rich Flow von Grisha
- Klassifizierungsfehler
- $ I_E $: Klassifizierungsfehler (S. 79)
- $ I_H $: (Ergänzung) Ich weiß nicht, wie die Formel lautet (S. 79)
- p(i=1|t), p(i=0|t) (p79)
――Die Entropie ist 1 in der binären Klassifikation (p79)
- Die maximale Reinheit von Gini beträgt (S. 79)
- Ein weiterer Indikator für Unreinheit, Klassifizierungsfehler (S. 80)
-Gleichung mit $ I_E $: p (p80)
- $ D_p $: Sehen wir uns den Datensatz des übergeordneten Knotens an (S. 80).
- Informationsgewinn (Unterschied zwischen "Reinheit des übergeordneten Knotens" und "Gesamtreinheit des untergeordneten Knotens") (S. 80)
- (Ergänzung) Danach werden ungefähr 15 verwandte Ausdrücke fortgesetzt
- Um die oben genannten drei Arten von unreinen Zuständen visuell vergleichen zu können (S. 82)
- Fügen Sie xxx hinzu, um zu bestätigen, dass Gini Impure zwischen Entropie und Klassifizierungsfehler positioniert ist (S. 82).
- "# Schleifenverarbeitung für Entropie (2 Typen), Gini-Reinheit und Klassifizierungsfehler" (S. 83)
- Entscheidungsbaum, Überlernen (S. 84)
- Charakteristische Skalierung, Bestimmungsbaum (S. 84)
- Als etwas Besonderes für den Entscheidungsbaum (S. 84)
--scikit-learn, Entscheidungsbaum nach dem Training, Export (S. 85)
- GraphViz (p85)
- Zufällige Gesamtstruktur, Funktionen (S. 86)
- Zufälliger Wald, intuitiv (S. 86)
- Die Idee hinter dem Lernen von Ensembles (S. 86)
- Schwacher Lernalgorithmus, starker Lernalgorithmus (S. 86)
- Generalisierungsfehler, Übertraining (S. 86)
- Zufälliger Waldalgorithmus, 4 Schritte (S. 86)
- Nicht wiederherstellende Extraktion (S. 87)
- Mehrheitsentscheidung, Klassenbezeichnung zuweisen (S. 87)
- Zufälliger Wald, Vorteile (S. 87)
- Keine Notwendigkeit für xxx (S. 87)
――Kann optimiert werden (S. 87)
--Bootstrap-Stichprobengröße (S. 87)
--scikit-learn, RandomForestClassifier-Implementierung (S. 87)
- $ d $: Anzahl der Funktionen für jede Abteilung (S. 87)
- Gesamtzahl der Funktionen im Trainingsdatensatz (S. 87)
- d\sqrt{m} (p87)
- $ m $: Anzahl der Funktionen im Trainingsdatensatz (S. 87)
--Dies ermöglicht Ihnen xxx (p88)
--k-nächster Nachbarklassifikator (S. 89)
- KNN
--KNN, fauler Lernender (S. 89)
- Was heißt "Faulheit" (S. 89)
- Parametrisches Modell, nicht parametrisches Modell (S. 89)
- Perceptron, logistische Regression, lineare SVM (S. 89)
- Entscheidungsbaum / Zufällige Gesamtstruktur, Kernel-SVM (S. 89)
- Instanzbasiertes Lernen (S. 89)
- Erinnern Sie sich an den Trainingsdatensatz (S. 89)
- Die Hauptvorteile des speicherbasierten Ansatzes (S. 90)
--Wenn die Stimmenmehrheit gleich ist (S. 91)
- Bei der Implementierung des KNN-Algorithmus von scikit-learn
- Europäischer Abstand (S. 91)
- Minkowski-Abstand (S. 91)
- Manhattan Entfernung (S. 91)
- Minkowski-Abstand, Gleichung (p91)
- Dimensionaler Fluch (S. 92)
--Dimensionaler Fluch, der das xxx-Phänomen darstellt (S. 92)
--Mit xxx können Sie dem Fluch der Dimension entkommen (S. 92).
Kapitel 4 Datenvorverarbeitung - Aufbau eines besseren Trainingssatzes
- Fehlender Wert (S. 93)
- Leer in der Datentabelle (S. 93)
- NaN (Not a Number) (p93)
- Platzhalterzeichen (vorläufig) (S. 93)
- Fehlende Werte ignorieren (S. 93)
--
# Wenn Sie Python 2.7 verwenden, müssen Sie den String in Unicode konvertieren
(p94)
--StringIO-Funktion bei Verwendung (S. 94)
--Mit der isnull-Methode (S. 94)
- Datenvorverarbeitung, Pandas DataFrame-Klasse (S. 95)
--DataFrame-Objekt, Werteattribut (S. 95)
df.dropna()
(p95)
--Wenn Sie das Achsenargument auf 1 setzen (S. 95)
df.dropna(how='all')
(p95)
df.dropna(thresh=4)
(p95)
df.dropna(subset=['C'])
(p95)
- Löschen Sie fehlende Daten, Problem (S. 96)
--Interpolationstechnik (S. 96)
- Mittlere Imputation (S. 96)
- (Ergänzung) Ist "Ergänzung" nicht ein Fehler der "Interpolation"?
--scikit-learns Impactor-Klasse (S. 96)
--strate Argument
- median
- most_frequent
- Nützlich für die meisten, xxx (p96)
- So genannte Transformatorklasse (S. 96)
--Transformator, fit, transformieren (S. 96)
--Transformator, Anpassungsmethode ist (S. 96)
--Transformer, Transformationsmethode ist (p96)
--Estimator, Vorhersagemethode (S. 97)
- Kategoriedaten, Nennmerkmale (S. 98)
- Kategoriedaten, Ordnungsmerkmale (S. 98)
--Bestellfunktionen, Beispiel (S. 98)
- Numerische Merkmale (S. 98)
- Klassenetikett (S. 98)
--Kategoriezeichenfolge, in Ganzzahl konvertieren, erforderlich (p99)
- Wörterbuch für Reverse Mapping inv_size_mapping (p99)
- Viele maschinelle Lernbibliotheken, die xxx anfordern (S. 99)
--Um die konvertierte Klassenbezeichnung auf ihre ursprüngliche Zeichenfolgendarstellung zurückzusetzen (p100)
- Eine praktische Klasse namens LabelEncoder (p100), die direkt in scikit-learn implementiert ist.
- Einer der häufigsten Fehler bei der Verarbeitung kategorialer Daten (S. 101)
- Vermeiden Sie xxx Probleme, One-Hot-Codierung (p101)
--Dummy-Funktion (S. 101)
--scikit-learn, OneHotEncoder-Klasse (S. 101)
--OneHotEncoder-Klasse gibt eine spärliche Matrix zurück, wenn xxx (p102)
--get_dummies Funktion in Pandas implementiert (p102)
- Weindatensatz (S. 102)
- UCI Machine Learning Repository (p102)
- (Ergänzung) http://archive.ics.uci.edu/ml/
- Zufällig in Testdaten und Trainingsdatensatz aufgeteilt (S. 104)
--train_test_split Funktion (p104)
--scikit-learn, cross_validation-Modul (p104)
--Dataset, Split, Achtung (S. 104)
- Genauigkeit der Generalisierungsfehlerschätzung, Kompromiss (p104)
--xxx wäre gut (p104)
- Funktionsskalierung (S. 105)
- Entscheidungsbaum und zufälliger Wald ohne xxx (p105)
- Die meisten von xxx funktionieren viel besser mit xxx (p105)
- Charakteristische Skalierung, Wichtigkeit (S. 105)
- Skala (S. 105)
--Normalisierung
--Standardisierung
- Normalisierung, dh xxx (p105)
--xxx Sonderfall (p105)
- $ x_ {norm} ^ {(i)} $: Neuer Wert für Probe $ x ^ {(i)} $, Gleichung (p105)
--min-max Skalierung, Scikit-Lernen (S. 105)
- Grenzabschnitt (innerhalb eines bestimmten Bereichs) (S. 106)
- Nützlich für die Normalisierung durch Min-Max-Skalierung (S. 106)
--xxx kann praktischer sein, Grund (p106)
- Viele lineare Modelle, einschließlich xxx, sind xxx (p106)
- Bei Verwendung der Standardisierung (S. 106)
- Standardisierungsverfahren, Gleichung (p106)
- Überanpassung (S. 107)
- Überlernen, Ursache (S. 107)
- Allgemeine Methoden zur Reduzierung von Generalisierungsfehlern (S. 107)
- L2-Regularisierung, Gleichung (p107)
- L1-Regularisierung, Gleichung (p107)
- Zurückgegeben durch L1-Regularisierung, (S. 107)
--L1-Regularisierung, wie man die Spärlichkeit fördert (S. 108)
--Regularisierung, geometrische Interpretation (S. 108)
--Regularisierung, denken Sie wie folgt (S. 108)
--Regularisierungsparameter $ \ lambda $ durch Verstärkung (p108)
--L2-Konzept für Strafstrafen, illustriert (S. 108)
--Hier xxx darf xxx nicht überschreiten (p109)
- Andererseits möchte ich xxx minimieren (p109)
- Das Ziel hier ist (S. 109)
- Wenn es kein xxx gibt, kann es als xxx verstanden werden (p109)
- L1-Regularisierung, Spärlichkeit (S. 109)
- Ähnlich wie xxx. Xxx (p109)
- Der Term L2 ist xxx (p109)
- Diamant (S. 109)
- L1 Diamant (p110)
- Die Optimierungsbedingung ist wahrscheinlich in xxx (p110)
- Warum L1-Regularisierung zu spärlichen Lösungen führt (p110)
- Trevor Hastie et al., "Die Elemente des statistischen Lernens", Abschnitt 3.4
--scikit-learn, L1-Regularisierung (p110)
- Strafe Argument
- Der Regularisierungspfad ist (p112)
- Dimensionsreduzierung durch Merkmalsauswahl (S. 113)
- Dimensionsreduzierung (p113)
--Merkmalsauswahl
- Merkmalsextraktion
--In Funktionsauswahl (S. 113)
--In Merkmalsextraktion (S. 113)
- Typischer Merkmalsauswahlalgorithmus (S. 113)
- Sequenzauswahlalgorithmus (S. 113)
- Graue Suche (S. 113)
--d Dimension, k Dimension (k <d) (p113)
- Funktionsauswahlalgorithmus, zwei Zwecke (S. 113)
- Letzteres ist nützlich für xxx (p114)
--Sequential Backward Selection (SBS) (S. 114)
- SB, Zweck (S. 114)
- Vollständiger Suchalgorithmus (S. 114)
--Nicht xxx in Bezug auf xxx (p114)
--SBS, Algorithmus, 4 einfache Schritte (S. 114)
- Implementieren wir es mit SBS, Python (p115)
- Merkmale, Teilmengen, Klassifizierungsprobleme, Schätzer (S. 116)
- In der while-Schleife der Fit-Methode wird sie auf xxx reduziert (p116)
- Testdatensatz, Trainingsdatensatz, Split (S. 117)
- Um zu verhindern, dass der ursprüngliche Testdatensatz Teil des Trainingsdatensatzes wird (S. 117)
- Weil die Anzahl der Funktionen reduziert wurde (S. 117)
--KNN-Algorithmus, Dimensionsfluch (S. 117)
- Verschiedene Methoden zur Merkmalsauswahl, umfassende Erklärung (S. 119)
- http://scikit-learn.org/stable/modules/feature_selection.html
--L1 Logistische Regression mit Regularisierung, irrelevanter Merkmalsmenge, SBS-Algorithmus, Merkmalsmengenauswahl (S. 119)
- Auswahl der Funktionsmenge, zufälliger Wald (S. 119)
- Zufälliger Wald, Ensemble-Methode (S. 119)
--xxx ohne Annahmen (p119)
indices = np.argsort(importance)[::-1]
(p120)
--n_jobs = -1
, alle Kerne (p120)
- Zufälliger Wald, Anmerkung xxx, Wichtig (S. 120)
--L1-Regularisierung, nützlich für xxx (p122)
- Algorithmus zur Auswahl sequentieller Merkmale, SBS (S. 122)
Kapitel 10 Regressionsanalyse, Vorhersage objektiver Variablen mit kontinuierlichen Werten
- Regressionsanalyse (S. 265)
- Erklärende Variable, Zielvariable, Abbildung (S. 266)
- Regressionslinie (S. 266)
- Offset, Rest (p266)
- Einfache lineare Regression (S. 266)
- Mehrfache lineare Regression (S. 266)
- Gehäusedatensatz (S. 267)
- UCI Machine Learning Repository
--MEDV: Median der Immobilienpreise (S. 267)
--pandas DataFrame-Objekt (S. 267)
--TODO: Pandas lernen
- Explorative Datenanalyse (EDA) (S. 268)
- Empfohlen als EDA, xxx (S. 268)
- Beziehung zwischen Ausreißern, Datenverteilung und Merkmalen (S. 268)
--Die Streudiagrammmatrix xxx kann visualisiert werden (p268)
- Streudiagrammmatrix, Pairplot-Funktion der Seaborn Library (S. 268)
pip install seaborn
(p268)
--xxx ändert sich beim Importieren einer Meeresbibliothek (S. 269)
- RM (durchschnittliche Anzahl der Zimmer pro Einheit) (S. 270)
- Im Gegensatz zur landläufigen Meinung ist xxx nicht erforderlich (p270)
--Korrelationsmatrix (p270)
--Korrelationsmatrix, Kovarianzmatrix, intuitiv (p270)
- Pearson-Produkt-Moment-Korrelationskoeffizient, quadratische Matrix (p270)
- Pearson's r (p270)
--Korrelationskoeffizient, Bereich (p270)
- Positive Korrelation, negative Korrelation (p270)
- r = 0 (p270)
--Pearsons Produktfaktorkorrelationskoeffizient, Gleichung (p270)
- $ \ mu $: Beispielmittelwert der entsprechenden Funktionen (p270)
- $ \ sigma_ {xy} $: Kovarianz zwischen den Merkmalen x und y
- $ \ Sigma_x $ und $ \ sigma_y $: Standardabweichung jedes Features
--Pearsons Produktfaktorkorrelationskoeffizient, Kovarianz, Standardabweichungsprodukt (p270)
--NumPy Corrcoef-Funktion (S. 271)
--Seaborn Heatmap-Funktion (S. 271)
- Passen Sie ein lineares Regressionsmodell an, Fokus (S. 272)
- Minimale Quadrate (gewöhnliche kleinste Quadrate: OLS) (S. 272)
- (Ergänzung) Gibt es eine außergewöhnliche ...?
--OLS, Interpretation (S. 273)
- Regressionsanalyse, effizientere Implementierung (S. 277)
- Minimale quadratische Methode, Lösung in geschlossener Form (S. 278)
- Einführung in das Statistiklehrbuch
- Lineare Regression, stark beeinflusst von xxx (p278)
--Alternative Methode zum Entfernen von Ausreißern (S. 278)
- RANSAC-Algorithmus (RANdom SAmple Consensus) (S. 278)
- Normalwert (Inlier: nicht Outlier) (S. 279)
--lambda-Funktion, aufrufbar (p279)
- Berechnen Sie die Lambda-Funktion, xxx (p279)
- Mad, zentrale absolute Abweichung des Zielwertes y (p279)
- Lineare Regressionslinie (um genau zu sein, Superebene) (S. 281)
- Im Fall von xxx ist der Rest in einer realen Anwendung 0 (p282)
- Für ein gutes Regressionsmodell (S. 282)
- Modellleistung, Quantifizierung (S. 283)
- Mittlerer quadratischer Fehler (MSE) (S. 283)
- Nützlich für MSE, (S. 283)
- Entscheidungsfaktor $ R ^ 2 $ (p283)
- Entscheidungsfaktor, kann als xxx angesehen werden (p283)
--SSE, Summe der quadratischen Fehler (p283)
--SST (Summe der quadratischen Summe), Gleichung (p283)
- Das ist (p283)
-Es ist nur $ R ^ 2 $ :, Ausdruckstransformation (p284)
- Extreme Parametergewichte des Modells, Strafe (S. 284)
--Regularisierte lineare Regression, 3 (S. 284)
- Gratregression (S. 284)
- LASSO (Least Absolute Shrinkage and Selection Operator) (p284)
--Elastic Net-Methode (S. 284)
- Modell mit L2-Strafe (S. 284)
- J(w)_{Ridge}
- L2
- Erhöhen, erhöhen, verringern (S. 285)
--LASSO, Bedingung, wenn m> n (p285)
- Ridge Return, LASSO, Elastic Net (S. 285)
- Elastisches Netz, L1-Strafe, L2-Strafe (S. 285)
--Sparseness, Anzahl ausgewählter Variablen xxx teilweise überwunden (p285)
--k Überprüfung der geteilten Schnittmenge, Parameter $ \ lambda $, Stärke der Regularisierung (p285)
- Stärke der Regularisierung, Parameter $ \ lambda $, Parameter $ \ alpha $ (p285)
--LASSO Retraktor (p285) im Submodul linear_model
--ElasticNet, l1_ratio-Argument (p285)
- Mehrere Regressionen, Finden einer Kurve (S. 286)
- Linearer Regressionskoeffizient w, multiples Regressionsmodell (p286)
--scikit-learn, PolynomialFeatures-Konverterklasse (S. 286)
- Vergleich der Polypoly-Regression und der linearen Regression (S. 286)
- lineare Anpassung, quadratische Anpassung, Trainingspunkte, Abbildung (S. 287)
- Entscheidungskoeffizient ($ R ^ 2 $), lineares Modell, quadratisches polymorphes Modell, Anpassung (p288)
- Polynommerkmale, Modellkomplexität, Übertraining hinzugefügt (S. 289)
--Polygon-Funktionen, nicht immer die beste Wahl (S. 289)
- Konvertieren Sie erklärende Variablen in Logarithmus und können Sie xxx (p290)
- Zufällige Waldrückgabe (S. 290)
- Zufälliger Wald, Entscheidungsbaum, Ensemble (S. 290)
- Zufälliger Wald, Summe der unterteilten linearen Funktionen, d. H. (P290)
--Vorteile des Entscheidungsbaumalgorithmus (p290)
- Entscheidungsbaum zum Strecken (p290)
- Entscheidungsbaum, Entropie (S. 290)
- Entropie, xxx (p290)
--Um einen Entscheidungsbaum für die Regression zu verwenden (S. 291)
- $ I (t) $, Entropie, die ein negativer Reinheitsindex des Gleichungsknotens t ... ist (p291)
- $ N_t $: Anzahl der Trainingsmuster für Knoten t (p291)
- $ D_t $: Trainingsuntermenge des Knotens t (p291)
- $ y ^ {(i)} $: Wahres Ziel (p291)
- $ \ hat {y_t} $: Prognostizierter Zielwert (Stichprobenmittelwert) (p291)
--MSE, Knotenverteilung nach Split (S. 291)
- Aufteilungsbedingung, Variationsreduzierung (S. 291)
--scikit-learn, DecisionTreeRegressor-Klasse (S. 291)
- Entscheidungsbaum, Modell, Einschränkung (S. 292)
- Tiefe des Entscheidungsbaums, Überlernen, mangelndes Lernen (S. 292)
- Zufälliger Wald, Entscheidungsbaum, Verallgemeinerung (S. 292)
- Grund
- Zufälliger Wald, Vorteile (S. 292)
- Zufällige Wälder, Parameter und Experimente sind erforderlich (S. 292)
- Zufällige Gesamtstruktur, Algorithmus, Algorithmus zur Klassifizierung (S. 292)
--Der einzige Unterschied
- Zufälliger Wald, erwartete Zielvariable, berechnet nach xxx (p292)
- SVM, nichtlineare Regression (p294)
- SVM, Regression, S. R. Gunn (S. 294)
- SVM Retraktor, Scikit-Lernen (S. 294)