Lineare Algebra
〇April 25-Prozession 04 Vektor ... Größe + Richtung Skalar ... Größe Matrix ... Ein Mittel, um einfach simultane Gleichungen auszudrücken Es wurden nur die Koeffizienten simultaner Gleichungen extrahiert
〇 26. April - Prozession 09 Matrixberechnung ... Ähnlich wie bei der simultanen Gleichungsberechnung … Um simultane Gleichungen zu lösen, ist es möglich, mit einer bestimmten Matrix zu multiplizieren. (Grundlinientransformation) Inverse Matrix: Eine Matrix, die als inverse Zahl fungiert, ähnlich wie das Teilen einer Matrix … A- (A invers) genannt … Eine Matrix, die in eine Einheitsmatrix konvertiert wird (so etwas wie 1.0.0.1) Einheitsmatrix: Eine Matrix, die bei Multiplikation dieselbe Matrix ergibt So finden Sie die inverse Matrix ... Gaußsche Sweeping-Methode
〇April 27-eindeutiger Wert ② Invers ... (-1) Invers genannt Bedingung, dass es keine inverse Matrix gibt ... Wenn eine Lösung nicht bestimmt werden kann, das heißt … A: b = c: d, dh ad = bc, das heißt … Wenn die Fläche des parallelen Vierecks 0 ist, wenn die Matrix durch zwei Vektoren ersetzt wird
Vektoreigenschaft (Linearität): 0, wenn es überhaupt eines der gleichen Dinge gibt … Wenn auch nur einer multipliziert wird, wird das Ganze multipliziert … Wenn auch nur einer hinzugefügt wird, wird das Ganze hinzugefügt … Wenn Sie ein Element des Vektors umdrehen, wird das Ganze negativ … Ein Vektor kann in mehrere Vektoren erweitert werden Berechnung der quadratischen Matrix ... Die Berechnung des kubischen Ausdrucks kann in die Berechnung des quadratischen Ausdrucks umgewandelt werden Eindeutiger Vektor, eindeutiger Wert ... Wenn ein bestimmter Vektor mit einer Matrix multipliziert wird, kann er durch denselben Vektor ausgedrückt werden, wenn ein bestimmter Skalar angewendet wird. Dinge, die sich mit einer bestimmten Zahl multiplizieren.
〇April 29 - eindeutiger Wert 7 Eindeutiger Wert: Berechnet als spezifischer numerischer Wert Der Eigenvektor ... kann nur bis zu einem konstanten Vielfachen von etwas erhalten werden Einzigartige Wertzerlegung ... AV = VΛ, A = VΛV⁻1, Beim Multiplizieren mehrerer A wird die inverse Matrix von V und die Matrix multipliziert, und nur der Ort von Λ wird berechnet, was die Berechnung erleichtert. Dispersion: Wie ein Gegenstand verstreut ist Mitverteilt ... Unterschiede in den Trends zwischen den beiden Datenreihen. Positive und ähnliche Tendenzen, negative und umgekehrte Tendenzen, null und irrelevant
〇April 30 - eindeutiger Wert 12, Wahrscheinlichkeit / Statistik 1-23 Singularitätszerlegung ... T (Translokation) ... Invertierte Zeilen und Spalten einer Matrix Wenn MM⒯ in Eigenwerte zerlegt wird, können sein linker Differenzvektor und das Quadrat des Singularwerts erhalten werden. Eine eindeutige Wertzerlegung oder eine singuläre Wertzerlegung wird als Datenveraschungstechnik auf dem Gebiet der Bildanalyse verwendet. Eines der Mittel, um eine gute Annäherung zu machen. Durch Verwendung der Singularwertzerlegung kann festgestellt werden, dass die Bilder auch auf einem PC einander ähnlich sind. Es ist nicht möglich zu sagen, ob die Bilder gleich sind oder nicht, nur anhand der Daten der Bilder, die durch Singularwertzerlegung komprimiert wurden. Weil die Daten unterschiedlich sind. Wenn Sie jedoch die einzelnen Werte vergleichen und die großen Elemente ähnlich sind, können Sie möglicherweise beurteilen, dass es sich um dasselbe Bild handelt. (Kann zum unbeaufsichtigten Lernen von Bildern verwendet werden)
Setze ... S = {a, b, c, d, e, f, g ...} aS… a ist in einem der „Elemente“ von S enthalten (was darauf hinweist, dass es die kleinste Einheit ist) Summensatz ... A oder B A∪B A Tasse B. Gemeinsamer Teil (kein Produktset !!) ... A und B, A∩B, A Kappe B. Absolute Ergänzung (außer Ergänzung) ... U \ A = Ein oberer Balken (alle Teile außer A), A's eigene Ablehnung Relative Ergänzung ... B \ A (der andere Teil von B als A)
Wahrscheinlichkeit Frequenzwahrscheinlichkeit (objektive Wahrscheinlichkeit) ... Sie können die Wahrscheinlichkeit überprüfen, indem Sie sie mehrmals versuchen. Bayesianische Wahrscheinlichkeit (subjektive Wahrscheinlichkeit): Ausdruck der Etablierung als Grad des Glaubens, etwas, das nicht zu 100% erfasst werden kann … Die Wahrscheinlichkeit einer Influenza beträgt 80% usw. P(A)=n(A)/n(U) A=accident, U=universe, P=probability, n=number Das Problem ist P (A | B) = P (A∩B) / P (B), die Wahrscheinlichkeit eines Verkehrsunfalls unter Regenbedingungen und der Ort, an dem U platziert werden soll. Bedingte Wahrscheinlichkeit Einfach zu berechnen für die gleichzeitige Wahrscheinlichkeit unabhängiger Ereignisse, Beschreibende Statistik ... Ermitteln der Eigenschaften der gesamten Population anhand der Daten Abgeleitete Statistiken: Statistiken, die die Eigenschaften der gesamten Population aus den Daten einiger extrahierter Proben ableiten. Probabilistische Variable: Ein numerischer Wert, der einem Ereignis zugeordnet ist und manchmal selbst proklamiert wird Wahrscheinlichkeitsverteilung: Die Verteilung der Wahrscheinlichkeit, dass ein Ereignis eintritt, kann in der Tabelle angezeigt werden, wenn es sich um einen Lee-Produktionsbereich handelt Erwarteter Wert = Wert kann durch Sigma oder Integral berechnet werden Dispersion ... Seit der Quadratur ist die Dimension höher geworden. Standardabweichung (unteres Sigma = σ)… Ich werde sie wurzeln, damit sich die Abmessungen nicht ändern
Wahrscheinlichkeitsverteilung Bernoulli-Verteilung ... Bild des Münzwurfs Martineuy-Verteilung (Kategorieverteilung, kategoriale Verteilung) ... Bild des Würfelns Binäre Verteilung: Teil der Bernoulli-Verteilung Gaußsche Verteilung: Eine glockenförmige kontinuierliche Verteilung, die normalerweise zu diesem Typ wird, wenn die Anzahl der Proben zunimmt. Wenn Sie es also überhaupt nicht wissen, wenden Sie sie häufig auf die Gaußsche Verteilung an. Es ist eine Funktion, die so ausgearbeitet wurde, dass sie 1 wird, wenn sie normalerweise geteilt wird (Bereiche kombinieren).
Schätzung: Es gibt zwei Arten: Punktschätzung und Intervallschätzung. Schätzen Sie für die Punktschätzung jeden Wert, z. B. den Gartenübungsplatz, und für die Abschnittsschätzung den vorhandenen Bereich, z. B. den Durchschnittswert.
Probendurchschnitt: Durchschnittswert der aus der Population entnommenen Proben Konsistenz… Je größer die Anzahl der Stichproben ist, desto näher kommt der Wert der Bevölkerung Unvoreingenommen ... Egal wie viele Stichproben Sie haben, der erwartete Wert entspricht dem Wert der Bevölkerung. E = erwarteter Wert, θ = geschätzter Betrag, θ hat = geschätzter Wert E (θ hat) = θ
Probendispersion ... Konsistenz ist kein Arsch, aber Unparteilichkeit ist nicht zufrieden! … Das heißt, die Standardvarianz der Population und die Stichprobenvarianz einiger Stichproben stimmen nicht überein
Unvoreingenommene Dispersion: Durch Multiplikation von n / n-1 mit der Probendispersion wird der Wert der Populationsdispersion erreicht. … Da die Differenz zum Durchschnittswert genommen wird, kann der Wert der Stichprobe nicht vollständig frei ausgewählt werden, und wenn n-1 ausgewählt wird, ist der Wert der letzten Stichprobe bereits festgelegt. Deshalb werde ich es durch 1 / n-1 teilen. Wenn jedoch nur eine kleine Anzahl von Daten erhalten werden kann, wird der Unterschied in dieser unverzerrten Dispersion groß, aber wenn die Anzahl von Proben groß wird, sind 1 / n und 1 / n-1 fast gleich, so dass es nicht viel Wirkung gibt. Kommen Sie.
Ich bemerkte, dass das Ausmaß der Zunahme gleich war, aber das Ausmaß der Veränderung / Bevölkerung unterschiedlich war. Die Steigerungsrate ist wichtig. Ich erkannte, dass die menschlichen Sinne die Leichtigkeit des Verständnisses von Informationen anhand des "Verhältnisses" vergleichen können.
Menge an Selbstinformationen ... Wenn die Basis des Logarithmus 2 ist, ist die Einheit Bit. … Wenn die Basis des Logarithmus Napier (e) ist, ist die Einheit Nuss (nat) natürlicher Logarithmus = natürlich I(x)=-log(P(x))=log(W(x)) Das Verhältnis von Gefühl der Zunahme von Information = Logarithmus ist erfrischend.
Shannon-Entropie ... Erwarteter Wert der Selbstinformationsmenge, Differentialentropie? H(x)=E(I(x))=-E(log(P(x))=-Σ(P(x)log(P(x)))
Calvac Libra Divergenz … Repräsentiert die Differenz zwischen verschiedenen Wahrscheinlichkeitsverteilungen P und Q im selben Ereignis und in derselben Wahrscheinlichkeitsvariablen
Gekreuzte Entropie ... Kann mit KLD ausgedrückt werden
Bericht über maschinelles Lernen
〇Mai 2 ~ ML_05_04_ Hands-on (Immobilienpreisprognose) Separat für verschiedene Modelle Trainingsdaten ... trainieren Verifizierungsdaten ... Test hinzufügen Der Hut wird nur an die geschätzten Daten angehängt, da er sich nicht mit den tatsächlichen Daten vermischt.
So erstellen Sie Parameter Mittlerer quadratischer Fehler (MSE) … Numerischer Wert, der nur durch den quadratischen Fehler der Daten- und Modellausgabe sowie der Parameter bestimmt wird Minimum-Quadrat-Methode … Finden Sie den Parameter, der den mittleren quadratischen Fehler minimiert. Suchen Sie den Punkt, an dem der Gradient 0 wird.
Wenn Sie eine Bibliothek verwenden, können Sie den durchschnittlichen quadratischen Fehler nur durch Lesen der Anpassung und der Bibliothek erzielen. Es ist jedoch wichtig zu wissen, was tatsächlich hinter den Kulissen passiert.
〇Mai 3 Regression, nichtlineare Regression Basisfunktion = Variable Das nichtlineare Regressionsmodell verwendet Polypolyse (Funktion der Potenz) und Gaußsche Basis (natürlicher Logarithmus). Die Bandbreite ändert sich abhängig von Hj in der Gaußschen Basis
Regularisierung ... LASSO kehrt für Strafen erster Ordnung zurück (L1-Norm) Ridge Return für sekundäre Strafen (L2-Norm) Die Lasso-Regression findet den Kontaktpunkt zwischen dem Kreis und der Fehlerfunktion. Es wird "reduzierte Schätzung" genannt. In der Ridge-Regression wird es als "spärliche Schätzung" bezeichnet, um den Kontaktpunkt zwischen dem Quadrat und der Fehlerfunktion zu finden. Da der Abschnitt von Y oder X 0 wird, kann die Variable vereinfacht werden.
Logistische Regression ... Obwohl es als Regression bezeichnet wird, handelt es sich um einen Algorithmus zur Klassifizierung. Binäre Klassifizierung. Verwenden Sie die Sigmoid-Funktion. Monoton ansteigende Funktion. Nehmen Sie einen Wert zwischen 0 und 1. Wenn die Zielvariable 0 ist, stirbt sie und wenn sie 1 ist, überlebt sie (im Fall des Titanic-Modells). Es wird ausgedrückt durch σ (x) = 1/1 + exp (-ax), und wenn der Parameter a groß wird, wird er wie eine Treppe. Wenn A klein gemacht wird, wird die Steigung eine sanfte Funktion. Die Differenzierung der Sigmoidfunktion kann durch die Sigmoidfunktion selbst ausgedrückt werden Die logistische Regression nutzt die Bernoulli-Verteilung. Bernoulli-Verteilung: Eine ist 1 und die andere ist 1-p, was eine diskrete Wahrscheinlichkeitsverteilung ist. Die generierten Daten hängen vom Wert des Parameters (p) ab. P=py(1-p)1-p Wahrscheinlichste Schätzung: Eine Methode zur Punktschätzung der Grundgesamtheit der Wahrscheinlichkeitsverteilung, die sich aus den angegebenen Daten in der Statistik ergibt. Simultane Wahrscheinlichkeit: Da davon ausgegangen werden kann, dass die Wahrscheinlichkeitsvariablen unabhängig sind, kann sie durch Multiplikation berechnet werden. Wahrscheinlichkeitsfunktion: Eine Methode zum Finden der optimalen Parameter durch Fixieren der Daten und Ändern der Parameter. … Die Schätzmethode, die diesen Parameter maximiert, wird als Wahrscheinlichkeitsschätzung bezeichnet. Ich möchte die Steigung des Parameters durch Differenzieren der Wahrscheinlichkeitsfunktion kennen, aber da es sich um eine Funktion durch Multiplizieren von w handelt, werde ich sie in dem Zustand berechnen, in dem der Logarithmus genommen und multipliziert wird. Es wurde bewiesen, dass der Maximalwert der Wahrscheinlichkeitsfunktion auch dann gleich ist, wenn der Logarithmus genommen wird. (Beweis wird weggelassen) Gradientenabstiegsmethode: Eine Methode zum sequentiellen Aktualisieren von Parametern. … Wenn alle Daten in einem Update geladen werden, sind die Ressourcen im Speicher möglicherweise nicht ausreichend. Daher möchten wir sie mit einer Methode lösen, die als probabilistische Gradientenabstiegsmethode bezeichnet wird. Probabilistic Gradient Descent (SGD)… Nur ein oder wenige aktualisierte Daten anzeigen, nicht alle Daten … Bei der logistischen Regression nimmt die Zielfunktion immer zu, wenn der Wert zunimmt, da die Sigmoidfunktion als Modell verwendet wird. Daher wird diese Funktion häufig verwendet. Wenn dies eine Funktion mit vielen Spitzen und Tälern ist, wie z. B. eine kubische Funktion, ist SGD nicht sehr nützlich.
So validieren Sie das Modell Richtig positiv Falsch negativ (festgestellt, dass das Modell falsch negativ ist) ... Es muss überprüft werden, ob es wirklich abnormal ist Falsch positiv (das Modell wird fälschlicherweise als positiv beurteilt) ... Abnormale Dinge passieren, wenn sie nicht abnormal sind Richtig negativ
Richtige Antwortrate ... Ja, es war wirklich positiv Rückrufquote: Wie viel Prozent der tatsächlich korrekten Werte können als korrekt beurteilt werden? Wenn Sie sich nicht sicher sind, setzen Sie es auf positiv und verwenden Sie es, wenn Sie es später überprüfen. Dieser Wert ist wichtig, wenn Sie Auslassungen vermeiden möchten, auch wenn viele Fehler vorliegen. (Wenn Sie Krebs haben, ihn aber versehentlich passieren, wenn es sich nicht um Krebs handelt) (Zusätzliche Daten müssen erneut validiert werden) Anpassungsrate ... Der Prozentsatz dessen, was der Algorithmus als positiv ausgewählt hat, der wirklich korrekt war. Nur wer zuversichtlich ist, wird positiv sein. (Ich möchte nicht, dass Nicht-Spam-E-Mails Spam sind, daher ein Algorithmus, der nur vertrauliche E-Mails als Spam ermittelt.) F-Wert: Es ist besser, dass sowohl die Rückrufrate als auch die Präzisionsrate hoch sind, aber da es eine Kompromissbeziehung zwischen den beiden gibt, ist es der Wert, der erhalten wird, indem der Harmonie-Durchschnitt von beiden genommen wird. Je höher der F-Wert ist, desto höher sind sowohl die Rückruf- als auch die Genauigkeitswerte.
Titanic zum Anfassen … Die Implementierung der Logistikregression durch Numpy ist im Video nicht implementiert, wird jedoch während des eigentlichen Tests abgefragt, sodass der Code überprüft werden muss. Es ist in Ordnung, wenn Sie nur den Algorithmus verstehen. Es gibt nicht viele Fragen zur Visualisierung. ... Es ist möglich, den Wert einfach mit dem Skitlearn-Modell zu berechnen, aber das Ergebnis kann nur erklärt werden, wenn auch die Methode zur Berechnung der Wahrscheinlichkeit der einzelnen Daten berechnet werden kann. … Als ich die Noten- und Geschlechtsdaten hinzufügte, um eine neue Variable zu erstellen, konnte ich die Dimension des Ergebnisses verringern und gab eine leicht verständliche Erklärung.
Hauptkomponentenanalyse: Eine der Methoden zur Dimensionsreduzierung. Ich möchte nur die Dimensionen reduzieren, ohne die Erklärungsebene der Faktoren zu verringern. … Wenn die Informationsmenge als Größe der Dispersion betrachtet wird, reicht es aus, die Projektionsachse zu finden, die die Dispersion der Variablen nach linearer Rückkehr maximiert. Lagrange-Funktion: Ein blinder Kanstragrange-Multiplikator mit berechneten Einschränkungen. Dies ist dasselbe wie das Finden des Punktes, an dem die sogenannte Neigung Null wird. Unterscheiden Sie die Lagrange-Funktion ... Entspricht dem 2-Stunden-Differential der Matrix. Dies ist dasselbe wie Eigenwerte und Eigenvektoren. Der Vektor, der die Varianz maximiert, ist der gleiche wie der Eigenwert-Eigenvektor. Vaar(X)aj = λaj Beitragssatz: Ein Wert, der angibt, wie viele Informationen infolge der Komprimierung entfernt wurden. Die Summe aller Dispersionen. Finden Sie heraus, wie viele Informationen Sie in den gesamten Informationen haben. Berechnung des Beitragssatzes ... Da nur selten Daten der ersten Hauptkomponente verwendet werden, wie viele Informationen sind durch Hinzufügen der zweiten Hauptkomponente, der dritten Hauptkomponente und der vierten Hauptkomponente vorhanden? Es bedeutet zu untersuchen. Sie können sehen, wie viel es durch die Größe dieses Wertes beiträgt. Die Frage des kumulierten Beitragssatzes ist ebenfalls wichtig.
Wenn ich es erkläre, verstehe ich es selbst dann nicht, wenn ich "verteilt, gemeinsam verteilt ..." sage. Ich denke, ich kann anhand dieser Hauptkomponentenanalyse usw. erklären, wie viele Ereignisse mit diesen beiden Werten vorliegen Es ist notwendig, so denken zu können. Besonders wichtig, wenn Sie es Ihrem Chef erklären oder Geschäfte machen. KNN (in der Nähe von K) ... Lehrergeführtes Lernen. Ein Verfahren zum Treffen einer Mehrheitsentscheidung zwischen K Daten mit einem korrekten Antwortetikett und K Daten, deren Abstand zwischen den zu messenden Daten eng ist, und Übernehmen des größeren korrekten Antwortetiketts. Es ist notwendig, die Anzahl von K als Parameter im Voraus einzustellen. Kmeans… Lernen ohne Lehrer. Eine Methode zum Clustering (Klassifizieren) in K-Gruppen. Nehmen Sie alle K Punkte und Gruppenwerte mit engen durchschnittlichen Abständen um sie herum. Nehmen Sie danach mit K, dem Zentrum der gebildeten Gruppe, als neues Zentrum erneut Abstand zu den einzelnen Daten und wiederholen Sie dies, um den endgültigen stabilen Teil zu sehen. Da die Auswahl von K-Parametern wichtig ist, fällt heutzutage auch eine Methode namens Kmeans ++ auf, die nicht zufällig, sondern an einem entfernten Ort platziert werden soll.