[PYTHON] Bulletin de rapport de qualification E

algèbre linéaire

〇 25 avril - Procession 04 Taille du vecteur + direction Taille scalaire Matrice ... Un moyen d'exprimer simplement des équations simultanées Extrait uniquement les coefficients d'équations simultanées

〇26 avril-Procession 09 Calcul matriciel ... Similaire au calcul d'équation simultanée … Pour résoudre des équations simultanées, il est possible de multiplier par une matrice spécifique. (Transformation de ligne de base) Matrice inverse: une matrice qui agit comme un nombre inverse, similaire à la division d'une matrice … Appelé A- (A inverse) … Une matrice qui se convertit en une matrice unitaire (quelque chose comme 1.0.0.1) Matrice unitaire: matrice qui donne la même matrice lorsqu'elle est multipliée Comment trouver la matrice inverse ... Méthode de balayage gaussien

〇Valeur unique du 27 avril ② Inverse ... (-1) Appelé inverse Condition qu'il n'y a pas de matrice inverse ... Lorsqu'une solution ne peut pas être déterminée, c'est … A: b = c: d, c'est-à-dire ad = bc, c'est-à-dire … Lorsque l'aire du quadrilatère parallèle est 0 lorsque la matrice est remplacée par deux vecteurs

La même chose peut être dite lorsque le nombre de dimensions augmente à 3 et 4 dimensions.

Propriété vectorielle (linéarité): 0 s'il y en a même une de la même chose … Si même un est multiplié, le tout est multiplié … Si même un est ajouté, le tout est ajouté … Si vous retournez un élément du vecteur, le tout devient négatif … Un vecteur peut être étendu en plusieurs vecteurs Calcul de la matrice carrée ... Le calcul de l'expression cubique peut être converti en calcul de l'expression quadratique Vecteur unique, valeur unique ... Lorsqu'un certain vecteur est multiplié par une matrice, il peut être exprimé par le même vecteur lorsqu'un scalaire spécifique est appliqué. Des choses qui se multiplient par un certain nombre.

〇 29 avril-valeur unique 7 Valeur unique: calculée comme une valeur numérique spécifique Le vecteur propre ... ne peut être obtenu que jusqu'à un multiple constant de quelque chose Décomposition de valeur unique ... AV = VΛ, A = VΛV⁻1, Lors de la multiplication de plusieurs A, la matrice inverse de V et la matrice sont multipliées, et seul le lieu de Λ est calculé, ce qui facilite le calcul. Dispersion: comment un élément est dispersé Co-distribué ... Différences de tendances entre les deux séries de données. Tendances positives et similaires, tendances négatives et inverses, nulles et non pertinentes

〇 30 avril-valeur unique 12, probabilité / statistiques 1-23 Décomposition de singularité ... T (translocation) ... Lignes et colonnes inversées d'une matrice Si MM⒯ est décomposé en valeurs propres, son vecteur de différence gauche et le carré de la valeur singulière peuvent être obtenus. La décomposition en valeur unique ou la décomposition en valeur singulière est utilisée comme technique d'incinération de données dans le domaine de l'analyse d'image. Un des moyens pour faire une bonne approximation. En utilisant la décomposition de valeurs singulières, il est possible de déterminer que les images sont similaires les unes aux autres même sur un PC. Il n'est pas possible de dire si les images sont identiques ou non uniquement par les données des images compressées par décomposition de valeurs singulières. Parce que les données sont différentes. Cependant, si vous comparez les valeurs singulières et que les grands éléments sont similaires, vous pourrez peut-être juger qu'ils sont de la même image. (Peut être utilisé pour l'apprentissage non supervisé d'images)

Définir ... S = {a, b, c, d, e, f, g ...} aS… a est inclus dans l'un des «éléments» de S (indiquant qu'il s'agit de la plus petite unité) Ensemble de somme ... A ou B A∪B A cup B Partie commune (pas un ensemble de produits !!) ... A et B, A∩B, A cap B Supplément absolu (autre que supplément) ... U \ A = Une barre supérieure (toutes les parties autres que A), propre déni de A Supplément relatif ... B \ A (la partie de B autre que A)

probabilité Probabilité de fréquence (probabilité objective) ... Vous pouvez vérifier la probabilité en l'essayant plusieurs fois. Probabilité bayésienne (probabilité subjective): Expression de l'établissement comme degré de croyance, quelque chose qui ne peut pas être sondé à 100% … La probabilité de grippe est de 80%, etc. P(A)＝n(A)/n(U) A=accident, U=universe, P=probability, n=number Le problème est P (A ｜ B) = P (A∩B) / P (B), la probabilité de rencontrer un accident de la circulation dans des conditions pluvieuses, et où placer U. Probabilite conditionnelle Facile à calculer pour la probabilité simultanée d'événements indépendants, Statistiques descriptives ... Recherche des propriétés de l'ensemble de la population à partir des données Statistiques inférées: statistiques qui déduisent les propriétés de l'ensemble de la population à partir des données de certains échantillons extraits. Variable probabiliste: valeur numérique associée à un événement, parfois autoproclamée Distribution de probabilité: Distribution de la probabilité qu'un événement se produise, peut être indiquée dans le tableau s'il s'agit d'une zone de production Lee Valeur attendue = la valeur peut être calculée par sigma ou intégrale Dispersion ... Depuis qu'elle est au carré, la dimension est devenue plus élevée. Ecart type (sigma inférieur = σ)… Je vais faire la racine pour que les dimensions ne changent pas

Distribution de probabilité Distribution Bernoulli ... Image du tirage au sort Distribution de Martineuy (distribution par catégorie, distribution par catégorie) ... Image de lancer un dé Distribution binaire: partie de la distribution de Bernoulli Distribution gaussienne: Une distribution continue en forme de cloche, qui devient généralement ce type lorsque le nombre d'échantillons augmente, donc si vous ne savez pas du tout, vous l'appliquez souvent à la distribution gaussienne. C'est une fonction qui a été élaborée pour qu'elle devienne 1 lorsqu'elle est normalement divisée (combinaison de zones).

Estimation: Il existe deux types: l'estimation ponctuelle et l'estimation d'intervalle. L'estimation ponctuelle consiste à estimer chaque valeur telle que le terrain d'entraînement du jardin, et l'estimation de section consiste à estimer la plage existante telle que la valeur moyenne.

Lors de l'utilisation de l'apprentissage automatique, l'idée d '«estimation» est rarement utilisée. Estimateur Θ Thêta: méthode ou formule de calcul numérique utilisée pour estimer les paramètres. Aussi appelée fonction d'estimation Valeur estimée (estimation) Θ hat, theta hat ... Valeur calculée à partir du résultat de la mise en œuvre effective

Moyenne des échantillons: la valeur moyenne des échantillons prélevés sur la population Cohérence… Plus le nombre d'échantillons est grand, plus la valeur de la population est proche Peu importe le nombre d'échantillons dont vous disposez, la valeur attendue est la même que la valeur de la population. E = valeur attendue, θ = montant estimé, θ chapeau = valeur estimée E (θ chapeau) = θ

Dispersion des échantillons ... La cohérence n'est pas anale, mais l'impartialité n'est pas satisfaite! … Autrement dit, la variance standard de la population et la variance de l'échantillon de certains échantillons ne correspondent pas

Dispersion impartiale: en multipliant n / n-1 par la dispersion de l'échantillon, la valeur de la dispersion de la population est approchée. … Parce que la différence par rapport à la valeur moyenne est prise, la valeur de l'échantillon ne peut pas être complètement librement sélectionnée, et lorsque n-1 est sélectionné, la valeur du dernier échantillon est déjà décidée. Par conséquent, je vais le diviser par 1 / n-1. Cependant, lorsque seul un petit nombre de données peut être obtenu, la différence dans cette dispersion sans biais devient grande, mais lorsque le nombre d'échantillons devient grand, 1 / n et 1 / n-1 sont presque identiques, il n'y a donc pas beaucoup d'effet. viens.

J'ai remarqué que l'augmentation du montant est la même, mais la quantité de changement / population est différente. Le taux d'augmentation est important. J'ai réalisé que les sens humains peuvent comparer la facilité de compréhension de l'information par «rapport».

Quantité d'auto-information ... Lorsque la base du logarithme est 2, l'unité est le bit. … Lorsque la base du logarithme est napier (e), l'unité est noix (nat) logarithme naturel = naturel I(x)=-log(P(x))=log(W(x)) Le rapport sentir l'augmentation de l'information = logarithmique est rafraîchissant.

Entropie de Shannon ... Valeur attendue de la quantité d'auto-information, entropie différentielle? H（x）=E(I(x))=-E(log(P(x))=-Σ(P(x)log(P(x)))

Divergence Calvac Balance … Représente la différence entre les différentes distributions de probabilité P et Q dans le même événement et la même variable de probabilité

Entropie croisée ... Peut être exprimée en utilisant KLD

Rapport d'apprentissage automatique

〇Mai 2 ~ ML_05_04_ Pratique (prévision du prix de l'immobilier) Séparément pour différents modèles Données de formation ... train Données de vérification ... Ajouter un test Le chapeau n'est attaché qu'aux données estimées, car il ne se mélange pas aux données réelles.

Comment créer des paramètres Erreur quadratique moyenne (MSE) … Valeur numérique déterminée uniquement par l'erreur quadratique des données et de la sortie du modèle, et des paramètres Méthode du carré minimum … Trouvez le paramètre qui minimise l'erreur quadratique moyenne. Trouvez le point où le dégradé devient 0.

Si vous utilisez une bibliothèque, vous pouvez obtenir l'erreur quadratique moyenne simplement en lisant l'ajustement et la bibliothèque, mais il est important de savoir ce qui se passe réellement dans les coulisses.

〇 3 mai Régression, régression non linéaire Fonction de base = variable Le modèle de régression non linéaire utilise le polypoly (fonction de la puissance) et la base gaussienne (logarithme naturel) Changements de bande passante en fonction de Hj en base gaussienne

Régularisation ... Retour LASSO pour pénalités de premier ordre (norme L1) Retour de crête pour pénalités secondaires (norme L2) La régression par lasso trouve le point de contact entre le cercle et la fonction d'erreur. Cela s'appelle «estimation réduite». Dans la régression Ridge, on parle d '«estimation creuse» pour trouver le point de contact entre le carré et la fonction d'erreur. Puisque la section de Y ou X devient 0, la variable peut être simplifiée.

Régression logistique ... Bien qu'elle s'appelle régression, c'est un algorithme lié à la classification. Classification binaire. Utilisez la fonction sigmoïde. Fonction croissante monotone. Prenez une valeur entre 0 et 1. Si la variable objectif est 0, il mourra, et s'il vaut 1, il survivra (dans le cas du modèle Titanic). Il est exprimé par σ (x) = 1/1 + exp (-ax), et lorsque le paramètre a devient grand, il devient comme un escalier. Lorsque A est rendu petit, la pente devient une fonction douce. La différenciation de la fonction sigmoïde peut être exprimée par la fonction sigmoïde elle-même La régression logistique utilise la distribution de Bernoulli. Distribution de Bernoulli: L'un est 1 et l'autre est 1-p, qui est une distribution de probabilité discrète. Les données générées dépendent de la valeur du paramètre (p). 　　　　　　　　P=ｐｙ(1-p)1-p Estimation la plus probable: Une méthode d'estimation ponctuelle de la population de la distribution de probabilité qu'elle découle de données données dans les statistiques. Probabilité simultanée: comme on peut supposer que les variables de probabilité sont indépendantes, elle peut être calculée par multiplication. Fonction de probabilité: méthode permettant de trouver les paramètres optimaux en fixant les données et en modifiant les paramètres. … La méthode d'estimation qui maximise ce paramètre est appelée estimation de vraisemblance. Je veux connaître la pente du paramètre en différenciant la fonction de vraisemblance, mais comme c'est une fonction en multipliant w, je vais la calculer à l'état de prendre le logarithme et de le multiplier. Il a été prouvé que la valeur maximale de la fonction de vraisemblance est la même même si le logarithme est pris. (La preuve est omise) Méthode de descente de gradient: méthode de mise à jour séquentielle des paramètres. … Si toutes les données sont chargées dans une seule mise à jour, les ressources peuvent être insuffisantes en mémoire, nous cherchons donc à les résoudre par une méthode appelée méthode de descente de gradient probabiliste. Descente de gradient stochastique (SGD)… Voir une ou quelques données mises à jour, pas toutes … Dans le cas de la régression logistique, puisque la fonction sigmoïde est utilisée comme modèle, la fonction objectif augmente toujours à mesure que la valeur augmente, donc cette fonction est souvent utilisée. S'il s'agit d'une fonction avec de nombreux pics et vallées, comme une fonction cubique, SGD n'est pas très utile.

Comment valider le modèle Vrai positif Faux négatif (déterminé que le modèle est à tort négatif) ... Il faut vérifier s'il est vraiment anormal Faux positif (le modèle est jugé positif à tort) ... Des choses anormales passeront si elles ne sont pas anormales Vrai négatif

Taux de réponse correct ... Oui, c'était vraiment positif Taux de rappel: quel pourcentage des valeurs correctes réelles pourrait être jugé correct? Si vous n'êtes pas sûr de vous, réglez-le sur positif et utilisez-le lorsque vous le vérifierez plus tard. Cette valeur est importante lorsque vous souhaitez éviter des omissions même s'il y a de nombreuses erreurs. (Si vous avez un cancer, mais que vous le transmettez accidentellement s'il ne s'agit pas d'un cancer) (Des données supplémentaires doivent être revalidées) Taux d'ajustement ... Le pourcentage de ce que l'algorithme a choisi d'être positif qui était vraiment correct. Seuls ceux qui sont confiants seront positifs. (Je ne veux pas que les e-mails non-spam soient du spam, donc un algorithme qui détermine uniquement les e-mails confidentiels comme spam) Valeur F: Il est préférable que le taux de rappel et le taux de précision soient élevés, mais comme il y a un compromis entre les deux, c'est la valeur obtenue en prenant la moyenne d'harmonie des deux. Plus la valeur F est élevée, plus les valeurs de rappel et de précision sont élevées.

Titanic pratique … L'implémentation de la régression logistique par numpy n'est pas implémentée dans la vidéo, mais elle est posée lors du test proprement dit, il est donc nécessaire de vérifier le code. Ce n'est pas grave si vous ne comprenez que l'algorithme. Il n'y a pas beaucoup de questions sur la façon de visualiser. ... Il est possible de calculer facilement la valeur en utilisant le modèle skitlearn, mais le résultat ne peut être expliqué que si la méthode de calcul de la probabilité de chaque donnée peut également être calculée. … Lorsque j'ai ajouté les données sur la note et le sexe pour créer une nouvelle variable, j'ai pu réduire la dimension du résultat et donné une explication facile à comprendre.

Analyse en composantes principales: une des méthodes de réduction de dimension. Je veux réduire uniquement les dimensions sans abaisser le niveau d'explication des facteurs. … Si la quantité d'information est considérée comme l'ampleur de la dispersion, il suffit de trouver l'axe de projection qui maximise la dispersion des variables après retour linéaire. Fonction de Lagrange: Un multiplicateur aveugle de Kanstragrange avec des contraintes calculées. Cela revient à trouver le point où la soi-disant inclinaison devient nulle. Différencier la fonction de Lagrange ... Identique au différentiel de 2 heures de la matrice. C'est la même chose que les valeurs propres et les vecteurs propres. Le vecteur qui maximise la variance est le même que le vecteur propre de la valeur propre. Vaar(X)aj = λaj Taux de contribution: une valeur qui indique la quantité d'informations supprimées à la suite de la compression. La somme de toutes les dispersions. Découvrez la quantité d'informations que vous avez dans l'ensemble des informations. Calcul du taux de cotisation ... Puisqu'il est rare de n'utiliser que les données de la première composante principale, quelle quantité d'information est possédée en ajoutant la deuxième composante principale, la troisième composante principale et la quatrième composante principale? Cela signifie enquêter. Vous pouvez voir combien il contribue par l'ampleur de cette valeur. La question du taux de cotisation cumulatif est également importante.

Quand je l'explique, je ne comprends pas même si je dis "distribué co-distribué ...", donc je pense pouvoir expliquer combien d'événements avec ces deux valeurs en utilisant cette analyse en composantes principales etc. Il faut être capable de penser ainsi. Particulièrement important pour expliquer à votre patron ou faire des affaires. KNN (près de K) ... Apprentissage dirigé par un enseignant. L'invention concerne un procédé de prise d'une décision majoritaire parmi K données avec une étiquette de réponse correcte et K données dont la distance entre les données à mesurer est proche, et l'adoption de l'étiquette de réponse correcte plus grande. Il est nécessaire de définir à l'avance le nombre de K comme paramètre. Kmeans… Apprendre sans professeur. Une méthode de clustering (classification) en groupes K. Prenez tous les points K et regroupez les valeurs avec des distances moyennes proches autour d'eux. Après cela, avec K, le centre du groupe formé, comme nouveau centre, la distance à chaque donnée est reprise, et en répétant cela, la partie stable finale peut être vue. Étant donné que la sélection des paramètres K est importante, une méthode appelée Kmeans ++, qui est configurée pour être placée à un endroit éloigné plutôt que de manière aléatoire, attire également l'attention de nos jours.