Programmation Python Machine Learning> Mots-clés
Programmation d'apprentissage automatique Python par Sebastian Raschka et al.
J'ai commencé à lire (2016/10/29)
Ne prenez que des mots-clés.
Le chapitre 1 donne aux ordinateurs la possibilité d'apprendre des données
--Apprentissage supervisé (p2)
- Repérage non supervisé (p2)
- Apprentissage par renforcement (p2)
- Apprentissage, régression, sortie: valeur continue (p3)
--Classe négative (p4)
--Classe positive (p4)
- Limite de décision (p4)
--Variable prédicteur (p5)
--Variable de réponse (p5)
--Variable explicative (p5)
- Variable de résultat (résultat) (p5)
- Apprentissage par renforcement, objectif (p6)
--Environnement (p6)
--Agent (p6)
- Récompense (p6)
- Regroupement (p7)
- Réduction de la dimension (p8)
- dimensionality reduction
- dimension reduction
- Réduction de dimension non supervisée, quantité de caractéristiques, prétraitement (p8)
--Ensemble de données Iris (p9)
- $ X \ in R ^ {150 * 4} $: Ensemble de nombres réels, matrice 150x4 (p9)
- $ x ^ i $: i-ème exemple d'entraînement (p10)
- $ x_j $: jème dimension du jeu de données d'entraînement (p10)
- $ x $: Vecteur (gras inférieur) (p10)
- $ X $: Matrice (majuscules gras) (p10)
- $ \ it {x} $: Un élément de vecteur ou de matrice (oblique) (p10)
- Modélisation prédictive (p10)
--Le prétraitement est le plus (p11)
Selon la quantité de caractéristiques extraites, un certain chevauchement peut être observé en raison de la forte corrélation. Dans un tel cas (p11)
--David Wolpert, "No Free Ranch Theorem" (p12)
- Pour résoudre ce problème (p12)
- Performances de généralisation du modèle (p12)
- Optimisation des hyperparamètres (p12)
- Erreur de généralisation (p13)
--NumPy, SciPy, Fortran, C, Implémentation (p13)
--Différences entre Python 3.4 et Python 2.7, Résumé (p13)
- pandas (p14)
- matplotlib (p14)
Chapitre 2 Problèmes de classification - Algorithmes d'apprentissage automatique
- ADALINE (Adaptive Linear Neuron) (p17)
- scikit-learn (p17)
--MCP Neuron (McCulloch-Pitts Neuron) (p17)
- Warren McCulloch
- Walter Pitts
--Frank Rosenblatt, Perceptron, règle d'apprentissage, algorithme (p18)
--Deux classes (p18)
-1 (classe positive)
--- 1 (classe négative)
- Entrée totale (entrée nette) (p18)
- $ \ theta $: Seuil (p19)
--Fonction d'étape d'unité (p19)
--Fonction d'étape Heaviside
- $ \ hat {y} $: Valeur de sortie (p21)
- $ \ eta $: taux d'apprentissage (constante supérieure à 0,0 et inférieure à 1,0) (p21)
--fit méthode (p24)
- méthode prédictive (p24)
--Underscore (par exemple
self.w_
): Par convention, l'attribut xxx est xxx (p24)
--Review (p24)
- http://wiki.scipy.org/Tentative_NumPy_Tutorial
- http://pandas.pydata.org/pandas-docs/stable/tutorials.html
- http://matplotlib.org/users/beginner.html
for _ in range(self.n_iter):
(p24)
- (Supplément) Il semble être écrit lorsque les variables de boucle ne sont pas utilisées
--One-vs-All: méthode OvA (p27)
- Référentiel UCI Machine Learning, jeu de données Iris (p27)
--
plt, scatter (omis car il est long)
(p28)
markers = ('s', 'x' , 'o', '^', 'V')
(p30)
--Fonction meshgrid de Numpy (p31)
- Les règles d'apprentissage de Perceptron convergent (p32)
- Hyperplan linéaire (p32)
- ADALINE (ADAptive LInear NEuron) (p32)
- Bernard Widrow, Tedd Hoff
--Peut être considéré comme xxx
--La principale différence est (p32)
- Règles d'apprentissage ADALINE
- Perceptron de Rosenblatt
--Fonction égale (p32)
- Règle de Widrow-Hoff (p32)
--Quantiseur (p32)
--Fonction objective (p33)
--Fonction de coût (p33)
--ADALINE, fonction de coût J (p33)
--Somme de l'erreur quadratique (SSE) (p33)
--Le principal avantage de la fonction d'activation linéaire à valeur continue est (p33)
--Une autre caractéristique de cette fonction de coût est (p33)
--Fonction d'étape d'unité, formule de définition (p33)
- Coefficient différentiel partiel de la fonction de coût de la somme des erreurs quadratiques pour le j-ème poids, transformation d'équation (p34)
- Méthode de descente de gradient "Batch" (p35)
self.cost_ = []
(p35)
- (Supplément) ~~ Cette signification n'a pas été apprise ~~
- (Supplément) Je comprends que je vais faire une liste vide
--
self.w_ [1:] + = (omis)
(p36)
- (Supplément) Traitement après l'index 1
--La valeur de l'hyper paramètre qui optimise les performances du modèle de classification est (p37).
--Deux types de problèmes (p37)
- Méthode d'échelle, standardisation (p38)
―― Quelles sont ses caractéristiques?
- Équation (p39)
- Méthode moyenne de Numpy, méthode std (p39)
- Descente de gradient stochastique (p40)
- Descente de gradient itérative (p40)
--Descente de pente en ligne (p40)
--La méthode probabiliste de descente de gradient peut être considérée comme xxx (p40)
- Mélanger les données d'entraînement pour éviter la circulation (p41)
- Taux d'apprentissage adaptatif (p41)
--Un autre avantage de la méthode de descente de gradient stochastique (p41)
--Apprentissage en ligne (p41)
- Ceci est particulièrement utile (p41)
- De plus, vous pourrez xxx (p41)
- Comme il peut être xxx, l'efficacité de calcul de l'algorithme d'apprentissage peut être encore améliorée (p41).
--Option de mélanger les données d'entraînement avant chaque époque (p41)
--La méthode _shuffle utilisée dans le classificateur Adaline SGD produit xxx (p42)
Chapitre 3 Problèmes de classification - Utilisation de la bibliothèque d'apprentissage automatique scikit-learn
--Formation d'algorithmes d'apprentissage automatique, 5 étapes majeures (p48)
- (Supplément) Est-ce une erreur de traduction de "Algorithm training?"
- La bibliothèque scikit-learn contient xxx ainsi que xxx (p48)
np.unique(y)
(p49)
--Utilisation de la classe StandardScaler du module de prétraitement de scikit-learn (p50)
--Appelez la méthode de transformation (p50)
- Faisons attention. C'est (p50)
- Cela peut être xxx car il utilise la méthode un-à-plusieurs (OvR) (p50)
--Utilise le paramètre random_state pour autoriser xxx (p51)
- Taux de précision du modèle, taux de classification des erreurs (p51)
--Overlearning signifie xxx (p51)
--Exemple d'utilisation de la grille de maillage numpy (p52)
--Pour les jeux de données qui ne permettent pas une séparation linéaire parfaite (p53)
--Même si les classes ne peuvent pas être complètement séparées linéairement (p53)
- Les règles d'apprentissage de Perceptron, le plus gros problème (p54)
- Régression logistique (p54)
- Régression logistique, une haute performance est démontrée (p54)
- Ratio d'odds, ratio d'odds (p54)
- $ p $: Représente la probabilité d'un événement positif (p54)
- (Supplément) TODO: Définition de "événement positif". Examiner autre que l'explication suivante
- L'événement positif est (p54)
--Fonction logit, expression (p54)
--Dialog odds, équation (p54)
--Fonction logistique, expression (p55)
--Fonction sigmoïde (sigmoïde) (p55)
--Implémentation d'ADALINE, fonction d'égalité (p56)
- Sortie et interprétation de la fonction sigmoïde (p57)
--Litabilité L (Yudo), Définition, Équation $ L (w) $ (p58)
- En fait, xxx est facile (p58)
--Fonction de vraisemblance log, équation $ l (w) $ (p58)
--L'application de fonctions logarithmiques réduit la probabilité de xxx (p58)
--Fonction de coût J (p58)
--Si vous souhaitez implémenter la régression logistique de manière indépendante (p59)
--sklearn.linear_model.LogisticRegression classe (p59)
- "Quel est ce mystérieux paramètre C?" (P60)
- Méthode predict_proba (p61)
--La différenciation partielle de la fonction de vraisemblance logarithmique pour le jème poids, équation (p61)
--La dérivée partielle de la fonction sigmoïde (p61)
- "Variance élevée" (p62)
- Sous-ajustement (p63)
- (Supplément) Est-ce 7 sur 9?
- "Biais élevé" (p63)
--Qu'est-ce que la variance (p63)
--Si la variance est grande (p63)
- En revanche, qu'est-ce que le biais (p63)
--Comme l'un des moyens de trouver le compromis entre biais et variance (p64)
--Régularisation (p64)
- Colinéarité (p64)
- Qu'est-ce que la colinéarité? (P64)
- L'idée derrière la régularisation est (p64)
- Régularisation la plus courante (p64)
- Régularisation L2 (p64)
- Rétrécissement L2
- Décroissance de poids
- (Supplément) @ Deep Learning par Takayuki Okaya
- $ \ lambda $: paramètre de régularisation (p64)
- L'erreur de généralisation du modèle se décompose comme suit (p64)
--Le biais quantifie xxx (p64)
--Seulement xxx est nécessaire pour appliquer la régularisation (p65)
- $ C $: implémenté dans la classe LogisticRegression de scikit-learn (p65)
- Directement lié au paramètre de régularisation $ \ lambda $, expression
- Paramètre de régularisation inverse $ C $, à réduire (p65)
- Pour visualiser la force de la régularisation (p65)
- Support Vector Machine (SVM) (p66)
- (Supplément) Pas de séparation de la méthode variable
--Peut être considéré comme SVM, (p66)
--SVM, but de l'optimisation (p66)
--SVM, Marge, Définition (p66)
--Super plan (limite de décision) (p66)
--Vecteur de support, illustré (p67)
--Modèles avec de petites marges, ont tendance à tomber dans xxx (p67)
- Hyperplans positifs et négatifs (p67)
--Superplan, équation (p67)
--Longueur du vecteur, équation (p67)
- Côté gauche de l'expression, interprétation (p68)
--Deux équations (3.4.6) sont montrées (p68)
- En termes simples, l'équation (3.4.7) (p68)
--xxx est facile (p68)
--Méthode de planification secondaire (p68)
--Par Vladimir Vapnik
- Article de Christopher J.C. Burges
--Slack variable $ \ xi $ (p68)
--1995, Vladimir Vapnik
--Classification des marges souples
- Variable Slack, car elle était nécessaire (p68)
-Si la valeur de $ C $ est grande, cela signifie xxx, ce qui signifie xxx (p69)
- $ C $, peut être ajusté (p69)
-Lorsque la valeur de $ \ lambda $ devient grande (p69)
- La régression logistique tente de maximiser xxx (p70)
- Par conséquent, il devient plus sensible à xxx
--scikit-learn, classe LogsiticRegression, bibliothèque LIBLINEAR (p71)
--scikit-learn, formation SVM, classe SVC, bibliothèque LIBSVM (p71)
--Mémoire de l'ordinateur (p71)
--SGDClassifier classe, implémentation alternative (p71)
--SVM, popularité, raison (p71)
--Noyau SVM (p71)
X_xor = np.random.randn(200, 2)
(p72)
--Fonction de projection $ φ (・) $, haute dimension, séparation linéaire (p73)
--Classes séparées (p73)
- Méthode de projection, problème (p74)
- Astuce du noyau (p74)
- (Supplément) Article connexe
--Noyau de fonction de base radiale (p74)
- (Supplément) Est-ce lié aux harmoniques sphériques vectorielles?
- (Supplément) Développé dans les harmoniques sphériques vectorielles
- $ \ gamma $: expression, hyper-paramètres à optimiser (p74)
--Noyau, Interprétation (p74)
--Noyau, signe moins (p74)
--1 (exactement le même échantillon) (p74)
--0 (un échantillon complètement différent) (p74)
- $ \ gamma $: fonction noyau, coupure (p75)
- (Supplément) Rappelez-vous la fréquence de coupure qui apparaît dans le circuit électrique
- (Supplément) Article, 3dB
--Classificateur d'arbre de décision (p77)
--Interprétabilité (p77)
--Peut être considéré comme un arbre de décision, xxx (p77)
--Arbre de décision, gain d'information (p78)
--Gain d'information (diminution de xxx) (p78)
- Racine (racine) (p78)
--Feuille (p78)
- Pour diviser les nœuds par les entités avec le gain d'information le plus élevé (p78)
--Gain d'information, équation $ IG (D_p, f) $ (p78)
- $ f $: Caractéristiques à diviser (p78)
- $ D_p $: jeu de données parent (p78)
- $ D_j $: Ensemble de données du jième nœud enfant (p78)
- $ I $: Impur (p79)
- $ N_p $: Nombre total d'échantillons de nœuds parents (p79)
- $ N_j $: Nombre d'échantillons du jième nœud enfant (p79)
--Ainsi, le gain d'information n'est que de xxx (p79)
- D_{left}, D_{right} (p79)
--Dichotomie, index impur ou état de division (p79)
- Impuretés de Gini (p79)
--Entropie (p79)
- (Supplément) Rich Flow de Grisha
- Erreur de classification
- $ I_E $: Erreur de classification (p79)
- $ I_H $: (Supplément) Je ne sais pas quelle est la formule (p79)
- p(i=1|t), p(i=0|t) (p79)
――L'entropie est de 1 en classification binaire (p79)
--La pureté maximale de Gini est (p79)
--Un autre indicateur d'impureté, erreur de classification (p80)
-Equation utilisant $ I_E $: p (p80)
- $ D_p $: Regardons l'ensemble de données du nœud parent (p80)
--Gain d'information (différence entre "pureté du nœud parent" et "pureté totale du nœud enfant") (p80)
- (Supplément) Après cela, environ 15 expressions associées continuent
--Pour pouvoir comparer visuellement les trois types de conditions impures ci-dessus (p82)
--Ajouter xxx pour confirmer que Gini impur est positionné entre l'entropie et l'erreur de classification (p82)
--
# Traitement en boucle pour chacun des types d'entropie (2 types), de pureté gini et d'erreur de classification
(p83)
--Arbre de décision, surapprentissage (p84)
- Mise à l'échelle des caractéristiques, arbre de détermination (p84)
--Comme quelque chose de particulier à l'arbre de décision (p84)
--scikit-learn, arbre de décision post-formation, exportation (p85)
- GraphViz (p85)
--Forêt aléatoire, caractéristiques (p86)
--Random Forest, intuitivement (p86)
- L'idée derrière l'apprentissage d'ensemble (p86)
- Algorithme d'apprentissage faible, algorithme d'apprentissage fort (p86)
- Erreur de généralisation, surentraînement (p86)
- Algorithme de forêt aléatoire, 4 étapes (p86)
- Extraction sans restauration (p87)
--Décision majoritaire, attribuer une étiquette de classe (p87)
--Random Forest, Avantages (p87)
- Pas besoin de xxx (p87)
――Peut être optimisé (p87)
- Taille de l'échantillon Bootstrap (p87)
--scikit-learn, implémentation RandomForestClassifier (p87)
- $ d $: Nombre de fonctionnalités pour chaque division (p87)
--Nombre total d'entités dans le jeu de données d'entraînement (p87)
- d\sqrt{m} (p87)
- $ m $: nombre d'entités dans le jeu de données d'entraînement (p87)
--Cela vous permet de xxx (p88)
- classificateur du voisin le plus proche k (p89)
- KNN
--KNN, apprenant paresseux (p89)
--Ce qu'on appelle la «paresse» (p89)
--Modèle paramétrique, modèle non paramétrique (p89)
--Perceptron, régression logistique, SVM linéaire (p89)
- Arbre de décision / forêt aléatoire, noyau SVM (p89)
- Apprentissage basé sur des instances (p89)
- Se souvenir du jeu de données d'entraînement (p89)
- Les principaux avantages de l'approche basée sur la mémoire (p90)
--Lorsque les votes à la majorité sont les mêmes (p91)
--Dans l'implémentation de l'algorithme KNN de scikit-learn
- Distance euclidienne (p91)
- distance de mininkowski (p91)
- Distance de Manhattan (p91)
- distance de minkowski, équation (p91)
- Malédiction dimensionnelle (p92)
- Malédiction dimensionnelle, représentant le phénomène xxx (p92)
- En utilisant xxx, vous pouvez échapper à la malédiction de la dimension (p92)
Chapitre 4 Prétraitement des données - Création d'un meilleur ensemble de formation
- Valeur manquante (p93)
--Vide dans le tableau de données (p93)
- NaN (Not a Number) (p93)
- Chaîne d'espace réservé (provisoire) (p93)
--Ignorer les valeurs manquantes (p93)
--
# Si vous utilisez Python 2.7, vous devez convertir la chaîne en unicode
(p94)
--Fonction StringIO, lorsqu'elle est utilisée (p94)
--Utilisation de la méthode isnull (p94)
- Prétraitement des données, classe Pandas DataFrame (p95)
--DataFrame, attribut values (p95)
df.dropna()
(p95)
--Si vous définissez l'argument axe sur 1 (p95)
df.dropna(how='all')
(p95)
df.dropna(thresh=4)
(p95)
df.dropna(subset=['C'])
(p95)
--Supprimer les données manquantes, problème (p96)
- Technique d'interpolation (p96)
- Imputation moyenne (p96)
- (Supplément) Le "complément" n'est-il pas une erreur d '"interpolation"?
- Classe Impactor de scikit-learn (p96)
- argument strate
- median
- most_frequent
--Utile pour les plus_fréquents, xxx (p96)
--Son-appelé classe de transformateur (p96)
--Transformateur, ajustement, transformation (p96)
--Transformateur, méthode d'ajustement est (p96)
--Transformateur, la méthode de transformation est (p96)
--Estimateur, méthode de prédiction (p97)
--Données de catégorie, caractéristiques nominales (p98)
--Données de catégorie, caractéristiques d'ordre (ordinal) (p98)
- Fonctionnalités de commande, exemple (p98)
--Caractéristiques numériques (p98)
- Étiquette de classe (p98)
- Chaîne de catégorie, convertie en entier, obligatoire (p99)
--Dictionary pour le mappage inversé inv_size_mapping (p99)
--Beaucoup de bibliothèques d'apprentissage automatique, demandant xxx (p99)
- Pour restaurer l'étiquette de classe convertie à sa représentation sous forme de chaîne d'origine (p100)
--Une classe pratique appelée LabelEncoder (p100) implémentée directement dans scikit-learn.
--Une des erreurs les plus courantes dans le traitement des données catégorielles (p101)
- Évitez les problèmes xxx, encodage à chaud (p101)
--Fonction factice (p101)
--scikit-learn, classe OneHotEncoder (p101)
La classe --OneHotEncoder renvoie une matrice creuse lorsque xxx (p102)
--get_dummies fonction implémentée dans les pandas (p102)
--Ensemble de données sur le vin (p102)
- UCI Machine Learning Repository (p102)
- (Supplément) http://archive.ics.uci.edu/ml/
- Divisé au hasard en données de test et ensemble de données d'entraînement (p104)
--train_test_split, fonction (p104)
--scikit-learn, module cross_validation (p104)
--Dataset, Split, Attention (p104)
- Précision de l'estimation des erreurs de généralisation, compromis (p104)
--xxx serait bien (p104)
- Mise à l'échelle des fonctionnalités (p105)
--Arbre de décision et forêt aléatoire, sans xxx (p105)
--La plupart des xxx, fonctionne beaucoup mieux avec xxx (p105)
--Échelle caractéristique, importance (p105)
--Échelle (p105)
--Normalisation
--Standardisation
--Normalisation, c'est-à-dire xxx (p105)
--xxx cas spécial (p105)
- $ x_ {norm} ^ {(i)} $: Nouvelle valeur pour l'échantillon $ x ^ {(i)} $, équation (p105)
- mise à l'échelle min-max, scikit-learn (p105)
--Section limite (dans une certaine plage) (p106)
- Utile pour la normalisation par mise à l'échelle min-max (p106)
--xxx peut être plus pratique, raison (p106)
- De nombreux modèles linéaires, y compris xxx, sont xxx (p106)
- Lors de l'utilisation de la standardisation (p106)
--Procédure de normalisation, équation (p106)
- Sur-ajustement (p107)
- Surapprentissage, cause (p107)
--Méthodes générales pour réduire l'erreur de généralisation (p107)
- Régularisation L2, équation (p107)
- Régularisation L1, équation (p107)
--Retourné par régularisation L1, (p107)
- Régularisation L1, comment favoriser la parcimonie (p108)
--Régularisation, interprétation géométrique (p108)
--Régularisation, pensez comme suit (p108)
--Paramètre de régularisation $ \ lambda $, en renforçant (p108)
- Concept de terme de pénalité L2, illustré (p108)
- Ici xxx ne peut pas dépasser xxx (p109)
- D'autre part, je veux minimiser xxx (p109)
- Le but ici est (p109)
--S'il n'y a pas de xxx, cela peut être compris comme xxx (p109)
- Régularisation L1, parcimonie (p109)
- Similaire à xxx. Cependant, xxx (p109)
--Le terme L2 est xxx (p109)
--Diamant (p109)
- Diamant L1 (p110)
--La condition d'optimisation est probablement en xxx (p110)
--Pourquoi la régularisation L1 conduit à des solutions clairsemées (p110)
--Trevor Hastie et al., «Les éléments de l'apprentissage statistique», section 3.4
--scikit-learn, régularisation L1 (p110)
- argument de pénalité
--Le chemin de régularisation est (p112)
--Réduction de la dimension par sélection de fonction (p113)
- Réduction de la dimension (p113)
--Sélection de fonctionnalité
--Extraction de caractéristiques
--Dans la sélection des fonctionnalités (p113)
--Dans l'extraction de fonctionnalités (p113)
- Algorithme de sélection de caractéristiques typiques (p113)
- Algorithme de sélection séquentielle (p113)
--Recherche granulée (p113)
--d dimension, k dimension (k <d) (p113)
- Algorithme de sélection des fonctionnalités, deux objectifs (p113)
--Ce dernier est utile pour xxx (p114)
--Sélection arrière séquentielle (SBS) (p114)
--SBS, Objectif (p114)
- Algorithme de recherche exhaustif (p114)
--Pas de xxx en termes de xxx (p114)
--SBS, algorithme, 4 étapes simples (p114)
- Implémentons-le avec SBS, Python (p115)
--Caractéristiques, sous-ensembles, problèmes de classification, estimateurs (p116)
--Dans la boucle while de la méthode fit, il est réduit à xxx (p116)
- Jeu de données de test, jeu de données d'entraînement, fractionné (p117)
--Pour empêcher le jeu de données de test d'origine de faire partie du jeu de données d'entraînement (p117)
--Parce que le nombre de fonctionnalités a été réduit (p117)
- Algorithme KNN, malédiction dimensionnelle (p117)
--Diverses méthodes de sélection de fonctionnalités, explication complète (p119)
- http://scikit-learn.org/stable/modules/feature_selection.html
--L1 Régression logistique avec régularisation, quantité de caractéristiques non pertinentes, algorithme SBS, sélection de quantité de caractéristiques (p119)
--Sélection de quantité de fonctionnalités, forêt aléatoire (p119)
--Random Forest, Méthode Ensemble (p119)
--xxx sans faire d'hypothèses (p119)
indices = np.argsort(importance)[::-1]
(p120)
--n_jobs = -1
, tous les cœurs (p120)
- Forêt aléatoire, Remarque xxx, Important (p120)
- Régularisation L1, utile pour xxx (p122)
- Algorithme de sélection de caractéristiques séquentielles, SBS (p122)
Chapitre 10 Analyse de régression; Prédiction des variables objectives avec des valeurs continues
--Analyse de régression (p265)
--Variable explicative, variable objective, figure (p266)
--Ligne de régression (p266)
--Offset, résiduel (p266)
--Régression linéaire simple (p266)
--Régression linéaire multiple (p266)
--Ensemble de données de logement (p267)
- UCI Machine Learning Repository
--MEDV: Prix médians des logements (p267)
--pandas objet DataFrame (p267)
--TODO: Apprendre les pandas
- Analyse des données exploratoires (EDA) (p268)
--Recommandé comme EDA, xxx (p268)
- Relation entre les valeurs aberrantes, la distribution des données et les fonctionnalités (p268)
--La matrice du diagramme de dispersion, xxx peut être visualisée (p268)
- Matrice de diagramme de dispersion, fonction pairplot de la bibliothèque Seaborn (p268)
pip install seaborn
(p268)
--xxx change lors de l'importation de la bibliothèque Seaborn (p269)
--RM (nombre moyen de pièces par unité) (p270)
- Contrairement à la croyance populaire, xxx n'est pas nécessaire (p270)
- Matrice de corrélation (p270)
- Matrice de corrélation, matrice de covariance, intuitivement (p270)
- Coefficient de corrélation produit-moment de Pearson, matrice carrée (p270)
--Pearson's r (p270)
- Coefficient de corrélation, plage (p270)
--Corrélation positive, corrélation négative (p270)
- r = 0 (p270)
- Coefficient de corrélation du facteur de produit de Pearson, équation (p270)
- $ \ mu $: Exemple de moyenne des caractéristiques correspondantes (p270)
- $ \ sigma_ {xy} $: Covariance entre les caractéristiques x et y
- $ \ Sigma_x $ et $ \ sigma_y $: écart type de chaque caractéristique
- Coefficient de corrélation du facteur produit de Pearson, covariance, produit de l'écart type (p270)
- Fonction corrcoef NumPy (p271)
--fonction de carte de chaleur Seaborn (p271)
--Fit un modèle de régression linéaire, focus (p272)
--Carrés minimaux (moindres carrés ordinaires: MCO) (p272)
- (Supplément) Y a-t-il un Extraordinaire ...?
--OLS, Interprétation (p273)
- Analyse de régression, mise en œuvre plus efficace (p277)
--Méthode du carré minimum, solution de forme fermée (p278)
- Manuel d'introduction aux statistiques
--Régression linéaire, fortement influencée par xxx (p278)
--Méthode alternative pour supprimer les valeurs aberrantes (p278)
- Algorithme RANSAC (RANdom SAmple Consensus) (p278)
--Valeur normale (inlier: not outlier) (p279)
Fonction --lambda, appelable (p279)
--Calculer la fonction lambda, xxx (p279)
--MAD, écart absolu central de la valeur cible y (p279)
--Ligne de régression linéaire (pour être exact, superplan) (p281)
- Dans le cas de xxx, le résidu est 0, dans une application réelle (p282)
--Pour un bon modèle de régression (p282)
- Performance du modèle, quantification (p283)
- Erreur quadratique moyenne (MSE) (p283)
- Utile pour MSE, (p283)
--Facteur de décision $ R ^ 2 $ (p283)
- Facteur de décision, peut être considéré comme xxx (p283)
--SSE, somme des erreurs au carré (p283)
--SST (Somme du total au carré), équation (p283)
--C'est (p283)
-C'est juste $ R ^ 2 $:, transformation d'expression (p284)
- Poids des paramètres extrêmes du modèle, pénalité (p284)
--Régression linéaire régularisée, 3 (p284)
--Régression de crête (p284)
- LASSO (Least Absolute Shrinkage and Selection Operator) (p284)
- Méthode Elastic Net (p284)
--Modèle avec pénalité L2 (p284)
- J(w)_{Ridge}
- L2
--Augmenter, augmenter, diminuer (p285)
--LASSO, contrainte, quand m> n (p285)
--Ridge Return, LASSO, Elastic Net (p285)
- Filet élastique, pénalité L1, pénalité L2 (p285)
--Sparseness, nombre de variables sélectionnées xxx partiellement surmonté (p285)
--k vérification d'intersection fractionnée, paramètre $ \ lambda $, force de régularisation (p285)
--Force de régularisation, paramètre $ \ lambda $, paramètre $ \ alpha $ (p285)
--LASSO Retractor (p285) dans le sous-module linear_model
--ElasticNet, argument l1_ratio (p285)
--Régression multiple, trouver une courbe (p286)
- Coefficient de régression linéaire w, modèle de régression multiple (p286)
--scikit-learn, classe de convertisseur PolynomialFeatures (p286)
--Comment comparer la régression polypoly et la régression linéaire (p286)
- ajustement linéaire, ajustement quadratique, points d'entraînement, figure (p287)
- Coefficient de décision ($ R ^ 2 $), modèle linéaire, modèle polymorphe quadratique, ajustement (p288)
- Ajout de fonctionnalités polynomiales, complexité du modèle, surentraînement (p289)
- Caractéristiques du polygone, pas toujours le meilleur choix (p289)
--Convertir les variables explicatives en logarithme et être capable de xxx (p290)
--Random Forest Return (p290)
- Forêt aléatoire, arbre de décision, ensemble (p290)
--Forêt aléatoire, somme des fonctions linéaires compartimentées, c'est-à-dire (p290)
--Avantages de l'algorithme d'arbre de décision (p290)
--Arbre de décision, à étirer (p290)
--Arbre de décision, Entropie (p290)
--Entropie, xxx (p290)
- Pour utiliser un arbre de décision pour la régression (p291)
- $ I (t) $, Entropie, qui est un indice de pureté négatif du nœud d'équation t ... (p291)
- $ N_t $: Nombre d'échantillons d'apprentissage pour le nœud t (p291)
- $ D_t $: sous-ensemble d'entraînement du nœud t (p291)
- $ y ^ {(i)} $: Vraie destination (p291)
- $ \ hat {y_t} $: Valeur cible prédite (moyenne de l'échantillon) (p291)
--MSE, Distribution des nœuds après la séparation (p291)
--Condition de division, réduction de variation (p291)
--scikit-learn, classe DecisionTreeRegressor (p291)
--Arbre de décision, modèle, contrainte (p292)
- Profondeur de l'arbre de décision, surapprentissage, manque d'apprentissage (p292)
--Forêt aléatoire, arbre de décision, généralisation (p292)
- Raison
--Random Forest, Avantages (p292)
- Des forêts aléatoires, des paramètres et des expériences sont nécessaires (p292)
--Forêt aléatoire, algorithme, algorithme de classification (p292)
--La seule différence
--Forêt aléatoire, variable objective attendue, calculée par xxx (p292)
--SVM, régression non linéaire (p294)
--SVM, Régression, S.R.Gunn (p294)
--SVM Retractor, scikit-learn (p294)