Dossier d'apprentissage (26e jour)

Début des études: samedi 7 décembre

Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018): 1/4 (mercredi) à 1/13 (lundi) lire ・ ** Yasuki Saito "Deep Learning from Zero" (O'Reilly Japan, 2016): 1/15 (mercredi) ~ **

"Apprentissage profond à partir de zéro"

J'ai commencé à lire hier parce que je voulais mieux comprendre le réseau neuronal et l'apprentissage profond, ce qui était une percée dans la recherche sur l'IA. p.122 Chapitre 4 Terminez la lecture pour apprendre le réseau neuronal.

Chapitre 1 Introduction à python

・ En gros, un examen de ce que j'ai fait jusqu'à présent (vue d'ensemble de Python, construction de l'environnement, moyenne arithmétique, etc.) Un chapitre qui décrit les connaissances nécessaires pour continuer à lire ce livre Seule la partie que je n'ai pas un peu comprise est décrite

・ Bool: un type qui prend Vrai ou Faux Des opérateurs tels que et, ou, not peuvent être utilisés.

`Définition de classe`


nom de classe de classe:
    def __init__(self,argument, …): #constructeur
    ...
def nom de la méthode 1(self,argument, …): #Méthode 1
    ...
def nom de la méthode 2(self,argument, …): #Méthode 2
    ...

#Le constructeur est également appelé méthode d'initialisation.

Chapitre 2 Perceptron

・ Perceptron est un algorithme qui existe depuis 60 ans (inventé en 1957). C'est à l'origine du réseau neuronal (deep learning).

-Le Perceptron reçoit plusieurs signaux comme entrées et produit un signal. Le signal Perceptron est une valeur binaire de "flux ou pas flux" (1 ou 0). Chacun de la pluralité de signaux d'entrée a un poids unique, et plus le poids est grand, plus le signal correspondant devient important. Une valeur qui contrôle l'importance du signal d'entrée.

-En plus de "input", "weight" et "output", il y a un élément appelé "biais". Le biais est un paramètre qui ajuste le degré auquel le signal de sortie émet 1 (déclenchement des neurones).

-Puisque Perceptron est linéaire, une classification telle que la somme logique exclusive (XOR) ne peut pas être réalisée. (Limitation de Perceptron) Cependant, comme Perceptron peut "superposer", il est possible d'exprimer la non-linéarité par empilement. (Donc pour être précis, les limites du Perceptron "monocouche")

Chapitre 3 Réseau de neurones

-Bien que Perceptron ait le potentiel d'être exprimé par un ordinateur en théorie, le travail de détermination du poids approprié pour satisfaire l'entrée et la sortie attendues doit être effectué manuellement. Cependant, le réseau de neurones est l'un des moyens de résoudre ce problème et a la propriété de pouvoir apprendre automatiquement les paramètres de poids appropriés à partir des données.

-Dans le réseau neuronal (Perceptron), l'entrée est pondérée et polarisée, et la somme de ces signaux d'entrée est convertie par la ** fonction d'activation ** et la sortie.

-La fonction d'activation est une fonction qui commute la sortie à la limite du seuil, et est appelée une fonction d'étape ou une fonction d'étape. Perceptron utilise une fonction step.

-Dans le réseau neuronal, la ** fonction sigmoïde ** est utilisée comme fonction d'activation. La fonction sigmoïde est une courbe lisse par rapport à la fonction d'étape, et la sortie change continuellement par rapport à l'entrée. Cette fluidité est la base de l'apprentissage du réseau neuronal. La caractéristique commune est que la sortie peut être poussée entre 0 et 1 si elle est importante, une valeur élevée si elle n'est pas importante et quelle que soit la taille de la valeur.

-Récemment, en plus de la fonction sigmoïde, ** ReLU (Rectified Linear Unit) ** est souvent utilisé.

-La fonction d'activation utilisée dans la dernière couche de sortie doit être utilisée correctement en fonction de la tâche. En général, la fonction softmax est utilisée pour les problèmes de classification (deviner à quelle classe ils appartiennent), et la fonction d'équivalence est utilisée pour les problèmes de régression (deviner les nombres).

・ La fonction constante envoie la valeur telle quelle. La fonction softmax se caractérise par sa capacité à répondre ** de manière probabiliste (statistiquement) au problème, et la sortie totale est de 1. ** (Autrement dit, si a = 0,2, b = 0,5, c = 0,3, la probabilité de a est de 20%, la probabilité de b de 50% et la probabilité de c de 30%.)

-En général, le nombre de neurones dans la couche de sortie dans la classification de classe est défini sur le nombre de classes que vous souhaitez classer. (Mis à 10 si le problème est de deviner à quel nombre de 0 à 9 appartient)

-Les données d'entrée cohérentes sont appelées un lot. Cela signifie un tas. Le calcul peut être accéléré en effectuant un traitement par inférence par lots.

Chapitre 4 Apprentissage des réseaux de neurones

«Apprentissage» fait référence à l'acquisition automatique de la valeur optimale du paramètre de poids à partir des données d'entraînement. Pour activer cet apprentissage, ** introduisez un index appelé «fonction de perte». Le but de l'apprentissage est de trouver le paramètre de poids qui a la plus petite valeur en fonction de la fonction de perte.

-Neural network (deep learning) apprend simplement les données données et tente de découvrir des modèles. Quel que soit le problème cible, les données peuvent être apprises "de bout en bout" sous forme de données brutes telles quelles.

** erreur quadratique moyenne **: La fonction de perte la plus connue. Calculez le carré de la différence entre chaque élément du résultat et les données correctes de l'enseignant, puis calculez la somme.
** erreur d'entropie croisée **: la deuxième fonction de perte la plus couramment utilisée après celle ci-dessus. Calculez la somme de la sortie multipliée par l'étiquette correcte. Cependant, étant donné que l'étiquette de réponse correcte est représentée par une expression one-hot (0 ou 1), il s'agit pratiquement uniquement de calculer le logarithme naturel de la sortie correspondant à l'étiquette de réponse correcte de 1.

-Comme il faut du temps pour obtenir la fonction de perte pour toutes les données, il est basique de retirer un petit bloc appelé mini-lot et d'effectuer un entraînement pour chaque mini-lot. (Je pense avoir vu une histoire similaire en étudiant les statistiques.)

-Le but de l'apprentissage est de calculer comment la fonction de perte change lorsque le paramètre de poids est légèrement modifié, et de trouver un endroit où la perte est moindre. Voici l'idée de ** différenciation (gradient) **. C'est une propriété importante dans cet apprentissage que la différenciation de la fonction sigmoïde ne devient nulle à aucun endroit.

・ La différenciation est la quantité de changement à un moment donné. La recherche de la différenciation par une petite différence est appelée ** différenciation numérique **, et elle est principalement utilisée. On dit que la différence minuscule h doit être de 1e-4 (10 à la 4e puissance, 0,0001). D'autre part, la découverte par expansion mathématique est appelée différenciation analytique.

-Une collection des différentiels partiels de toutes les variables en tant que vecteur est appelée ** gradient **. La direction indiquée par ce gradient est la direction dans laquelle la valeur de la fonction est le plus réduite à chaque emplacement, et la méthode pour trouver la valeur minimale de la fonction en faisant bon usage de celle-ci est appelée la méthode du gradient.

-Lors de l'expression de la méthode du gradient avec une formule mathématique, déterminez le montant η de combien apprendre en un apprentissage et combien mettre à jour les paramètres. C'est ce qu'on appelle le ** taux d'apprentissage **.

・ Les paramètres tels que le taux d'apprentissage sont appelés hyper paramètres. Ceci est différent des poids et des biais que le réseau neuronal peut auto-apprendre et doit être défini manuellement.

・ 4 étapes pour apprendre le réseau neuronal

1 Sélectionnez un mini-lot et obtenez une fonction de perte. 2 Trouvez le gradient et trouvez un moyen de réduire la fonction de perte. 3 Mettez à jour le paramètre de pondération dans la direction du dégradé. 4 Répétez les étapes 1 à 3.

Ce qui précède est appelé ** descente de gradient stochastique (SVD) **.

-En illustrant la fonction de perte et l'itération (nombre de répétitions), la transition de la fonction de perte (progression de l'apprentissage) peut être visualisée.

・ ** Epoch **: 1 Epoch est une unité et correspond au nombre de fois où toutes les données sont épuisées. Si vous vous entraînez avec 100 mini-lots pour 10 000 données, vous verrez toutes les données d'entraînement lorsque vous répéterez 100 fois. En d'autres termes, 100 fois = 1 époque.

[PYTHON] Dossier d'apprentissage 22 (26e jour)