[PYTHON] Apprendre sans enseignant 1 Principes de base

Aidemy 2020/10/28

introduction

Bonjour, c'est Yope! Je suis une école littéraire croustillante, mais j'étais intéressé par les possibilités de l'IA, alors je suis allé à l'école spécialisée en IA "Aidemy" pour étudier. Je voudrais partager les connaissances acquises ici avec vous, et je les ai résumées dans Qiita. Je suis très heureux que de nombreuses personnes aient lu l'article de synthèse précédent. Merci! Cette fois, ce sera un poste d'apprentissage non supervisé. Ravi de vous rencontrer.

Quoi apprendre cette fois ・ À propos de l'apprentissage sans enseignant ・ Types d'apprentissage non supervisé ・ Connaissances mathématiques préalables

Apprendre sans professeur

Qu'est-ce que l'apprentissage non supervisé?

-Dans l'apprentissage supervisé, l'apprentissage est effectué en donnant une «réponse» appelée étiquette de classe, mais dans l'apprentissage non supervisé, cette réponse n'est pas acceptée et l'ordinateur lui-même juge et apprend. ・ Cette fois, nous en apprendrons davantage sur __ "clustering" __ et __ "analyse en composantes principales" __ dans cet apprentissage non supervisé.

Clustering

-Le clustering est une méthode __ qui divise __data en morceaux (clusters). -Une méthode de regroupement __ "méthode k-means" __ est que __ personnes décident du nombre de groupes __ et l'ordinateur divise les données de sorte que le nombre soit le même. -Dans la méthode k-means, l'apprentissage est effectué de sorte que la position d'un point appelé "centre de gravité" soit appropriée, et le regroupement est effectué sur cette base.

Analyse des composants principaux

-L'analyse des composants principaux est une méthode __ qui réduit les dimensions des données __ (réduction des dimensions) et regroupe les informations dans un graphique. -Dans l'analyse des composants principaux, l'axe (composant principal) qui indique particulièrement les caractéristiques des données est appris et déterminé. -Par exemple, un axe est défini à partir de trois données différentes «âge, taille et poids» et représenté dans un graphique bidimensionnel sous la forme de «données personnelles».

Connaissance préalable de l'apprentissage non supervisé

Distance euclidienne

・ La distance de coordonnées entre deux points (x1, x2) et (y1, y2) dans l'espace bidimensionnel est \sqrt{(x_1-y_1)^2+(x_2-y_2)^2} Peut être obtenu à. ・ De même, la distance entre deux points (x1, x2 ... xn), (y1, y2 ... yn) dans un espace à n dimensions est \sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2} Est requis par. Cette distance est appelée __Euclidean distance (norm) __.

・ Vous pouvez trouver la distance euclidienne avec NumPy comme suit. (__np.linalg.norm () __ signifie "somme des carrés entre ()")

スクリーンショット 2020-10-28 23.05.43.png

Similitude cosinus

-Lors de l'évaluation de la similitude de deux vecteurs, il est jugé d'après la similitude entre __ "longueur" et "direction" . ・ En se concentrant sur la direction, on peut dire que plus l'angle __ "θ" __ créé par les deux vecteurs est petit, plus la similitude est élevée. ・ En tant que méthode d'obtention de θ, la formule du produit interne des vecteurs\vec{a} \cdot \vec{b} = |\vec{a}|\, |\vec{b}| \, \mathrm{cos}\thetaIl peut être trouvé en développant cos θ. À propos de cette méthode"Similitude cosinus"__C'est. ・ Concernant cosθ à ce moment, notez que plus la valeur de __cosθ est élevée, plus le θ est petit. -En outre, la similitude cosinus correspond également à des données à n dimensions.

-Dans le code, il peut être calculé par NumPy. (__np.dot () __ représente "la somme des produits de chaque élément" (1 * 2 + 2 * 3 + 3 * 4 dans ce qui suit))

スクリーンショット 2020-10-28 23.06.54.png

Sommaire

Apprentissage sans enseignant __ est une méthode dans laquelle l'ordinateur lui-même juge et apprend sans passer l'étiquette de réponse correcte. -Il y a " clustering " et " analyse des composants principaux " pour l'apprentissage non supervisé. Le premier est une méthode de division des données en grappes, et le second est une méthode d'agrégation d'informations dans un graphique en réduisant les dimensions. -Dans un apprentissage non supervisé, la similitude des données peut être jugée par « distance euclidienne (norme) » ou « similitude cosinus __».

Cette fois, c'est fini. Merci d'avoir lu jusqu'à la fin.

Recommended Posts

Apprendre sans enseignant 1 Principes de base
Apprentissage non supervisé 2 clustering non hiérarchique
Apprendre avec un enseignant (retour) 1 Bases
Bases de l'apprentissage automatique (mémoire)
Apprendre sans enseignant 3 Analyse des principales composantes
Apprendre avec l'enseignant 1 Principes de base de l'apprentissage avec l'enseignant (classification)
Python: apprentissage non supervisé: clustering non hiérarchique
Python: apprentissage non supervisé: analyse principale
(python) Principes de base du chaînage de la bibliothèque d'apprentissage en profondeur
Introduction aux bases de Python de l'apprentissage automatique (apprentissage non supervisé / analyse principale)
estimation personnelle en temps réel (apprentissage)
Les bases de Python ⑤
Bases de Linux
Les bases de Python
[Mémo d'apprentissage] Bases de la classe par python
Principes de base de NumPy
Les bases de Python ④
Dossier d'apprentissage
Notions de base sur les pandas
Les bases de Git
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Apprentissage automatique
Les bases de Python
Les bases de Django
Bases de Linux
Dossier d'apprentissage n ° 2
Notions de base sur les pandas
Les bases de Python
6/10 Contenu d'apprentissage
Les bases de Python
Les bases de Python ③
L'apprentissage en profondeur
apprentissage numpy-sigmoïde
Les bases de Python ②
Les bases de Python ②
Apprentissage profond à partir des bases mathématiques (pendant la fréquentation)
Bases de l'apprentissage avec un enseignant Partie 1-Régression simple- (Remarque)
Apprentissage profond appris par la mise en œuvre ~ Détection d'anomalies (apprentissage sans enseignant) ~
Python: apprentissage profond du traitement du langage naturel: principes de base
Bases de l'apprentissage avec un enseignant Partie 3-Régression multiple (mise en œuvre) - (Notes) -