[PYTHON] Spécialisation en apprentissage profond (Coursera) Dossier d'auto-apprentissage (C3W2)
introduction
Voici le contenu du cours 3, semaine 2 (C3W2) de Spécialisation en apprentissage profond.
(C3W2L01) Carry Out Error Analysis
Contenu
-
Error analysis
- Get \sim 100 mislabeled dev set examples
-
Comptez le nombre de chiens (je parle de classificateurs de chats, donc choisir une photo de chien entraînera une erreur)
――Si le cas où l'image d'un chien est jugée à tort comme un «chat» est de 5/100, même si l'amélioration liée au chien est faite, les performances ne seront pas grandement améliorées. Si 50/100, il y a une grosse amélioration
-
Evaluate multiple ideas in parallel
- Ideas for cat detection
- Fix pictures of dogs being recognized as cats
- Fix great cats (lions, panthers, etc.) being misrecognized
- Improve performance in blurry image
- ...
-
Vérifiez la cause en regardant l'image et concentrez-vous sur la grande zone
Image |
Dogs |
Great cat |
Blurry |
... |
Comments |
1 |
x |
|
|
|
|
2 |
|
x |
|
|
|
3 |
|
x |
x |
|
|
... |
|
|
|
|
|
% of total |
8% |
48% |
61% |
... |
|
(C3W2L02) Cleaning up Incorrectly labeled data
Contenu
--Si le kit d'entraînement est mal étiqueté
- DL algorithm are quite robust to random errors in the training set
- une erreur systématique a un effet (par exemple, si tous les chiens blancs sont étiquetés "chats")
- Pour l'ensemble de développement / test, effectuez une analyse des erreurs. Si l'impact est important, corrigez-le.
Image |
Dogs |
Great cat |
Blurry |
... |
Incorrectly labeled |
Comments |
1 |
x |
|
|
|
|
|
2 |
|
x |
|
|
x |
|
3 |
|
x |
x |
|
|
|
... |
|
|
|
|
|
|
% of total |
8% |
48% |
61% |
... |
5% |
|
- Correcting incorrect dev/test set example
- Appliquez le même processus à votre jeu de développement et de test pour vous assurer qu'ils continuent à provenir de la même distribution (le jeu de développement et le jeu de test sont la même distribution)
--Considération en examinant les exemples que votre algorithme a eu raison ainsi que ceux qu'il s'est trompés (Vérifiez non seulement les données que l'algorithme a commis une erreur, mais aussi les données qui ont été jugées correctement)
- Les données de train et de développement / test peuvent maintenant provenir d'une distribution légèrement différente (la distribution des données de train et de développement / test peut être légèrement différente)
(C3W2L03) Build First System Quickly, Then Iterate
Contenu
- Set up dev/test set and metrics
- Build initial system quickly
- Use Bias/Variance analysis & error analysis to prioritize next step
«Il est facile de penser trop dur et de créer un système compliqué dès le début.
commentaire
--Noir après 5 minutes et 30 secondes
(C3W2L04) Training and testing on different distribution
Contenu
--Je souhaite développer un algorithme pour classer les images dans l'application mobile
――Mais les données collectées sont de 200k pour l'image (pixel élevé) de la page Web et de 10k pour les données de l'application mobile. Que faire des données de train / dev / test à ce moment?
--Option 1; Ajouter les deux pour créer 210k données, mélanger et mélanger
- trainin set ; 205k
- dev set ; 2.5k
- test set ; 2.5k
--Avantages; même distribution
- Inconvénients; le jeu de développement / test est principalement constitué de données de page Web, pas beaucoup de données d'application mobile
- Option 2
- train set ; web page 200k + mobile app 5k
- dev set ; mobile app 2.5k
- test set ; mobile app 2.5k
--Avantages; La distribution de l'ensemble de développement / test est la même que l'objectif de l'algorithme (classification d'image de l'application mobile)
- Inconvénients; la distribution des rames est différente
- L'option 1 est meilleure que l'option 1
(C3W2L05) Bias and Variance with mismatched data distribution
Contenu
référence