What
Cet article résume ce que j'ai remarqué et ce que j'ai recherché lors de l'apprentissage de l'apprentissage automatique avec Chainer. Cette fois, j'étudierai scicit-learn.
Il est rédigé d'après ma compréhension, il se peut donc qu'il soit incorrect. Je corrigerai toutes les erreurs, veuillez me pardonner.
Content
scikit-learn ** Il semble que vous pourrez entraîner votre modèle si vous maîtrisez cette bibliothèque. ** ** Formation de modèle? ?? Quoi? C'est comme si, mais pouvez-vous comprendre si vous continuez à lire? Ensemble de données pour la formation? Comme
- Nous utilisons un ensemble de données appelé ensemble de données sur les prix des logements à Boston, qui est créé en collectant des informations telles que des informations sur le milieu de vie pour chaque région de 506 à Boston, aux États-Unis, et des informations sur le loyer médian. *
J'essaierai de l'utiliser. Il semble que le prix médian de l'immobilier soit prédit à partir de l'ensemble de données de l'échantillon 506 et comparé à la valeur médiane réelle.
Maintenant, dans le cas où les données sont fournies à partir de l'ensemble de données sur les prix des logements de Boston, si toutes ces données sont utilisées pour la formation (= optimisation du modèle), les données de 506 échantillons seront optimisées et elles sont en fait inconnues du modèle. Lorsque vous essayez de donner des données, il est inutile de s'entraîner si cela ne correspond pas du tout à la situation réelle. Puisqu'il s'agit (appelé surentraînement), il semble que certaines données devraient être utilisées pour la vérification de la validité du modèle. ** L'allocation aléatoire des données pour l'entraînement et les tests est appelée la méthode d'exclusion. ** ** Peut être divisé avec l'une des fonctions suivantes
#Diviser en ensembles de données d'entraînement et de test
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.3, random_state=0)
Il semble que les méthodes de prévention du surapprentissage soient devenues l'objet de recherches universitaires. Dans cette bibliothèque, les données peuvent être prétraitées afin que la valeur moyenne de l'ensemble de données soit 0 et la distribution soit 1.
Le flux du prétraitement des données à l'analyse de régression multiple et à l'évaluation avec une fonction de décision est Vous pouvez intégrer le traitement à l'aide d'un pipeline
Comment J'étudie dur, alors j'ai pensé que je voulais faire quelque chose J'ai joué à une compétition appelée Deep racer. Je voulais apparaître dans l'AWS Deep racer.
Recommended Posts