J'ai décidé d'apprendre le machine learning avec Python, Tout d'abord, je l'ai écrit comme mémorandum personnel lors de la lecture du livre "L'apprentissage automatique commençant par Python".
Je n'appartiens pas à une entreprise informatique, mais je ferai de mon mieux pour apprendre et travailler à partir de maintenant. Je laisse un journal dans l'espoir que cela aidera autant que possible les débutants.
Il est lu comme scikit-learn. Il y a un manuel d'instructions sur le lien ci-dessous. Peut-être que certaines personnes, mais regarder le diagramme lié me rappelle gnuplot.
Je me demandais si je devais installer Jupyter Notebook, mais comme c'était la première fois, j'ai décidé de suivre le livre. Il peut être pratique de l’utiliser. Installez Anaconda pour installer Jupyter Notebook. ・ Télécharger la page du site officiel d'Anaconda
Si vous installez Anaconda, vous pouvez utiliser tous les packages utilisés dans ce livre. Si vous utilisez déjà Python, accédez à Terminal
pip install numpy scipy matplotlib ipython scikit-learn pandas pillow
Vous pouvez installer la bibliothèque utilisée dans ce livre en tapant.
Comment utiliser Jupyter Notebook est décrit dans le lien ci-dessous. [Jupyter Notebook] Sachons comment l'utiliser efficacement [Python / Machine learning]
NumPy (Nampai ou Nampai) et SciPy (SaiPy). SciPy est un ensemble de divers logiciels, et toutes les fonctions de NumPy peuvent être utilisées avec SciPy. ・ Différences et relations entre SciPy et ses amis (NumPy, IPython, etc.) ・ Numpy et Scipy Pour les débutants comme moi, je ne sais pas encore grand-chose sur la différence, donc je m'en fiche.
CSR CSR est une abréviation de Compressed Sparse Row, qui est une forme compressée d'une matrice clairsemée. Puisque le calcul matriciel traite souvent une matrice dont la composante est 0, Je pense que c'est sous une forme pratique pour que les données n'augmentent pas inutilement.
Le format COO est une abréviation de Format de coordonnées et est une méthode de spécification normale du numéro de matrice.
pandas Dans le livre
from IPython import display
Est écrit, mais après ça
display(data_pandas)
À l'endroit de
TypeError: 'module' object is not callable
J'obtiens une erreur. Dans mon environnement
from IPython.display import display
Ensuite, cela a fonctionné. Probablement parce que la version est différente.
Dans le livre lors de l'utilisation de la fonction scatter_matrix
grr = pd.scatter_matrix(iris_dataframe, c=y_train, figsize=(15,15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3)
Il y a une description, mais dans ma version
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15,15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3)
Cela a fonctionné avec.
Cette fois, j'ai écrit ce que je n'ai pas compris après avoir lu le Chapitre 1 Introduction. La plupart de l'environnement a été amélioré, mais à la fin, j'ai un peu abordé l'apprentissage automatique. k-L'iris a été classé par la méthode la plus proche, mais les détails du modèle ne sont pas mentionnés. Il existe différents paramètres, mais il a été indiqué que les paramètres à modifier seront présentés dans un chapitre ultérieur. Pour le moment, je ne suis pas sûr car c'est plein de paramètres, mais j'aimerais continuer.
Dès la prochaine fois, nous découvrirons sérieusement le contenu de l'apprentissage automatique et de l'apprentissage supervisé.
Recommended Posts