[PYTHON] Cours de formation Data Scientist Chapitre 2 Jour 2

Aujourd'hui, nous sommes passés au chapitre 2. Comme d'habitude, l'environnement utilise Docker.

Les principales bibliothèques utilisées sont les suivantes

Mémo Numpy

En gros, j'ai touché Numpy lui-même jusqu'à la dernière fois, mais il y a certains points que je ne comprends pas, donc je procède en vérifiant à chaque fois.

Lorsqu'il s'agit de calculer des trames de données, les trames de données de Pandas peuvent être utilisées plus souvent. Dans cet esprit, je pense que Numpy est souvent utilisé pour les calculs ici et pour générer des nombres aléatoires.

Quant à la génération de nombres aléatoires de Numpy, ici

np.random.randn()

Semble être souvent utilisé. La fonction randn est un nombre aléatoire normal standard. En d'autres termes, il semble générer des valeurs numériques normalement distribuées randn

Il existe plusieurs façons de générer des nombres aléatoires autres que randn, et l'uniforme sortira à la fin. Lors de la génération de plusieurs nombres aléatoires

np.random.randn(1000)

Vous pouvez créer 1000 nombres aléatoires en écrivant. Dans ce cas, les valeurs renvoyées seront un tableau

Aussi pour obtenir la valeur numérique qui était en ordre

np.arrange(1000)

Il y avait aussi une utilisation comme. Dans le cas ci-dessus, une séquence de 1 à 1000 est renvoyée. Utilisé comme valeur de l'axe X lors du dessin du graphique.

Mémo Scipy

Principalement utilisé pour le calcul matriciel. Depuis que j'ai oublié le calcul matriciel lui-même, je continue en lisant, mais je sens qu'il y avait certainement une chose telle que la valeur propre de la matrice ou la matrice inverse. La vengeance sera nécessaire ici si nécessaire.

J'ai appris la méthode Newton comme méthode de résolution d'équations.

from scipy.optimize import newton newton(sample_function, 0)

La valeur lorsque sample_function est l'argument 0 dans une telle description. En d'autres termes, il trouve x lorsque f (x) = 0.

À titre d'exemple, la formule x ** 2 + 2 * x + 1. En d'autres termes, la solution de f (x) = x ^ 2 + 2x + 1 a été appliquée à la fonction Newton pour trouver la réponse. Cependant, lorsque j'ai essayé d'alimenter f (x) = 2x ^ 2 + 2x + 1 à la fonction Newton, une erreur s'est produite.

Failed to converge after 50 iterations, value is 0.6246914113887032

J'ai essayé 50 itérations, mais il semble que cela n'a pas fonctionné.

newton(sample_function2,0,maxiter=1000)

La fonction Newton semble être capable de spécifier cette itération comme argument, j'ai donc essayé de la faire pivoter environ 1000 fois, mais à la fin cela n'a pas fonctionné. Je ne comprends pas vraiment les caractéristiques de la fonction Newton elle-même, donc cela ne fonctionnera probablement pas, mais je me demandais ce qui s'était passé.

Mémo Pandas

J'ai lu les bases. La fonction de fusion est fournie comme méthode pour joindre plusieurs DataFrames comme une table RDB, mais dans le champ Chapter, il n'y avait qu'une jointure automatique et je n'ai pas trouvé de moyen de spécifier manuellement les conditions de jointure.

Ceci a été écrit dans la référence officielle avec des exemples détaillés.

pandas.DataFrame.merge

Si vous regardez de plus près, dans le chapitre, il s'appelle pd.merge (data_frame1, data_frame2), mais dans la référence, il s'appelle data_frame1.merge (data_frame2). Puisqu'il y a self dans le premier argument de la fonction de fusion, il semble que les deux soient pris en charge comme manière d'écrire.

Quand je cherche, je suis frappé par de nombreux articles écrits en tant que traductions japonaises, et j'ai envie de m'y référer, mais je pense qu'il vaut mieux prendre l'habitude de lire fermement la formule. Tout d'abord, je vais essayer de contester cela. Tout en versant des larmes.

Mémo Matplotlib

Que vous compreniez bien le sens ou non, c'est probablement parce que vous êtes fatigué que quelque chose qui est dessiné sous la forme d'un graphique vous rend un peu heureux.

import matplotlib.pyplot as plt plt.plot(x, y, "o")

Je l'ai fait dessiner sous la forme de, mais quand j'ai changé cette partie "o" de manière appropriée, celle tracée a changé. C'était comme prévu que le "x" était croisé, mais quand j'ai essayé "g", par exemple, c'est devenu un graphique à barres. En regardant la référence, au lieu d'en faire un graphique à barres en le définissant sur g, la valeur par défaut était un graphique à barres en premier lieu, et g avait une spécification de couleur verte.

matplotlib.puplot.plot

Il semble que vous puissiez spécifier d'autres marqueurs de tracé, il est donc bon de l'essayer pour le plaisir.

La fin

J'ai réussi à terminer jusqu'au chapitre 2. Je peux continuer parce que je n'ai qu'à m'en souvenir, mais ça fait mal de ne pas pouvoir prendre assez de temps pour continuer avec 1 chapitre.

Jusqu'à ce point, l'utilisation de base de Python et des bibliothèques sera utilisée, et à partir du chapitre suivant, nous commencerons les statistiques et l'analyse réelles, de sorte que le niveau de difficulté augmentera immédiatement.

Recommended Posts

Cours de formation Data Scientist Chapitre 2 Jour 2
Cours de formation Data Scientist Chapitre 3 Jour 3
Cours de formation Data Scientist Chapitre 4 Jour 1
Cours de formation Data Scientist Chapitre 3 Jour 1 + 2
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 6
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 7
Résolution d'exercices dans le cours de formation GCI Data Scientist Chapitre 8
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.1-8.2.5)
[Introduction à Python3, jour 17] Chapitre 8 Destinations de données (8.3-8.3.6.1)
[Introduction à Python3 Jour 19] Chapitre 8 Destinations de données (8.4-8.5)
[Introduction à Python3 Day 18] Chapitre 8 Destinations de données (8.3.6.2 à 8.3.6.3)
Créer des données d'entraînement
Données de formation par CNN
Python pour l'analyse des données Chapitre 4
<Cours> Apprentissage en profondeur: Day2 CNN
<Cours> Apprentissage en profondeur: Jour 1 NN
Sortie du cours Infra_Data Science
Python pour l'analyse des données Chapitre 2
Python pour l'analyse des données Chapitre 3