J'ai étudié 4 bibliothèques de test d'analyse de données de certification d'ingénieur Python 3

Bibliothèque principale de questions d'examen

** 67,5% ** seront attribués à partir des questions d'examen dans les quatre bibliothèques NumPy, pandas, Matplotlib et scitit-learn. Je pense que si vous supprimez cela, vous passerez presque certainement, alors j'ai étudié brièvement. J'espère qu'il sera utile à ceux qui le recevront à l'avenir. (Je n'ai pas encore passé l'examen)

À propos de l'apprentissage préalable à l'examen d'analyse des données de certification Python 3 Engineer

NumPy

Numpy occupe ** 15% ** des questions d'examen, et l'opération de base n'est pas difficile, donc si vous l'écrivez plusieurs fois avec le cahier Jupyter, vous vous en souviendrez naturellement.

remodeler

a1 = np.array([0, 1, 2, 3, 4, 5])

#Convertir en tableau 2x3
a2 = a1.reshape((2, 3))

a2
array([[0, 1, 2],
       [3, 4, 5]])

#ValueError si le nombre d'éléments ne correspond pas
a3 = a1.reshape((3, 4))
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-23-304b0b5b4ab2> in <module>
----> 1 a3 = a1.reshape((3, 4))

ValueError: cannot reshape array of size 6 into shape (3,4)

rabel, flatten Rabel et flatten recréent la séquence, mais rabel renvoie une ** référence **, tandis que flatten renvoie une ** copie ** S'il s'agit d'une référence, elle s'appelle Shallow Copy, sinon elle s'appelle Deep Copy.

#Connectez les baies
a4 = a2.ravel()
a4
array([0, 1, 2, 3, 4, 5])

a5 = a2.flatten()
a5
array([0, 1, 2, 3, 4, 5])

a4[1] = 10
a4
array([ 0, 10,  2,  3,  4,  5])

a5[2] = 20
a5
array([ 0,  1, 20,  3,  4,  5])

# a4(ravel)La pièce modifiée est également affectée par a2, mais a5 (aplatir)La pièce modifiée en n'affecte pas a2
a2
array([[ 0, 10,  2],
       [ 3,  4,  5]])

linspace Créez des données uniformément divisées en spécifiant une plage

np.linspace(0, 1, 5)
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

#Cet alignement est utilisé lors du dessin d'un graphique de la fonction sin
np.linspace(0, np.pi, 21)
array([0.        , 0.15707963, 0.31415927, 0.4712389 , 0.62831853,
       0.78539816, 0.9424778 , 1.09955743, 1.25663706, 1.41371669,
       1.57079633, 1.72787596, 1.88495559, 2.04203522, 2.19911486,
       2.35619449, 2.51327412, 2.67035376, 2.82743339, 2.98451302,
       3.14159265])

np.diff Renvoie la différence entre les éléments

d = np.array([10, 5, 3, 3, 10])
np.diff(d)
#Il y a une différence avant et après
array([-5, -2,  0,  7])

concatenate Relier

#Créer deux tableaux
b1 = [1, 3, 5]
b2 = [2, 4, 6]

b3 = np.concatenate([b1, b2])
b3
#Deux séquences sont concaténées
array([1, 3, 5, 2, 4, 6])

#Créer un tableau à deux dimensions
b3 = b3.reshape((2, 3))
b3
array([[1, 3, 5],
       [2, 4, 6]])

#Créer un autre tableau à deux dimensions
b4 = np.array([[10], [20]])
b4
array([[10],
       [20]])

#Concaténation de tableaux à deux dimensions
b5 = np.concatenate([b3, b4], axis=1)
b5
array([[ 1,  3,  5, 10],
       [ 2,  4,  6, 20]])

#Même comportement avec hstack
np.hstack([b3, b4])
array([[ 1,  3,  5, 10],
       [ 2,  4,  6, 20]])

#Créer un nouveau tableau unidimensionnel
b6 = np.array([100, 200, 300, 400])
b6
array([100, 200, 300, 400])

#Concaténation pour augmenter les lignes avec vstack
b7 = np.vstack([b5, b6])
b7
array([[  1,   3,   5,  10],
       [  2,   4,   6,  20],
       [100, 200, 300, 400]])

hsplit, vsplit Fractionnement d'un tableau à deux dimensions

#Divisez le tableau b7 utilisé dans la concaténation en deux. Le deuxième argument indique le nombre de colonnes à utiliser.
a1, a2 = nphsplit(b7, [2]) 
a1
array([[  1,   3],
       [  2,   4],
       [100, 200]])

#Les colonnes restantes du deuxième argument sont a2. Deux rangées ici.
a2
array([[  5,  10],
       [  6,  20],
       [300, 400]])

#vsplit se divise dans le sens de la ligne
a1, a2 = np.vsplit(b7, [2])
a1
array([[ 1,  3,  5, 10],
       [ 2,  4,  6, 20]])

a2
array([[100, 200, 300, 400]])

T L'échange de lignes et de colonnes s'appelle ** translocation **

#Utilisez a1 utilisé dans la division.(2×4)queue
a1
array([[ 1,  3,  5, 10],
       [ 2,  4,  6, 20]])

#Inverser une matrice 4x2
a1.T
array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [10, 20]])

meshgrid Génération de données de grille Utilisé pour dessiner des courbes de niveau et des cartes thermiques. À partir des tableaux de coordonnées x et y, les données de coordonnées de tous les points pouvant être combinés sont générées.

e = np.arange(0, 4)
e
array([0, 1, 2, 3])

f = np.arange(4, 7)
f
array([4, 5, 6])

#Générez des données de grille (sur la grille) avec e et f dans les directions de ligne et de colonne.
ee, ff = np.meshgrid(e, f)

ee
array([[0, 1, 2, 3],
       [0, 1, 2, 3],
       [0, 1, 2, 3]])
ff
array([[4, 4, 4, 4],
       [5, 5, 5, 5],
       [6, 6, 6, 6]])

Fonction universelle

fonction abs

La valeur absolue peut être calculée

#Créer un tableau avec des valeurs négatives
a = np.arange(-3, 3).reshape((2, 3))
a
array([[-3, -2, -1],
       [ 0,  1,  2]])

#Trouvez la valeur absolue
np.abs(a)
array([[3, 2, 1],
       [0, 1, 2]])

fonction sin, fonction cos, fonction log

Puisque le sin et le cos sont différentiels et sont utilisés comme une évidence dans l'analyse des poursuites, ils ne peuvent commencer que si la différence est connue. Il est très important de comprendre quand et ce qui est utile.

b = np.linspace(-1, 1, 10)
b
array([-1.        , -0.77777778, -0.55555556, -0.33333333, -0.11111111,
        0.11111111,  0.33333333,  0.55555556,  0.77777778,  1.        ])

#fonction sin
np.sin(b)
array([-0.84147098, -0.70169788, -0.52741539, -0.3271947 , -0.11088263,
        0.11088263,  0.3271947 ,  0.52741539,  0.70169788,  0.84147098])

#fonction cos
np.cos(b)
array([0.54030231, 0.71247462, 0.84960756, 0.94495695, 0.99383351,
       0.99383351, 0.94495695, 0.84960756, 0.71247462, 0.54030231])

c = np.array([0, 1, 2])
c
array([0, 1, 2])

#fonction log Calcule un journal naturel avec la base du nombre de Naipia.-inf signifie moins l'infini.
np.log(c)
array([      -inf, 0.        , 0.69314718])

pandas

pandas est un outil d'acquisition et de traitement de données

Ce n'est pas difficile à utiliser et vous pouvez le comprendre à peu près en regardant les matériaux de référence. Il représente ** 17,5% ** des questions d'examen. Le traitement des données est un peu difficile à retenir, mais ce n'est pas difficile.

import pandas as pd

d = pd.DataFrame([[100, "first", True],
                 [200, "second", False],
                 [300, "third", True],
                 [400, "fourth", True],
                 [500, "fifth", False]])
d

pandas1.png

Peut lire et écrire des fichiers ** CSV ** et ** Excel **.

#Ecrire CSV
d.to_csv("write_csv.csv")

pandas2.JPG

Matplotlib

Une bibliothèque pour dessiner des graphiques 2D en python. Il représente ** 15% ** des questions d'examen.

Vous pouvez dessiner en détail des graphiques tels que des graphiques linéaires, des graphiques à barres et des diagrammes de dispersion. Le niveau de difficulté n'est pas du tout élevé.

import matplotlib.pyplot as plt
import matplotlib.style
import numpy as np

matplotlib.style.use('ggplot')

x = [10, 30, 60]
y = [20, 50, 150]

fig, ax = plt.subplots()
ax.plot(x, y)
ax.set_title('test2-style')

matplotlib.png

fig, ax = plt.subplots()
x = [1, 2, 3, 4]
y = [8, 1, 5, 10]
labels = ['first', 'secound', 'third', 'fourth']
ax.bar(x, y, tick_label=labels)

matplotlib1.png

fig, ax = plt.subplots()
np.random.seed(500)
x = np.random.rand(80)
y = np.random.rand(80)
ax.scatter(x, y)

matplotlib2.png

scikit-learn

** scikit-learn ** est au cœur de cet examen d'analyse de données certifié ingénieur. ** 20% ** des questions d'examen viennent d'ici. Et scikit-learn est une bibliothèque qui effectue le ** processus de prétraitement **, qui est la partie la plus importante de l'analyse des données.

** Classification **, ** Retour **, ** Apprentissage supervisé **, ** Machine vectorielle de support **, ** Arbre de décision **, ** Clustering **, etc. sont des mots familiers pour l'apprentissage automatique. , Le chapitre de scikit-learn dans le matériel de référence semble être un peu plus mémorable pour ceux qui n'ont jamais touché à l'apprentissage automatique. En tant que méthode d'apprentissage, il existe de nombreux articles qui sont plus faciles à comprendre si vous ne comprenez pas après avoir lu les documents de référence une fois, il est donc recommandé de rechercher sur Google cette partie plutôt que de lire le livre plusieurs fois. Il est également recommandé de rechercher du matériel vidéo sur Udemy, etc.

Sommaire

Il n'est pas exagéré de dire que le test d'analyse des données de certification d'ingénieur est un test d'utilisation de la bibliothèque. Il est difficile de se souvenir simplement en lisant un livre, et vous devez le déplacer d'une manière ou d'une autre, mais je ne pense pas que ce soit un test difficile pour quiconque a un peu de machine learning. Si vous n'avez jamais étudié l'apprentissage automatique, la lecture d'un livre rendra le chapitre scikit-learn difficile.

Recommended Posts

J'ai étudié 4 bibliothèques de test d'analyse de données de certification d'ingénieur Python 3
Préparation à l'examen d'analyse de données certifié Python 3 Engineer
J'ai suivi une formation à l'analyse de données Python à distance
Analyse de données python
Test d'analyse des données de certification d'ingénieur Python3
Formation préalable à l'examen d'analyse des données de certification d'ingénieur Python 3
Comparaison approfondie de trois bibliothèques d'analyse morphologique Python
Environnement enregistré pour l'analyse des données avec Python
Analyse des données de pratique Python Résumé de l'apprentissage que j'ai atteint environ 10 avec 100 coups
Analyse de données avec python 2
Avoir réussi l'examen d'analyse des données de certification d'ingénieur Python
[Python] [Word] [python-docx] Analyse simple des données de diff en utilisant python
Bibliothèques de visualisation de données Python
Liste des bibliothèques Python pour les data scientists et les data ingénieurs
Présentation de l'analyse de données python
[OpenCV / Python] J'ai essayé l'analyse d'image de cellules avec OpenCV
[Test d'analyse des données de certification d'ingénieur Python3] Examen / expérience de réussite
Défiez l'analyse des composants principaux des données textuelles avec Python
Liste du code Python utilisé dans l'analyse de Big Data
Modèle d'analyse de données Python
Analyse de données avec Python
Lequel dois-je étudier, R ou Python, pour l'analyse des données?
[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
J'ai réussi le test d'analyse de données Python, j'ai donc résumé les points
Ce que j'ai vu en analysant les données du marché des ingénieurs
Mon conteneur d'analyse de données python
Python pour l'analyse des données Chapitre 4
Analyse statique des programmes Python
[Python] Notes sur l'analyse des données
Notes d'apprentissage sur l'analyse des données Python
Python pour l'analyse des données Chapitre 2
Analyse de données à l'aide de pandas python
Python pour l'analyse des données Chapitre 3
Porté du langage R de "Sazae-san's Janken Data Analysis" vers Python
Livres et sources recommandés de programmation d'analyse de données (Python ou R)
Une analyse simple des données de Bitcoin fournie par CoinMetrics en Python
Exercice pratique d'analyse de données avec Python ~ 2016 New Coder Survey Edition ~
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
Python: analyse des séries chronologiques: prétraitement des données des séries chronologiques
Modèle de prétraitement pour l'analyse des données (Python)
Recommandation d'analyse des données à l'aide de MessagePack
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
Analyse de données à partir de python (visualisation de données 1)
Analyse de données à partir de python (visualisation de données 2)
Traitement des données 2 Analyse de divers formats de données
Résumé du livre électronique Python utile pour l'analyse de données gratuite
J'ai 0 ans d'expérience en programmation et je défie le traitement des données avec python
J'ai essayé l'analyse de données IRMf avec python (Introduction au décodage des informations cérébrales)
J'ai essayé d'effectuer une analyse de cluster de clients à l'aide des données d'achat