En premier

Je veux traiter les actions comme un sujet d'apprentissage, mais je ne suis pas sûr de pouvoir l'analyser avec des données brutes. Par conséquent, je voudrais créer des données artificielles et les exécuter avec python. Je voudrais poursuivre dans le but d'apprendre le programme python.

À propos des données à traiter

Nous traitons les dates de négociation du 4 janvier 2016 au 8 novembre 2019. De plus, ces données sont

période	Tendance
2016	Tendance à la baisse
2017	Neutre
2018	Tendance croissante
2019	Tendance croissante(force)

C'est une marque fictive dont le cours de clôture change avec.

Je souhaite télécharger les données (fichier texte) que j'ai traitées, mais je me demande si Qiita ne peut télécharger que des images ...

Il s'agit d'un fichier csv de 944 lignes contenant les informations suivantes.

`SampleStock01.csv`


Entreprise fictive 01
Date,Prix ouvert,Prix élevé,Bas prix,le dernier prix
2016/1/4,9,934,10,055,9,933,10,000
2016/1/5,10,062,10,092,9,942,10,015
2016/1/6,9,961,10,041,9,928,10,007
2016/1/7,9,946,10,060,9,889,9,968
2016/1/8,9,812,9,952,9,730,9,932
2016/1/12,9,912,9,966,9,907,9,940
2016/1/13,9,681,9,964,9,607,9,928
2016/1/14,9,748,9,864,9,686,9,858
(Omission)

Préparation préalable

J'étudie simplement, donc je partirai d'un environnement propre. L'environnement d'apprentissage est

Windows HomeEdition 10
Python 3.7.4

`invite de commande`


python -m venv stock
.\stock\Scripts\Activate

Après la mise à jour de pip, avec matplotlib et pandas

`invite de commande`


python -m pip install --upgrade pip
pip install matplotlib
pip install pandas
pip install Seaborn

Vérifier les packages installés

`invite de commande`


pip list

Résultat d'exécution

Package Version --------------- ------- cycler 0.10.0 kiwisolver 1.1.0 matplotlib 3.1.1 numpy 1.17.4 pandas 0.25.3 pip 19.3.1 pyparsing 2.4.5 python-dateutil 2.8.1 pytz 2019.3 scipy 1.3.2 seaborn 0.9.0 setuptools 40.8.0 six 1.13.0

Lire le fichier

Exemple de panne 01

Tout d'abord, essayez de lire avec pd.read_csv () sans penser à rien.

`fail_case01.py`


import pandas as pd

dframe = pd.read_csv('SampleStock01.csv')

Résultat d'exécution

Comme prévu, une erreur est renvoyée.

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 0: invalid start byte

La chose qui trébuche quand il s'agit de python est la partie d'E / S de fichier ... La réflexion est interrompue ici à chaque fois.

Exemple de panne 02

Cependant, l'exemple de panne 01 est une catégorie d'attente, et ici il s'agit simplement de spécifier le codage.

`fail_case02.py`


import pandas as pd

#Fichier CSV(SampleStock01.csv)Spécifiez le code de caractère de
dframe = pd.read_csv('SampleStock01.csv', encoding="SJIS")

Résultat d'exécution

Oui. je savais Cela échoue également ici.

pandas.errors.ParserError: Error tokenizing data. C error: Expected 5 fields in line 3, saw 9

Étant donné que la première ligne du fichier CSV est définie sur le nom de la marque, vous devez lire à partir de la deuxième ligne.

Exemple de panne 03

C'est juste une question d'ignorer la première ligne et de lire à partir de la deuxième ligne.

`fail_case03.py`


import pandas as pd

#Fichier CSV(SampleStock01.csv)Spécifiez le code de caractère de
dframe = pd.read_csv('SampleStock01.csv', encoding="SJIS", header=1)

print(dframe)

Résultat d'exécution

Date d'ouverture prix prix haut prix bas prix de clôture 2016/1/4 9 934 10 55 9 933 10 0 2016/1/5 10 62 10 92 9 942 10 15 2016/1/6 9 961 10 41 9 928 10 7 2016/1/7 9 946 10 60 9 889 9 968 2016/1/8 9 812 9 952 9 730 9 932 ... ... .. ... .. ... 2019/11/1 13 956 15 59 13 940 14 928 2019/11/5 13 893 15 54 13 820 14 968 2019/11/6 14 3 15 155 13 919 15 47 2019/11/7 14 180 15 54 14 57 15 41 2019/11/8 14 76 15 52 13 939 15 41

[942 rows x 5 columns]

J'ai pu le lire correctement dans la trame de données! J'en étais content.

CSV delimiter "," et digit delimiter "," sont mélangés </ font> </ strong> et ne peuvent pas être lus correctement dans le dataframe.

Fichier CSV que je voulais lire

SampleStock01.csv

Entreprise fictive 01 Date,Prix ouvert,Prix élevé,Bas prix,le dernier prix 2016/1/4,9,934,10,055,9,933,10,000 2016/1/5,10,062,10,092,9,942,10,015 2016/1/6,9,961,10,041,9,928,10,007 2016/1/7,9,946,10,060,9,889,9,968 2016/1/8,9,812,9,952,9,730,9,932 2016/1/12,9,912,9,966,9,907,9,940 2016/1/13,9,681,9,964,9,607,9,928 2016/1/14,9,748,9,864,9,686,9,858 (Omission)

Pour être honnête, je pense qu'il n'y a pas d'autre choix que de modifier le fichier lu pour cela, j'ai donc modifié le délimiteur CSV de "," à "caractère de tabulation". Cependant, que dois-je faire si je rencontre ce type d'événement lors de l'analyse des journaux d'activité? ?? Si quelqu'un connaît un bon moyen, faites-le moi savoir.

Quoi qu'il en soit, modifiez le CSV pour qu'il soit lu comme suit.

SampleStock01_t1.csv

Entreprise fictive 01 Date d'ouverture prix prix haut prix bas prix de clôture 2016/1/4 9,934 10,055 9,933 10,000 2016/1/5 10,062 10,092 9,942 10,015 2016/1/6 9,961 10,041 9,928 10,007 2016/1/7 9,946 10,060 9,889 9,968 2016/1/8 9,812 9,952 9,730 9,932 2016/1/12 9,912 9,966 9,907 9,940 2016/1/13 9,681 9,964 9,607 9,928 2016/1/14 9,748 9,864 9,686 9,858 (Omission)

Succès

J'ai essayé d'être honnête pour la quatrième fois en ajoutant un processus pour spécifier que le délimiteur est un caractère de tabulation dans le code jusqu'à présent.

Success_case.py

import pandas as pd #Fichier CSV(SampleStock01.csv)Spécifiez le code de caractère de import pandas as pd #Fichier CSV(SampleStock01.csv)Spécifiez le code de caractère de dframe = pd.read_csv('SampleStock01_t1.csv', encoding='SJIS', \ header=1, sep='\t') print(dframe)

Résultat d'exécution

Date d'ouverture prix prix haut prix bas prix de clôture 0 2016/1/4 9,934 10,055 9,933 10,000 1 2016/1/5 10,062 10,092 9,942 10,015 2 2016/1/6 9,961 10,041 9,928 10,007 3 2016/1/7 9,946 10,060 9,889 9,968 4 2016/1/8 9,812 9,952 9,730 9,932 .. ... ... ... ... ... 937 2019/11/1 13,956 15,059 13,940 14,928 938 2019/11/5 13,893 15,054 13,820 14,968 939 2019/11/6 14,003 15,155 13,919 15,047 940 2019/11/7 14,180 15,054 14,057 15,041 941 2019/11/8 14,076 15,052 13,939 15,041

[942 rows x 5 columns]

Bien qu'il existe de nombreux problèmes tels que la spécification d'index et le type de colonne, read_csv a finalement été terminé. Pour les ouvrages de référence, c'est quelques lignes de travail, mais ...

finalement

Les E / S de fichiers sont le plus grand défi lorsqu'il s'agit de dataframes, mais d'autres personnes y iront-elles facilement? Non limité à dataframe, python dans son ensemble, non, les E / S de fichiers sont un démon pour moi depuis l'ère du langage C.

Une fois chargé, c'est facile car c'est un problème avec le programme. (

Recommended Posts
[Analyse du cours de l'action] pandas apprenant avec des données fictives (001: préparation de l'environnement à la lecture de fichiers)

[Analyse du cours de l'action] pandas apprenant avec des données fictives (002: sortie log)

[Analyse du cours de l'action] Apprentissage des pandas avec des données fictives (003: De l'arrangement de type au graphique en chandelier)

[Analyse du cours de l'action] Apprenez les pandas avec la moyenne Nikkei (004: Changer les données lues en moyenne Nikkei)

Construction d'un environnement d'analyse de données avec Python (notebook IPython + Pandas)

Téléchargez les données de cours des actions japonaises avec Python

Analyse de données à partir de python (pré-traitement des données-apprentissage automatique)

Obtenez des données sur le cours de l'action avec l'API Quandl [Python]

Acquisition automatique des données de cours des actions avec docker-compose

Prévision du cours de l'action à l'aide du Deep Learning [acquisition de données]

Analyse de données avec python 2

Soyez prudent lors de la lecture de données avec des pandas (spécifiez dtype)

Note de lecture: Introduction à l'analyse de données avec Python

Il y a un manque de données lors de l'acquisition de données sur le cours des actions avec Pandas-datareader

Visualisation des données avec les pandas

Manipulation des données avec les Pandas!

Mélangez les données avec les pandas

"Obtenir des données de séries chronologiques de stock à partir de k-db.com avec Python" Mémo de création d'environnement de programme

Analyse de données avec Python

Créez un environnement d'analyse de données avec Kedro + MLflow + Github Actions

Obtenez des informations sur les actions japonaises de Yahoo Finance avec Pandas

Prévision du cours de l'action avec tensorflow

Notes d'apprentissage sur l'analyse des données Python

Obtenez des stocks avec Python

Conseils d'acquisition de données de cours de bourse

Analyse de données à l'aide de pandas python

Conseils de traitement des données avec Pandas

[Analyse du cours de l'action] Apprentissage des pandas moyens Nikkei (005: Regroupement par année / année-confirmation des informations statistiques)

Créer un Ubuntu de démarrage USB avec un environnement Python pour l'analyse des données

Traçage de données polyvalent avec pandas + matplotlib

Analyse pratique avec Pandas + notebook Jupyter

Analyse de données à partir de python (visualisation de données 1)

Analyse de données à partir de python (visualisation de données 2)

[PYTHON] [Analyse du cours de l'action] pandas apprenant avec des données fictives (001: préparation de l'environnement à la lecture de fichiers)

En premier

À propos des données à traiter

`SampleStock01.csv`

Préparation préalable

`invite de commande`

`invite de commande`

`invite de commande`

Résultat d'exécution

Lire le fichier

Exemple de panne 01

`fail_case01.py`

Résultat d'exécution

Exemple de panne 02

`fail_case02.py`

Résultat d'exécution

Exemple de panne 03

`fail_case03.py`

Résultat d'exécution

`SampleStock01.csv`

`SampleStock01_t1.csv`

Succès

`Success_case.py`

Résultat d'exécution

finalement