Datenanalyse mit Python-Pandas

Python Pandas Numpy Beziehung

Das Ipython-Notebook eignet sich für N = 1-Daten

Es ist bequemer, Ipython zu verwenden, als für diejenigen, die mit Daten von N = 10 oder mehr iterieren.

Es ist jedoch schwierig, dies zu tun, wenn Sie Klasse usw. verwenden, um es objektorientiert zu gestalten. Daher suche ich nach einer Lösung

class ClassName:
  def __init__(self, filename):
    self.data = pd.read_csv(filename)
    self.filename = filename

  def method(self):
    data = self.data

if __init_='__main__':
  def method(self):

  method()
  instance = ClassName(filename)
  data = instance.data

Wenn Sie dies mögen, ist es möglicherweise einfacher zu handhaben, aber bei der Datenanalyse kann es ungewöhnlich lange dauern, bis Sie sich über die Umweltverschmutzung Gedanken machen. Daher ist es möglicherweise besser, sich darüber keine Sorgen zu machen Dies kann hilfreich sein, da Daten als Pandas-Objekt behandelt werden können

Zu enthaltende Dateien

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy as sp
import scipy.signal as signal
import logging
import sys
import os
import re

Pyenv und Anaconda waren sehr praktisch für den Aufbau der Umwelt. Die Umwelt ist Führen Sie die Datei mit% run mit vim und iterm aus Oder Führen Sie alle Arbeiten am ipython-Notizbuch durch Sieht gut aus

Um Nacharbeiten zu vermeiden

pd.dataframe.to_csv('default.csv')

Ich möchte die Daten jeder Phase mit speichern, aber die Speicherung wird schwierig, so TradeOff

Das offizielle Tutorial von Pandas ist gut

Konvertieren Sie Schleifen und Bedingungen in Slices und Boolesche Arrays

Schleifen sollten nur zum Abrufen von Dateien verwendet werden

Schließlich nutzt numpy das Boolesche Algebra-Array (gültiges Wert-Array) effektiv und verschiebt den Wert durch Schneiden. Am schlimmsten bei Pandas ist das Schreiben mit den Funktionen apply und lamda Resample für Datetime Index

Logger für die Theorie, dass die print-Anweisung nicht gut ist

logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

mit diesem

logging.debug('here')

Wird in der Standardausgabe oder in ipython angezeigt

matplotlib verwandt

Interaktives Zeichnen von matplotlib.pyplot Für Mac

%matplotlib osx

Ist notwendig? plt.ion () usw. müssen untersucht werden

Eine coole Figur zeichnen

pd.options.display.mpl_style = 'default'

Punkte zeichnen

plt.plot(marker='o', linestyle=None)
Oder
plt.plot(linestyle='o')

Optionen hinzufügen

Dynamische Bildzeichnung wie Simulation

for x in range(y):
  plt.clf()
  plt.draw() #Hier nicht zeichnen
  plt.pause(0.1) #Sicher hier zu zeichnen[s]

Muss mit neu gezeichnet werden

Zeichnen eines Diagramms

plt.show()

Um das Massenzeichnen von Graphen zu verhindern

plt.close()
Tu es
plt.show()

Simulationsbeispiel

fig, ax = plt.subplots()
for i in np.arange(count):
    logging.debug(i)
    ax.clear()
    ax.set_title( self.title )
    self.data.iloc[ i*TIME_RANGE:(i)*TIME_RANGE].plot(ax=ax, legend=False)
    plt.draw()
    plt.pause(PAUSE_TIME)

Zeichnen von 3D-Diagrammen (ich bin beeindruckt, weil es interaktiv ist)

from mpl_toolkits.mplot3d import Axes3D

Zeitreihen bezogen

Pandas hat einen großartigen Datetime Index

Die Resample-Methode ist praktisch

Andere

Holen Sie sich pid

print os.getpid()

logger setting logger = logging.getLogger() logger.setLevel(logging.DEBUG)

reload reload('./filename.py')

Wie bekomme ich Elemente

Sie können einmal mit beschreiben beeindruckt sein

Achten Sie darauf, nicht mit ganzen Zahlen zu schneiden

[In] np.array([0, 1, 2])[:2]
Ist
[Out] array[0, 1]

Wenn Sie den Index nicht beherrschen, ist die Verarbeitung häufig ungewöhnlich schwer.

Praktisch für zwei Indizes, Zeitreihen und Ganzzahlen

Im Optionsindex = [Serie, Serie]

set_index

Indexreferenzmethode

[: 2,:] usw.

ix iloc, loc iget_value Nur Serie irow, icol Nur DataFrame

reindex und set_index sind praktisch

value_counts ist praktisch

So führen Sie Daten zusammen

concat ist schnell

Es ist besser, dorthin zu gehen, wo Sie mit gewöhnlicher Substitution gehen können

data['name'] = pd.Series, list

na Wertverarbeitungsmethode

+ Kann früh sein

Dropna wird oft verwendet

Praktische Methode von DatetimeIndex

resample

Tab-Vervollständigung und Selbstbeobachtung sind unerlässlich. Die Anzahl der Brillen wird überwiegend reduziert.

Debugger scheint nützlich zu sein (erfordert Untersuchung)

%debug
Bewegen Sie sich mit u oder d
s
b 12 #Haltepunkt
c
n
!Variablennamen

Wenn es digital ist, hat das Differential erster Ordnung eine Diff-Funktion

Boolesche Algebra referenzieren und anwenden Methode, die bequem zu gewöhnen ist

Matplotlib Wrapper Seaborn scheint gut zu sein

Statistikbibliothek

Das Statistikmodell scheint einfach zu handhaben zu sein scipy.stats orange

Andere Bibliotheken

Maschinelles Lernen Scikit-Learn Schöne Suppe kratzen Verarbeitung natürlicher Sprache nltk Bildverarbeitung opencv

Super guter Artikel

Nur wenige Menschen, einschließlich mir, lernen sowohl R als auch Python ernsthaft (impressionbasiert), und Vergleiche sind unzuverlässig, aber dies ist ein zuverlässiger Artikel. https://chezou.wordpress.com/2014/01/18/%E7%A7%91%E5%AD%A6%E8%A8%88%E7%AE%97%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E5%9D%87%E8%B3%AA%E5%8C%96%E3%80%81%E3%81%82%E3%82%8B%E3%81%84%E3%81%AF%E3%81%AA%E3%81%9Cpython%E3%81%8C%E7%9D%80%E5%AE%9F/ http://postd.cc/r-vs-python-head-to-head-data-analysis/

Recommended Posts

Datenanalyse mit Python-Pandas
Datenanalyse Python
Datenanalyse mit Python 2
Datenanalyse mit xarray
Datenanalyse Übersicht Python
Datenbereinigung mit Python
Python-Datenanalysevorlage
Datenanalyse mit Python
Mein Python-Datenanalyse-Container
Python für die Datenanalyse Kapitel 4
[Python] Hinweise zur Datenanalyse
Lernnotizen zur Python-Datenanalyse
Python für die Datenanalyse Kapitel 2
Python für die Datenanalyse Kapitel 3
[Python] [Word] [python-docx] Einfache Analyse von Diff-Daten mit Python
Aufbau einer Datenanalyseumgebung mit Python (IPython Notebook + Pandas)
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
[Technisches Buch] Einführung in die Datenanalyse mit Python -1 Kapitel Einführung-
[Python] Laden von CSV-Dateien mit Pandas
Datenerfassung mit Python Googlemap API
Hit Schatzdaten von Python Pandas
Python: Zeitreihenanalyse: Vorverarbeitung von Zeitreihendaten
Persönliche Notizen zur Vorverarbeitung von Python Pandas-Daten
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (3)
Vorverarbeitungsvorlage für die Datenanalyse (Python)
Empfehlung zur Datenanalyse mit MessagePack
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (4)
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
[Einführung] Künstliche Satellitendatenanalyse mit Python (Google Colab-Umgebung)
Zeichnen Sie Zeitreihendaten in Python mit Pandas und Matplotlib
[Python] Zufällige Datenextraktion / -kombination aus DataFrame mit Random und Pandas
Meine Pandas (Python)
Python-Visualisierungstool für die Datenanalyse
Datenanalyse Titanic 2
Pandas Daten lesen
Starten Sie Python
Empfehlungs-Tutorial mit Assoziationsanalyse (Python-Implementierung)
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
Datenanalyse Titanic 1
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
[Python] Erste Datenanalyse / maschinelles Lernen (Kaggle)
[Python] Verschiedene Datenverarbeitung mit Numpy-Array
Erstellen einer Datenanalyseanwendung mit Streamlit
Python: Negative / Positive Analyse: Twitter Negative / Positive Analyse mit RNN-Teil 1
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
Datenanalyse Titanic 3
Ich habe ein Python-Datenanalysetraining aus der Ferne durchgeführt
Erstellen einer Google-Tabelle mit der Python / Google Data-API
Vorbereitung auf die von Python 3 Engineer zertifizierte Datenanalyseprüfung
Scraping mit Python
Python Pandas Memo
[Python] Daten lesen
Zeitvariationsanalyse von Schwarzen Löchern mit Python
[CovsirPhy] COVID-19 Python-Paket für die Datenanalyse: Laden von Daten
Lesen Sie Python-CSV-Daten mit Pandas ⇒ Graph mit Matplotlib
Python3 Engineer Zertifizierungsdatenanalyse Test selbst erstellte Problemerfassung
[Python] Holen Sie sich alle Kommentare mit Youtube Data Api