Für diejenigen, die Python-Analysecode verstehen, haben wir die Entsprechung von R-Code zusammengefasst. * Aktualisierung von Zeit zu Zeit (In diesem Artikel wird nur das R-Basispaket verwendet.)
Es gibt viel Fluss wie "Wie schreibt man in R, wenn man in Python schreibt?"
Sofern nicht anders angegeben, lauten die Aliase für Modulnamen wie folgt.
python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
Bild der Variablennamen unten.
python
df = pd.DataFrame()
R
df = data.frame()
pd.DataFrame() Erstellen eines Datenrahmens
R
data.frame() #Generieren Sie einen leeren Datenrahmen
data.frame(col1=c(x1, x2, x3), col2=c(y1, y2, y3)) #Säule
pd.read_csv() CSV-Datei lesen (durch Kommas getrennte Daten)
R
read.csv(Dateiname)
pd.read_table() Lesen Sie TSV- und CSV-Dateien (tabulatorgetrennte Daten).
R
read.table(Dateiname)
Einstellung des Zeilennamens
R
rownames(df) <- c(Zeilenname 1,Zeilenname 2, ...)
print(rownames(df)) #Kann durch Aufrufen ohne Ersetzen als Vektor erhalten werden
Einstellung des Spaltennamens
R
colnames(df) <- c(Spaltenname 1,Spaltenname 2, ...)
print(colnames(df)) #Kann durch Aufrufen ohne Ersetzen als Vektor erhalten werden
df.shape Ermitteln Sie die Anzahl der Zeilen und Spalten
R
dim(df)
len(df) Holen Sie sich die Anzahl der Zeilen
R
ncol(df)
len(df.columns) Holen Sie sich die Anzahl der Spalten
R
nrow(df)
df.head() Erste Zeile Ausgabe
R
head(df) #Sie können auch die Anzahl der Zeilen angeben, die mit einem Argument angezeigt werden sollen
df.tail() Letzte Zeilenausgabe
R
tail(df) #Sie können auch die Anzahl der Zeilen angeben, die mit einem Argument angezeigt werden sollen
df.info() Zeigen Sie die Nummern- und Typinformationen jeder Spalte an
R
str(df)
df.describe() Grundlegende Statistiken ausgeben
R
summary(df) #Standard wird jedoch nicht ausgegeben
#Holen Sie sich Standard, zum Beispiel:
sds = NULL
for(col in colnames(df)){
sds <- c(sds, sd(df[, col]))
}
names(sds) <- colnames(df)
df.isna() Auf fehlende Werte prüfen (NA)
R
is.na(df)
df.isna().sum()
Überprüfen Sie die Anzahl der fehlenden Werte (NA) für jede Spalte
R
colSums(is.na(df))
# summary(df)Es wird aber auch die Anzahl der NA ausgegeben, damit Sie sie überprüfen können
df[df.isna().any(axis=1)] Extrahieren Sie Zeilen mit mindestens einem fehlenden Wert (NA).
R
df[!complete.cases(df), ]
df.col.unique() Gibt einen eindeutigen (nicht überlappenden) Wert zurück, der in einer Spalte angezeigt wird
R
unique(df$col)
df.col.value_counts() Gibt die Anzahl der Erscheinungen eines Werts zurück, der in einer Spalte angezeigt wird
R
table(df$col)
df.iloc[x1:x2, y1:y2] Geben Sie den Bereich anhand der Zeilennummer und der Spaltennummer an
R
df[x1:x2, y1:y2] #Beachten Sie, dass R einen Indexanfang von 1 hat
df.iloc[[x1, x2, ...], [y1, y2, ...]] Geben Sie eine Liste mit Zeilen- und Spaltennummern an
R
df[c(x1, x2, ...), c(y1, y2, ...)]
Geben Sie den Bereich mit dem Zeilennamen und dem Spaltennamen an
R
#Es scheint nicht klar zu existieren. Wenn Sie es also tun,
#Rufen Sie die Position (Nummer) des angegebenen Zeilennamens und Spaltennamens ab und verwenden Sie sie für die Bereichsspezifikation
x1 <- which(rownames(df) ==Zeilenname 1)
x2 <- which(rownames(df) ==Zeilenname 2)
y1 <- which(colnames(df) ==Spaltenname 1)
y2 <- which(colnames(df) ==Spaltenname 2)
df[x1:x2, y1:y2]
Geben Sie eine Liste mit Zeilen- und Spaltennamen an
R
df[c(Zeilenname 1,Zeilenname 2, ...), c(Spaltenname 1,Spaltenname 2, ...)]
df[df.col == x] Extrahieren Sie Zeilen, die den Bedingungen entsprechen
R
df[df$col == x, ]
#Oder
subset(df, col == x)
df[new_col] = x Fügen Sie dem Datenrahmen eine neue Spalte hinzu
R
df[, new_col] <- x
df.drop() Löschen Sie Zeilen und Spalten
R
#Sie können löschen, indem Sie die zu löschende Zeile oder Spalte auswählen und NULL zuweisen.
df[c(x1, x2), ] <- NULL #Zeile löschen
df[, c(y1, y2)] <- NULL #Spalte löschen
#Mit der Eigenschaft, eine Matrix ohne diese Zahl zurückzugeben, wenn der Index negativ ist, können Sie auch schreiben:
df <- df[c(-1, -2), ] #Zeile löschen
df <- df[, c(-1, -2)] #Spalte löschen
df.fillna(x) Geben Sie fehlende Werte ein (NA)
R
df[is.na(df)] <- x
df.dropna() Zeilen löschen, die fehlende Werte enthalten (NA)
R
na.omit(df)
df.apply(func) Wenden Sie die Funktion func einzeln auf jedes Element an
R
sapply(df, FUN =func)
df.col.apply(func) Wenden Sie die Funktion func auf jedes Element der angegebenen Spalte an
R
sapply(df$x, FUN =func)
df.T Transponiere die Matrix
R
t(df)
pd.to_datetime() In Datumstyp konvertieren
R
as.Date(df$col) #Nur Datum (z'2020-01-01')
df.max()、 df.min() Finden Sie die Maximal- und Minimalwerte für jede Spalte
R
sapply(df, FUN =max)
sapply(df, FUN =min)
#Eine gleichwertige Verarbeitung ist mit apply möglich
apply(df, MARGIN=2, FUN =max) #MARGIN=Bei 1 wird die Funktion (FUN) zeilenweise angewendet.
apply(df, MARGIN=2, FUN =min) #max(df)Wenn, finden Sie den Maximalwert unter allen Elementen (gleich für min)
df.groupby([x1, x2, ...]).agg(func) Gruppieren und aggregieren
R
aggregate(. ~ x1+x2, df, FUN=sum) #「."Aggregiert alle Spalten
aggregate(x ~ x1+x2, df, FUN=sum) #Führt eine Aggregationsverarbeitung für die durch "x" angegebene Spalte durch.
pd.pivot_table(df, index, columns, values) Nicht im Basispaket. vielleicht.
Recommended Posts