・ Geben Sie den Datenrahmen in df und die Anzahl der Cluster in num ein.
def clustering_analytics(df, num):
df_temp = df.copy()
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
sc = StandardScaler()
#Standardisierung
df_std = sc.fit_transform(df_temp)
kmeans = KMeans(n_clusters=num, random_state=0)
clusters = kmeans.fit(df_std)
df_temp["cluster"] = clusters.labels_
return df_temp
・ Geben Sie den Datenrahmen in df und die Anzahl der Hauptkomponenten in num ein.
def PCA_analytics(df, num):
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import numpy as np
sc = StandardScaler()
df_temp = df.copy()
#Standardisierung
df_std = sc.fit_transform(df_temp)
pca = PCA(n_components = num)
pca.fit(df_std)
df_temp__pca = pca.transform(df_std)
pca_df = pd.DataFrame(df_temp__pca)
print('Komponenten, Hauptkomponenten')
print(pca.components_)
print('gemittelter Durchschnitt')
print(pca.mean_)
print('Kovarianz, Kovarianzmatrix')
print(pca.get_covariance())
W, v = np.linalg.eig(pca.get_covariance())
print('Eigenvektor, Eigenvektor')
print(v)
print('Eigenwert, eindeutiger Wert')
print(W)
return pca_df
Recommended Posts