Si dtype est category, il peut être agrégé même pour des valeurs inexistantes.
import pandas as pd # version 1.1.2
#Définir DataFrame
df = pd.DataFrame({
'col1': ['a', 'a', 'b', 'b', 'c', 'c'],
'col2': [1, 2, 1, 2, 1, 2]
})
#Faire de col1 un type de catégorie
df['col1'] = df['col1'].astype('category')
#Copiez les 3 premières lignes
df_sub = df.head(3).copy()
#Groupby avec col1 et agréger sur col2
df_grp = df_sub.groupby('col1')
df_agg = df_grp.agg({'col2': 'mean'}).reset_index()
df_agg.columns = ['col1', 'mean_col2']
df_sub est comme suit.
col1 | col2 | |
---|---|---|
0 | a | 1 |
1 | a | 2 |
2 | b | 1 |
df_agg est le suivant.
col1 | mean_col2 | |
---|---|---|
0 | a | 1.5 |
1 | b | 1.0 |
2 | c | NaN |
Il y a une ligne où col1 est c même s'il aurait dû être agrégé pour df_sub. Si vous cochez df_grp.groups, ce sera {'a': [0, 1], 'b': [2], 'c': []}.
La définition de df_grp est la suivante.
df_grp = df_sub.groupby('col1', observed=True)
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html
Recommended Posts