Vor kurzem habe ich angefangen, an Kaggle zu arbeiten, und es gab eine Methode, um die Verarbeitung von Spalten zu vereinfachen, die ich mir bemüht hatte, von Hand zu erstellen. Deshalb werde ich sie als Memorandum zusammenfassen. Nur die Verwendung, die in dem von uns durchgeführten Wettbewerb verwendet wird, wird kurz zusammengefasst. Springen Sie daher zu dem Artikel, auf den Sie sich bezogen haben, um eine detaillierte Verwendung zu erhalten.
In dem Wettbewerb, den ich diesmal mache, existierten die angegebenen Daten als train_data und train_label, und es gab doppelte Elemente in den beiden csv. Letztendlich müssen diese beiden Daten kombiniert und dem Modell übergeben werden, sodass doppelte Inhalte vor dem Kombinieren ausgedünnt werden müssen.
`Der Wert, den Sie überprüfen möchten, ob er enthalten ist
)
Überprüfen Sie, ob der zu überprüfende Wert im DataFrame enthalten ist. Der Rückgabewert ist vom Typ Bool, und False wird standardmäßig zurückgegeben. Wenn Sie am Anfang ~
hinzufügen, wird True zurückgegeben.
--where ("Zielbedingung", "wahr", "falsch", "Option")
Führen Sie jeden Prozess für den Index aus, der den Zielbedingungen entspricht. Mit der Option "inplace = True" wird dies im ursprünglichen DataFrame wiedergegeben.
Wenn das zweite und dritte Argument weggelassen werden, wird der entsprechende Index zurückgegeben.--groupby (['Name der ersten Spalte, die Sie gruppieren möchten``,
' Name der zweiten Spalte, die Sie gruppieren möchten``]) Prozess, den Sie anwenden möchten
.mean () oder seine Seite Berechnen Sie den Durchschnittspreis der Gruppe B, die zur Gruppe A gehört. Verwenden Sie es so. Der angegebene Spaltenname wird nicht dupliziert.
--agg ({`` Zu verarbeitender Spaltenname': [
'Was Sie verarbeiten möchten 1 (min, max usw.)',
Was Sie verarbeiten möchten 2`]})
Bequem nach Groupby zu verwenden
note.nkmk.me CUBE SUGAR CONTAINER
Recommended Posts