Es gibt ein Argument namens "Indikator" beim Zusammenführen mit Pandas, aber obwohl es sehr praktisch ist, habe ich das Gefühl, dass es nur wenige Leute gibt, die es verwenden. Dies ist also ein Artikel zum Zweck der Verbreitung.
In der Dokumentation heißt es wie folgt.
indicator : bool or str, default False If True, adds a column to output DataFrame called “_merge” with information on the source of each row. If string, column with information on source of each row will be added to output DataFrame, and column will be named value of string. Information column is Categorical-type and takes on a value of “left_only” for observations whose merge key only appears in ‘left’ DataFrame, “right_only” for observations whose merge key only appears in ‘right’ DataFrame, and “both” if the observation’s merge key is found in both.
Wenn Sie links beitreten, gehen im Allgemeinen alle Datensätze verloren, die nur in den Daten links vorhanden sind, und gehen zum Zeitpunkt der Zusammenführung verloren. Bei der Analyse von Daten ist es jedoch häufig der Fall, dass Sie sehen möchten, wie die Datensätze verknüpft sind und welche Datensätze nicht verknüpft sind. Wenn Sie normal zusammenführen, ist es ziemlich mühsam, dies zu überprüfen, oder später werden Sie feststellen, dass es überhaupt nicht gebunden ist und es sich um eine Katastrophe handelt. Wenn Sie jedoch den in diesem Artikel eingeführten "Indikator" verwenden, können Sie dies leicht überprüfen. Ich werde.
Es gibt kein besonderes Problem, wenn das zu analysierende Ziel nur interne Daten sind und alle Daten vollständig mit dem Schlüssel verknüpft sind. Dies ist jedoch hilfreich, wenn unbekannte Daten von außen abgerufen und mit den firmeneigenen Daten verknüpft werden. Machen.
Nehmen wir ein konkretes Beispiel.
Angenommen, Sie möchten die von außen aufgenommenen Gewichtsdaten b an die vorhandenen Höhendaten a anhängen.
a = pd.DataFrame({
"ID" : [1, 2, 3, 4, 6],
"name": ["Tom", "Bob", "Alex", "Mike", "John"],
"heigt": [169, 173, 163, 170, 182]
})
b = pd.DataFrame({
"ID" : [1, 2, 3, 4, 5],
"weight": [65, 70, 72, 58, 61]
})
a
b
Wenn Sie ohne nachzudenken analysieren möchten
c = a.merge(b, on="ID", how="left")
# or
c = a.merge(b, on="ID", how="inner")
Ich denke, Sie sollten es gemäß Ihrem Zweck tun.
Da b die von außen eingebrachten Daten sind, möchten wir hier Folgendes wissen.
――Wie viel sind a und b miteinander verbunden?
Die Option "Indikator" macht es leicht, dies zu sehen. Es ist einfach zu bedienen, fügen Sie einfach "indic = True" hinzu, wie unten gezeigt.
(Eine doppelte Überprüfung des Join-Schlüssels wird hier nicht erwähnt.)
c = a.merge(b, on="ID", how="outer", indicator=True)
c
Dann wird die Spalte "_merge" zusammen mit dem zusammengeführten Datensatz wie oben hinzugefügt.
Die Spalte _merge
enthält einen der Werte both
, left_only
oder right_only
, der angibt, woher der Datensatz stammt. Verwenden Sie danach diese Spalte
c_left_only = c[c["_merge"]=="left_only"]
c_left_only
Dann können Sie eine Liste von Personen erhalten, die groß, aber nicht schwer sind.
Es ist zweckmäßig, beim Zusammenführen wie = "äußere" festzulegen und die Daten später entsprechend dem Zweck mit dem Wert "_merge" zu extrahieren.
Außerdem unterstützt indic
nicht nur den Typ bool, sondern auch str.
d = a.merge(b, on="ID", how="outer", indicator="flg_weight")
d
Der `_merge` Teil kann die angegebene Zeichenfolge sein.
Es ist eine praktische Funktion, also benutzen Sie sie bitte! Lassen Sie uns ein gutes Leben in der Datenanalyse haben ~~
Recommended Posts