Sådan flettes DataFrames med pandas merge()

Indhold

Med pandas-funktionen DataFrame.merge() kan du kombinere DataFrames ved hjælp af nøgler. Dette giver dig mulighed for effektivt at kombinere data fra forskellige kilder, så du kan udføre mere omfattende analyser.

Hvad er syntaksen for pandas `merge()`?

Python pandas DataFrame merge() kan acceptere en række forskellige parametre, hvilket giver udviklere mulighed for at specificere, hvordan DataFrames skal kombineres. Den generelle syntaks for merge() er som følger:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Hvilke parametre kan bruges med pandas `merge`?

De forskellige parametre, der accepteres af merge(), giver dig mulighed for ikke kun at angive, hvilke pandas DataFrames der skal kombineres, men også hvilken type sammenkobling der skal bruges, samt andre detaljer.

Parameter	Beskrivelse	Standardværdi
venstre	Den første DataFrame, der skal flettes
højre	Den anden DataFrame, der skal flettes
hvordan	Den type sammenføjningsoperation, der skal udføres (`inner`, `outer`, `left`, `right`)	`inner`
på	Den eller de kolonner eller indeksniveauer, der skal bruges som nøgler; skal være til stede i begge DataFrames
left_on	Den eller de kolonner eller indeksniveauer i den venstre DataFrame, der skal bruges som nøgle(r)
right_on	Kolonne(r) eller indeksniveau(er) i den højre DataFrame, der skal bruges som nøgle(r)
left_index	Hvis `True`, bruges indekset for den venstre DataFrame som nøgle	`False`
right_index	Hvis `True`, bruges indekset for den højre DataFrame som nøgle.	`False`
sort	Hvis `True`, sorteres nøglerne i den resulterende DataFrame leksikografisk.	`False`
suffikser	Suffikser, der bruges til at skelne mellem kolonner med samme navn.	`("_x", "_y")`
kopi	Hvis `False`, undgås en kopi.	`True`

Sådan bruges pandas `merge()`

Nedenfor er nogle eksempler, der illustrerer, hvordan man bruger pandas merge() effektivt.

`INNER JOIN`

En INNER JOIN kombinerer to pandas DataFrames og returnerer kun de rækker, hvor nøglerne matcher i begge DataFrames. For at få en bedre idé om, hvordan dette fungerer, skal vi oprette to DataFrames:

import pandas as pd
# Sample DataFrames
df1 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Key': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df1)
print(df2)

python

De to resulterende DataFrames ser således ud:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key    Value2
0     B            4
1     C            5
2     D            6

Nu kan vi udføre en INNER JOIN ved hjælp af funktionen merge():

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Key')
print(result)

python

Outputtet viser, at kun de rækker, der har nøglerne B og C, er inkluderet i DataFrame. Dette skyldes, at disse to nøgler findes i begge de oprindelige DataFrames.

Key    Value1    Value2
0     B            2            4
1     C            3            5

`OUTER JOIN`

An OUTER JOIN fletter også to DataFrames, men i modsætning til INNER JOIN returnerer den alle rækker og udfylder manglende værdier med NaN.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Key')
print(result)

python

DataFrame nedenfor indeholder alle rækker fra begge DataFrames. NaN bruges til de manglende værdier i nøgle A, som kun findes i df1, og nøgle D, som kun findes i df2.

Key    Value1    Value2
0     A        1.0        NaN
1     B        2.0        4.0
2     C        3.0        5.0
3     D        NaN        6.0

Note

De øvrige standardvarianter af JOIN fungerer på samme måde.

Brug af `left_on` og `right_on`

Nogle gange har to DataFrames forskellige kolonnenavne for deres nøgler. I dette tilfælde kan du bruge parametrene left_on og right_on til at angive, hvilke kolonner der skal bruges. Lad os først oprette to nye DataFrames:

df3 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Key2': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df3)
print(df4)

python

De to DataFrames ser således ud:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key2    Value2
0        B            4
1        C            5
2        D            6

Vi kan bruge parametrene left_on og right_on til at udføre operationen JOIN ved hjælp af forskellige nøgler:

# Join with different key column names
result = pd.merge(df3, df4, how='inner', left_on='Key', right_on='Key2')
print(result)

python

Ved eksplicit at bruge left_on='Key' og right_on='Key2' anvendes de tilsvarende nøglekolonner til sammenlægningen.

Key    Value1 Key2    Value2
0     B            2        B            4
1     C            3        C            5

Brug af indekser som nøgler

Du kan også bruge indekserne i DataFrames som nøgler ved at indstille parametrene left_index og right_index til True. Lad os først oprette to nye DataFrames med indekser:

df5 = pd.DataFrame({
    'Value1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Value2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Her er DataFrames:

Nu kan vi udføre en JOIN operation ved hjælp af indekserne:

# JOIN with indices
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Resultatet er en JOIN, der bruger indekserne fra DataFrames:

Value1  Value2
B        2        4
C        3        5

Populære artikler

Domænehandel: Sådan sælger du et domænenavn

Køb og salg af domæner kan være en god forretning – hvis man ved, hvordan man gør. Vi vil…

Læs mere

Relaterede artikler

Mr. Kosalshutterstock

Hvad er Pandas fillna(), og hvordan bruges det?

Pandas fillna()-metoden er en funktion, der bruges til at håndtere manglende værdier. Der kan bruges forskellige parametre med funktionen, hvilket giver fleksibilitet ved udskiftning af NaN-værdier. I denne artikel ser vi på denne funktion, dens syntaks og parametre, og hvordan…

Læs mere

Sådan identificeres manglende værdier med pandas isna()-funktionen

Pandas-funktionen isna() er et nyttigt værktøj til at identificere manglende data i en DataFrame. Med sin enkle syntaks giver den dig hurtigt et klart overblik over manglende værdier, så du kan handle, når data skal renses. I denne artikel lærer du, hvad pandas isna() er, og…

Læs mere

BEST-BACKGROUNDSShutterstock

Sådan søger du i DataFrames ved hjælp af pandas isin()

Pandas isin() er en nyttig funktion til dataanalyse. Med sin enkle syntaks og alsidige anvendelsesmuligheder giver den dig mulighed for effektivt at kontrollere værdier i en DataFrame. Uanset om du verificerer enkelte kolonner, filtrerer DataFrames eller udfører mere komplekse…

Læs mere

NDAB Creativityshutterstock

Hvad er pandas groupby(), og hvordan bruges det?

Pandas DataFrame.groupby()-funktionen er et effektivt værktøj til at organisere data. Den giver dig mulighed for at gruppere data efter specifikke kriterier, hvilket gør det nemmere at udføre komplekse aggregeringer og transformationer. Ved at bruge denne metode effektivt kan du…

Læs mere

UndreyShutterstock

Sådan filtreres der efter unikke værdier med pandas DataFrame[].unique()

Med pandas DataFrame[].unique() kan du identificere unikke værdier i en kolonne i en DataFrame. Den returnerer en numpy-matrix, som hjælper dig med at håndtere store datasæt mere effektivt. Metoden er især nyttig, hvis du ønsker at få et overblik over oplysningerne i en kolonne…

Læs mere

Gorodenkoffshutterstock

Sådan anvendes betingelser i pandas DataFrames med where()

Med pandas DataFrame.where() kan du ændre data i din DataFrame ved hjælp af betingelser. Ved at oprette betingelser for at bestemme, hvilke værdier der skal bevares, og hvilke der skal erstattes, kan du effektivt rense, udtrække eller transformere data i en DataFrame. I denne…

Læs mere

Sådan flettes Da­ta­F­ra­mes med pandas merge()

Hvad er syntaksen for pandas merge()?

Hvilke parametre kan bruges med pandas merge?

Sådan bruges pandas merge()

INNER JOIN

OUTER JOIN

Brug af left_on og right_on

Brug af indekser som nøgler

Sådan flettes DataFrames med pandas merge()

Hvad er syntaksen for pandas `merge()`?

Hvilke parametre kan bruges med pandas `merge`?

Sådan bruges pandas `merge()`

`INNER JOIN`

`OUTER JOIN`

Brug af `left_on` og `right_on`