Kuidas ühendada DataFrames pandas merge() abil

Contents

Funktsiooni pandas DataFrame.merge() abil saate kombineerida DataFrames’i võtmeid kasutades. See võimaldab teil tõhusalt kombineerida erinevatest allikatest pärit andmeid, mis võimaldab teil teha põhjalikumaid analüüse.

Mis on pandas `merge()` süntaks?

Python pandas DataFrame merge() meetod võtab vastu mitmesuguseid parameetreid, mis võimaldab arendajatel määrata, kuidas DataFrames’i tuleks kombineerida. merge() funktsiooni üldine süntaks on järgmine:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Milliseid parameetreid saab kasutada pandas `merge`-ga?

merge() poolt aktsepteeritavad erinevad parameetrid võimaldavad teil määrata mitte ainult, millised pandas DataFrames’id ühendada, vaid ka millist liitmist kasutada, samuti muid detaile.

Parameeter	Kirjeldus	Vaikimisi väärtus
vasak	Esimene ühendatav andmeraamistik
parem	Teine ühendatav andmestik
kuidas	Teostatava ühendamise tüüp (`inner`, `outer`, `left`, `right`)	`inner`
on	Võtmetena kasutatavad veerud või indeksitasemed; peavad olema olemas mõlemas DataFrame’is
vasakul	Vasaku DataFrame’i veerg(ud) või indeksitasand(id), mida tuleks kasutada võtmena
right_on	Parempoolse DataFrame’i veerg(ud) või indeksitasand(id), mida tuleks kasutada võtmena
left_index	Kui `True`, kasutatakse vasaku DataFrame’i indeksit võtmena	`False`
right_index	Kui `True`, kasutatakse parempoolse DataFrame’i indeksit võtmena.	`False`
sort	Kui `True`, sorteeritakse tulemusliku DataFrame’i võtmed leksikograafiliselt.	`False`
sufiksid	Sufiksid, mida kasutatakse sama nimega veergude eristamiseks.	`("_x", "_y")`
kopeerimine	Kui `False`, siis koopiat ei tehta	`True`

Kuidas kasutada pandas `merge()`

Allpool on toodud mõned näited, mis aitavad illustreerida, kuidas pandas merge() efektiivselt kasutada.

`INNER JOIN`

INNER JOIN ühendab kaks pandas DataFrames’i ja tagastab ainult need read, mille võtmed mõlemas DataFrames’is ühtivad. Et paremini mõista, kuidas see toimib, loome kaks DataFrames’i:

import pandas as pd
# Sample DataFrames
df1 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Key': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df1)
print(df2)

python

Kaks tulemuseks saadud andmestruktuuri näevad välja järgmised:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key    Value2
0     B            4
1     C            5
2     D            6

Nüüd saame teha INNER JOIN, kasutades funktsiooni merge():

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Key')
print(result)

python

Väljund näitab, et ainult read, millel on võtmed B ja C, on lisatud DataFrame’i. Seda seetõttu, et need kaks võtit on olemas mõlemas algses DataFrame’is.

Key    Value1    Value2
0     B            2            4
1     C            3            5

`OUTER JOIN`

An OUTER JOIN ühendab samuti kaks DataFrame’i, kuid erinevalt INNER JOIN tagastab see kõik read ja täidab puuduvad väärtused NaNga.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Key')
print(result)

python

Allpool olev DataFrame sisaldab mõlema DataFrame’i kõiki ridu. NaN kasutatakse puuduvate väärtuste jaoks võtmes A, mis on ainult df1, ja võtmes D, mis on ainult df2-s.

Key    Value1    Value2
0     A        1.0        NaN
1     B        2.0        4.0
2     C        3.0        5.0
3     D        NaN        6.0

Note

Teised JOIN standardvariandid töötavad sarnaselt.

Kasutades `left_on` ja `right_on`

Mõnikord on kahel DataFrame’il erinevad veerunimed võtmetena. Sel juhul saate kasutada parameetreid left_on ja right_on, et määrata, milliseid veerge kasutada. Esmalt loome kaks uut DataFrame’i:

df3 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Key2': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df3)
print(df4)

python

Kaks DataFrame’i näevad välja järgmised:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key2    Value2
0        B            4
1        C            5
2        D            6

Me saame kasutada parameetreid left_on ja right_on, et teostada operatsiooni JOIN erinevate võtmete abil:

# Join with different key column names
result = pd.merge(df3, df4, how='inner', left_on='Key', right_on='Key2')
print(result)

python

Selgesõnaliselt kasutades left_on='Key' ja right_on='Key2', kasutatakse vastavaid võtmeveerge ühendamiseks.

Key    Value1 Key2    Value2
0     B            2        B            4
1     C            3        C            5

Indeksite kasutamine võtmetena

Võite kasutada ka DataFrames’i indeksite võtmeid, seadistades parameetrid left_index ja right_index väärtusele True. Esmalt loome kaks uut DataFrames’i indeksitega:

df5 = pd.DataFrame({
    'Value1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Value2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Siin on andmestruktuurid:

Nüüd saame indeksite abil teha JOIN operatsiooni:

# JOIN with indices
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Tulemuseks on JOIN, mis kasutab DataFrames’i indekseid:

Value1  Value2
B        2        4
C        3        5

Mis on Pandas fillna() ja kuidas seda kasutada?

Pandas fillna() meetod on funktsioon, mida kasutatakse puuduvate väärtuste käsitlemiseks. Funktsiooniga saab kasutada mitmesuguseid parameetreid, mis pakuvad paindlikkust NaN-väärtuste asendamisel. Käesolevas artiklis vaatame lähemalt seda funktsiooni, selle süntaksit ja…

Kuidas tuvastada puuduvad väärtused pandas isna() funktsiooni abil

Pandas isna() funktsioon on kasulik vahend puuduvate andmete tuvastamiseks DataFrame'is. Lihtsa süntaksiga annab see kiiresti selge ülevaate puuduvatest väärtustest, aidates teil võtta meetmeid, kui andmeid on vaja puhastada. Selles artiklis õpite, mis on pandas isna() ja kuidas…

BEST-BACKGROUNDSShutterstock

Kuidas otsida andmeid DataFrames'is, kasutades pandas isin()

Pandas isin() on andmete analüüsimisel kasulik funktsioon. Tänu oma lihtsale süntaksile ja mitmekülgsele rakendusele võimaldab see tõhusalt kontrollida väärtusi DataFrame'is. Olgu tegemist üksikute veergude kontrollimise, DataFrame'ide filtreerimise või sõnastikega keerukamate…

NDAB Creativityshutterstock

Mis on pandas groupby() ja kuidas seda kasutada?

Pandas DataFrame.groupby() funktsioon on võimas vahend andmete organiseerimiseks. See võimaldab teil rühmitada andmeid kindlate kriteeriumide alusel, mis lihtsustab keerukate koondamiste ja teisenduste tegemist. Selle meetodi tõhusal kasutamisel saate oma analüüsiprotsesse…

UndreyShutterstock

Kuidas filtreerida erinevaid väärtusi pandas DataFrame[].unique() abil

Pandas DataFrame[].unique() abil saate tuvastada DataFrame'i veerus olevad erinevad väärtused. See tagastab numpy massiivi, mis aitab teil suuremaid andmekogumeid tõhusamalt töödelda. Meetod on eriti kasulik, kui soovite saada ülevaate veerus olevast teabest ilma dubleeritud…

Gorodenkoffshutterstock

Kuidas rakendada tingimusi pandas DataFrames'is funktsiooni where() abil

Pandas DataFrame.where() abil saate muuta oma DataFrame'i andmeid tingimuste abil. Luues tingimused, mis määravad, millised väärtused säilitada ja millised asendada, saate DataFrame'i andmeid tõhusalt puhastada, ekstraktida või teisendada. Käesolevas artiklis vaatleme pandas…

Kuidas ühendada Da­taF­ra­mes pandas merge() abil

Mis on pandas merge() süntaks?

Milliseid pa­ra­meetreid saab kasutada pandas merge-ga?

Kuidas kasutada pandas merge()

INNER JOIN

OUTER JOIN

Kasutades left_on ja right_on

Indeksite ka­su­ta­mine võtmetena

Kuidas ühendada DataFrames pandas merge() abil

Mis on pandas `merge()` süntaks?

Milliseid parameetreid saab kasutada pandas `merge`-ga?

Kuidas kasutada pandas `merge()`

`INNER JOIN`

`OUTER JOIN`

Kasutades `left_on` ja `right_on`

Indeksite kasutamine võtmetena