Kuinka yhdistää DataFrames pandas merge() -toiminnolla

Sisällys

Pandas-toiminnolla DataFrame.merge() voit yhdistää DataFrame-kehyksiä avainten avulla. Näin voit yhdistää tehokkaasti eri lähteistä peräisin olevia tietoja ja suorittaa kattavampia analyyseja.

Mikä on pandas `merge()`:n syntaksi?

Python pandas DataFrame merge() -menetelmä voi hyväksyä erilaisia parametreja, joiden avulla kehittäjät voivat määrittää, miten DataFrames-kehykset tulisi yhdistää. merge() yleinen syntaksi on seuraava:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Mitä parametreja voidaan käyttää pandas `merge` kanssa?

merge() hyväksymien eri parametrien avulla voit määrittää paitsi yhdistettävät pandas DataFrames -kehykset myös käytettävän liitostyypin ja muut yksityiskohdat.

Parametri	Kuvaus	Oletusarvo
vasen	Ensimmäinen yhdistettävä DataFrame
oikea	Toinen yhdistettävä DataFrame
miten	Suoritettavan yhdistämistoiminnon tyyppi (`inner`, `outer`, `left`, `right`)	`inner`
on	Avainina käytettävät sarakkeet tai indeksitasot; niiden on oltava läsnä molemmissa DataFrame-kehyksissä
vasen_on	Vasemmalla DataFrame-kehyksessä olevat sarakkeet tai indeksitasot, joita tulisi käyttää avaimina
right_on	Oikean DataFrame-kehyksen sarakkeet tai indeksitasot, joita tulisi käyttää avaimina
left_index	Jos `True`, vasemman DataFrame-kehyksen indeksi käytetään avaimena	`False`
right_index	Jos `True`, oikean DataFrame-kehyksen indeksi käytetään avaimena.	`False`
sort	Jos `True`, tuloksena olevan DataFrame-kehyksen avaimet lajitellaan leksikografisesti.	`False`
jälkiliitteet	Suffiksit, joita käytetään erottamaan samannimiset sarakkeet toisistaan.	`("_x", "_y")`
kopio	Jos `False`, kopiointia vältetään	`True`

Kuinka käyttää pandas `merge()`

Alla on muutamia esimerkkejä, jotka auttavat havainnollistamaan pandas merge() tehokasta käyttöä.

`INNER JOIN`

INNER JOIN yhdistää kaksi pandas-DataFrame-taulukkoa ja palauttaa vain rivit, joiden avaimet vastaavat molempia DataFrame-taulukoita. Jotta voimme paremmin ymmärtää, miten tämä toimii, luodaan kaksi DataFrame-taulukkoa:

import pandas as pd
# Sample DataFrames
df1 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Key': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df1)
print(df2)

python

Tuloksena saadut kaksi DataFrame-taulukkoa näyttävät tältä:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key    Value2
0     B            4
1     C            5
2     D            6

Nyt voimme suorittaa INNER JOIN käyttämällä merge() -funktiota:

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Key')
print(result)

python

Tuloksesta näkyy, että vain rivit, joilla on avaimet B ja C, sisältyvät DataFrame-kehykseen. Tämä johtuu siitä, että nämä kaksi avainta ovat olemassa molemmissa alkuperäisissä DataFrame-kehyksissä.

Key    Value1    Value2
0     B            2            4
1     C            3            5

`OUTER JOIN`

An OUTER JOIN yhdistää myös kaksi DataFrame-taulukkoa, mutta toisin kuin INNER JOIN, se palauttaa kaikki rivit ja täyttää puuttuvat arvot arvolla NaN.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Key')
print(result)

python

Alla oleva DataFrame sisältää kaikki rivit molemmista DataFrame-taulukoista. NaN käytetään puuttuvien arvojen korvaamiseen avaimessa A, joka on vain df1 ssä, ja avaimessa D, joka on vain df2:ssa.

Key    Value1    Value2
0     A        1.0        NaN
1     B        2.0        4.0
2     C        3.0        5.0
3     D        NaN        6.0

Huomio

Muut JOIN:n vakiovaihtoehdot toimivat samalla tavalla.

Käyttämällä `left_on` ja `right_on`

Joskus kahdella DataFrame-kehyksellä on eri sarakkeiden nimet avaiminaan. Tällöin voit käyttää parametreja left_on ja right_on määrittääksesi, mitä sarakkeita käytetään. Luodaan ensin kaksi uutta DataFrame-kehystä:

df3 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Key2': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df3)
print(df4)

python

Kaksi DataFrame-taulukkoa näyttävät seuraavalta:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key2    Value2
0        B            4
1        C            5
2        D            6

Voimme käyttää parametreja left_on ja right_on suorittaaksemme toiminnon JOIN eri avaimilla:

# Join with different key column names
result = pd.merge(df3, df4, how='inner', left_on='Key', right_on='Key2')
print(result)

python

Käyttämällä nimenomaisesti left_on='Key' ja right_on='Key2', vastaavat avainkolumnit käytetään yhdistämiseen.

Key    Value1 Key2    Value2
0     B            2        B            4
1     C            3        C            5

Indeksien käyttö avaimina

Voit myös käyttää DataFrame-taulukoiden indeksejä avaimina asettamalla parametrit left_index ja right_index arvoon True. Luodaan ensin kaksi uutta DataFrame-taulukkoa indekseillä:

df5 = pd.DataFrame({
    'Value1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Value2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Tässä ovat DataFrames:

Nyt voimme suorittaa JOIN indeksejä käyttämällä:

# JOIN with indices
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Tuloksena on JOIN, joka käyttää DataFrames-indeksejä:

Value1  Value2
B        2        4
C        3        5

Suositut artikkelit

Verkkotunnusten kauppa: kuinka myydä verkkotunnus

Verkkotunnusten ostaminen ja myyminen voi olla tuottoisaa – jos osaa toimia oikein.…

Lue lisää

Aiheeseen liittyvät artikkelit

Mr. Kosalshutterstock

Mikä on Pandas fillna() ja miten sitä käytetään

Pandas fillna() -metodi on funktio, jota käytetään puuttuvien arvojen käsittelemiseen. Funktiossa voidaan käyttää erilaisia parametreja, mikä tarjoaa joustavuutta NaN-arvojen korvaamisessa. Tässä artikkelissa tarkastelemme tätä funktiota, sen syntaksia ja parametreja sekä sitä,…

Lue lisää

Kuinka tunnistaa puuttuvat arvot pandas-kirjaston isna()-funktiolla

Pandas-funktio isna() on hyödyllinen työkalu puuttuvien tietojen tunnistamiseen DataFrame-kehyksessä. Sen yksinkertaisen syntaksin ansiosta saat nopeasti selkeän yleiskuvan puuttuvista arvoista, mikä auttaa sinua ryhtymään toimenpiteisiin, kun tiedot on puhdistettava. Tässä…

Lue lisää

BEST-BACKGROUNDSShutterstock

Kuinka hakea DataFrames-tietokantoja pandas isin() -toiminnolla

Pandas isin() on hyödyllinen funktio data-analyysiin. Sen suoraviivaisen syntaksin ja monipuolisten sovellusten ansiosta voit tarkistaa tehokkaasti arvot DataFrame-taulukosta. Olitpa sitten tarkistamassa yksittäisiä sarakkeita, suodattamassa DataFrame-taulukoita tai suorittamassa…

Lue lisää

NDAB Creativityshutterstock

Mikä on pandas groupby() ja miten sitä käytetään?

Pandas-kirjaston DataFrame.groupby()-funktio on tehokas työkalu tietojen järjestämiseen. Sen avulla voit ryhmitellä tietoja tiettyjen kriteerien mukaan, mikä helpottaa monimutkaisten aggregointien ja muunnoksien suorittamista. Käyttämällä tätä menetelmää tehokkaasti voit…

Lue lisää

UndreyShutterstock

Kuinka suodattaa erilliset arvot pandas DataFrame[].unique() -toiminnolla

Pandas DataFrame[].unique() -funktiolla voit tunnistaa DataFrame-taulukon sarakkeen erilliset arvot. Se palauttaa numpy-taulukon, jonka avulla voit käsitellä suuria tietojoukkoja tehokkaammin. Menetelmä on erityisen hyödyllinen, jos haluat saada yleiskuvan sarakkeen tiedoista…

Lue lisää

Gorodenkoffshutterstock

Kuinka soveltaa ehtoja pandas DataFrames -kehyksissä where()-funktiolla

Pandas DataFrame.where() -toiminnolla voit muokata DataFrame-tietokannan tietoja ehtojen avulla. Luomalla ehtoja, jotka määrittävät, mitkä arvot säilytetään ja mitkä korvataan, voit tehokkaasti puhdistaa, poimia tai muuntaa DataFrame-tietokannan tietoja. Tässä artikkelissa…

Lue lisää

Kuinka yhdistää Da­taFra­mes pandas merge() -toi­min­nol­la

Mikä on pandas merge():n syntaksi?

Mitä pa­ra­met­re­ja voidaan käyttää pandas merge kanssa?

Kuinka käyttää pandas merge()

INNER JOIN

OUTER JOIN

Käyt­tä­mäl­lä left_on ja right_on

Indeksien käyttö avaimina

Kuinka yhdistää DataFrames pandas merge() -toiminnolla

Mikä on pandas `merge()`:n syntaksi?

Mitä parametreja voidaan käyttää pandas `merge` kanssa?

Kuinka käyttää pandas `merge()`

`INNER JOIN`

`OUTER JOIN`

Käyttämällä `left_on` ja `right_on`