Kā apvienot DataFrames ar pandas merge()

Contents

Ar pandas funkciju DataFrame.merge() varat apvienot DataFrames, izmantojot atslēgas. Tas ļauj efektīvi apvienot datus no dažādiem avotiem, dodot iespēju veikt visaptverošākas analīzes.

Kāda ir pandas `merge()` sintakse?

Python pandas DataFrame merge() metode var pieņemt virkni dažādu parametru, ļaujot izstrādātājiem norādīt, kā DataFrames jākombinē. merge() funkcijas vispārīgā sintakse ir šāda:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Kādus parametrus var izmantot ar pandas `merge`?

Dažādie parametri, ko pieņem merge(), ļauj ne tikai norādīt, kurus pandas DataFrames apvienot, bet arī, kādu savienojuma veidu izmantot, kā arī citas detaļas.

Parametrs	Apraksts	Noklusējuma vērtība
kreisais	Pirmais apvienojamais DataFrame
labais	Otrais apvienojamais DataFrame
kā	Veicamā apvienošanas operācijas veids (`inner`, `outer`, `left`, `right`)	`inner`
uz	Kolonna(-as) vai indeksa līmenis(-i), kas jāizmanto kā atslēgas; jābūt abos DataFrame
left_on	Kolonna(-as) vai indeksa līmenis(-i) kreisajā DataFrame, kas jāizmanto kā atslēga(-as)
labais_uz	Labās DataFrame kolonna(-as) vai indeksa līmenis(-i), kas jāizmanto kā atslēga(-as)
left_index	Ja `True`, kā atslēga tiek izmantots kreisā DataFrame indekss	`False`
labais_indekss	Ja `True`, kā atslēga tiek izmantots labās DataFrame indekss.	`False`
sort	Ja `True`, rezultātā iegūto DataFrame atslēgas tiek šķirotas leksikogrāfiski.	`False`
suffixes	Piedēkļi, kas tiek izmantoti, lai atšķirtu kolonnas ar vienādu nosaukumu	`("_x", "_y")`
kopija	Ja `False`, kopēšana netiek veikta	`True`

Kā lietot pandas `merge()`

Zemāk ir daži piemēri, kas palīdz ilustrēt, kā efektīvi izmantot pandas merge().

`INNER JOIN`

INNER JOIN apvieno divus pandas DataFrames un atgriež tikai rindas, kurās atslēgas abos DataFrames saskan. Lai labāk izprastu, kā tas darbojas, izveidosim divus DataFrames:

import pandas as pd
# Sample DataFrames
df1 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Key': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df1)
print(df2)

python

Abos rezultātā iegūtajos DataFrames izskatās šādi:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key    Value2
0     B            4
1     C            5
2     D            6

Tagad mēs varam veikt INNER JOIN, izmantojot merge() funkciju:

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Key')
print(result)

python

Rezultāts parāda, ka DataFrame ir iekļautas tikai rindas, kurām ir atslēgas B un C. Tas ir tāpēc, ka šīs divas atslēgas ir abās sākotnējās DataFrame.

Key    Value1    Value2
0     B            2            4
1     C            3            5

`OUTER JOIN`

An OUTER JOIN arī apvieno divus DataFrames, bet atšķirībā no INNER JOIN, tas atgriež visas rindas un aizpilda trūkstošās vērtības ar NaN.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Key')
print(result)

python

Zemāk redzamajā DataFrame ir iekļautas visas rindas no abiem DataFrame. NaN tiek izmantots trūkstošajām vērtībām atslēgā A, kas ir tikai df1, un atslēgā D, kas ir tikai df2.

Key    Value1    Value2
0     A        1.0        NaN
1     B        2.0        4.0
2     C        3.0        5.0
3     D        NaN        6.0

Note

Pārējie standarta varianti JOIN darbojas līdzīgi.

Izmantojot `left_on` un `right_on`

Dažreiz diviem DataFrames ir atšķirīgi kolonnu nosaukumi to atslēgām. Šādā gadījumā varat izmantot left_on un right_on parametrus, lai norādītu, kuras kolonnu izmantot. Vispirms izveidosim divus jaunus DataFrames:

df3 = pd.DataFrame({
    'Key': ['A', 'B', 'C'],
    'Value1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Key2': ['B', 'C', 'D'],
    'Value2': [4, 5, 6]
})
print(df3)
print(df4)

python

Abas DataFrames izskatās šādi:

Key    Value1
0     A            1
1     B            2
2     C            3
    Key2    Value2
0        B            4
1        C            5
2        D            6

Mēs varam izmantot left_on un right_on parametrus, lai veiktu JOIN operāciju, izmantojot dažādas taustiņus:

# Join with different key column names
result = pd.merge(df3, df4, how='inner', left_on='Key', right_on='Key2')
print(result)

python

Izmantojot left_on='Key' un right_on='Key2', apvienošanai tiek izmantotas atbilstošās atslēgas kolonnas.

Key    Value1 Key2    Value2
0     B            2        B            4
1     C            3        C            5

Indeksu izmantošana kā atslēgas

Jūs varat arī izmantot DataFrames indeksus kā atslēgas, iestatot left_index un right_index parametrus uz True. Vispirms izveidosim divus jaunus DataFrames ar indeksiem:

df5 = pd.DataFrame({
    'Value1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Value2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Šeit ir datu rāmji:

Tagad mēs varam veikt JOIN operācijas, izmantojot indeksus:

# JOIN with indices
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

Rezultāts ir JOIN, kas izmanto indeksus no DataFrames:

Value1  Value2
B        2        4
C        3        5

Kas ir Pandas fillna() un kā to lietot

Pandas fillna() metode ir funkcija, ko izmanto, lai apstrādātu trūkstošās vērtības. Ar šo funkciju var izmantot dažādus parametrus, kas nodrošina elastību, aizstājot NaN vērtības. Šajā rakstā mēs apskatīsim šo funkciju, tās sintaksi un parametrus, kā arī to, kā pielāgot…

Kā identificēt trūkstošās vērtības ar pandas isna() funkciju

Pandas isna() funkcija ir noderīgs rīks, lai identificētu trūkstošos datus DataFrame. Pateicoties vienkāršajai sintaksei, tā ātri sniedz skaidru pārskatu par trūkstošajām vērtībām, palīdzot jums rīkoties, kad dati ir jāattīra. Šajā rakstā jūs uzzināsiet, kas ir pandas isna() un…

BEST-BACKGROUNDSShutterstock

Kā meklēt DataFrames, izmantojot pandas isin()

Pandas isin() ir noderīga funkcija datu analīzei. Pateicoties tās vienkāršajai sintaksei un daudzpusīgajām lietojumprogrammām, tā ļauj efektīvi pārbaudīt vērtības DataFrame. Neatkarīgi no tā, vai jūs pārbaudāt atsevišķas kolonnas, filtrējat DataFrames vai veicat sarežģītākas…

NDAB Creativityshutterstock

Kas ir pandas groupby() un kā to lietot

Pandas DataFrame.groupby() funkcija ir spēcīgs rīks datu organizēšanai. Tā ļauj grupēt datus atbilstoši konkrētiem kritērijiem, atvieglojot sarežģītu apkopojumu un transformāciju veikšanu. Efektīvi izmantojot šo metodi, varat optimizēt analīzes procesus, padarot tos ātrākus un…

UndreyShutterstock

Kā filtrēt atšķirīgas vērtības ar pandas DataFrame[].unique()

Izmantojot pandas DataFrame[].unique(), varat identificēt atšķirīgas vērtības DataFrame kolonnā. Tā atgriež numpy masīvu, palīdzot efektīvāk apstrādāt lielus datu kopumus. Šī metode ir īpaši noderīga, ja vēlaties iegūt pārskatu par informāciju kolonnā bez dublētiem vērtībām.…

Gorodenkoffshutterstock

Kā piemērot nosacījumus pandas DataFrames ar where()

Izmantojot pandas DataFrame.where(), varat modificēt datus savā DataFrame, izmantojot nosacījumus. Izveidojot nosacījumus, lai noteiktu, kuras vērtības saglabāt un kuras aizstāt, varat efektīvi attīrīt, izgūt vai pārveidot datus DataFrame. Šajā rakstā apskatīsim pandas where()…

Kā apvienot Da­taF­ra­mes ar pandas merge()

Kāda ir pandas merge() sintakse?

Kādus pa­ra­met­rus var izmantot ar pandas merge?

Kā lietot pandas merge()

INNER JOIN

OUTER JOIN

Iz­man­to­jot left_on un right_on

Indeksu iz­man­to­ša­na kā atslēgas

Kā apvienot DataFrames ar pandas merge()

Kāda ir pandas `merge()` sintakse?

Kādus parametrus var izmantot ar pandas `merge`?

Kā lietot pandas `merge()`

`INNER JOIN`

`OUTER JOIN`

Izmantojot `left_on` un `right_on`

Indeksu izmantošana kā atslēgas